統計學在美國大選中獲勝

神經科學家王 sam 表示,如果你理解基於中位數的統計學、機率和一些貝葉斯統計學,預測投票獲勝者很容易

除了上週美國總統大選的主要結果外,投票結果還預示著要證明或詆譭一群撰寫部落格的統計學家。至少在過去的三個選舉週期中,一些博主已經預測了每個州的總統選舉獲勝者,其準確性似乎接近巫術。他們的秘密是什麼?彙總在整個競選活動中進行的數十項國家和州民意調查,並應用統計學。

統計學家內特·西爾弗受到了很多關注,他在《紐約時報》上撰寫了熱門部落格FiveThirtyEight。但新澤西州普林斯頓大學的神經科學家王 sam 不僅在總統競選中與西爾弗的準確性相媲美,而且還超越了他,正確預測了西爾弗錯過的兩場競爭激烈的參議院選舉的結果。《自然》雜誌與王 sam 談論了他的愛好,它與他的研究有何關係,以及他是否認為政治競選還會再有意外。

你做了什麼來慶祝你的預測成功?
這件事有趣的地方在於,資訊的質量非常高,以至於選舉之夜本身有點虎頭蛇尾。我和朋友們一起參加了一個觀看派對,考慮到各州之間的關聯性有多好,一旦我看到新罕布什爾州被宣佈[支援巴拉克·奧巴馬],我就非常肯定民意調查和往年一樣準確。所以,我的不確定性在大約晚上 9:30 結束了。


關於支援科學新聞業

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞業 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。


你是如何進入這個領域的?
2004 年,我在關注政治,我對政治非常感興趣。我沮喪地注意到民意調查中不斷出現的噪音,會有俄亥俄州的民意調查,賓夕法尼亞州的民意調查,也許還有另一項來自賓夕法尼亞州的民意調查,與第一項民意調查相矛盾。每項民意調查都伴隨著一條令人屏息的新聞報道,說[參議員約翰]克里突然領先,或者[喬治·W·]布什突然領先。作為一名科學家,這讓我很困擾,因為人們本質上是在對個別資料點進行彩色評論。

我想要的是一種可以告訴我任何給定時刻競選溫度的衡量標準。所以我炮製了一個薈萃分析,它獲取了所有資料,並計算了一個競選可能走向何處的機率模型。我把它變成了我所說的選舉溫度計,它可以監測競選及其隨時間推移的起伏。

你作為神經科學家的工作是否為你的愛好提供了資訊?
在某種程度上是這樣。像許多神經生理學家一樣,我使用統計方法來嘗試從嘈雜的資料集中提取訊號。這是神經科學中常見的問題,時間序列資料的分析也是如此。

您是否正在使用特殊的統計工具來生成預測?
我會說這是簡單的基礎數學,例如用於穩健性的基於中位數的統計學、機率計算、一些貝葉斯統計分析——但實際上,這些東西都相當簡單,任何愛好者都可以掌握。

除了民意調查資料外,模型中還包含什麼?經濟指標是否具有預測性?
經濟資料在分析中不起作用。我認為衡量意見的最佳方法是民意調查專家,他們是各自領域的專家,他們打電話給人們,詢問他們的意見是什麼。所以我做的計算純粹基於州民意調查。我正確預測了 50 個州中的 50 個州[包括哥倫比亞特區]的選舉結果,而第 51 個州佛羅里達州基本上是平局。在 10 場勢均力敵的參議院選舉中,我正確預測了所有 10 場。因此,這是一個基準,表明該方法執行良好,不需要任何計量經濟學上的巫術。

民意調查是否根據內在偏差進行加權?
不,這更像是暗箱操作……對民意調查感興趣的人,無論是專業人士還是愛好者,經常會陷入細節。我嘗試在做這件事時證明的一件事是,這些細節通常無關緊要,最好退後幾步,看看全域性。這不帶感情色彩,但效果非常好。

內特·西爾弗為撰寫部落格的統計學家贏得了很大的關注。這是一種煩惱還是一種祝福?
他當然使整個活動更加引人注目。在 2008 年的選舉中,他給出了彩色評論,並使民意調查彙總變得有趣。2004 年,我們有很多人在做這件事,我們通常的做法是釋出民意調查彙總,而不談論它們。他做出的創新是給出逐場報道 ——他有體育背景——他讓它變得有趣。

什麼可能會改變這種方法預測獲勝者的能力?
民意調查行業正在發生變化。隨著人們越來越難透過固定電話聯絡到,透過手機或網際網路聯絡到人們變得更具挑戰性。[民意調查員]的成功程度將決定資料來源的質量。

即將出現的另一件事是資料來源是否繼續保持高質量。將來有一天,這些資料來源可能會被黨派組織或其他試圖控制資訊流的組織所支配。如果發生這種情況,那麼整個資料集的完整性就會受到質疑。總的來說,這一切都取決於是否有一個高質量的資料來源。

你認為這是數學的勝利嗎?
我確實認為,原則上,這應該讓記者和專家在駁斥那些對政治競選有良好定量理解的人時三思而後行。我認為這對民意調查彙總可以做出的貢獻來說是一個很好的展示。

本文經自然雜誌許可轉載。該文章於 2012 年 11 月 14 日首次發表

© .