2020年11月6日,我醒來時,(對於一位統計學家來說)我的推特被關於我2018年文章“大資料中的統計天堂與悖論(一):大 population 法則、大資料悖論和 2016 年美國總統大選。”的推文淹沒了。一位好心人將其作為對“民意調查有什麼問題?”這個問題的回答,這導致這篇文章迅速走紅。
儘管我對受到關注感到榮幸,但我感到失望的是,沒有人問“為什麼會有人期望民意調查一開始就是正確的?”民意調查通常抽取數百或數千人作為樣本,但其目的是瞭解更大規模的人口。對於預測美國總統大選,進行規模為 n=5,000 的民意調查以瞭解 N=2.3 億(符合資格的)選民的意見,相當於平均每 10 萬選民中只詢問大約兩個人。期望從如此少的人的意見中可靠地瞭解如此多的人,難道不是很荒謬嗎?
事實上,當挪威統計局創始人安德斯·基爾在 1895 年國際統計學會 (ISI) 世界大會上提出用“代表性樣本”取代全國人口普查的想法時,正如前 ISI 主席讓-路易·博丹指出的那樣,反應“激烈,基爾的提議幾乎一致遭到拒絕!”這個想法花了將近半個世紀才獲得普遍接受。
支援科學新聞報道
如果您喜歡這篇文章,請考慮支援我們屢獲殊榮的新聞報道,方式是 訂閱。透過購買訂閱,您將幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事能夠擁有未來。
民意調查的統計理論對於許多人來說可能難以理解,但代表性抽樣的總體思路更容易接受。在《渥太華公民報》(1941 年 11 月 27 日)一篇關於蓋洛普民意調查進入加拿大的報紙報道中,格雷戈裡·克拉克寫道:
“當廚師想嚐嚐湯的味道如何時,他不必喝掉整個鍋爐。他也不必從上面舀一勺,然後從中間舀一點,再從底部舀一些。他徹底攪拌整個大鍋。然後再攪拌一下。然後他品嚐一下。這就是蓋洛普民意調查的工作原理。”
因此,民意調查的秘訣在於徹底攪拌。一旦湯被徹底攪拌,它的任何部分都變得代表整個湯。這使得可以取樣一兩勺,以便可靠地評估湯的味道和質地,而不管容器的大小。民意調查透過隨機抽樣來實現這種“徹底攪拌”,從統計學上講,隨機抽樣建立了一個模仿人口的縮影。
但這個秘訣也是變質的根源。我 2018 年的文章展示瞭如何以數學方式量化缺乏徹底攪拌的情況,並證明了由於“大 population 法則”(LLP),看似輕微的違反徹底攪拌的行為可能會造成驚人的巨大損害。它還揭示了民意調查誤差是三個指標的乘積:資料質量、資料數量和問題難度。
為了直觀地理解這些術語,讓我們繼續享用湯。對於只含鹽的湯,其味道比含有五香的中國湯更容易辨別。問題難度衡量湯的複雜程度,而與我們如何攪拌或勺子大小無關。資料數量捕捉勺子大小相對於烹飪容器大小的比率。這種強調從僅關注樣本量 n 轉移到樣本分數 n/N(這關鍵取決於 population 大小 N)是 LLP 的關鍵。
最關鍵的指標,也是最難評估的指標是資料質量,它是衡量缺乏徹底攪拌程度的指標。想象一下,一些香料團塊沒有完全溶解在烹飪中,如果它們更有可能被廚師的勺子舀到,那麼廚師嚐到的味道可能比湯實際的味道更辣。對於民意調查,如果偏好候選人 B 而不是 A 的人更有可能(或更不可能)提供他們的意見,那麼民意調查將高估(或低估)B 而不是 A 的選票份額。這種趨勢可以用所謂的皮爾遜相關係數來衡量——讓我們用 r 表示它——在偏好 B 和(誠實地)回應民意調查之間。|r| 值越高(r 的幅度),民意調查誤差越大。正 r 表示高估,負 r 表示低估。
徹底攪拌或隨機抽樣的整個想法是確保 r 可以忽略不計,或者從技術上講,確保它在 N 的平方根倒數的量級上。從統計學上講,這已經儘可能小了,因為我們必須允許一些抽樣隨機性。例如,對於 N=2.3 億,|r| 應小於萬分之一千五。然而,對於 2016 年的選舉民意調查,r 為 -0.005,或者大約為 200 分之一的幅度,用於預測特朗普的選票份額,正如我在文章中估計的那樣(基於 YouGov 進行的民意調查)。雖然百分之零點五的相關性看起來很小,但當乘以 N 的平方根時,其影響會被大大放大。
為了說明這種影響,我的文章計算了 |r|=0.005 降低了多少統計精度。來自 230 萬份回覆(約佔 2016 年符合資格的投票人口的 1%)的意見,當 |r|=0.005 時,其預期民意調查誤差與來自真正隨機樣本中 400 份回覆的預期民意調查誤差相同。這是實際樣本量減少了 99.98%,這是任何標準都令人震驚的損失。規模為 400 的高質量民意調查仍然可以提供可靠的預測,但沒有(合格的)競選經理會因為規模為 400 的民意調查預測獲勝而停止競選活動。但是,當獲勝預測來自 230 萬份回覆時,他們可能會(而且實際上有些人確實)停止競選活動,這相當於 2,300 次民意調查,每次民意調查有 1,000 份回覆。
2016 年普遍被忽視,不幸的是 2020 年再次被忽視(但請參閱哈佛資料科學評論中的這篇文章),是 LLP 的破壞性影響。當我們增加樣本量時,統計抽樣誤差往往會相互抵消,但系統性選擇偏差只會隨著樣本量的增加而固化。更糟糕的是,選擇偏差會被 population 大小放大:population 越大,放大倍數越大。這就是 LLP 的本質。
當一滴湯落在廚師的勺子上時,它無法告訴自己“好吧,我有點太鹹了,所以我跳出來吧!”但在民意調查中,沒有什麼可以阻止某人因為害怕揭示特定答案的(感知到的)後果而選擇退出。在我們社會知道如何消除這種恐懼之前,或者在民意調查員能夠常規且可靠地調整此類選擇性回覆之前,我們所有人都可以成為更明智的數字時代公民,始終以健康的懷疑態度對待民意調查結果。
