本文發表於《大眾科學》的前部落格網路,反映了作者的觀點,不一定反映《大眾科學》的觀點
世界盃又回來了,每個人都有自己心目中的冠軍。自人類在草原上首次賽跑以來,賭徒們一直在預測體育比賽的結果,但近年來,一種獨特的統計分析方法已經接管了預測業務。從高盛到彭博,再到內特·西爾弗的FiveThirtyEight,每個人都有一個線上世界盃預測器,它使用數字而不是直覺來生成精確的比賽結果機率。例如,高盛預測東道主巴西有 48.5% 的機會贏得冠軍;FiveThirtyEight 認為賠率為 45%,而彭博體育的結論是,Seleção 隊獲勝的機率僅為 19.9%。
這些數字從何而來?所有統計分析都必須從資料開始,這些足球預測引擎會瀏覽以前比賽的結果。這裡需要相當多的判斷。大型國際足球賽事並不經常舉行,因此分析師必須選擇如何權衡球隊在不太重要的賽事(如國際“友誼賽”)中的表現,而在友誼賽中,沒有任何重要的東西處於危險之中。建模者還必須決定從多久以前提取資料——當巴西最年長的球員已經 34 歲時,巴西驕傲的足球歷史還重要嗎?——以及如何評估個別球員在效力於曼聯或皇家馬德里等俱樂部球隊期間的表現。
無論資料來自何處,建模者現在都必須將其納入模型中。通常,建模者會將“誰將獲勝?”的問題轉化為“X 隊對陣 Y 隊將進多少球?”的形式。為此,她依賴 [PDF] 一種稱為雙變數泊松迴歸的統計工具。
支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保未來能夠繼續講述關於塑造我們當今世界的發現和想法的具有影響力的故事。
這些是三個不熟悉的詞。讓我們逐個拆解。“雙變數”意味著有兩個相互關聯的變數,我們試圖預測一個單一的結果——X 隊對陣 Y 隊的表現。“迴歸”只是意味著我們將一組資料擬合到一個模型。“泊松”是其中有趣的那個。
想象一下,你站在路邊,想知道一分鐘內有多少輛汽車駛過。首先,你需要收集一些資料。拿著秒錶和計數器,你會看到一分鐘內駛過 15 輛,下一分鐘 18 輛,第三分鐘只有 4 輛。這樣做足夠多的分鐘後,你就會開始看到一種模式形成,一種 泊松分佈,以發明它的法國數學家命名,目的是估計誤判的頻率。
一場比賽中的進球數也傾向於按照泊松分佈分佈。一個給定的球隊最有可能打進一到兩個球,有時是零個或三個,而很少打進四個或五個(或更多)。建模者會將球隊先前表現的資料對映到他們可能對陣對手的進球數的泊松分佈上。
賭徒呢?截至撰寫本文時,線上博彩公司 Betfair 認為巴西是 3 比 1 的熱門,即 24.4%。如果您相信高盛或 FiveThirtyEight 的分析師,他們認為巴西有近 50% 的獲勝熱門,那麼您就獲得了一個投注機會。當然,可能所有那些以 3 比 1 的賠率投注巴西的人也讀過高盛和 FiveThirtyEight 的分析。
問題變成了:他們知道哪些統計學家不知道的事情?
圖片 來自 Flickr 使用者 Digo Souza