以下文章經The Conversation(一家報道最新研究的線上出版物)許可轉載。
在 NCAA 籃球競猜池中決定選擇哪些球隊?那麼你面臨著一個經典的決策問題——而在這裡,科學可以提供幫助。
關於支援科學新聞業
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞業 訂閱。透過購買訂閱,您正在幫助確保未來能夠繼續釋出關於塑造我們當今世界的發現和思想的具有影響力的報道。
一方面,你想選擇優秀的球隊,即“熱門球隊”,因為這些球隊似乎更有可能獲勝。另一方面,你想選擇一些較弱的球隊,即“冷門球隊”,這樣你的預測表才能脫穎而出,贏得競猜池。這兩種對立的力量構成了一個有趣的數學問題,因為在兩者之間存在一個最優解。
在我內心深處,我總是知道哪些球隊會贏,或者至少知道我想支援哪些球隊。但作為一名學者,我寧願透過過度分析情況來榨乾其中的所有樂趣。讓我們在這裡這樣做吧!
估計獲勝的可能性
為了找到構建我們自己預測表的最佳方法,我們需要首先構建一個數學模型來模擬比賽。
假設我們透過用拋硬幣來代替籃球比賽來模擬比賽,只不過硬幣不是均勻地正面或反面朝上,而是被加權以反映每場比賽的實際賠率。例如,當西弗吉尼亞大學週五對陣莫瑞州立大學時,我們不進行比賽,而是拋一枚硬幣,這枚硬幣讓種子排名較高的西弗吉尼亞大學有更大的獲勝機會。我們需要為每場第一輪比賽、每場潛在的第二輪比賽以及比賽中每種可能的對決拋擲一枚這樣的硬幣。每枚硬幣都必須以模擬實際比賽的方式加權,因此其機率必須由具體的對決來決定。
我們應該從哪裡獲得這些機率呢?NCAA 在每支球隊旁邊都提供了一個方便的小數字,即球隊的種子排名。在前幾輪比賽中,每場比賽都有一個熱門球隊,這個選擇是由擁有大量籃球知識的人做出的。你可以回顧歷史並觀察到,當 5 號種子對陣 12 號種子時, 5 號種子有 65% 的時間獲勝。
但還有許多其他方法: 拉斯維加斯博彩賠率 給出了每場比賽的讓分盤,根據這些球隊的平均得分,你可以將讓分盤轉換為獲勝機率。計算機評分系統比比皆是,你可以透過考慮兩支球隊之間的評分差異將這些評分轉換為機率——這種方法被稱為 Bradley-Terry 模型。一些更復雜的系統甚至可以生成一個為比賽中兩支球隊量身定製的機率。
知道賠率了嗎?仍然不容易
因此,選擇你最喜歡的方法。即便如此,事情也並不像看起來那麼簡單。比賽最有可能的結果不一定是所有熱門球隊都獲勝。看看這個例子
想象一個由 A、B、C 和 D 隊組成的四隊比賽,如圖所示。假設 A 總是擊敗 B,C 以 0.6 的機率擊敗 D。最後,A 總是擊敗 D,但只有 0.5 的機率擊敗 C。唯一可能的結果是:A 戰勝 C(機率 0.3),C 戰勝 A(機率 0.3)和 A 戰勝 D(機率 0.4)。最有可能的結果是冷門 D 擊敗 C。
更復雜的是,你的辦公室或朋友的競猜池規則可能意味著在後期比賽中正確選擇比早期選擇獲得更多積分。你如何選擇一個預測表,讓你獲得那些關鍵的後期積分?
在關於這個主題的首批分析論文之一中, Kaplan 和 Garstka給出了一個演算法,用於決定哪些選擇有望獲得最高分。他們的方法是倒序構建一個包含 64 個預測表的列表,逐輪構建,每個預測表都以不同的球隊作為獲勝者開始。例如,杜克大學的預測表從杜克大學開始,每次新增一輪,規模翻倍,但始終保持杜克大學為獲勝者。最後,該演算法從 64 個特定於球隊的預測表中選擇最佳預測表。
這聽起來不像人類會做的事情,事實上,它最好由計算機來實現。生成的預測表往往是“保守的”——其中排名較高的球隊最有可能獲勝——但並不總是選擇更高的種子。Kaplan 和 Garstka 確實觀察到他們的演算法比僅僅自動選擇高種子球隊做得更好。
重要的是獲勝,而不僅僅是得分
到目前為止,我們的模型忽略了一個重要的事實:選擇預測表的目標不是獲得高分,而是贏得與他人的競猜池。而且人們的行為是非理性的。
在一項心理學實驗中, McCrea 和 Hirt 發現了證據,表明競猜池參與者追求“機率匹配”:如果一系列比賽(例如, 5-12 對決)歷史上三分之一的時間出現冷門,人們會在他們的預測表中嘗試預測大約三分之一這些比賽的冷門。事實上,人們在做出此類預測時並不比隨機機會做得更好,因此會損害他們在競猜池中的總體機會。
另一方面,在選擇比賽冠軍時,人們蜂擁而至選擇熱門球隊。每年, ESPN 錦標賽挑戰賽都會發布關於其 1100 萬參賽作品的資料。2015 年, 48% 的玩家選擇了絕對熱門的肯塔基大學作為冠軍。選擇正確的冠軍很重要,但如果其他人都持有相同的觀點,那麼你也需要很好地選擇其他很多比賽。
這使我們回到使這個問題有趣的地方:你需要選擇獲勝的球隊,但不是和所有人選擇相同的球隊——這樣你才能在你的競猜池中脫穎而出。
為了提高你在競猜池中的勝算,你需要對你對抗的其他玩家進行建模。每年,大型免費的網際網路競猜池都會發布關於玩家行為的資料,並且他們在你的預測表在週四早上到期之前釋出這些資料。
讓我們假設人們以我們模擬比賽的相同方式進行選擇,即為預測表中的每場比賽拋擲有偏差的硬幣。國家網際網路競猜池提供了你正確偏差硬幣所需的確切資料。我認識的人中沒有人真正以這種方式選擇他們的預測表,但事實證明,真實的(人工選擇的)預測表和隨機預測表具有幾乎相同的分數分佈。
玩弄賠率意味著漫長的等待
在我自己的研究中,我們使用這個模型來計算最佳選擇。生成的預測表在前兩輪往往非常保守,在四強賽中包含一兩個驚喜,以及一個強大但不是熱門的冠軍。他們從不,從不,在 5-12 比賽中選擇冷門。根據計算機的說法,這些選擇將贏得大型網際網路競猜池的機會提高了 100 到 1000 倍。
這聽起來很棒。它確實很棒!但是有一個問題:NCAA 籃球錦標賽每年只舉辦一次。而且你的獲勝機率確實非常低——即使有數學和計算機分析的加持。這項策略可能需要數千年才能奏效。
這就是 NCAA 錦標賽科學研究的美妙之處。在預測如此臭名昭著的不可預測事件的荒謬性面前,嚴肅的建模和資料分析也會退縮。經過十年的研究,我們真正知道的唯一事情是,錦標賽是瘋狂的,而且你那位根據吉祥物進行選擇的朋友可能會贏得你的競猜池。
本文最初發表於The Conversation。閱讀原文。
