本文發表於《大眾科學》的前部落格網路,反映了作者的觀點,不一定代表《大眾科學》的觀點
瘋狂三月尚未結束,但有一件事是肯定的:沒有人會贏得“巴菲特的十億”。
在 NCAA 大學男子籃球錦標賽一半的比賽結束之前,所有參加雅虎“贏得十億美元”競賽的預測都已經至少出現了一個紅色刪除線。雖然有些人可能會將此歸咎於像 14 號種子隊 Mercer 淘汰 3 號種子隊杜克大學,或 12 號種子隊哈佛大學擊敗 5 號種子隊辛辛那提大學這樣的冷門,但除了沃倫·巴菲特之外,沒有人能獲得優勢,他為任何挑選完美預測的人提供了 10 億美元的鉅額獎金。
對於 63 場比賽全部預測正確的可能性估計,從超過900 億億分之一(對於所有可能的結果總數)到74 億分之一(假設 16 號種子隊不會擊敗 1 號種子隊,這在男子比賽中從未發生過)。
關於支援科學新聞
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。透過購買訂閱,您正在幫助確保有關當今世界塑造的發現和想法的有影響力的故事的未來。
儘管可能性很小,但這項活動比以往任何時候都激發了人們對建立完美預測的興趣。雖然運氣在決定勝者方面可能與硬數學一樣重要,但這並沒有阻止統計學家和數學家嘗試建立終極演算法。
一個名為 Kaggle 的網站甚至為表現最佳的預測模型提供獎金,儘管遠遠低於 10 億美元。好訊息是,有人實際上會贏得比賽贊助商英特爾提供的 15,000 美元獎金。但 Kaggle 的比賽並非普通的比賽。Kaggle 是一個供資料愛好者和專家相互比拼技能的網站,他們有機會從許多尋求透過眾包解決問題的公司那裡贏得獎品。獎品不是頒給最佳預測,而是頒給在整個比賽中表現最佳的模型。參賽者使用他們的模型為每個可能的對決分配一個可能性得分,因此爆冷不會讓你完全出局。
Kaggle 的資料科學家威爾·庫基爾斯基表示,與籃球挑戰賽不同,他們舉辦的大多數比賽都是亞馬遜和 Facebook 等大型公司想要解決的實際問題。在其中一個比賽中,保險公司 Allstate 希望根據事故中涉及的汽車特徵來預測可能的保險索賠金額。庫基爾斯基說,獎金通常約為 25,000 美元,儘管最高獎金為 300 萬美元。在比賽過程中,參賽者可以看到他們的模型在排行榜上的位置,該排行榜會顯示他們的得分和排名。
儘管來自各個領域的人都在 Kaggle 上競爭,但庫基爾斯基表示,他們有一個共同點:“操縱資料和使用預測建模的能力。”網站上有很多學生利用這個機會進行協作和學習,另外還有“物理學家、計量經濟學家、統計學家、精算師、商人。”儘管有獎金,但對於大多數人來說,比賽更多的是一種愛好,而不是收入來源。“這就是眾包的冷酷現實,”庫基爾斯基說。“幾乎不可能按小時向人們付款…… 如果你進行實際的數學計算並計算期望值等所有東西,你會發現單靠獎金是不值得的。”
Kaggle 上的大多數問題都需要所謂的“大資料”來解決。庫基爾斯基說,這種方法對於“資料飢渴型”問題很有用,這意味著“隨著您輸入越來越多的資料,它們會得到改進。”一個這樣的例子是電影推薦引擎,例如 Netflix 使用的那個。實際上,Netflix 舉辦了一場類似於 Kaggle 上的比賽,以改進他們的推薦,並在 2009 年頒發了 100 萬美元的獎金。庫基爾斯基說,像這樣的問題“非常細緻”,並且需要一個可以考慮大量引數的模型。
但是,庫基爾斯基認為,大資料的使用變得過於流行。“整個大資料理念確實處於一個大的炒作週期中,”主要是由一個用於處理資訊的特定軟體框架(稱為Hadoop)驅動的。“並不是說 Hadoop 沒用,”庫基爾斯基說,但是當公司希望它來解決小問題時,“資料科學家和實際具有統計素養的人都在嘲笑,因為你不需要 Hadoop 來解決大多數問題。”
英特爾資料中心軟體部門副總裁兼總經理博伊德·戴維斯希望 Kaggle 的籃球比賽將幫助那些尚未接受大資料的企業展示大資料的潛力。“對於那些不是技術人員的商業領袖來說,仍然很難理解,”戴維斯說。從瘋狂三月的預測開始,許多人已經使用一定程度的統計資料和多個數據源,這是一個引入大資料概念的好方法。“Kaggle 比賽將使我們有機會展示,如果你實際使用更多的資料來源,然後使用資料分析來利用它們,那麼你將獲得多大的更好的結果,”戴維斯說。(英特爾最近推出了基於 Hadoop 的英特爾資料平臺,供公司處理大資料,庫基爾斯基認為這至少是英特爾贊助比賽的部分原因)。
庫基爾斯基同意博伊德的觀點,即使用體育運動是將人們引入資料科學領域的好方法。他說,制定預測“是人們在現實生活中實際容忍一些統計資料的少數幾個地方之一”。“他們沒有意識到這一點,但在表面之下,他們正在進行某種粗略的數學建模。”