資料科學中 9 個離奇而令人驚訝的見解

目前分析師可以使用的拍位元組資訊量相當於一個無限可能的真理的競技場

加入我們的科學愛好者社群!

本文發表於《大眾科學》的前部落格網路,反映了作者的觀點,不一定反映《大眾科學》的觀點


資料是世界上最強大、最蓬勃發展的非自然資源。它主要作為日常任務的副產品積累,是組織大量運轉時沉積下來的無鹽、無味的殘渣。驚喜!這堆垃圾本質上是可預測的。因此,一場挖掘富有洞見的寶石的淘金熱開始了。

體育賽事後犯罪會增加嗎?在網上約會中,持續被評為有吸引力的人會受到較少關注嗎?素食主義者會錯過更少的航班嗎?你的電子郵箱地址會洩露你的意圖嗎?

是的,是的,是的,是的!


關於支援科學新聞

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保未來能夠繼續講述關於塑造我們今天世界的發現和想法的有影響力的故事。


我們已經進入了預測性發現的黃金時代。一場數字運算的狂潮湧現出大量色彩繽紛、有價值且有時令人驚訝的見解。

預測分析的目的不限於透過測試看似有意義的關係來評估人類的直覺。它更進一步,探索直覺領域之外的無限可能的真理的競技場。因此,它會將看似違反邏輯的聯絡擺在您的桌面上。儘管這些發現可能看起來很奇怪、神秘或出乎意料,但它們有助於預測。

歡迎來到資料科學領域的《信不信由你!》——大資料領域的《魔鬼經濟學》

以下是九個有趣的發現,每個發現都與一個預測變數有關——來自沃爾瑪、優步、哈佛大學、殼牌、微軟和維基百科等機構。這些例子是我今年修訂和更新版的書《預測分析:預測誰會點選、購買、撒謊或死亡的力量》中的新增內容,使本書更廣泛的“離奇見解”表總數達到 46 個。(有關以下示例的更多資訊,請訪問本書的註釋 PDF——在 www.PredictiveNotes.com 免費提供——並按組織名稱搜尋。)

 

見解

組織

建議的解釋

颶風前的波派 tart 。颶風前,草莓波派 tart 的銷量增加了約七倍。

沃爾瑪

在自然災害發生前,人們會儲備安慰性食品或不易腐爛的食品。

犯罪率越高,優步乘車次數越多。在舊金山,賣淫、酗酒、盜竊和入室盜竊最嚴重的地區與優步行程呈最正相關。

優步

“我們假設犯罪應該是
非居民人口的代表。. . . 優步乘客不會導致更多犯罪。對吧,夥計們?

正確使用大寫字母打字表明信用良好。線上貸款申請人如果以正確的大小寫完成申請表,則更可能是可靠的債務人。那些以所有小寫字母完成表格的人的付款可靠性稍差;全部大寫字母則表明可靠性更差。

一家金融服務初創公司

遵守語法規則反映了正確遵守規則的普遍傾向。

Chrome 和 Firefox 瀏覽器的使用者是更好的員工。在從事一線服務和銷售崗位的 hourly employees 中,使用這兩種自定義 Web 瀏覽器的員工在就業評估指標方面表現更好,並且在職時間更長。

一家人力資源專業服務公司,基於來自施樂和其他公司的員工資料

“您花時間安裝 [另一個瀏覽器] 這一事實表明 . . . 您是一位訊息靈通的消費者 . . . 您關心您的生產力並做出了積極的選擇。”

不吃早餐的男性更容易患冠心病。在 16 年的時間裡,45 歲至 82 歲不吃早餐的美國男性患冠心病的風險高出 27%。

哈佛大學醫學院研究人員

除了直接的健康影響(如果有的話)之外,吃早餐可能是生活方式的代表:不吃早餐的人可能過著壓力更大的生活,並且“更有可能吸菸、全職工作、未婚、身體活動較少和飲酒更多。”

員工敬業度越高,事故越少。在煉油廠工人中,團隊員工敬業度每提高一個百分點,每位員工的安全事件數量就會減少 4%。

殼牌

更敬業的工人更專注和集中注意力。

聰明人喜歡薯條。在 Facebook 上點贊“薯條”可以預測高智商。

劍橋大學和微軟研究院的研究人員

一個聰明人是第一個點贊這個 Facebook 頁面的, “他的朋友看到了,透過同質性,我們知道他可能也有聰明的朋友,所以它傳播給了他們 . . . ”,等等。

以女性名字命名的颶風更致命。根據對近六十年美國最具破壞性的颶風的研究,那些名字“相對女性化”的颶風平均造成 42 人死亡,幾乎是以“相對男性化”名字命名的颶風造成的 15 人死亡的三倍。

大學研究人員

這可能是由於“一種危險的隱性性別歧視形式”造成的。一項相關研究中的心理學實驗“表明,這是因為與男性名字命名的颶風相比,女性名字命名的颶風被認為風險較低,因此會降低人們的準備程度。. . . 個人系統性地低估了他們對以女性名字命名的颶風的脆弱性。”

地位越高,越不禮貌。在維基百科上,表現出禮貌的編輯更有可能被選為授予更大操作許可權的“管理”身份。然而,一旦當選,編輯的禮貌程度就會降低。

研究維基百科行為的研究人員

“禮貌理論預測禮貌與請求者的權力之間存在負相關關係。”

 

現在要說一句警告!在上面的示例表中,不要過分相信“建議的解釋”列試圖回答每個見解“為什麼”的嘗試。對於每一個見解,還有其他合理的解釋,並且在大多數情況下,提供的特定答案背後只有直覺,而不是科學證據。左欄中每個發現背後的原因通常是未知的。提出的每一個解釋,右欄中的每一個條目,都純粹是推測,沒有任何確鑿的事實來支援它。

困境在於,正如常說的那樣,相關性並不意味著因果關係。發現 A 和 B 之間存在預測關係並不意味著一個導致另一個,即使是間接的也不行。絕不可能。我在 Quartz 上關於這個主題的文章對此進行了詳細探討

但不要擔心。在應用預測分析時, 即使我們通常沒有關於因果關係的可靠知識,我們也常常不一定在意。對於許多專案來說,價值來自預測,而理解世界並弄清楚它的運作方式只是業餘愛好。令人驚訝的發現的怪異表演即使在幾乎沒有解釋自己的情況下也提供了預測價值。

Eric Siegel, PhD, is the author of Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie or Die, Revised and Updated Edition (Wiley, January 2016), founder of the Predictive Analytics World conference series, executive editor of The Predictive Analytics Times, and a former computer science professor at Columbia University.

More by Eric Siegel
© .