如何在資料洪流中找到意義

加入我們的科學愛好者社群!

本文發表於《大眾科學》的前部落格網路,反映了作者的觀點,不一定反映《大眾科學》的觀點。


世界上所有的資料——而且數量正以驚人的速度增長——如果研究人員無法理解它們,就無法幫助他們解決重大問題。 這就是為什麼哈佛大學和哈佛大學-麻省理工學院布羅德研究所的一個研究團隊開發出分析資料探勘軟體的原因,該軟體可以在數字的荒漠中找到意義的綠洲。 他們使用該軟體找到了關於肥胖的社會經濟影響、腸道細菌和棒球的見解。

該軟體梳理出資料點(可能數百萬個)之間的關係,並衡量這些連線的強度。 正如研究人員在12月16日出版的《科學》雜誌上發表的一篇論文中報告的那樣,今天使用的大多數資料探勘工具要麼可以找到資料之間的相關性,要麼可以確定這些連線有多牢固——很少有工具可以兩者兼顧。

論文的共同第一作者、哈佛-麻省理工學院健康科學與技術專案的研究生David Reshef說:“當我們開始這個專案時,我們想要一種非常簡單的方式來總結這些資料集中的內容,詢問這些資料集中哪些變數關聯性最強。” “這是一個非常簡單的問題,但事實證明它非常複雜,因為變數可以透過多種不同的方式關聯,並且有各種方法可以找到不同的模式。”


關於支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。 透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。


David Reshef 與弟弟 Yakir Reshef、布羅德研究所副研究員 Pardis Sabeti 和哈佛大學計算機科學教授 Michael Mitzenmacher 合作,在來自世界衛生組織 (WHO) 及其合作伙伴的社會、經濟、健康和政治資料上測試了該工具。 資料池很大,覆蓋了 200 個國家,每個國家包含 357 個數據變數,包括家庭收入和肥胖。

該工具是研究人員稱之為 MINE(基於最大資訊量的非引數探索)的更大程式的一部分。 它檢查了每種可能的變數組合(超過 60,000 種),以及按一個變數對另一個變數的統計依賴性強度(即一個變數與另一個變數的關聯程度)排序的關係列表。

例如,一個已識別的關係是家庭收入與女性肥胖之間的關係。 從這種配對中,研究人員看到許多國家的資料都遵循拋物線曲線,肥胖率隨收入而上升,但在收入達到一定水平後達到峰值並逐漸下降。 然而,在太平洋島嶼,女性肥胖是身份的象徵,肥胖率遵循與世界其他國家完全不同的趨勢,即使在低收入水平下也迅速攀升。

論文的共同第一作者、以色列魏茨曼科學研究所的富布賴特學者 Yakir Reshef 說,這個想法是使用 MINE 來產生以前沒有人想到要尋找的新想法和聯絡。 他補充說:“該專案的跨學科性質向我們展示了這項工作的廣泛應用。 無論是全球健康資料、基因組資料還是網際網路搜尋統計資料——在某種程度上,它們都是相同的。” 研究人員在他們的網站影片中更詳細地解釋了他們的工作,該影片與他們的論文一起釋出。

在另一項測試中,他們使用了哈佛同事 Peter Turnbaugh 收集的近 6,700 條與生活在腸道中的微生物相關的資料。 該軟體進行了超過 2200 萬次比較,並縮小到數百個以前未觀察到的感興趣的模式。

研究人員還在棒球上測試了該軟體。 他們發現,與球員薪水最相關的統計資料是安打數、壘打數和一個綜合統計資料,該統計資料反映了球員為一個球隊創造了多少得分。 在 2008 賽季,坦帕灣魔鬼魚隊、亞特蘭大勇士隊和現任世界冠軍聖路易斯紅雀隊(毫不奇怪)被證明與他們陣容中“表現超出預期”的球員數量相比,擁有最少數量的高薪球員。 可以預見的是,紐約洋基隊排名墊底。 當你的工資總額是棒球界最高的時候,找到表現超出預期的球員並不容易。

照片:兄弟 David Reshef(左二)和 Yakir Reshef(右)在哈佛大學工程與應用科學學院的顧問 Michael Mitzenmacher(左)和布羅德研究所的 Pardis Sabeti(右二)的指導下開發了 MIC。 圖片由 ChieYu Lin 提供

© .