到目前為止,大資料仍是小問題

大資料將要徹底變革科學並幫助我們創造一個更美好的世界嗎?根據目前的情況來看,並非如此。請允許我先回顧一下。

加入我們的科學愛好者社群!

本文發表於《大眾科學》的前部落格網路,反映了作者的觀點,不一定反映《大眾科學》的觀點


大資料將要徹底變革科學並幫助我們創造一個更美好的世界嗎?根據目前的情況來看,並非如此。

請允許我先回顧一下。我最近在英國海伊昂懷市舉辦的“光如何進入”音樂哲學節上發表演講。節日主辦方將我安置在一棟名為布蘭普頓大宅的夢幻般的豪宅中,在那裡我與其他節日演講者一起度過時光,如物理學家喬治·埃利斯、卡洛·羅韋利、卡洛斯·弗倫克和塔拉·希爾斯;生物學家魯珀特·謝爾德雷克;精神病學家大衛·納特;以及記者科林·塔奇和戴維·馬龍。(我希望儘快釋出與埃利斯和謝爾德雷克的問答。)

一天下午,我與記者肯尼斯·庫基耶、安吉拉·塞尼和社會學家勞瑞·泰勒一起參加了一場關於大資料的公開辯論。節日宣傳冊對我們的會議進行了如下宣傳:“在一個我們可以收集到難以想象數量的資訊的時代,我們是否會用複雜的真真實模式取代簡化的理論?大資料是否會成為理論的終結?” 這些問題是由《經濟學人》的資料編輯庫基耶和牛津大學網際網路治理教授維克托·邁爾-舍恩伯格在他們2013年的暢銷書《大資料:一場將徹底改變我們的生活、工作和思考方式的革命》中提出的。


關於支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您將幫助確保有關塑造我們當今世界的發現和思想的具有影響力的故事的未來。


在他們根據自己的書撰寫的一篇文章中,他們寫道:“大資料始於這樣一個事實,即如今比以往任何時候都有更多的資訊在傳播,並且這些資訊正在被用於非凡的新用途。大資料不同於網際網路,儘管網路使得收集和共享資料變得容易得多。大資料不僅僅是關於通訊:其理念是我們可以從大量資訊中學習到當我們僅使用少量資訊時無法理解的事物。”

他們最引人入勝的論斷是,大資料將使我們能夠在不一定理解問題的情況下解決問題。庫基耶和邁爾-舍恩伯格寫道,大資料將把研究人員的重點從“因果關係轉移到相關性”。“這代表著一種轉變,即不再總是試圖理解世界運作方式背後的更深層原因,而是簡單地瞭解現象之間的關聯,並利用這種關聯來完成事情。” 前《連線》雜誌編輯克里斯·安德森在他的2008年文章《理論的終結》中也提出了類似的觀點。

如果大資料意味著數字技術,我喜歡大資料。數字技術已經改變了記者和科學家收集、分析和傳播資訊的方式。有了我的MacBook Air,我可以足不出戶就用谷歌搜尋庫基耶,並立即找到對他著作的書評——包括《紐約時報》經常挑剔的米奇科·角谷寫的一篇出人意料的好評

此外,庫基耶說得對,科學僅僅透過揭示相關性就可以取得很大成就。半個多世紀前的流行病學研究表明,吸菸與癌症之間存在很強的相關性。我們仍然不完全理解吸菸如何導致癌症。儘管如此,相關性的發現還是促成了反吸菸運動,與我們在檢測和治療方面的所有進步相比,這些運動可以說在過去幾十年中為降低癌症發病率做出了更大的貢獻(正如我在最近的一篇文章中指出的那樣)。

我也承認庫基耶的觀點,即理論會阻礙問題解決。例如,假設你是一名法官,正在考慮一名被判犯有謀殺罪的人是否會再次殺人。你可以請一位精神病學家或其他所謂的心理專家根據專家的個人心理正規化做出預測。但你最好使用保險公司用來計算保單持有人的費率的方法;也就是說,只需檢視與你的兇手背景相似的罪犯的累犯率即可。

儘管如此,庫基耶和其他人對大資料的熱情還是讓我感到惱火,原因有幾個。首先,他們的言辭讓我想起了混沌及其後繼學科複雜性領域產生的炒作,我在1996年的著作《科學的終結》中將這兩個領域統稱為“混沌複雜性”。這兩個領域都承諾,藉助更快的計算機和更復雜的軟體,科學家可以解決那些被沉悶的舊還原論方法所阻礙的問題。一些混沌複雜性學家希望發現支配各種複雜現象“自組織”的深刻新原理——甚至可能是一種“反熵”力。

這些發現從未發生,庫基耶和舍恩伯格設想的那些實際進步也從未發生。以遺傳學為例。人類基因組計劃在2003年完成,所用時間和資金都少於預期,這歸功於計算機和其他技術的進步。從人類和其他生物體中提取和分析遺傳資料的成本持續下降。

但是,所有這些進展產生的醫學進步都令人失望地少。在撰寫本文時,美國尚未批准任何基因療法用於商業銷售;歐洲僅批准了一種。抗癌戰爭已經失敗,尋找支援複雜行為特徵和障礙的特定基因的努力也失敗了。

正如遺傳學家沉浸在資料中一樣,神經科學家也是如此。儘管掃描器和其他工具的功能越來越強大,但神經科學家仍然無法確切解釋大腦如何產生意識,或者為什麼我們的意識經常如此糟糕地運作。托馬斯·因塞爾是美國國立精神衛生研究所所長,他最近倡導徹底改革我們定義和診斷精神分裂症、抑鬱症和其他精神疾病的方法。我們治療這些疾病的方法也仍然非常原始

2008年的經濟崩潰為大資料提供了另一個現實檢驗。華爾街人士擁有最快的計算機、最複雜的軟體和最大的資料庫,但許多人未能預見到2008年的崩潰。大資料將使經濟學和其他社會科學真正科學化——即精確和可預測——的希望目前仍然是一個幻想。

我假設——我希望——我們不斷改進的資訊科技有一天會在醫學、社會科學和其他領域產生真正革命性的進步。但在那一天到來之前,讓我們對大資料的炒作保持克制。

延伸閱讀“大資料”是否正在將科學人才吸入大型企業?

 

© .