本文發表於《大眾科學》的前部落格網路,僅反映作者的觀點,不一定反映《大眾科學》的觀點
在過去的幾年裡,我們聽到了很多關於“大資料”——據我所知,它只是披著光鮮外衣的資料探勘——將如何徹底改變科學 並幫助我們創造一個更美好的世界。* 這些說法讓我感到非常熟悉。它們讓我想起了 1980 年代混沌理論和 1990 年代複雜性理論(它只是披著光鮮外衣的混沌理論)所產生的炒作。混沌理論和複雜性理論的愛好者們承諾(並且仍在承諾)更強大的計算機加上時髦的新軟體和數學將破解那些抵制更傳統科學方法的難題。
資料收集、計算和搜尋程式的進步已經在某些領域取得了令人矚目的成果,尤其是在語音識別、語言翻譯和人工智慧的其他傳統問題上。因此,對大資料的某些熱情可能最終會被證明是合理的。但是,為了保持我那脾氣暴躁、悲觀厭世的形象,在這篇文章中,我將提出大資料可能正在損害科學,因為它正在誘使聰明的年輕人遠離對科學真理的追求,轉而追求利潤。
一位神經科學博士後引起了我對這個問題的關注,他的研究涉及大量的資料處理。他希望保持匿名,所以我稱他為弗雷德。在閱讀了我最近關於科學文獻不可靠性的評論後,他寫信給我,建議我關注一個可能正在加劇科學困境的趨勢。
關於支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保關於塑造我們當今世界的發現和想法的具有影響力的故事的未來。
弗雷德寫道:“我認為 2014 年重要的科學新聞報道將是科學界向工業界‘資料科學’的人才流失。直到幾年前,至少在我的領域,最優秀的畢業生會找到教授職位,而不太成功的畢業生則會在工業界找到工作。現在情況正好相反。這是一個真正的趨勢,而且意義重大。其中一個原因是,科學往往不會獎勵那些最擅長開發優秀軟體的研究生,而這正是科學現在所需要的……
“另一個原因,對我來說尤其重要,是學術界和工業界的研究質量。在學術界,期刊往往想要最有趣的結果,而不太關心結果是否真實。在工業界資料科學中,[你的]老闆只想知道真相。這是一個更令人鼓舞的工作環境。我喜歡編寫程式碼和分析資料。在工業界,我一天中的大部分時間都可以做這些事情。在學術界,似乎教員們必須花費大部分時間撰寫資助申請和回覆電子郵件。”
弗雷德發給我一個部落格文章的連結,“大資料人才流失:為什麼科學陷入困境”,這篇文章擴充套件了他的擔憂。博主傑克·範德普拉斯是華盛頓大學天體物理學的博士後,他聲稱大資料是,或者應該是,科學的未來。他寫道:“在廣泛的學術領域,有效處理資料的能力正在取代其他更經典的科研模式……從粒子物理學到基因組學,再到生物化學、神經科學、海洋學、大氣物理學以及介於兩者之間的所有領域,研究越來越以資料驅動,並且資料收集的速度沒有減緩的跡象。”
範德普拉斯認為,同行評審的科學成果日益不可靠,我在上一篇文章中提到了這一點,部分原因可能在於許多研究成果依賴於編寫和記錄不佳的軟體。“不可重複性危機”可以透過擅長資料分析並可以與他人分享其方法的研究人員來緩解,範德普拉斯認為。
範德普拉斯說,問題在於,學術界在認識到資料分析人才的價值方面遠遠落後於大型企業。“成為一名成功的科學研究人員所需的技能與在工業界取得成功所需的技能越來越難以區分。當學術界以典型的慣性逐漸適應這種情況時,世界其他地方已經開始更大程度地擁抱和獎勵這些技能。不幸的結果是,一些最有前途的後起之秀在學術界找不到自己的位置,而營利性工業界則張開雙臂,準備好充足的資金。”
範德普拉斯和弗雷德,他們顯然都是軟體高手,可能稍微誇大了資料處理的科學潛力。弗雷德前面提到的關於工業界“只想知道真相”的說法,在我看來幾乎是天真得可笑。[**見弗雷德在下面的澄清。] 對於企業來說,推銷產品比真相更重要——這使得弗雷德和範德普拉斯描述的人才流失更加令人不安。
弗雷德就是一個典型的例子。他越來越對自己在腦研究領域的前景感到失望,於是報名參加了 Insight Data Science 的培訓,該機構培訓科學博士在工業界受歡迎的資料處理技能(並聲稱擁有 100% 的就業安置記錄)。這項投資對弗雷德來說得到了回報,他剛剛在 Facebook 找到了一份工作。
*“大資料”應該被視為複數還是單數?我調查了我的學生,他們說是複數,所以我選擇了複數。
**關於他對工業界老闆想要“真相”的評論,“弗雷德”剛剛給我發郵件澄清:“我認為‘營銷’和‘分析’之間存在區別,我或許應該更清楚地說明這一點。當涉及到向消費者營銷產品時,我同意商業動機與說真話並不一致,這顯而易見,沒有人對此提出異議。但是,當涉及到企業內部的‘分析’團隊時,動機與說真話非常一致。分析團隊所做的事情包括:確定使用者如何與產品互動,衡量使用者參與度或銷售額的趨勢,分析產品中的故障點。這是大多數資料科學家所做的那種工作。”
***關於這個話題的幾個後記:首先,我的史蒂文斯同事和前朋友李·文塞爾在下面的評論中指出,長期以來,工業界一直以豐厚的利潤和擺脫終身教職和追逐資助的苦差事的承諾來吸引科學家離開學術界。是的。華爾街“寬客”只是這種古老現象的一種表現形式。那麼,大資料人才流失有什麼新鮮之處呢?它在程度或種類上與之前從學術界到企業的人才流失有何不同?好問題,李。我不知道,但我敢打賭大資料可以提供答案!(除非它受到某種哥德爾式自我分析限制。)
其次,大資料興起的一個引人入勝的含義是,科學可能會越來越多地在不理解的情況下交付力量——也就是說,解決問題的方案。例如,大資料可以幫助人工智慧研究人員構建能夠下棋、識別人臉和交談的程式,而無需知道人腦是如何完成這些任務的。生物學、物理學和其他領域的問題也可能是如此。如果科學不能產生洞察力,它還是真正的科學嗎?(關於大資料可能帶來“理論終結”的觀點的有力反駁,請參閱薩賓娜·霍森菲爾德在下面提到的明智的部落格文章。)
圖片:美國國防高階研究計劃局透過維基共享資源,http://commons.wikimedia.org/wiki/File:DARPA_Big_Data.jpg。