本文發表於《大眾科學》的前部落格網路,反映了作者的觀點,不一定反映《大眾科學》的觀點
科技公司——例如Facebook、谷歌和IBM——都迅速吹捧從移動裝置、網路搜尋、公民科學專案和感測器網路中收集的“大資料”所具有的改變世界的力量。無論是線上購物趨勢還是癌症研究,以前從未有如此多的資料涵蓋如此多的興趣領域。然而,一些科學家警告說,尤其是在資料方面,越大不一定越好。
當資訊從不同來源提取時,往往缺乏背景資訊,從而導致值得懷疑的結論。例如,自谷歌在2008年推出Google Flu Trends (GFT) 服務以來,它有時在準確衡量流感水平方面遇到了困難。一組研究人員在週五發表於《科學》雜誌上的政策論壇中解釋了這個大資料工具的不足之處——以及它具有更大潛力的地方。
谷歌設計的流感資料聚合器旨在根據與流感相關活動相關的谷歌搜尋詞條,提供全球流感病例的即時監測。儘管取得了一些成功,但GFT在過去兩年中高估了美國流感高峰病例。研究人員表示,GFT高估了2012-2013年流感季的流感患病率,以及2011-2012年的實際流感水平,幅度超過50%。這些研究人員來自休斯頓大學、東北大學和哈佛大學。此外,從2011年8月到2013年9月,GFT在108週中的100周內都高估了流感患病率。
關於支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和想法的有影響力的故事的未來。
《自然》雜誌在2013年2月的一篇新聞報道中指出,GFT預測的因流感樣疾病就診的醫生次數是疾病控制與預防中心 (CDC) 的兩倍多,而CDC的估計是基於美國多家實驗室的監測報告。(《大眾科學》是自然出版集團的一部分。)
《自然》雜誌報道,谷歌的軟體“依賴於資料探勘谷歌搜尋引擎中輸入的與流感相關的搜尋詞條記錄,並結合計算機建模”。儘管撰寫本週《科學》雜誌政策論壇的研究人員引用了GFT多次失誤的例子,《自然》雜誌指出,GFT的總體工作成果“幾乎與CDC自身隨時間推移的監測資料完全一致——而且它比CDC提前幾天交付資料”。
谷歌自己在去年10月的一份研究中得出結論,其流感演算法(以及最近推出的Google Dengue Trends)在2012-2013年美國流感季“容易受到媒體報道增加的影響”。一位谷歌發言人表示:“我們每年都會審查流感趨勢模型,以確定如何改進——我們的最新更新是在2013-2014年流感季之前於2013年10月進行的。” “我們歡迎關於如何繼續改進流感趨勢以幫助估計流感水平的反饋。”
政策論壇的研究人員認識到,流感相關線上資源的流量增加可能是造成問題的原因之一,但他們質疑“媒體引發的恐慌”是否完全解釋了“為什麼GFT連續[兩年多]大幅度漏報高值。一個更可能的原因是谷歌搜尋演算法本身的變化。”
這是研究人員論點的關鍵,他們認為兩個問題對GFT的錯誤貢獻更大:演算法動態和“大資料傲慢”。
研究人員表示:“當GFT完全錯過了非季節性的2009年甲型H1N1流感大流行時,[GFT] 拋棄特殊搜尋詞條的臨時方法失敗了。” “簡而言之,最初版本的GFT部分是流感檢測器,部分是冬季檢測器。”
大資料傲慢是“通常隱含的假設,即大資料可以替代而不是補充傳統的資料收集和分析”。研究人員指出,許多大資料專案的錯誤在於,它們並非基於旨在產生可用於科學分析的有效且可靠資料的技術。資料來自智慧手機、搜尋結果和社交網路等來源,而不是經過仔細審查的參與者和科學儀器。
研究人員承認,其他研究表明了大資料的價值,但“我們遠未達到它們可以取代更多傳統方法或理論的程度。”
他們指出,“透過將GFT與其他近乎即時的健康資料相結合,可以獲得更大的價值。” 例如,“透過結合GFT和滯後的CDC資料,以及動態地重新校準GFT,我們可以大大提高GFT或CDC單獨的效能。” 大資料同樣可以成為更好地瞭解未知領域的有效工具,例如在CDC資料效果不佳的領域,例如在非常地方的層面上呈現流感患病率。
研究人員認為,專案還可以透過提高他人複製它們的能力而從更大的透明度中受益。谷歌、Twitter和Facebook等平臺總是在重新設計其軟體,而基於在某個時間收集的資料進行的研究是否可以用從早期或後期收集的資料重新完成,這仍然是一個懸而未決的問題。