從大嘴巴中拯救大資料

那些譴責大資料的人應該嘗試做點什麼

關於支援科學新聞

如果您喜歡這篇文章，請考慮透過以下方式支援我們屢獲殊榮的新聞報道訂閱。透過購買訂閱，您正在幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。

SA論壇 是科學和技術領域專家就熱點問題發表的特邀文章。

貶低大資料已經成為一種時尚。最近幾周，《紐約時報》、《金融時報》、《連線》和其他媒體都發表文章抨擊這項新技術運動。公平地說，許多批評都有道理：關於大資料有很多炒作，重要的是不要誇大我們對它所能做的事情的期望。

但這些炒作很少來自真正使用大型資料集的人。相反，它來自那些將“大資料”視為流行語和營銷機會的人——顧問、活動組織者和尋找 15 分鐘成名機會的投機學術界人士。

然而，最近的大部分批評都是軟弱和誤導的。反對者一直在攻擊稻草人，專注於最壞的做法、事後失敗和二手資料。共同的主題在很大程度上是顯而易見的：“相關性並不意味著因果關係”和“資料存在偏差”。

大資料批評者犯了三個重要錯誤

首先，他們誤解了大資料，將其狹隘地定義為社會科學假設檢驗的失敗革命。這樣做，他們忽略了大資料取得重大進展的領域，例如資料豐富的網站、資訊視覺化和機器學習。如果說有一群大資料從業者是批評者應該崇拜的，那就是構建社交媒體網站的大資料工程師，他們的陳詞濫調在那裡傳播。構建一個數據豐富的網站，如 Facebook、YouTube、Vimeo 或 Twitter，極具挑戰性。這些網站之所以成為可能，是因為過去五年中悄然取得的進步，包括資料庫技術和 Web 開發框架的改進。

大資料也為機器學習和計算機視覺做出了貢獻。由於大資料，Facebook 演算法現在匹配人臉的準確率幾乎與人類一樣高。

批評者也忽略了大資料在計算設計、資料新聞和新的藝術表現形式的普及中所起的作用。計算藝術家、記者和設計師——那些聚集在像這樣的會議上的人

Eyeo——正在使用大量資料為我們提供與我們在紙上體驗過的任何東西都不同的線上體驗。如果我們跳出假設檢驗的框架，我們會發現大資料做出了巨大的貢獻。

批評者經常犯的第二個錯誤是將原型的侷限性與致命缺陷混淆。這是我經常經歷的事情。例如，在Place Pulse——我與我在麻省理工學院媒體實驗室的團隊建立的一個專案——我們使用了谷歌街景影像和眾包視覺調查來繪製人們對城市安全和財富的感知。最初的方法充滿了我們在論文中如實承認的侷限性。谷歌街景影像是在任意時間拍攝的，並從汽車的角度展示了城市。城市邊界也是任意的。然而，為了克服這些侷限性，我們需要第一個資料集。製作 Place Pulse 的第一個有限版本是製作工作原型過程中的必要部分。

自我們釋出 Place Pulse 的第一個資料集以來已經過去一年了。現在，由於我們專注於“製作”，我們擁有計算機視覺和機器學習演算法，我們可以用它來糾正一些容易發現的失真。製作使我們能夠糾正一天中的時間並動態定義城市邊界。此外，我們正在收集新資料，以將該方法擴充套件到新的地理邊界。

那些不理解制作過程是迭代的人，有可能會過於急於譴責有前景的技術。 1920 年，《紐約時報》發表了一項預測，認為火箭永遠無法離開大氣層。關於汽車或最近關於 iPhone 的市場份額也做出了類似的錯誤預測。 1969 年，《泰晤士報》不得不撤回他們 1920 年的說法。在 2069 年需要發表哪些類似的撤回宣告？

最後，懷疑者過分依賴二手資料。例如，他們把克里斯·安德森在 2008 年《連線》雜誌上發表的一篇文章當成了出氣筒，該文章將大資料定義為“理論的終結”。其他人則批評專案存在其建立者從未做出的宣告。例如，幾周前，加里·馬庫斯和歐內斯特·戴維斯在《泰晤士報》上發表了一篇關於大資料的文章。他們在那裡寫到了我組的另一個專案Pantheon，該專案旨在收集、視覺化和分析有關歷史文化產品的資料。馬庫斯和戴維斯寫道，萬神殿“暗示了一種具有誤導性的科學精確度”。作為該專案的作者，我一直找不到我提出過這種說法的地方。萬神殿的方法部分明確指出：“萬神殿始終——透過構建——是一種不完整的資源。”該部分包含了一長串的侷限性和警告，以及“我們將此資料集狹義地解釋為 2013 年 5 月在維基百科中歷史人物的多語言表達中出現的全球文化產品的觀點。”

爭吵很容易，但沒有多大幫助。所以我邀請大資料的批評者以身作則。停止撰寫評論文章，開始開發改進現有技術的工具。我們非常感謝他們。我們需要的是值得模仿和我們可以借鑑的專案，而不是諸如“相關性並不意味著因果關係”之類顯而易見的建議。畢竟，真正的進步不是寫出來的，而是做出來的。