去年夏天和秋天,希臘金融危機撕裂了全球經濟的裂縫。該國積累了永遠無法償還的債務,面臨著許多潛在的結果,所有結果都不盡如人意。削減開支的努力引發了雅典街頭的騷亂,而違約的威脅則震動了全球金融市場。許多經濟學家認為,希臘應該退出歐元區並使其貨幣貶值,理論上這將有助於經濟增長。“不要搞錯:有序地退出歐元區將是困難的,”紐約大學經濟學家努里爾·魯比尼在《金融時報》上寫道。“但是,眼睜睜地看著希臘經濟和社會的緩慢無序崩潰將會更糟。”
沒有人確切知道這種情況會如何發展。人們擔心,如果希臘放棄歐元,西班牙和義大利也可能效仿,從而削弱歐盟的中心紐帶。《經濟學人》雜誌則認為,這場危機將“帶來布魯塞爾更多的財政政策控制,使歐元區變成一個政治上更加一體化的俱樂部。”這些後果將帶來更深遠的影響。進入歐盟的移民可能會將其旅行模式轉移到新近變得負擔得起的希臘。旅遊業的下降可能會限制傳染病的傳播。貿易路線的改變可能會擾亂本土生態系統。問題本身很簡單——希臘應該放棄歐元嗎?——但潛在的後果是如此深遠和複雜,以至於即使是世界上最聰明的人也發現自己無法掌握所有的排列組合。
正是諸如此類的問題促使蘇黎世瑞士聯邦理工學院的物理學家和社會學主席德克·海爾賓提出了一項耗資10億歐元的計算系統,該系統將有效地充當世界的水晶球。海爾賓的系統不僅會模擬金融、政策或環境的某個領域。相反,它會一次模擬所有的一切——世界之中的世界——吐出決策者面臨的最棘手問題的答案。這個專案的核心,地球生命模擬器,將嘗試使用海量的資料流、複雜的演算法以及儘可能多的硬體來模擬全球範圍的系統——經濟、政府、文化趨勢、流行病、農業、技術發展等等。歐盟委員會對海爾賓的推介印象深刻,以至於將他的專案評為在獲得10億歐元競賽中六個決賽入圍者中的第一名。
關於支援科學新聞業
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞業 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。
該系統是“大資料”興起的最雄心勃勃的體現,許多科學家認為這一趨勢堪比望遠鏡和顯微鏡的發明。指數級增長的數字化資訊正在以讓我們能夠解決我們原本無法提出的問題的方式,將計算機科學、社會科學和生物學結合在一起,哈佛大學社會科學家和醫學教授尼古拉斯·克里斯塔基斯說。例如,他指出了行動電話的普及,它創造了關於個人去向、他們購買的東西,甚至他們正在思考的東西的痕跡的海洋資訊。將這些資訊與其他型別的資料——基因組學、經濟學、政治學等等——結合起來,許多專家認為我們正處於開啟新的探究世界的風口浪尖。
“科學進步通常是由儀器驅動的,”東北大學計算機與資訊科學學院副教授、海爾賓專案的支持者大衛·萊澤說。工具吸引任務,或者正如萊澤所說:“科學就像醉漢在燈柱下尋找鑰匙,因為那裡的光線更好。”對於海爾賓的支持者來說,其中包括世界各地數十名受人尊敬的科學家,10億歐元可以買到非常明亮的光芒。
然而,許多科學家並不相信有必要將世界的資料集中收集起來。他們認為,更好的做法是在網際網路上形成資料雲,透過連結連線起來,使其對所有人有用。共享的資料格式將使更多人有機會瀏覽資料,找到隱藏的聯絡,並建立一個競爭性思想的市場。
下一個頂級模型
在資料集中尋找相關性對於現代科學來說並不稀奇,即使這些資料集現在非常龐大,並且相關性跨越天文距離也是如此。例如,研究人員已經積累了大量關於人類行為的匿名資料,以至於他們已經開始解開觸發“行為疾病”(如 2 型糖尿病)的複雜行為和環境因素,麻省理工學院人類動力學實驗室主任亞歷克斯·彭特蘭說。他說,以這種方式挖掘大資料,使具有開創性意義的弗雷明漢心血管疾病研究——該研究始於 1948 年,追蹤了 5209 人——看起來像是一項焦點小組研究。
然而,海爾賓的未來資訊通訊技術知識加速器和危機救援系統(其正式名稱)超越了資料探勘。它將包括全球危機觀察站,這些觀察站將尋找新出現的問題,如糧食短缺或新出現的流行病,以及一個行星神經系統,該系統聚合來自分佈在全球各地的感測器系統的資料。但未來資訊通訊技術專案的核心是地球生命模擬器,這是一項努力,旨在模擬世界上無數的社會、生物、政治和物理力量,並利用它們來洞察未來。
模型已經伴隨我們幾代人了。1949 年,來自紐西蘭的工程師和經濟學家比爾·菲利普斯公佈了一個英國經濟執行的模型,該模型是用管道用品和一個拆卸的雨刷電機構建的。有色水模擬了基於消費者支出、稅收和其他經濟活動的“假設”調整的收入流動。儘管按照今天的標準來看,它當然很原始,但它表達了建模的基礎知識:規定因素之間的一組關係,輸入資料,觀察結果。如果預測不準確,那麼這本身就成為可用於改進模型的有價值的資訊。
我們的社會離不開模型,就像離不開計算機一樣。但是,您能新增足夠的管道和泵來建模,不僅例如火山爆發對短期經濟增長的影響,還能建模這種變化對其觸及的所有人類行為領域(從教育到疫苗分配)的影響嗎?海爾賓認為可以。他的信心部分來自於他成功地模擬了另一個複雜系統:公路交通。透過在計算機上模擬車輛的流動,他和他的同事提出了一個模型,該模型(再次在計算機上)表明,您可以透過減少行駛車輛之間的距離來結束走走停停的延誤。(不幸的是,距離太小,需要機器人駕駛的汽車。)同樣,海爾賓描述了一個他諮詢過的專案,該專案模擬了麥加朝覲期間行人的移動,從而促成了耗資 10 億美元的街道和橋樑改造,以防止踩踏致死事件。海爾賓將他的未來資訊通訊技術系統視為這些交通模型的本質上的放大和細化。
然而,哈佛大學定量社會科學研究所所長加里·金認為,這種基於代理的建模僅在非常狹窄的情況下才有效。在高速公路或朝覲的情況下,每個人都朝著相同的方向前進,並共同渴望儘快且安全地到達目的地。相比之下,海爾賓的未來資訊通訊技術系統旨在模擬人們出於最廣泛的原因(從自私到利他)而行動的系統;他們的動機可能差異很大(致富、結婚、遠離報紙);意外事件可能爆發(世界領導人的去世、不明飛行物的到來);存在複雜的反饋迴路(一位專家的金融模型促使她押注於一個行業,然後引發市場恐慌);並且存在來自相關模型的輸入、輸出和反饋迴路。例如,一個城市的經濟模型取決於交通模式、農業產量、人口統計、氣候和流行病學模型,僅舉幾例。
除了純粹的複雜性問題之外,科學家們還提出了一系列相互關聯的挑戰,這樣一個全面的系統將不得不克服這些挑戰。首先,我們沒有一個良好的社會行為理論可以作為起點。金解釋說,當我們對事物的運作方式有一個可靠的認識時——例如在物理系統中——我們可以構建一個成功預測結果的模型。但是,無論我們擁有的社會行為理論是什麼,在預測能力方面都遠遠不及物理定律。
儘管如此,金指出另一種可能性:如果我們有足夠的資料,我們可以根據一些關於什麼產生規律性的提示來構建模型,即使我們不知道這些規律是什麼。例如,如果我們記錄一年中全球每個點的溫度和溼度,我們就可以在不瞭解流體動力學或太陽輻射的情況下,制定相當準確的天氣預報。
東北大學複雜網路研究中心主任兼該專案顧問艾伯特-拉斯洛·巴拉巴西說,我們已經開始使用資料來梳理出人類系統中的一些規律性。例如,巴拉巴西和他的同事最近公佈了一個模型,該模型基於人們過去的出行模式,以 90% 的準確率預測人們明天下午 5 點會在哪裡。這種知識不假設任何關於心理學、技術或經濟學的東西。它只是檢視過去的資料並從中推斷。
然而,有時使這些方法奏效所需的資料量使我們的能力相形見絀。卡內基梅隆大學的統計學家科斯瑪·沙利齊認為,為了在需要您考慮 100 個不同互動因素的問題中獲得與二維問題相同的準確性,所需的資料點數量會上升到宇宙中恆星數量的範圍。他得出結論,除非您讓自己接受使用未能捕捉到社會行為全部複雜性的簡單模型,“僅從資料中獲得好的模型是毫無希望的。”
然而,未來資訊通訊技術不僅僅依賴於一個模型,無論它多麼複雜。海爾賓說,它將結合“計算機科學、複雜性科學、系統理論、社會科學(包括經濟學和政治學)、認知科學”和其他領域。然而,組合模型也會產生複雜性爆炸的問題。“假設天氣和交通各有 10 個結果,”金說。“現在你想了解兩者。那麼我們需要知道多少東西?不是 20 個,而是 100 個。這並非毫無希望。這只是意味著資料需求增長得非常快。”
為了進一步增加挑戰,一個模型的結論的訊息可能會改變它正在建模的情況。“這是一個重大的科學問題,”印第安納大學複雜網路與系統研究中心主任兼該專案的首席資料規劃師亞歷山德羅·韋斯皮尼亞尼說。“我們如何開發包含反饋迴路或即時資料監視器的模型,以便讓我們不斷更新我們的演算法並獲得新的預測”,即使預測會影響它們自身的條件?
這些模型也必須非常複雜和具體。例如,如果您詢問經濟模型您的城市是否應該開墾一些土地,並且如果該模型沒有考慮到該決定如何影響食物鏈,那麼它可能會產生一個可能對經濟有利但對環境有害的結果。由於有 1000 萬個物種,僅僅學習哪個物種吃什麼就是一項艱鉅的任務。此外,食物的相關差異並沒有止步於物種層面。洛克菲勒大學的環境科學家傑西·奧蘇貝爾指出,透過分析蝙蝠胃內容物的 DNA,我們可以確切地知道蝙蝠吃什麼。但是,特定洞穴中蝙蝠的食物來源可能與幾英里外同種蝙蝠的食物來源不同。如果沒有爬過洞穴逐個洞穴的鳥糞覆蓋的特殊性,依賴於相互關聯的模型的專家可能會遇到不可靠和級聯效應。
因此,雖然從理論上講,即使我們沒有任何可以構建它們的潛在規律,我們也可能能夠構建複雜現象的模型,但實際困難很快就會呈指數級增長。總是有另一層細節,總是有另一個因素可能在最終核算中被證明至關重要;如果我們事先不瞭解人類的運作方式,我們就無法知道我們的核算何時結束。
大資料在基因組學和天體物理學中取得了許多成功,但一個領域的成功可能並不證明我們可以在各個領域以高度複雜的方式相互依賴時取得成功。也許我們可以逐步取得進展。或者,對於像涉及人類活動的系統這樣複雜的系統,模型的威力可能存在自然限制。畢竟,人類系統會受到不可預測性的兩個標誌的影響:黑天鵝和混沌理論。
沒有理解的知識
2010 年 12 月 17 日,穆罕默德·布瓦吉吉,突尼西亞小鎮西迪布濟德的一名街頭小販,為了抗議當地的腐敗文化而自焚。這一單槍匹馬的行為引發了一場席捲阿拉伯世界的民眾革命,導致了推翻埃及、利比亞及其他地區數十年獨裁統治的起義,永遠顛覆了世界石油最豐富地區的權力平衡。
哪個模型能夠預見到這一點?或者 2001 年 9 月 11 日的襲擊事件及其影響程度?或者網際網路會從一個研究人員使用的默默無聞的網路變成整個行業的製造者和破壞者?這就是納西姆·尼古拉斯·塔勒布在他 2007 年的同名暢銷書中普及的黑天鵝問題。“世界總是比模型更復雜,”奧蘇貝爾說。“總會發生一些事情。”
更糟糕的是,海爾賓想要理解的社會、政治和經濟系統不僅僅是複雜的。它們是混亂的。每個系統都依賴於數百個獨特的因素,所有因素都錯綜複雜地相互關聯,並且受到它們開始狀態的深刻影響。在一個混亂的系統中,一切的發生都有原因,或者更確切地說,一切的發生都有太多的原因,以至於除了最廣泛的概括之外,事件是不可預測的。例如,喬治梅森大學的氣候學家兼全球環境與社會研究所所長賈加迪什·舒克拉告訴我,雖然我們現在可以預測未來五天的天氣,“我們可能無法超過第 15 天。[無論]你部署多少感測器,初始條件仍然會存在一些誤差,而且我們使用的模型並不完美。”他補充說,“侷限性不是技術性的。它們是系統的可預測性。”
舒克拉小心地區分了天氣和氣候。我們可能無法預測 100 年後的下午是否會下雨,但我們可以在一定程度上可靠地預測平均海洋溫度將是多少。“即使氣候是一個混亂的系統,它仍然具有可預測性,”舒克拉說。海爾賓的模型也是如此。“詳細的金融市場走勢可能比天氣更難以預測,”海爾賓在一封電子郵件中寫道,“但金融崩潰遲早會發生這一事實可以從某些宏觀經濟資料(例如,美國多年來消費增長超過收入)中推匯出來。”但我們不需要一套超級計算機、星系般的資料和 10 億歐元就能知道這一點。
如果目標是為決策者提供基於科學的建議,正如海爾賓在證明這筆費用的合理性時強調的那樣,那麼就會出現一些實際問題。首先,人類的大腦是否能夠理解超級計算機得出他們得出的答案的原因,這一點完全不清楚。當模型足夠簡單時——例如,英國經濟的水力模型——我們可以回溯模型執行並意識到,個人儲蓄賬戶的減少是過快提高稅收的意外影響。但是,從大資料計算得出並因此透過反饋結果進行調整的複雜模型可能會從對於人腦來說過於複雜的過程中產生可靠的結果。我們將擁有知識,但沒有理解。
當我問海爾賓關於這個侷限性時,他停頓了一下,然後說他認為很可能出現人類可以理解的一般原則和方程式,因為當他研究交通時就出現了這種情況。儘管如此,金融系統、社會行為、政治運動、氣象學和地質學的交叉比三個車道的交通朝同一方向行駛要複雜幾個數量級。因此,如果希臘退出歐元,人類可能無法理解為什麼模型預測會發生災難。
如果沒有理解為什麼特定的行動方案是最佳方案,總統或首相將永遠無法根據它採取行動——特別是如果該行動看起來很荒謬的話。哥倫比亞大學的統計學家維多利亞·斯托登想象了一位政策制定者,他閱讀了地球生命模擬器的結果並宣佈:“為了將世界從經濟危機中拉出來,我們必須點燃世界上所有的油井。”如果政策制定者無法解釋為什麼這樣做是對的,那麼這將不是可行的建議。畢竟,即使科學家們幾乎普遍就氣候變化的危險達成一致,政策制定者仍然拒絕為每個嚴肅的環境模型預測的未來做好準備。
書呆子與書呆子爭論
海爾賓目前描述的未來資訊通訊技術假設如此龐大、複雜的工作需要一箇中央組織來負責,因此出現了這些和其他實際問題。海爾賓將監督一個全球專案,該專案將組裝硬體、收集資料並返回結果。
這不是知識共享科學副總裁約翰·威爾班克斯會做的事情。威爾班克斯和海爾賓一樣對大資料充滿熱情。但他的直覺傾向於網際網路,而不是機構。他是一個正在進行的專案的主要人物,該專案旨在組織各種任何人都可以使用的“資料公地”。目的是讓世界各地的科學家參與開放的思想、模型和結果市場。這與規劃一個具有組織化的輸入和高價值輸出的正式機構的方法相反。
這兩種方法側重於不同的價值觀。資料公地可能不具備封閉系統所具有的預先、完美管理的優勢,但威爾班克斯認為,它在“生成性”方面彌補了這一點,“生成性”是喬納森·齊特萊恩 2008 年的《網際網路的未來》中的一個術語:“一個系統透過來自廣泛而多樣的受眾的未經篩選的貢獻來產生意外變化的能力。”例如,網路允許每個人參與,這就是為什麼它是一個如此強大的創意引擎。在威爾班克斯看來,如果科學家能夠訪問儘可能多的資料,如果這些資訊對所有人開放,易於使用,並且可以跨學科、機構和模型整合在一起,那麼科學將以最快的速度進步。
在過去幾年中,一種新的資料“語言”應運而生,這使得威爾班克斯的夢想變得更加可信。它源於全球資訊網發明者蒂姆·伯納斯-李在 2006 年提出的原則。在這種“連結資料”格式中,資訊以簡單斷言的形式出現:X 以某種指定的方式與 Y 相關;這種關係可以是釋出資料的人想要的任何關係。例如,如果知識共享想要以連結資料的形式釋出其人員配備資訊,它將以一系列“三元組”的形式提供:[約翰·威爾班克斯][領導][知識共享科學],[約翰·威爾班克斯][擁有電子郵件地址][johnsemail@creativecommons.org],等等。
此外,由於世界上有許多約翰·威爾班克斯,並且“領導”有許多含義,因此這些三元組的每個元素都將包含一個 Web 連結,該連結指向權威或澄清來源。例如,“約翰·威爾班克斯”連結可能指向他的主頁、知識共享網站上關於他的頁面或他的維基百科條目。“領導”可能指向定義他提供的領導型別的標準詞彙表。
這種連結結構使研究人員能夠連線來自多個來源的資料,而無需首先就解釋所有部分之間關係的單一抽象模型達成一致。這降低了準備釋出資料的成本。它還增加了資料釋出後的價值。
連結資料方法增加了理論上可以關注任何特定資料集的眼球數量,從而增加了某人偶然發現有趣訊號的可能性。將測試更多的假設,嘗試更多的模型。“你的書呆子和我的書呆子需要爭論,”威爾班克斯說。“他們需要爭論模型中的變數和數學是否正確,以及假設是否正確。”世界是如此混亂,以至於我們理解它的最佳機會——及時抓住金融崩潰——是讓儘可能多的書呆子去研究它。對於威爾班克斯和他的部落來說,使資料開放和可互操作是第一步——變革性的一步。在加入戰鬥的群體中,肯定會有聚集了偉大思想並構建了複雜模型的機構。但真理出現的第一個也是首要條件是爭論本身。書呆子與書呆子爭論。
威爾班克斯和海爾賓都認為大資料具有變革性,並且都希望比幾年前我們認為的更多社會行為可以得到科學的理解。當海爾賓沒有試圖透過描繪地球生命模擬器將如何避免國家破產和全球流行病的畫面來勸說贊助人時——正如巴拉巴西觀察到的,“如果你想說服政治家,你必須談論結果”——他承認未來資訊通訊技術將支援彼此競爭的多個模型。此外,他熱衷於收集歷史上最大的大資料集合,並將其幾乎全部公開。(有些將不得不保持私有,因為它來自商業提供商的許可,或者因為它包含個人資訊。)
然而,差異是真實存在的。海爾賓和他的資料架構師韋斯皮尼亞尼並沒有止步於承認未來資訊通訊技術機構將支援多個模型。“即使天氣預報也是用多個模型製作的,”韋斯皮尼亞尼說。然後他補充說,“你將它們組合起來,並獲得機率結果的統計推斷。”對於海爾賓和他來說,價值在於這種趨同於單一答案。
當然,公地觀點也旨在趨同於真理。但作為一種網路基礎設施,它承認甚至促進富有成效的分歧。科學家可以有不同的模型、不同的分類法、不同的術語,但他們仍然可以相互交流,因為他們可以沿著共享資料的連結追溯到網際網路或現實世界中的某個已知錨點。也就是說,他們可以獨立運作,但仍然可以溝通甚至協作。差異不會解決為一種談論世界的單一方式,因為——威爾班克斯認為——可能存在文化、起點甚至性情的差異。資料公地方法承認、認可甚至擁抱差異的永續性。
什麼是知識
顯而易見的問題是實際問題:哪種方法會更好,其中“更好”意味著推進科學水平併產生對有關未來的難題的有意義的(和準確的)答案?
答案可能歸結為對知識本質的意見分歧。在西方,我們已經有兩千年的時間將知識視為一個由已確定的、一致的真理組成的系統。也許這更多地展示了知識媒介的侷限性,而不是知識本身:當知識透過用永久墨水寫在紙上來傳播和儲存時,它就變成了透過機構過濾器的東西和不改變的東西。然而,知識的新媒介與其說是一個出版系統,不如說是一個網路化的公眾。我們可能會從我們的資料公地中獲得大量的知識,但知識更可能是一種持續的爭論,因為它會受到這種方式和那種方式的拉扯。事實上,這就是網路時代的知識面貌:永不完全確定,永不完全書寫,永不完全完成。
未來資訊通訊技術平臺希望構建一個足夠完整的世界表示,以便我們可以向它提問並依賴它的答案。另一方面,連結資料(部分地)與我們可以在生活的所有許多領域中明確地表示世界的邏輯模型的想法形成對比。知識可能來自公地,即使該公地本身不是世界的完美表示。
除非,當然,混亂的思想爭論——書呆子與書呆子爭論——是對世界更完全真實的表示。