資料洪流:研究人員清點資訊世界

在資訊儲存和計算能力方面,大自然仍然佔據上風,但這不會永遠如此


關於支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。透過購買訂閱,您正在幫助確保未來能夠繼續講述關於塑造我們當今世界的發現和想法的具有影響力的故事。


資料是統一所有科學領域的通用貨幣。隨著科學的進步,資料激增,提供參考點、揭示趨勢並提供證據來證實假設。然而,在科學數字化的幾十年裡,資料呈指數級增長,有時會威脅到將知識和資訊淹沒在噪音的海洋中。

科學》雜誌在本週的特別報道中探討了這一趨勢,編輯們認為,該報道提出了兩個主題:“大多數科學學科都發現資料洪流極具挑戰性,如果我們能夠更好地組織和訪問資料,就能實現巨大的機遇。” 該報告的文章重點分析了理解資料洪流所面臨的挑戰,這些資料洪流尤其來自氣候科學、神經學和基因組學。

然而,最有趣的文章之一試圖量化我們實際談論的資料量,並區分了資料和資訊之間的關鍵區別。在“世界儲存、交流和計算資訊的技術能力”一文中,馬丁·希爾伯特,南加州大學安嫩伯格傳播與新聞學院的博士候選人,以及普里西拉·洛佩茲·帕韋茲,智利聖地亞哥加泰羅尼亞開放大學研究社會資訊與知識的研究生,報告了他們在 1986 年至 2007 年期間跟蹤 60 種模擬和數字技術的努力。研究人員發現,隨著數字技術進入主流,這兩個十年產生的資料量呈爆炸式增長。例如,2007 年電子儲存的資料量相當於當時地球上每人 61 張 CD-ROM。從透視角度來看,如果將這些 CD 堆疊起來,它們將從地球延伸到月球,再加上四分之一的距離。

大眾科學》採訪了希爾伯特,他還在 2000 年至 2008 年期間建立並協調了聯合國拉丁美洲和加勒比經濟委員會的資訊社會計劃,內容涉及他與洛佩茲·帕韋茲合作的專案的動機、他們的研究對希爾伯特社會科學領域的潛在影響,以及人類技術創新與大自然的抗衡程度。

[以下是本次訪談的編輯稿。]


是什麼促使您計算世界儲存、交流和計算資訊的技術能力?
在社會科學中,我們已經談論數字革命和資訊社會很長一段時間了。我們知道這些技術是生產力和經濟的驅動力。我們知道它們對於政治自由非常重要——想想埃及現在正在發生的事情。我們知道它們改變了家庭的組織方式——想想家庭成員如何在離家時使用手機進行交流。它們改變了各個方面的社會行為。然而,與其他科學不同,社會科學尚未踐行資訊時代的口號。我們的論文基本上是對將社會科學帶入資訊時代的貢獻,這很重要,因為資訊似乎是所有科學領域中統一的變數之一。我們特別感興趣的是瞭解資訊增長的速度以及我們數字化資訊的速度。

還有其他研究側重於衡量人類的硬體能力。現在那不是資訊,那只是資料。我們在這裡所做的是標準化壓縮率,這基本上將所有資料轉換為資訊。

“標準化”壓縮意味著什麼?
我們研究背後的理論實際上非常古老,可以追溯到 [美國數學家、電子工程師和密碼學家] 克勞德·夏農 在 1948 年提出的資訊理論。因此,基本上夏農所說的是,我們將資訊定義為不確定性的反面。如果您有不確定性,您就沒有資訊。一旦您收到資訊,不確定性就會得到解決。他將一位定義為將不確定性減少一半的東西。我們將儲存和通訊硬體容量中包含的資料轉換為資訊位。我們使用 2007 年可用的最有效的壓縮演算法,假設所有冗餘都已刪除,來衡量資訊。

在實踐意義上,您可以這樣想:您有一個 Word 文件,並將其儲存在您的硬碟上。假設它是 100 KB,然後您用 zip 檔案將其壓縮到只有 50 KB。夏農教導我們的是,如果您壓縮它、壓縮它、再壓縮它,直到達到最極端的壓縮率,我們就接近該檔案中的熵(或實際資訊量)。壓縮演算法會刪除檔案中的所有冗餘資料,只留下純資訊。

在您的研究論文中,您在資訊術語和技術方面顯得非常精通。為了進行這個專案,您是否必須學習大量關於資料儲存、壓縮、計算和其他技術如何工作的知識?
我們必須學習一點。我是一名經濟學家,而普里西拉 [洛佩茲·帕韋茲] 是一名電信工程師,所以我專注於社會統計、裝置數量和資訊的社會解釋,而她更專注於技術。夏農是教我們什麼是資訊以及如何衡量資訊的人。我們的貢獻是採納這個相當古老的理論,並將其轉換為對社會科學有用的方法論,我們首次將這種方法論應用於一個具體案例——衡量世界上有多少資訊,有多少資訊被儲存、交流和計算。這種方法論也可以用於許多其他應用——例如,您可以衡量一個公司、一個部落或一個社會中有多少資訊。

撇開您的研究方法不談,瞭解世界儲存、通訊和計算的總技術能力對您作為一名社會科學家有何幫助?
這對我們幫助很大。如果我說 2007 年的總儲存容量為 295 EB,這是一個巨大的數字。[1 EB 等於 10 億 GB,或 100 億億位元組。] 這樣想一下這個資訊量:如果您將 295 EB 的儲存資訊轉換為書籍,您可以將美國或中國的每一平方英寸都覆蓋 13 層厚的書籍。然而,這仍然只佔人類所有 DNA 分子中可以儲存的資訊量的三分之一左右。

我們發現,2007 年人類透過單向廣播接收了 2 ZB(1 ZB 等於 1 萬億 GB)的資訊,相當於每人每天閱讀 174 份報紙的資訊量。然而,有趣的是,2007 年透過雙向電信(如手機或電子郵件)交流的資訊量僅相當於每天 6 份報紙。這告訴我們,在資訊傳輸量方面,廣播仍然大大優於電信。

我們還確定,計算的增長速度快於儲存或通訊能力。這很有趣,因為當您聽到人們談論資訊社會時,人們會想到網際網路和手機是一場通訊革命。但實際上這有點像計算革命,因為我們的計算能力增長速度是通訊能力的兩倍。因此,真正令人著迷的領域是計算,它經常被低估,因為我們的注意力集中在 Facebook 和 Twitter 等通訊介面上。

您將技術的儲存、通訊和計算能力與自然界中發現的能力進行了比較——例如 DNA 儲存。您從這些比較中學到了什麼?
看看我們的數字,這是一個龐大的資訊量,但如果您將它們與自然界進行比較,它們仍然非常小。一個人的所有 DNA 分子可以儲存的資訊量是我們所有組合技術可以儲存的資訊量的 300 倍。計算機的計算能力非常強大,但它們每秒處理的指令數與人腦每秒經歷的神經衝動數大致相同。當然,我並不是想說大腦和計算機是同一件事,但這向您展示了自然界實際上是多麼精細地調整。我們說我們的技術非常好,我們為此感到自豪,但與大自然所做的事情相比,我們只是謙卑的學徒。

鑑於技術進步的速度,當技術趕上生物學時會發生什麼?
現在生物進化和技術進化之間的區別在於,雖然生物進化非常強大,但它也非常緩慢。我們幾乎可以肯定,在下一個世紀會發生的事情是,我們的技術能力將與我們的生物能力相提並論。您可以估計,到本世紀末,所有人類大腦加起來可以產生的神經衝動數將與我們所有計算機加起來可以產生的每秒指令數一樣多。我們所有的儲存技術將儲存與所有人類 DNA 可以儲存的資訊一樣多的資訊。有些人將此稱為奇點或其他什麼。我不想暗示一臺可以執行這麼多指令的計算機與大腦一樣智慧或聰明,完全不是。我不認為計算機和人是同一件事,儘管它們肯定是互補的。儘管現在是謙卑的學徒,但我們學習得非常快。正是在我們這一代人和後代身上,我們將達到自然界正在處理的那種複雜程度。

但您也可以從另一個角度來看待它。我們每年花費 3.5 萬億美元來提高我們技術的資訊複雜性,但如果我們在教育上投入更多資金呢?在非洲的許多地區,每個孩子的小學教育費用不到 50 美元。如果您問我,這些數字有點不同步。作為一名社會科學家,您會問:如果我們最終開始探索人類的資訊能力,社會進化會發生什麼?

您的研究涵蓋的最後一年是 2007 年。您計算出的數字在過去三年中可能發生了怎樣的變化?
我們涵蓋了 20 多年的資訊,並看到了在此期間相當穩定的增長率。我們看到計算能力大約每 18 個月翻一番,因此我們可以非常肯定,自從我們的研究清單在三年前結束以來,它已經翻了一番。儲存容量大約每三年翻一番,因此這 295 EB 乘以 2,意味著現在我們應該有大約 600 EB。我們非常有信心,您今天可以輕鬆地推斷出這些數字,也可以推斷出未來幾年。

© .