如何將《大眾科學》175年的文字轉化為影像

一位資料設計師解釋了分析和繪製本雜誌5107期文字的藝術與科學

Moritz Stefaner 和 Christian Lässer

將一本擁有175年曆史的雜誌——即5107期,199,694頁,包含110,292,327個單詞!——的歷史總結成一系列圖形,這是一項艱鉅的任務。當裝有64GB .pdf檔案的硬碟驅動器送到我在德國的家中時,我很好奇地想深入研究,但也有些害怕:作為一名具有認知科學背景的資料視覺化顧問,我非常清楚,語言的細微之處及其語義內容只能透過計算方法來近似。

我喜歡從集思廣益概念想法和資料發現問題開始,並將自己沉浸在可用的材料中。為了獲得靈感,我閱讀了雜誌跨越數十年的樣本,驚歎於古老的插圖和字型。我早期建立了一個數據預處理管道,從.pdf檔案中提取文字並執行首次分析。我使用了 Jupyter Notebooks(一個用於資料探索的靈活程式設計環境),以及 spaCy Python 庫(它使用計算語言學將單純的字元序列轉化為語言的結構化表示)和 pandas 包(一個用於輕鬆快速處理大量數值資料的工具包)。

任何資料科學專案的核心問題在於對資料集撒網的範圍有多大。如果網太粗,所有有趣的小魚都可能逃脫。然而,如果網太細,最終可能會得到很多碎片,而且過多的細節會掩蓋大局。我們能否找到一種簡單但有趣且真實的方法,將大量資料提煉成易於理解的形式?編輯和我探索了許多概念想法:檢視句子長度、特定詞語的首次出現、標點符號風格的變化(問號會增加嗎?),以及提及的人物和地點。這些方法中的任何一種都能得到可用資料的支援嗎?


關於支援科學新聞

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。透過購買訂閱,您正在幫助確保未來能夠繼續講述關於塑造我們當今世界的發現和思想的有影響力的故事。


很快就變得明顯,來自《大眾科學》(1993年之前)前數字時代的任何文字都在一定程度上受到光學字元識別(OCR)錯誤的影響。從影像中重建原始文字是一個天生嘈雜的過程,其中字母可能會混淆(例如,“substantially”經常被解析為“snbstantlally”),單詞可能會在錯誤的位置組合或拆分,或者多列布局可能會以錯誤的順序讀取。因此,將資料分析鏡頭拉遠到年度視角(而不是在單個版本的層面上工作)並分析單個單詞的計數(而不是尋找複合詞或進行句子級分析)成為我們在準確性和抗噪聲魯棒性之間權衡空間中的最佳點。

我的第一直覺是關注“寫了什麼”,但在處理資料時,我對關注“如何”變得特別感興趣:動詞、形容詞和副詞的演變。這些詞類可以說明原始雜誌的基調和態度是如何從工程驅動的機械語言轉變為我們今天所知的多方面的科學雜誌的。

另一個關鍵的見解是瞭解到英語中使用的詞彙實際上種類很少。鑑於語言中(以及《大眾科學》文字檔案庫中)單詞的頻率如此傾斜,與其比較單詞出現的原始數字,不如關注單詞每年佔據的文字比例(其相對頻率)如何隨時間演變,這變得更有說服力。

基於這個中心思想,我們探索了許多不同的視覺形式——詞雲、堆積面積圖、折線圖、動畫、語義空間的空間地圖——最終確定使用分層堆積面積圖作為開篇跨頁的概覽視覺化。這種對詞彙主要變化的宏觀檢視,以“沉積層”的形式展示,並輔以顯示每年每個峰值詞演變的單個微型折線圖。

為了使密集的圖表排列易於掃描,需要有意識的視覺設計選擇。用連續的色階來強化折線圖的形狀可能看起來是多餘的裝飾,但它在感知上非常有效,因為它允許我們快速檢視一個詞是“舊的”還是“新的”,而無需詳細研究線條形狀。此外,顏色關聯(灰色/棕色代表機械的、復古的過去,而清新的現代紫色代表現在)有助於將資料語義和視覺形式聯絡在一起。

進行資料科學意味著必須接受不完美。沒有模型可以完全再現現實,而且有些資料對我來說仍然是神秘的。例如:為什麼“substantially”的使用在 1868 年之後大幅下降?(我懷疑是與新字型相關的 OCR 錯誤。)其他問題是調查的起點:為什麼“tomato”在 1978 年達到峰值?每一個新的發現都會激發好奇心,我鼓勵其他人將這個資料集視為新問題的靈感,而不是客觀和最終的衡量標準。

www.scientificamerican.com/interactive/science-words 親自探索資料

Moritz Stefaner,常駐德國,是一位獨立設計師和顧問,具有認知科學和介面設計背景。他的工作平衡了分析和美學方面,在映射覆雜現象以支援資料驅動的決策方面。

更多作者 Moritz Stefaner 的文章
大眾科學雜誌 第 323 卷 第 3 期本文最初以“How to Process History”為標題發表於 大眾科學 Magazine Vol. 323 No. 3 (), p. 34
doi:10.1038/scientificamerican0920-34
© .