新工具透過谷歌圖書追蹤幾個世紀以來的文化

“文化組學”領域有望為人文研究者提供一個強大的定量工具,以分析追溯到16世紀的文化趨勢


關於支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。 透過購買訂閱,您正在幫助確保未來能夠繼續產出關於塑造我們當今世界的發現和想法的具有影響力的報道。


文化 能否像基因組一樣被解碼?哈佛大學的一個團隊已經與谷歌合作,破解了5,195,769本數字化書籍的脊背,這些書籍跨越了印刷文字的五個世紀,希望能為人文科學提供更量化的研究工具。

谷歌圖書Ngram Viewer於12月16日線上釋出,並在科學雜誌上的一篇論文中進行了描述,它允許網路使用者根據n元語法(一種自然語言序列建模方法)查詢他們各自感興趣的領域。

•    愛因斯坦究竟在文化意識中紮根有多深?

•    在過去150年中,對進化的興趣是否一直在穩步增長?

•    超級英雄是否一直以“拯救世界”為己任?

諸如此類的問題催生了大量的本科和研究生論文,這些論文傳統上需要花費大量時間在書庫——或JSTOR——中搜索提及的內容,以便手工統計和進行大量的細讀。

但是,一股將更多定量分析引入人文科學的趨勢正在興起,例如在耶魯大學的英語系研究中使用認知科學和核磁共振成像,正如《紐約時報》在四月份報道的那樣。社會科學家和人文學者已經透過PerseusWordHoard涉足定量研究領域。 就像物理科學一樣,更多——以及更好的——資料可以帶來更可靠的結果。 哈佛大學工程與應用科學學院大型實驗室和學院院士Erez Lieberman Aiden說:“透過收集大量資訊,我們可以富有成效地思考文化。 “在收集了資料集之後,我們可以應用非常分析性和高通量的工具來理解[它]。”

哈佛大學團隊將其分析稱為“文化組學”,基於文化“就像生物學中的進化一樣可以研究”的理念,哈佛大學心理學系和進化動力學專案博士後研究員Jean-Baptiste Michel說,他與Aiden一起領導了這項研究。 研究人員認為,就像基因或表型隨時間變化一樣,文化情感也會隨之變化。

Aiden說,該工具將“像生物學一樣,你可以提出定量的問題,並且可以獲得定量的答案”。 但就像全基因組關聯研究(GWAS)一樣,研究結果通常只是起點。

一詞千金?
許多人文學者以興奮和擔憂並存的心情看待這種和其他基於定量的方法。 哥倫比亞大學英語與比較文學系副主任Nicholas Dames說:“詞頻是一種具有巨大潛力的工具。” 但他對僅使用頻率來解決“更細緻入微的問題,尤其是關於語義的問題”持保留意見。 

Dames解釋說,“自然”、“專業”和“紳士”等詞根據時間和地點已開始帶有不同的含義——“並且這些語義轉變的故事對於文化史而言比其使用頻率的定性指標更為關鍵。 我們可能像18世紀那樣頻繁地使用“自然”,但我們難道沒有為這個術語積累全新的含義,這些含義與各種科學和文化變革聯絡在一起嗎?”

圖書Ngram Viewer背後的研究人員承認,它不太可能取代經過實踐檢驗的細讀技術——就像GWAS並沒有消除對基礎科學研究和對照臨床試驗的需求一樣。

儘管該程式有能力透過單擊按鈕(俏皮地標記為“搜尋大量書籍”)生成整齊組織的分析結果,但Aiden堅持認為“我們當然不認為這個工具是答案機器。” 但該程式當然可以作為問題生成器。

例如,“進化”一詞頻率的演變揭示了一些意想不到的細微之處。 它在20世紀20年代中期之前總體呈上升趨勢,然後在1945年左右逐漸下降(從當年測量資料中約佔詞語的0.0035%降至約0.0025%)。 為什麼會出現下降——這是否重要? 研究人員不確定,並將此作為進一步研究的線索示例,Michel指出。

圖書Ngram Viewer還可以揭示一些人的受歡迎程度,例如,研究人員在論文中得出結論,在納粹德國出版的書籍中,猶太藝術家馬克·夏加爾的參考文獻明顯匱乏,這表明存在廣泛的審查制度。 (對於那些更熱衷於關注科學家的人來說,根據最近的一項搜尋,在20世紀60年代後期,“阿爾伯特·愛因斯坦”被提及的頻率超過了“查爾斯·達爾文”,但兩者在1975年至2005年左右都享有受歡迎程度的上升——研究人員發現,從長遠來看,弗洛伊德的排名高於愛因斯坦或達爾文。)

Michel說,分析工具也可能提供“一個有趣的例子,說明我們如何在意想不到的地方思考”。 例如,他和他的團隊發現,長期以來一直是文學中慣用手法的超級英雄的終極挑戰,並非總是拯救世界。 相反,在搜尋資料庫後,他們發現,在兩次世界大戰之前,“總的來說,過去是拯救國家”。 但他指出,在20世紀,更全球化的敏感性也導致了“英雄的全球化”。

沒有參與新論文的Dames並不完全相信“該方法會真正受到原本不傾向於定量方法的人文學者的歡迎,除非產生真正令人驚訝——或有爭議——的結果。” 到目前為止,他發現報告的頻率相當可預測,儘管這可能證明該方法正在奏效,他指出。

為資料除塵
當考慮到資料的明顯混亂——且可能發黴——的來源時,清晰的線條和整潔的圖表可能會引起一些警惕。 “我們的方法當然不是完美的,”Michel說。 例如,舊作品的新版本或翻譯作品會記錄在其出版的年份和語言中。

儘管包含的書籍大部分是用英語寫的(約佔72%),但使用者也可以搜尋用法語、西班牙語、德語、中文、俄語和希伯來語寫的作品。 隨著時間的推移,資料也變得更加可靠,只有少數書籍來自16世紀早期,到20世紀,每年編目的印刷文字達數十億。

谷歌一直在與大學圖書館、出版社和其他組織合作,以獲取儘可能多的書籍的數字掃描件。 Michel和他的同事選擇了迄今為止已數字化的書籍的三分之一左右(約500萬冊,總共約1500萬冊),這約佔已出版書籍的4%。 Michel說:“我們的首要標準是獲取具有高質量元資料的書籍。” 當書籍的出版日期在元資料中被錯誤地註明時,它會扭曲該資料集,因此排除了那些附有錯誤資訊的卷冊。

即使使用較小的數字作品樣本,圖書Ngram Viewer的當前資料集和分析工具也花費了大約四年的時間才組合在一起。 Michel說,當我們開始時,這是“我們個人的愚蠢之舉——我們沒有意識到這會花費多長時間。” 目標是擴大可搜尋的語料庫——不僅要增加更多卷冊,還要增加雜誌、報紙、部落格,甚至是非文字產品,例如藝術品。

Dames指出,除了來源型別之外,擴大搜索單元的範圍將增加這類定量方法的價值,並補充說,能夠研究體裁和敘事形式的轉變等事物至關重要。 “這似乎將是人文科學定量工作的下一個必要前沿:對大於單個詞彙的形式的研究。” 

與此同時,研究人員鼓勵公眾在該網站上進行搜尋——或下載龐大的資料集以進行自己的分析。 Michel說:“我認為在一段時間內,這可能是一個奇蹟的來源。” 例如:儘管“拖延”一詞的頻率早在19世紀中期就達到了頂峰,但自2000年以來一直在攀升。

© .