“寫這張便條的人是德國人。你注意到這句話的特殊結構了嗎?” 這些是夏洛克·福爾摩斯在《波西米亞醜聞》中分析一位客戶的便條時說的話,揭露了化名隱藏的波西米亞國王,並且順便確立了自己作為一位傑出的文學分析師的地位。任何秘密都無法逃過傳奇人物夏洛克·福爾摩斯的眼睛,他可以從一滴水中窺見大海。正如紙上會留下皇家手指的印記一樣,對於熟練的讀者來說,文字也留下了皇家思想的印記。
隨著文體學(研究寫作風格的科學)的進步,虛構已逐漸變成現實。1964 年,弗雷德里克·莫斯特勒和戴維·華萊士發表了一項關於《聯邦黨人文集》中常用詞語分佈的三年研究,表明亞歷山大·漢密爾頓和詹姆斯·麥迪遜的寫作風格存在細微差異。例如,只有麥迪遜使用了“whilst”一詞(漢密爾頓則使用“while”代替)。更微妙的是,雖然漢密爾頓和麥迪遜都使用了“by”一詞,但麥迪遜的使用頻率更高,以至於可以透過觀察該詞的使用頻率來猜測誰寫了哪篇文章。莫斯特勒和華萊士將這項工作進行了總結,並能夠證明某些“有爭議”的文章(漢密爾頓和麥迪遜都聲稱是自己所寫)極有可能出自麥迪遜之手。如今,計算機可以在幾秒鐘內完成這種型別的分析,無論是揭露偽裝成自殺的謀殺案,研究一首匿名的中世紀詩歌,解決關於作者署名的爭議,甚至為難民提供政治庇護。例如,在最後一個案例中,一位批評壓迫性外國政府的人以他在網上撰寫和發表的文章為依據申請政治庇護。然而,問題在於這些文章是以匿名方式發表的。在僅僅憑藉懷疑就足以監禁的地方,這不一定會阻止壓迫性的秘密機構。但是這項技術能夠讓移民法官相信這些檔案的作者身份,從而讓他留下來。
在過去十年中,我開發了一個計算機程式,基於數百萬種不同的特徵,進行這種寫作風格分析。該程式將獲取一段寫作樣本,並根據相似性確定一組作者中最有可能撰寫該樣本的人。今年 7 月,我收到倫敦《星期日泰晤士報》一位記者的電子郵件,詢問我是否可以幫助他們解開一個謎團。記者收到訊息,J.K. 羅琳秘密地以筆名寫了一本小說:《布穀鳥的呼喚》,作者是羅伯特·加爾佈雷思,據稱是皇家憲兵隊的前成員,其小說“直接來源於他自己及其軍事朋友的經歷”。這個訊息至少是可信的。羅琳和加爾佈雷思擁有相同的經紀人和編輯。這本書對於一位所謂的首次小說家來說,完成度異常之高。而加爾佈雷思,一個表面上在軍中服役多年的人,卻非常擅長描寫女性的服裝。但是仍然缺乏確鑿的證據。記者想知道計算機程式可以確定什麼。
關於支援科學新聞
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。透過購買訂閱,您正在幫助確保關於當今塑造我們世界的發現和想法的具有影響力的故事的未來。
語言使用是一系列個人選擇。例如,英語提供了大量的詞彙來描述比大還大的東西,例如“huge”、“giant”、“enormous”或“colossal”。作家可以選擇用一些精確的詞或一堆常見的通用詞來表達一個想法,同樣可以將一個複雜的想法分解成或不分解成便於理解的簡單句子。我們甚至沒有意識到許多這些選擇。
在一項著名的實驗中,心理學家表明,人們對句子的整體意義的記憶比他們逐字回憶句子的能力要好得多。例如,聽到這句話的人——“浣熊爬上了樹,狗在它們周圍跑來跑去”——幾分鐘後被問及他們是否聽過這句話:浣熊爬上了樹,狗在它周圍跑來跑去。如果您閱讀速度很快,您可能沒有注意到最後一個詞的細微變化。大多數受試者也無法區分。只要人們理解句子的含義(狗在一些浣熊所在的一棵樹周圍跑來跑去),人們就不會太在意這些常見的微小詞語,但是作者的指紋在代詞的選擇中是可見的。
我開發的程式 JGAAP(Java 圖形作者歸屬程式)對大量特徵的相似程度進行數學分析,這些特徵太多了,任何人工分析員都無法跟蹤。例如,莫斯特勒和華萊士研究了大約三十個不同的詞。JGAAP 可以跟蹤一組百科全書中的每個詞。透過檢視加爾佈雷思的語言選擇,該程式可以量化羅琳和加爾佈雷思之間的相似程度。如果他們完全不同,這可以有效地排除羅琳作為作者的可能性,並使該訊息失效。如果他們非常相似,尤其是與其他同類型作者相比,則表明她很可能是作者。雖然這不能證明羅琳寫了這本書,但它將是客觀證據的有力形式。
仔細決定要檢視哪種相似之處非常重要。並非所有選擇都是平等的;某些選擇(例如詞長)比其他選擇(例如介詞的使用)更容易被注意到、控制和更改。檢查多種不同的特徵通常比僅檢查少數特徵更好,並且執行多次分析以檢視它們是否一致。對於此分析,我選擇了四組獨立的特徵,這些特徵已被證明可以提供有關作者身份的有用資訊。同樣重要的是,它們彼此之間也相對獨立,因此它們可以相互交叉檢查。例如,我使用的一個變數是詞長的分佈。每本小說都有很多詞,每個詞都有一個長度,因此可以獲得一個可靠的描述,即本文件中如此這般的百分比的詞具有如此這般數量的字母。我能夠獲得相似性的度量,其中 0.0 代表相同,數字越高表示差異越大。
另一個特徵是 100 個最常見的詞。“the”佔文件的百分比是多少,“of”佔文件的百分比是多少等等。這又是一個可以很容易地透過計算機提取的豐富資料集。最後,我運行了兩個基於作者詞彙的測試。第一個測試是字元 4-gram 的分佈,即四個相鄰字元的組。這些可以是單詞、單詞的一部分(如“inside”一詞中的四個字母“nsid”)甚至可以是兩個單詞的一部分(如短語“in the”中的四個字母“n th”)。我也運行了單詞二元組的測試,即相鄰單詞對(如“pairs of”、“of adjacent”和“adjacent words”),這又是具有良好記錄的特徵。這種方法的一個優點不幸也是一個缺點。由於跟蹤了數千個特徵,因此很難指出任何一小部分特徵並說“這些就是讓它像羅琳的原因”。文體學,就像體育運動一樣,通常是一寸之爭。
對於這項研究,我和記者選擇了一本羅琳的小說以及三位相似的小說家(均為英國女性犯罪小說家:羅琳自己的《偶發空缺》、露絲·倫德爾的《聖齊塔協會》、P.D. 詹姆斯的《私人病人》和瓦爾·麥克德米德的《血絲》)的故事,以檢視哪個與加爾佈雷思最相似。在這四項分析中,羅琳是唯一一位在風格上始終匹配的作家。例如,瓦爾·麥克德米德使用單詞對的方式與加爾佈雷思非常相似,但她對長短詞語的使用與加爾佈雷思非常不同。詞長分佈與羅琳或詹姆斯相似。
解釋這些結果可能很棘手,但簡單的統計資料可以說明這種匹配有多麼緊密。首先,除羅琳之外的所有作者都顯然被至少一項測試排除在外。無論《布穀鳥》的作者是誰,她都不是露絲·倫德爾。對於四位作者,隨機選擇的作者與詹姆斯最接近的可能性與與麥克德米德最接近的可能性相同,或者與羅琳不同的可能性與與倫德爾不同的可能性相同。如果作者不是這四位中的任何一位,那麼她“接近”加爾佈雷思(意味著列表中最有可能的兩位作者之一)的可能性與“遙遠”(第三或第四位候選人)的可能性相同。換句話說,如果羅琳沒有寫《布穀鳥》,她只有 50/50 的機會擁有相似的詞長。她也只有 50/50 的機會擁有相似的詞對、相似的字元簇或相似的常用詞。只有 1/16 的作家“幸運”地擁有與加爾佈雷思如此相似的寫作風格。如果羅琳不是作者,那麼爆料者只有約 6% 的機會命名一位風格如此相似的人。
這是否“證明”了羅琳的作者身份?當然不是。即使 DNA 也無法做到這一點;DNA 匹配僅僅意味著相關人員或具有相似基因(可能是家庭成員)的人參與其中。文體學的可靠性和準確性遠不如 DNA——畢竟,您的 DNA 在您的一生中是恆定且絕對不變的,但如果兩本小說完全沒有變化,它們將是同一本小說。我們真正知道的是,它要麼出自羅琳本人之手,要麼出自一位與羅琳寫作風格非常相似的人之手。但這對於《星期日泰晤士報》聯絡她的經紀人來說已經足夠了。2013 年 7 月 13 日,她承認《布穀鳥的呼喚》是她的作品,她希望透過以筆名出版來獲得沒有期望的反饋。
這項技術顯然是一把雙刃劍。如果可以透過計算機分析來識別羅琳,那麼舉報人呢?是否有人可以免受現代版夏洛克無所不見的眼睛的窺探?目前,是的。真正侵犯羅琳隱私的人不是我的計算機,甚至不是《星期日泰晤士報》的記者,而是首先建議進行調查的爆料者。檢視每個潛在的作者以檢視誰可能寫了一本書是不可行的。沒有傳統的偵探工作(和線人),大海撈針仍然足夠大,以至於針可以成功隱藏。
您是否是專門研究神經科學、認知科學或心理學的科學家?您是否讀過最近發表的、您想撰寫的同行評審論文?請將建議傳送給“心靈事記”編輯加雷思·庫克,他是一位普利策獎獲獎記者,也是NewYorker.com的定期撰稿人。加雷思也是《美國最佳資訊圖表》的系列編輯。您可以透過 garethideas AT gmail.com 或 Twitter @garethideas聯絡他。