英語語言的隨機漫步

一位虔誠的宗教信徒和一位堅定的無神論者之間的爭論如何導致了一項重大的數學突破

A bearded man in 19th-century garb and a man with a moustache, in dress of the same vintage.

Alamy

這是一個 克勞德·夏農,資訊理論的創始人,在1948年發明的遊戲。他試圖將英語語言建模為一個隨機過程。去你的書架,拿起一本隨機的書,開啟它,指向頁面上的一個隨機點,並標記你看到的最初兩個字母。假設它們是 I 和 N。將這兩個字母寫在你的紙上。

現在,從書架上拿起另一本隨機的書,翻閱它,直到你連續找到字母 I 和 N。無論“IN”後面的字元是什麼——例如,它是一個空格——那就是你書中的下一個字母。現在你拿起另一本書,尋找一個 N 後面跟著一個空格,一旦你找到一個,標記下下一個字元是什麼。重複這個過程,直到你得到一段話

“IN NO IST LAT WHEY CRATICT FROURE BIRS GROCID


關於支援科學新聞

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。


PONDENOME OF DEMONSTURES OF THE REPTAGIN IS

REGOACTIONA OF CRE”

那不是英語,但它看起來有點像英語。

夏農對英語語言的“熵”感興趣,這是他在他的新框架中對一段英語文字包含多少資訊的一種度量。夏農遊戲是一個 馬爾可夫鏈;也就是說,這是一個隨機過程,你下一步採取的行動僅取決於過程的當前狀態。一旦你處於 LA, “IN NO IST” 就無關緊要了;下一個字母是,比如說,B 的機會是,在你的圖書館中隨機選擇的“LA”例項之後跟隨 B 的機率。

顧名思義,這個方法並非他首創;它幾乎早了半個世紀,而且它來自於,在所有事情中,一場在沙皇俄國晚期數學界發生的惡性數學/神學爭論。

幾乎沒有什麼東西比真正的宗教信徒和運動無神論者之間的口頭戰爭更讓我覺得在本質上是智力貧瘠的。然而,至少這一次,它導致了一項重大的數學進步,其回聲至今仍在迴盪。其中一位主要人物,在莫斯科,是帕維爾·阿列克謝耶維奇·涅克拉索夫,他最初接受過東正教神學家的培訓,後來轉向數學。他在聖彼得堡的對手是他的同代人 安德烈·安德烈耶維奇·馬爾可夫,一位無神論者,也是教會的死敵。他給報紙寫了很多關於社會事務的憤怒信件,並廣為人知,被稱為 Neistovyj Andrei,“憤怒的安德烈。”

細節有點太多,這裡就不深入探討了,但要點是:涅克拉索夫認為他找到了自由意志的數學證明,證實了教會的信仰。對於馬爾可夫來說,這是神秘的胡說八道。更糟糕的是,這是穿著數學外衣的神秘胡說八道。他發明了馬爾可夫鏈,作為一種純粹機械地產生,但卻顯示出涅克拉索夫認為保證自由意志的相同特徵的隨機行為的例子。

馬爾可夫鏈的一個簡單例子:一隻蜘蛛在一個標有 1、2、3 角落的三角形上行走。在時鐘的每次滴答聲中,蜘蛛從它當前的位置移動到與它相連的另外兩個角落之一,隨機選擇。所以,蜘蛛的路徑將是一串數字

1, 2, 1, 3, 2, 1, 2, 3, 2, 3, 2, 1 …

馬爾可夫從像這樣的抽象例子開始,但後來(也許是受夏農的啟發?)將這個想法應用於文字字串,其中包括亞歷山大·普希金的詩歌《葉甫蓋尼·奧涅金》。為了數學的緣故,馬爾可夫將這首詩看作是一串子音和母音,他手工對它們進行了費力地編目。子音後的字母有 66.3% 是母音,33.7% 是子音,而母音後的字母只有 12.8% 是母音,87.2% 是子音。

所以,你可以像夏農製作假英語一樣製作“假普希金”;如果當前字母是母音,則下一個字母是母音的機率為 12.8%,如果當前字母是子音,則下一個字母是母音的機率為 66.3%。結果不會很有詩意;但是,馬爾可夫發現,它們可以與其他俄羅斯作家的馬爾可夫化輸出區分開來。他們的風格的一些東西被這條鏈捕捉到了。

如今,馬爾可夫鏈是探索比詩歌更一般的概念實體空間的基本工具。選舉改革者就是用它來識別哪些立法地圖是殘酷的傑利蠑螈,谷歌也是用它來計算哪些網站最重要(關鍵是一個馬爾可夫鏈,在每一步你都在一個特定的網站,下一步是跟隨該網站的隨機連結)。像 GPT-3 這樣的神經網路所學習的——使其能夠產生對人類書寫文字的不可思議的模仿——是一個巨大的馬爾可夫鏈,它指導它如何在 500 個單詞的序列之後選擇下一個單詞,而不是在兩個單詞的序列之後選擇下一個字母。你所需要的只是一個規則,告訴你給定上一步是什麼,什麼機率支配鏈中的下一步。

你可以用你的家庭圖書館,或者《葉甫蓋尼·奧涅金》,或者 GPT-3 可以訪問的龐大文字語料庫來訓練你的馬爾可夫鏈;你可以用任何東西來訓練它,這條鏈都會模仿那個東西!你可以用 1971 年的嬰兒名字來訓練它,得到

肯迪,珍妮,艾比,弗勒雷梅拉,簡,斯塔洛,卡明,貝蒂莉亞 …

或者 2017 年的嬰兒名字

阿納基,艾瑪麗,陳,傑莉,埃利夫,布蘭什,納維爾,科比,盧克斯頓,納夫塔林,雷爾森,阿拉娜 …

或者 1917 年的

文西,阿黛爾,阿伍德,沃爾特,萬德利奧特利,凱瑟琳,弗蘭,厄內特,卡盧斯,哈澤利亞,奧伯塔 …

馬爾可夫鏈,儘管它很簡單,但不知何故捕捉到了不同時代命名風格的一些東西。人們幾乎將其體驗為創造性的。其中一些名字還不錯!你可以想象一個名叫“傑莉”的小學孩子,或者,為了懷舊的感覺,可以叫“文西”。

但也許不是“納夫塔林”。即使是馬爾可夫也點頭同意。

© .