資訊理論找到了最佳 Wordle 起始詞

資訊理論可以幫助人們數學化地計算這個流行線上遊戲的最佳起始猜測詞

Hand of a smartphone user playing Wordle.

在 COVID 疫情肆虐並限制我們休閒選擇的過去幾年裡,您是如何度過的?軟體開發者 Josh Wardle 和他的伴侶透過 《紐約時報》 的填字遊戲打發時間。有一次,Wardle 想起了幾年前他想到的一個類似遊戲的想法。

他隨後建立的這個名為 Wordle 的文字遊戲,以他的姓氏命名,在 2022 年一炮而紅。Twitter 時間線充斥著 Wordle 的結果。儘管這個遊戲圍繞著猜測一個每天都在變化的單詞,但其背後有很多數學原理。

Wardle 在 2013 年提出了這個基本想法。您有六次嘗試來正確確定一個五個字母的單詞。您首先輸入一個單詞——例如,“start”——透過在五個空欄位中輸入字母。之後,這些欄位會改變顏色。如果字母在答案詞的完全相同的位置出現,則變為綠色;如果字母包含在答案詞的不同位置,則變為黃色;如果字母不是答案詞的一部分,則變為灰色。根據這些線索,您可以輸入第二個單詞並收集有關答案詞字母的資訊,直到您找到您正在尋找的答案。這個原理有點讓人想起 20 世紀 70 年代流行的遊戲 Mastermind。


支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們今天世界的發現和想法的具有影響力的故事的未來。


[閱讀更多關於數學遊戲和謎題的內容]

您可以輸入任何由五個字母組成的英文單詞,大約有 10,000 個。然而,由於該列表也包含非常不常見的表達方式,例如 “aahed”(“aah” 的過去式),因此答案詞是 一個更短的 2,309 個常用英語詞彙列表 的一部分。目標是在儘可能少的嘗試次數內找到答案詞。更令人興奮的是,您不能連續玩多次遊戲。每天只有一個答案詞——而且對於世界各地的所有玩家來說都是同一個詞。這種變化賦予了遊戲一種社交成分,這可能促成了它的流行。

意想不到的成功

但 Wardle 的目標根本不是全球性的廣受歡迎。他在 2021 年初再次拾起他的 Wordle 想法,製作一個易於使用的遊戲,以便和他的伴侶一起打發時間。有幾個月,他們是僅有的兩個使用者。在某個時候,他們的家人聽說了這個遊戲,Wardle 在 2021 年 10 月決定 在他的個人網站 上免費提供它,並且沒有廣告。此後不久,Wordle 就火爆起來。2021 年 11 月 1 日,每天有 90 位使用者玩 Wordle;到 2022 年 1 月 1 日,這個數字已經達到 30 萬。又過了一週,這個遊戲就有了 200 萬用戶

2022 年 1 月,《紐約時報》宣佈它 已收購 Wordle 的版權,價格為七位數美元的低端。這進一步擴大了遊戲的覆蓋範圍。到 2022 年 3 月,全球 數千萬人 至少玩過一次 Wordle。該遊戲的一個特殊功能是,在玩完遊戲後,您可以將遊戲中的顏色程式碼(即彩色遊戲欄位)下載為表情符號,並在社交媒體上分享,以便與他人比較。 大多數人平均需要大約四次嘗試 才能解決一個 Wordle。任何少於這個次數都被認為是成功。

如果您曾經嘗試過 Wordle,那麼您就會知道結果很大程度上取決於您選擇的起始詞。例如,“start” 不是一個非常明智的第一次嘗試,因為它包含字母 T 兩次。您浪費了五個位置中的一個,您本可以在這些位置收集有關其他字母的資訊。當然,您可能會幸運,答案詞也可能包含兩個 T——但在所有其他情況下,您都不會獲得任何資訊。根據《紐約時報》的說法,最受歡迎的起始詞 是 “adieu” 或 “audio”。由於這兩個詞都由許多母音組成,它們很快就能清楚地表明答案詞中包含哪些字母。但這真的是最佳選擇嗎?

資訊內容與命中率

也許最好從諸如 “Texas” 這樣的詞開始。如果答案詞中包含像 X 這樣的稀有字母,您將在第一步中清除 2,309 個可能的答案中的很大一部分。事實上,只有 37 個可能的單詞包含 X。然而,X 不出現在答案詞中的機率很高。在這些情況下,該資訊幾乎沒有任何價值。如果一個人知道答案中沒有 X,則可能性僅從 2,309 個減少到 2,272 個。因此,玩家必須問:“我重視儘可能多地獲取資訊嗎?還是我寧願有很高的正確猜測字母的機率?”

資訊和機率相關的事實並不新鮮。數學家克勞德·夏農,資訊理論的創始人,認識到這一點,並考慮到這種關係,定義了資訊內容的度量。假設有一個包含可能事件的空間——在我們的例子中,是 Wordle 的 2,309 個答案詞。那麼,一條資訊對應於將解空間減半的反饋,例如,如果答案詞包含字母 S(例如,大約一半的答案至少包含一個 S)。

兩條資訊清除四分之三的答案——例如,當答案詞包含 T 時。而有了三條資訊,只剩下八分之一的單詞。這意味著,一個字母包含在答案中的可能性越大,其資訊內容就越小。

對於每條資訊,可能性都會減半。例如,如果 Wordle 答案詞包含字母 S,這將減少一半可能的答案詞。 來源:《科學 spectrum》/Manon Bischoff

這個想法可以用數學方式表達。找到具有特定屬性(例如字母 A)的單詞的機率 (p) 可以透過將包含 A 的單詞總數(表示為 MA)除以所有單詞的數量 (M) 來計算。所以 p = MA / M。與此同時,資訊 (I),意思是“單詞包含 A”,將所有可能性的空間 (M) 減少了 ½I 倍。我們可以將其表示為 MA = ½I x M

透過將兩個方程式相互代入,可以得出一個結合了資訊內容和機率的公式:p = ½I x M / M,所以 p = ½I。這也可以反過來求解 II = –log2p

夏農在 1948 年 發現了機率和資訊內容之間這種驚人的聯絡。根據 1971 年 發表在《大眾科學》 上的一篇文章,夏農說:“我最關心的是如何稱呼 [這個新量 I]。我曾想稱它為 ‘資訊’,但這個詞用得太濫了,所以我決定稱它為 ‘不確定性’。當我與 [計算機科學家、物理學家和數學家] 約翰·馮·諾依曼討論時,他有一個更好的主意。馮·諾依曼告訴我,‘你應該稱它為熵,有兩個原因。首先,你的不確定性函式已經在統計力學中以這個名稱使用,所以它已經有一個名稱了。其次,也是更重要的,沒有人真正知道熵是什麼,所以在辯論中你將永遠佔據優勢。’”

從那時起,上面定義的量 I 就被稱為熵。

回到 Wordle。熵可以幫助我們找到合適的起始詞。一個詞的熵越高,資訊增益就越高。然而,高熵總是伴隨著低命中率,因此您應該找到這兩個因素的平衡,以選擇最佳的起始詞。

您可以計算所有可能輸入的熵期望值,正如數學家 Grant Sanderson 在他的 YouTube 頻道 3Blue1Brown 中所做的那樣。為了做到這一點,Sanderson 採取了以下步驟:首先,對於大約 10,000 個輸入詞中的每一個,他計算了基於 2,309 個答案詞可能出現的顏色模式的頻率。

例如,五個灰色方塊(所有字母都不正確)可能會出現 250 次。另一方面,一個綠色方塊後跟四個灰色方塊(第一個字母正確且位置正確)可能只出現 15 次,等等。顏色模式出現的頻率越高,在輸入一個單詞後遇到它的機率就越高。與此同時,顏色程式碼提供了可以用熵來衡量的資訊。由於一些答案詞被排除在外,因此解空間減少了。

在 Wordle 中輸入單詞 “soare” 可能會產生許多不同的顏色程式碼響應。 來源:《科學 spectrum》/Manon Bischoff

為了找出您從起始詞中平均會獲得多少資訊,您可以計算每個可能的關聯顏色程式碼的熵,並用其出現的機率對其進行加權。換句話說,您可以計算期望值。事實證明,單詞 “soare”(一種幼鷹的過時術語)表現最佳,期望值為 5.89 位元。這意味著,如果您從這個詞開始,可能的答案詞空間將平均縮小到 2–5.89,或可能性的 1.7%。因此,平均而言,仍然可能有大約 22 個答案詞。

從 “Soare” 開始,表現良好

Wordle 不僅包含一次猜測嘗試,而是多次。透過選擇兩個連續單詞的合適組合,與從 soare 開始相比,可能會更有效地限制可能的答案數量。

Sanderson 也遵循了這種方法。他按如下步驟進行:假設在輸入 soare 後,您得到五個灰色方塊。所以您只知道字母 S、O、A、R 和 E 不是答案詞的一部分。由此,Sanderson 檢查了對於所有可能的後續輸入,哪個第二顏色模式可能會出現,從而計算出第二個輸入詞的熵的期望值。如果在起始詞 soare 之後,所有欄位都是灰色的,則第二個輸入的最佳選擇是 “clint”。(順便說一下,clint 是一種堅硬的岩石。)

現在您可以搜尋對於在您輸入 soare 後可能出現的其他顏色模式,最合適的第二個單詞是什麼。例如,對於一個綠色方塊後跟四個灰色方塊,“thilk”(另一個過時的術語,意思是 “that” 或 “this”)給出了最佳結果。如果我們現在用相應的機率對第二個單詞的熵進行加權,我們得到的值為 4.11。這意味著,使用起始詞 soare,我們平均獲得 5.89 位元的資訊,而使用最佳的第二個單詞,我們又獲得 4.11 位元。如果一個人完美地玩 Wordle,那麼在兩次嘗試後,他將平均獲得 10 位元的資訊——也就是說,解空間將減少 2–10 倍,平均留下 2.25 個答案詞。

如果您已將 soare 作為 Wordle 中的第一個單詞輸入,則最佳的第二個單詞將取決於您收到的顏色程式碼。 來源:《科學 spectrum》/Manon Bischoff

“Slane” 作為更佳策略

如果您檢視兩個詞的最佳組合,另一個選擇被證明更強大:“slane”(一種用於挖掘泥炭的特殊鏟子)。這個起始詞平均僅提供 5.77 位元的資訊,但使用最佳的第二個輸入,您平均會收到另外 4.27 位元。這使總數達到 10.04 位元,並將 2,309 個可能性減少到平均 2.19 個單詞。

如果您想 設計一個儘可能精通的 Wordle 演算法,考慮第二個單詞的選擇非常重要。但對於人類玩家來說,這種策略可能並不重要。畢竟,不可能記住對於 slane 之後出現的每種顏色模式,哪個後續單詞最合適。因此,無論您使用 soare 還是 slane 開始遊戲,應該沒有太大區別。

然而,在玩 Wordle 時考慮資訊理論還是非常有用的,正如《量子雜誌》令人印象深刻地說明的那樣。假設您使用 “bloat” 開始遊戲,並得到灰色、灰色、灰色、黃色、黃色。那麼您就知道答案詞包含 A 和 T(但在不同的位置),並且不包含 B、L 或 O。其次,您嘗試用 “watch” 碰碰運氣,您幾乎就要成功了:第一個欄位是灰色的;其他四個是綠色的。所以第一個字母是錯誤的,但所有其他字母都是正確的。您接下來該怎麼做?

您接下來會輸入什麼詞? 來源:《科學 spectrum》/Manon Bischoff

您現在可以簡單地猜測,例如,“match”。但是——假設您正在玩常規 Wordle,而不是困難模式——從資訊理論的角度來看,您應該輸入 “chimp”。

當然,chimp 不可能是答案。但它有助於縮小選擇範圍。在輸入 watch 之後,仍然有四個詞浮現在腦海:catch、hatch、match 和 patch。如果您一個接一個地輸入這些詞,您仍然可以贏得遊戲,但您可能會表現不佳。另一方面,輸入 chimp 會揭示哪個起始字母(C、H、M 或 P)是正確的。因此,您在四次嘗試後贏得了遊戲。如果您喜歡冒險,您當然可以碰碰運氣,並希望在第三次嘗試中猜對正確的答案。

無論如何,我將來會使用 soare 作為我的起始詞。讓我們看看我下一次 Wordle 需要多少次嘗試。在我居住的德國,每位玩家的平均嘗試次數為 4.01 次。在美國,這個數字是 3.92 次。也許藉助資訊理論,我們將在未來幾個月內設法擊敗記錄保持者瑞典(平均:3.72 次嘗試)。

本文最初發表在《明鏡週刊·科學》,經許可轉載。

© .