上帝移動棋手, 棋手反過來移動棋子。 但在上帝之上的 神是誰開始了 塵土、時間和 睡眠和痛苦的輪迴?
——豪爾赫·路易斯·博爾赫斯,《象棋》,1960年
計算機程式 AlphaGo 在三月份戰勝了世界頂尖圍棋選手之一,這標誌著蓬勃發展中的機器學習和人工智慧領域迄今為止取得的最高成就。 這臺計算機在首爾舉行的備受矚目的比賽中以 4 比 1 的懸殊比分擊敗了李世乭,李世乭是一位非常古老而傳統的棋盤遊戲圍棋的選手。 隨著這次失敗,計算機在最後一種古典棋盤遊戲中勝過了人類,圍棋以其深度和簡潔性而聞名。 一個時代結束了,一個新的時代開始了。 AlphaGo 及其最近的勝利背後的方法對機器智慧的未來具有驚人的意義。
橫空出世
關於支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。 透過購買訂閱,您將有助於確保未來能夠繼續刊登關於塑造我們當今世界的發現和思想的具有影響力的故事。
AlphaGo 登上圍棋世界之巔的歷程令人驚歎,並且與機器下國際象棋的軌跡截然不同。 在十多年的時間裡,IBM 聘請的一支由硬體和軟體工程師組成的專門團隊構建並程式設計了一臺名為“深藍”的專用超級計算機,它只做一件事:透過每秒評估 2 億個棋盤位置來下國際象棋。 在一個廣受期待的進展中,IBM 團隊向當時的國際象棋世界冠軍加里·卡斯帕羅夫發起了挑戰。 在 1996 年進行的一場六局比賽中,卡斯帕羅夫以三勝兩平一負的戰績戰勝了深藍,但在一年後的歷史性複賽中以 3.5 比 2.5 輸給了深藍。(平局情況下,計分規則允許半分。)
國際象棋是一種經典的策略遊戲,類似於井字棋、跳棋、黑白棋(奧賽羅)、雙陸棋和圍棋,玩家輪流放置或移動棋子。 與玩家只能看到自己的牌和所有棄牌的遊戲不同,玩家可以完全訪問相關資訊,機會不發揮任何作用。
圍棋的規則比國際象棋的規則簡單得多。 黑白雙方各有裝有黑白棋子的碗,每方輪流將一枚棋子放在 19x19 的棋盤格上。 棋子一旦放置,就不會移動。 這種起源於 2500 多年前中國的遊戲的目的是完全包圍對方的棋子。 這種被包圍的棋子被認為是俘獲的,並從棋盤上移除。 從這種純粹的簡單性中,產生了偉大的美——黑白軍隊之間從棋盤的角落延伸到中心的複雜戰鬥。
嚴格的邏輯遊戲,如國際象棋和圍棋,可以用可能出現的局面數量來表徵——這是一個定義其複雜性的衡量標準。 根據遊戲的不同階段,玩家必須從少量可能的走法中選擇一種。 一盤典型的國際象棋遊戲可能有 10120 種可能的走法,這是一個巨大的數字,考慮到在整個可觀測的星系、恆星、行星、狗、樹木、人類宇宙中只有大約 1080 個原子。 但圍棋的複雜性要大得多——有 10360 種可能的走法。 這是一個超出想象的數字,使得徹底評估所有可能的走法變得完全不現實。
鑑於這種幾乎無限的複雜性,圍棋比國際象棋更側重於識別當成群的棋子包圍空白空間時出現的模式。 玩家有意識或無意識地感知棋子組之間的關係,並談論諸如棋子的“輕”和“重”形狀以及aji(意味著潛在可能性)等看似模糊的概念。 然而,與遊戲的正式規則相比,這些概念更難透過演算法捕捉。 因此,與國際象棋程式相比,計算機圍棋程式舉步維艱,並且沒有一個能在常規錦標賽條件下擊敗職業人類棋手。 這種事件預計至少在十年後才會發生。
然後,AlphaGo 透過今年 1 月 28 日在世界最受尊敬的科學雜誌之一《自然》雜誌上發表的一篇文章,突然進入公眾視野。 它的軟體是由一個 20 人組成的團隊開發的,團隊負責人是曾經的國際象棋神童、神經科學家,後來成為人工智慧先驅的戴密斯·哈薩比斯。 (他位於倫敦的 DeepMind Technologies 公司於 2014 年被谷歌收購。) 最有趣的是,《自然》雜誌的文章透露,AlphaGo 在 2015 年 10 月與歐洲圍棋冠軍樊麾進行了比賽,並以 5 比 0 獲勝,且沒有讓人類棋手讓子,這在以前是從未聽說過的事情。 值得注意的是,AlphaGo 的演算法不包含任何真正新穎的見解或突破。 該軟體結合了良好的老式神經網路演算法和機器學習技術,以及在功能強大但相當標準的硬體上執行的出色軟體工程——48 箇中央處理器 (CPU),輔以八個圖形處理器 (GPU),這些 GPU 是為遊戲社群渲染 3D 圖形而開發的,並且功能非常強大,可以執行某些數學運算。
圍棋遊戲中可能走法的數量龐大,這要求 AlphaGo 的設計者為該軟體配備兩個獨立的網路。 使用類似人類的評估過程,策略網路(左)減少了需要考慮的走法數量; 價值網路(右)預測任何一個棋盤位置導致獲勝的機率。 來自戴維·西爾弗等人撰寫的《自然》雜誌第 529 卷中發表的“透過深度神經網路和樹搜尋掌握圍棋遊戲”一文;2016 年 1 月 28 日
計算的核心是神經網路,它是生物大腦中神經元迴路的遠親後代。 多層人工神經元處理輸入——19x19 圍棋棋盤上的棋子位置——並使用稱為卷積網路的東西來得出遊戲中各個方面越來越抽象的表示。 相同的技術使得最近在自動影像識別方面取得突破性進展成為可能——例如,標記釋出到 Facebook 的所有影像。
對於任何特定的棋盤位置,兩個神經網路協同執行以最佳化效能。 “策略網路”透過限制特定棋盤位置的走法數量來縮小遊戲範圍。 它透過學習為該位置選擇一小部分好的走法來實現這一點。 然後,“價值網路”估計給定的棋盤位置有多大可能導致獲勝,而無需追溯搜尋樹的每個節點。 策略網路生成可能的走法,然後價值網路判斷這些走法擊敗對手的可能性。 這些走法使用一種稱為蒙特卡羅樹搜尋的技術進行處理,即使僅探索完整博弈樹的一小部分,蒙特卡羅樹搜尋也可以實現最佳行為。
僅靠蒙特卡羅樹搜尋不足以讓這些程式在世界一流水平上競爭。 這需要賦予 AlphaGo 學習能力,最初是透過讓它接觸以前職業圍棋選手玩過的遊戲,隨後讓程式能夠與自己對弈數百萬局遊戲,從而不斷提高其效能。
在第一階段,一個 13 層的策略神經網路從一張白紙開始——之前沒有接觸過圍棋。 然後,它在從圍棋資料庫中提取的 160,000 場真實遊戲中的 3000 萬個棋盤位置上進行了訓練。 這個數字代表的遊戲數量遠遠超過任何職業棋手一生中會遇到的遊戲數量。 每個棋盤位置都與棋手選擇的實際走法配對(這就是為什麼這種技術被稱為監督學習),並且使用所謂的深度機器學習技術調整網路中模擬神經元之間的連線,以使網路在下一次更有可能選擇更好的走法。 然後,透過給網路一個它以前從未見過的遊戲中的棋盤位置來測試該網路。 它準確但遠非完美地預測了職業棋手選擇的走法。
在第二階段,策略網路使用強化學習進行了自我訓練。 這種技術是行為主義(20 世紀上半葉在心理學和生物學中占主導地位的一種思想流派)的持久遺產。 它宣稱這樣一種觀點,即生物體——從蠕蟲、蒼蠅和海蛞蝓到老鼠和人——透過將特定行為與之前的特定刺激聯絡起來來學習。 當它們一遍又一遍地這樣做時,生物體就會在刺激和反應之間建立聯絡。 這可以透過死記硬背來無意識地完成。
強化學習多年前已在神經網路中實施,以模擬動物行為和訓練機器人。 DeepMind 去年以驚人的方式展示了這一點,當時網路被教會如何玩 49 種不同的 Atari 2600 影片遊戲,包括影片彈珠檯、星際槍手、機器人坦克、公路賽跑者、乒乓球、太空侵略者、吃豆女士、異形和蒙特祖瑪的復仇。 (這是一個預兆:atari 是一個日語圍棋術語,表示即將捕獲一個或多個棋子。)
每次玩遊戲時,DeepMind 網路都會“看到”與任何人類玩家看到的相同的影片遊戲螢幕,包括當前分數。 網路的輸出是指示操縱桿在螢幕上移動游標的命令。 該演算法遵循程式設計師最大化遊戲分數的指令,並這樣做,並在成千上萬次的試驗中弄清楚了遊戲規則。 它學會了移動、擊中外星飛船並避免被它們摧毀。 對於某些遊戲,它取得了超人的表現。 AlphaGo 也部署了相同的強大強化學習演算法,從監督學習步驟之後策略網路的配置開始。
在第三個也是最後一個訓練階段,使用策略網路選擇的 3000 萬個自我生成的位置來訓練價值網路,該網路估計給定棋盤位置導致獲勝的可能性。 這種自我對弈的特性是人類無法複製的(因為它需要玩家的思想分裂成兩個獨立的“思想”),這使得該演算法能夠持續不斷地改進。
AlphaGo 的一個特點是,它會選擇一種最大化獲勝機率的策略,而不管贏多少。 例如,AlphaGo 寧願以 90% 的機率贏兩個子,也不願以 85% 的機率贏 50 個子。 很少有棋手會放棄稍微冒險的機會來徹底擊敗對手,而選擇險勝但更確定的勝利。
最終結果是一個程式,它的效能優於任何競爭對手,並擊敗了圍棋大師樊麾。 然而,樊麾並未躋身世界前 300 名棋手之列,而在頂尖棋手中,能力差異非常明顯,即使一生的訓練也無法讓樊麾擊敗像李世乭這樣的人。 因此,根據 AlphaGo 和樊麾之間公開的五場比賽,李世乭自信地預測他將統治 AlphaGo,以五比零獲勝,或者,也許在糟糕的一天,以四比一獲勝。 他沒有想到的是,他在首爾面對的程式是樊麾六個月前遇到的程式的改進版本,並透過無情的自我對弈進行了最佳化。
接下來是什麼?
深藍擊敗卡斯帕羅夫代表著機器蠻力戰勝了人類大腦。 它的成功是基於為此目的而構建的非常快速的處理器。 雖然它戰勝卡斯帕羅夫是史無前例的,但這場勝利並未帶來任何實際應用或衍生產品。 事實上,IBM 很快就退役了這臺機器。
AlphaGo 的情況不太可能相同。 該程式在現成的處理器上執行。 讓它訪問更多的計算能力(透過將其分佈在由 1,200 個 CPU 和 GPU 組成的網路上)只會略微提高其效能。 使其與眾不同的特性是 AlphaGo 將自己分成兩個,與自己對弈並不斷提高其整體效能的能力。 目前尚不清楚 AlphaGo 的改程序度是否有任何限制。 (但願我們老式的大腦也能這樣。) 這可能構成了任何智慧系統的核心,這是研究人員正在追求的聖盃——通用人工智慧,其力量和靈活性可以與人類智慧相媲美。
圖片由麻省理工學院博物館(明斯基)提供;圖片由 SRI International(沙奇)提供;蓋蒂圖片社(卡斯帕羅夫和李世乭)
最有可能的是,哈薩比斯的 DeepMind 團隊將考慮設計更強大的程式,例如可以從頭開始自學圍棋的版本,而無需依賴人類遊戲語料庫作為示例的版本,可以學習國際象棋的版本,可以同時在世界一流水平下跳棋、國際象棋和圍棋的程式,或者可以處理無限注德州撲克或類似的碰運氣遊戲的程式。
哈薩比斯和他的同事們非常值得稱讚地在他們的《自然》雜誌文章中詳盡地描述了用於生成 AlphaGo 的演算法和引數設定。 他們對已完成工作的解釋進一步加快了全球學術和工業實驗室人工智慧研究的瘋狂步伐。 這些基於試錯學習的強化演算法可以應用於無數具有足夠標記資料的問題,無論是金融市場、醫療診斷、機器人技術還是戰爭。 一個新的時代已經開始,它對就業模式、全民監控以及日益嚴重的政治和經濟不平等具有未知但可能具有紀念碑意義的中長期後果。
AlphaGo 對古老的圍棋遊戲本身有什麼影響? 儘管有末日預言家,但無處不在的國際象棋程式的興起重振了國際象棋,幫助培養了一代又一代更強大的棋手。 圍棋界也可能發生同樣的情況。 畢竟,任何汽車或摩托車的速度都比任何跑步者快的事實並沒有消除跑步的樂趣。 參加馬拉松比賽的人比以往任何時候都多。
事實上,可以認為,透過消除不斷證明自己是最好的需要,現在更多的人可能會為了圍棋本身的緣故,在這種至高無上的審美和智力遊戲中享受其樸素的光彩。 在古代中國,任何有教養的學者和紳士都被期望掌握的四藝之一就是圍棋。 正如有意義的生活必須為了其內在的原因而被生活和證明一樣,圍棋也應該為了其內在的價值——為了它帶來的樂趣而下。
編者注:本文改編自“計算機如何擊敗圍棋大師”一文。

