自20世紀90年代以來,計算機在擊敗人類的遊戲方面不斷進步,例如象棋、跳棋、撲克和《危險邊緣!》。但是,有一項遊戲是人類專家玩家持續優於機器的:圍棋。這項擁有2500多年曆史的棋盤遊戲非常複雜,兩位玩家使用黑白棋子試圖比對手佔領更多領地,這使得計算機難以掌握。但人類在圍棋上的優勢似乎終於結束了——谷歌DeepMind的研究人員今天宣佈,他們創造了一個複雜的人工智慧(AI)程式——深度神經網路和搜尋技術的結合——在歷史上首次擊敗了圍棋冠軍。
去年十月在倫敦,DeepMind團隊邀請了歐洲圍棋冠軍樊麾與他們的程式對弈,
AlphaGo。這場比賽是私密的,只有少數觀眾見證。樊麾和AlphaGo在一個19x19的完整棋盤上進行對弈。AlphaGo此前已經與最先進的圍棋程式(如Crazy Stone和Zen)進行了測試,並在495場比賽中贏得了除一場之外的所有比賽。但是,與人類專家對弈比與其他計算機對弈更具挑戰性,因為職業棋手仍然要優秀得多——他們擁有多年的遊戲經驗,並且對如何下棋有一定的直覺。因此,當AlphaGo以5-0贏得比賽時,這是一件大事。
支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。透過購買訂閱,您正在幫助確保未來能夠繼續報道關於發現和塑造我們當今世界的想法的具有影響力的故事。
許多人預測,計算機至少在未來10年內不會擊敗圍棋冠軍。“這種效能的飛躍是完全出乎意料和前所未有的,”亞馬遜的軟體工程師、計算機圍棋程式的建立者David Fotland說,他沒有參與這項研究。
要理解DeepMind的研究人員為建立如此令人印象深刻的程式所做的工作,您首先必須瞭解為什麼圍棋對計算機來說是一項如此難以精通的遊戲。首先,圍棋有極其多的可能走法和結果——據研究人員稱,圍棋中可能的局面比宇宙中原子的數量還要多。該研究的作者之一,DeepMind的聯合創始人Demis Hassabis將圍棋與象棋進行了比較,他說,在一盤象棋遊戲中,平均每回合有20種可能的走法,而在圍棋中,每回合平均有200種可能的走法。這意味著,如果計算機要搜尋圍棋中所有可能的走法和結果,就需要大量的計算能力,有些人認為這甚至是不可能的。
阿爾伯塔大學的計算機科學家Jonathan Schaeffer解釋說,計算機難以掌握圍棋的另一個原因是,圍棋玩家需要大量的知識儲備——過去的對弈經驗——來借鑑。“對於象棋,你可以輸入少量的知識,就可以構建一個強大的遊戲程式,”未參與這項研究的Schaeffer說,“但在圍棋中你不能。” 這是因為在象棋中,計算機可以遵循預先設定的規則,但將這種策略用於圍棋是行不通的,因為圍棋主要關於模式,而不是可以寫下來的一套邏輯規則。
DeepMind團隊的系統解決了大規模搜尋和知識匱乏這兩個問題。在本週《自然》雜誌上發表的一項新研究中,他們描述瞭如何結合搜尋技術和深度學習來克服這些障礙。(《大眾科學》是自然出版集團的一部分。)
為了解決知識問題,他們使用了所謂的深度神經網路——在本例中是兩個13層深的神經網路,由數百萬個連線組成,類似於人腦中的神經連線。研究人員使用兩種方法訓練這些網路:對於一個網路,他們向計算機展示了來自人類專家對弈的超過3000萬步棋(這有助於系統學習最佳棋手如何獲勝);對於這兩個網路,研究人員都讓計算機與自己對弈數千局,以便它可以發現新的策略並自主學習遊戲。這兩種訓練策略使計算機能夠識別遊戲中的模式,並確定哪些走法使其獲勝的機率最大。
為了解決棘手的搜尋問題,研究人員利用了一種稱為蒙特卡洛樹搜尋的特殊搜尋技術。這種方法已經存在多年,並被用於其他計算機遊戲程式中,它本質上允許系統使用統計資料作為捷徑來確定最佳走法,而不是窮盡給定走法的每一種可能結果(在圍棋中這將花費永遠的時間)。
DeepMind團隊使用的搜尋技術和深度學習工具並非新事物。許多計算機圍棋程式已經使用了蒙特卡洛樹搜尋,並且也使用了神經網路。但使DeepMind的AlphaGo如此先進的原因在於他們將這些工具組合在一起的方式,以及深度神經網路的高效能。“主要的創新之處在於他們如何將這些不同的要素結合在一起——他們在這方面進行了創新,”未參與這項工作的蒙特利爾大學計算機科學家Yoshua Bengio說。Schaeffer表示他對結果印象深刻:“這是一種比過去人們所做的更簡單、更全面的方法,而且更優雅,”他說,“我認為這是一個巨大的進步。” 這正是AlphaGo在與樊麾的比賽中勝出的原因——計算機以5-0獲勝。
儘管並非所有人都在意計算機擊敗圍棋冠軍,但這一進步在其他領域也很重要。Hassabis說,構建該系統的研究人員使用“通用方法”而不是建立專門用於下圍棋的程式,目的是“最終將這些技術應用於重要的現實世界問題”,“我們希望有一天它們可以擴充套件到幫助我們解決社會上最棘手和最緊迫的一些問題,從氣候建模到複雜疾病分析。” Yoshua Bengio表示,另一個可能的重要應用是在計算機對話方面,Schaeffer表示,未來這些程式可能能夠為可以表達為遊戲的抽象社會問題(如國家政治或國際氣候談判)提出答案。
但AlphaGo首先有一個更緊迫的問題:如何擊敗世界最佳圍棋棋手李世乭。今年三月,兩人將在韓國首爾對弈。儘管AlphaGo對陣樊麾表現出色,但Schaeffer和Fotland仍然預測李世乭將贏得比賽。“我認為職業棋手會贏,”Fotland說,“但我認為職業棋手會對這個程式的強大程度感到震驚。” 目前,至少有些人仍然將賭注押在人類身上。
