AI 對 AI:自學成才的 AlphaGo Zero 擊敗了它的前身

DeepMind 的圍棋人工智慧——曾經稱霸人類比賽——變得更好了

今年早些時候,AlphaGo 人工智慧程式結束了人類在2500 年的圍棋棋盤遊戲中的霸主地位。DeepMind Technologies 的 AlphaGo 創造者並不滿足於以 3-0 戰勝世界頂尖棋手,於週三釋出了一個增強版本——AlphaGo Zero——該公司表示,該版本在人工智慧對決中徹底擊敗了其前身程式,贏得了所有 100 場比賽。但也許比這些勝利更重要的是 AlphaGo Zero 如何變得如此強大。與最初的 AlphaGo 不同,最初的 AlphaGo 是 DeepMind 隨著時間的推移,使用大量人類知識和監督進行訓練的,新系統的演算法自學掌握了這款遊戲。

人工智慧讓計算機能夠識別面孔、提出線上購買建議,甚至平行停放汽車。計算機從人類編寫的“學習演算法”中獲得這些能力,這些演算法將大量的訓練資料輸入到人工神經網路中(以其處理資訊的方式命名,這種方式大致基於大腦的神經細胞結構)。這個過程被稱為機器學習。在 AlphaGo 的案例中,這包括分析數百萬人類圍棋專家的走法,以及進行許多、許多次自我對弈,以加強其學習成果。AlphaGo 在五月份擊敗了世界頂尖人類圍棋選手柯潔。在 2016 年 3 月,它藉助多個神經網路擊敗了另一位頂尖大師李世乭,這些神經網路的計算機需要 48 個張量處理單元 (TPU)——專門為神經網路訓練設計的專用微晶片。

AlphaGo Zero 的訓練涉及四個 TPU 和一個最初對圍棋一無所知的單一神經網路。人工智慧在沒有監督的情況下進行學習——它只是與自己對弈,很快就能夠預測自己的走法以及這些走法將如何影響比賽的結果。“這種技術比以前版本的 AlphaGo 更強大,因為它不再受人類知識的限制,”DeepMind 聯合創始人戴密斯·哈薩比斯和領導該公司強化學習研究小組的大衛·席爾瓦在一篇部落格文章中寫道。(DeepMind 是 Alphabet, Inc. 的一個部門,Alphabet, Inc. 是谷歌的母公司。)始終依賴人類知識的人工智慧的一個問題是,這些資訊可能過於昂貴、不可靠,或者在某些情況下根本不存在。“如果類似的技術可以應用於其他結構化問題,例如蛋白質摺疊、降低能源消耗或尋找革命性的新材料,那麼由此產生的突破有可能對社會產生積極影響,”該部落格文章說。


關於支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。


AlphaGo Zero 甚至設計了自己的非常規策略。圍棋遊戲通常使用黑色或白色的“棋子”在 19x19 的棋盤上進行。每位玩家放置棋子的目的是包圍對手的棋子。“在訓練中,AlphaGo Zero 發現、下出並最終學會了偏愛一系列以前未知的新的定式 [角部序列] 變體,”DeepMind 發言人喬恩·菲爾德斯說。圍棋比賽通常從棋盤角部的下法開始,讓一方玩家在棋盤上獲得更好的整體位置。“就像與李世乭的第二場比賽中的第 37 步一樣,這些演算法靈感時刻讓我們得以一窺 AlphaGo 的創造力以及人工智慧的潛力,”這位發言人補充道。安永吉是一位韓國職業圍棋棋手,段位為 8 段(9 段為最高段位),在 2016 年 3 月的比賽結束後不久,就將第 37 步挑出來,稱之為“罕見且耐人尋味的”一步棋。

DeepMind 的研究描述了“一個非常令人印象深刻的技術成果;而且他們完成這項工作的能力——以及他們在 40 天內,在四個 TPU 上訓練系統的能力——是卓越的,”奧倫·埃特佐尼說道,他是艾倫人工智慧研究所 (AI2) 的執行長,該組織由微軟聯合創始人保羅·艾倫於 2014 年成立,專注於人工智慧的潛在益處。“雖然很多人以前都使用過 [強化學習],但這項工作的技術方面是新穎的。”

埃特佐尼說,AlphaGo Zero 的成功預示著人工智慧對遊戲的掌握前景光明。不過,“我認為,如果認為我們已經學到了一些關於思維和關於通用智慧學習的普遍知識,那就錯了,”他補充說。“這種方法不適用於更不結構化的問題,例如自然語言理解或機器人技術,在這些問題中,狀態空間更加複雜,並且沒有明確的目標函式。”

埃特佐尼說,無監督訓練是最終創造能夠獨立思考的人工智慧的關鍵,但在計算機真正開始跳出框框思考之前,“還需要在棋盤遊戲和預定義目標函式之外進行更多研究”。

© .