那是在1997年,在曼哈頓市中心一座摩天大樓的35層。國際象棋大師加里·卡斯帕羅夫難以置信地走下舞臺,舉起雙臂表示失敗,他剛剛輸給了一臺電腦。IBM的“深藍”計算機擊敗了這位著名的衛冕國際象棋世界冠軍,這標誌著計算機智慧的新紀元——機器正在超越人類。
20多年來,人工智慧突飛猛進。雖然“深藍”憑藉強大的計算能力擊敗了卡斯帕羅夫,但更新的計算機技術實際上可以自主學習和推斷解決方案。人工智慧公司DeepMind(隸屬於Alphabet,谷歌的母公司)的最新研究又向前邁進了一步。
今天發表在《科學》雜誌上的DeepMind的AlphaZero系統,不僅在國際象棋方面,而且在將棋(又名“日本象棋”)和圍棋(一種古老的中國棋盤遊戲,其走法可能性之多令人震驚,約為國際象棋的300倍)方面,都展現出了超人的成功。這項技術一旦完全開發出來,將具有廣泛的用途——從藥物開發到數學,再到材料設計。
關於支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。透過購買訂閱,您將有助於確保未來能夠繼續報道關於塑造我們當今世界的發現和想法的具有影響力的故事。
許多早期的遊戲技術最初需要人類提供資訊——它們必須經過預先設定才能處理特定任務。然而,AlphaZero演算法可以自主學習如何“玩”遊戲。它透過強化學習來實現這一點,強化學習是指機器透過試驗、錯誤和獎勵來學習互動式環境的概念。在新的研究中,AlphaZero與自己對弈了約6000萬局,以加強其對規則的“理解”。
然後,它能夠與領先的國際象棋程式Stockfish(對於人類來說幾乎是不可能擊敗的)相抗衡——在1000局比賽中贏了155局,只輸了6局,其餘的都是平局。AlphaZero還擊敗了世界冠軍將棋演算法Elmo,勝率達到91%,並擊敗了AlphaGo——它自身早期版本,專門為下圍棋而設計——在61%的對局中獲勝。
這裡的一個重大進步表明,AlphaZero不像以前的遊戲技術那樣僅限於一項功能。DeepMind似乎開發出了一種演算法,可以掌握許多甚至大多數具有固定規則的棋盤遊戲。“我們非常興奮,我們有一個程式可以完全學習這些遊戲,而無需人類知識的[幫助],”AlphaZero首席工程師Julian Schrittwieser說。“總的來說,這是一種試圖解決複雜、多步驟問題的演算法。”
AlphaZero非凡的計算能力部分歸功於使用了5000個所謂的張量處理單元,即TPU。TPU是谷歌在過去幾年開發的,是專門為人工智慧演算法處理而設計的微處理器。在新的研究中,處理器驅動了自我對弈,從而實現了機器學習。“一種通用的學習演算法已經學會了玩各種棋盤遊戲,而無需編碼大量關於特定遊戲的知識,這當然很酷,”計算機工程師、Stockfish的貢獻者Daylen Yang說,他沒有參與DeepMind的研究。“AlphaZero表明它可以自動學習這些知識——至少如果你有谷歌的5000個TPU,這可是大量的計算!”
現代計算機科學實際上是從國際象棋遊戲開始的。自20世紀40年代該領域創立以來,艾倫·圖靈和克勞德·夏農等先驅就一直在開發演算法來擊敗國王、騎士和皇后。“國際象棋隨後成為一代人工智慧研究人員的重大挑戰任務,”DeepMind的作者寫道。
IBM計算機科學家默裡·坎貝爾在對DeepMind的新論文的評論中寫道,棋盤遊戲是人工智慧的合乎邏輯的起點。玩遊戲所需的所有資訊對玩家都是可見的,因此比撲克(玩家對對手的一些牌是矇在鼓裡的)更容易分析。
儘管如此,紙牌遊戲也取得了進展。最近,兩個獨立的研究小組報告稱,他們開發出了能夠在無限注德州撲克中擊敗職業撲克玩家的演算法。人工智慧研究人員的另一個挑戰將是多人影片遊戲。DeepMind和其他地方的研究人員目前正在研究演算法,以應對《星際爭霸II》等遊戲——在模擬真實世界場景的大型、僅部分可觀察的物理空間中,多個玩家進行互動。
Schrittwieser對人工智慧技術的穩步發展前景充滿樂觀。“我們希望研究在科學和醫學領域的應用。也許我們有一組分子,需要弄清楚它們如何相互作用才能開發出一種新藥,”他設想道。“或者,也許一位數學家有一個理論,我們的演算法可以幫助他們透過一系列步驟得出證明。”
與最近在中國一位科學家聲稱已經編輯了人類胚胎基因組而引起的強烈反對一樣,人工智慧的進步也帶來了一定的不安。儘管埃隆·馬斯克對計算機學習創造“不朽的獨裁者”和助長人類無關緊要地位發出了可怕的警告,但包括Schrittwieser在內的許多計算機科學家都認為,該領域應謹慎和透明地前進。“我們正以極大的謹慎態度面對智慧機器,”他說。“這與任何其他行業沒有什麼不同。我們有包括來自DeepMind、谷歌和Facebook等公司的人員組成的委員會,以確保人工智慧的倫理道德。”
就像基因編輯一樣,對計算機學習系統的追求似乎是不可避免的。目前看來,人類可以避免機器強加的將死局面。“我更多地將其視為人類使用的工具——幫助他們完成任務,”Schrittwieser說。“就目前而言,它正在為國際象棋棋手帶來新的靈感。”
