今年夏天,科幻影片遊戲星際爭霸II的玩家們面對了一位不尋常的對手。一個名為AlphaStar的人工智慧(AI)——由谷歌的AI公司DeepMind構建——在遊戲的歐洲伺服器上被釋放後,獲得了大師級評級,躋身該地區90,000名玩家的前0.15%。
這項結果於10月30日發表在《自然》雜誌上,表明人工智慧可以在星際爭霸II的最高級別進行競爭,星際爭霸II是一款非常受歡迎的線上策略遊戲,玩家即時扮演三個陣營之一——人類 Terran 部隊或外星人 Protoss 和 Zerg——在未來戰爭區域中互相戰鬥。
DeepMind之前構建了在國際象棋和圍棋方面領先世界的人工智慧,星際爭霸II是其追求通用人工智慧(一種能夠學習或理解人類可以完成的任何任務的機器)的下一個基準,因為這款遊戲具有戰略複雜性和快節奏。
支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和想法的有影響力的故事的未來。
俄勒岡州立大學科瓦利斯分校的人工智慧研究員Jon Dodge說:“我沒想到人工智慧會這麼快在這個領域基本上達到超人類水平,也許還需要幾年。”
在星際爭霸II中,經驗豐富的玩家透過管理資源、執行復雜的戰鬥動作並最終在策略上勝過對手來執行多工。專業人士以極快的速度玩遊戲,每分鐘執行超過 300 次操作。DeepMind人工智慧背後的機器學習技術依賴於人工神經網路,神經網路學習從大型資料集中識別模式,而不是被賦予特定的指令。
DeepMind在2018年12月首次在實驗室測試遊戲中將AlphaStar與高階玩家對戰。人工智慧與兩位專業人類玩家進行了比賽並擊敗了他們。但批評人士斷言這些演示賽是不公平的,因為AlphaStar擁有超人的速度和精確度。
在團隊將AlphaStar從實驗室放出並放到歐洲星際爭霸II伺服器上之前,他們限制了人工智慧的反應速度,使其成為更公平的競爭。7月,玩家收到通知,他們可以選擇加入,有機會與人工智慧匹配。為了保持試驗的盲法性,DeepMind掩蓋了AlphaStar的身份。
AlphaStar專案的聯合負責人David Silver說:“我們希望這像一個盲法實驗。” “我們真的想在這些條件下進行比賽,真正瞭解‘這群人類玩家的表現如何對抗我們?’”
AlphaStar的訓練得到了回報:它擊潰了低級別對手,最終在與高級別玩家的90場比賽中贏得了61場。
具有挑戰性的複雜性
星際爭霸II的複雜性對人工智慧提出了巨大的挑戰。與國際象棋不同,星際爭霸II有數百個“棋子”——各陣營軍隊中計程車兵——它們同時即時移動,而不是以有序的、回合制的方式移動。國際象棋棋子只有有限數量的合法移動方式,而AlphaStar在任何時刻都有1026種動作可供選擇。而且星際爭霸II與國際象棋不同,它是一款資訊不完善的遊戲——玩家通常看不到他們的對手在做什麼。這使得它變得不可預測。
近十年來,研究人員一直在年度競賽中讓星際爭霸和星際爭霸II人工智慧相互對抗。然而,與AlphaStar不同,這些“機器人”大多依賴於硬編碼規則,而不是可以自我訓練的神經網路。Oriol Vinyals現在是AlphaStar專案的聯合負責人,他曾在加州大學伯克利分校的團隊中,該團隊贏得了2010年的首次比賽。
Vinyals說:“那時,我開始想也許我們應該只做[機器]學習,但那時還為時過早。”
2016年,Vinyals加入DeepMind,開始研究可以自學如何玩星際爭霸II的人工智慧。AlphaStar首先透過學習模仿近一百萬個人類遊戲來開始其訓練。為了進一步提高AlphaStar的水平,DeepMind建立了一個聯賽,人工智慧的各個版本相互競爭。倫敦帝國學院的人工智慧研究員Kai Arulkumaran說,這種方法對於像星際爭霸II這樣沒有最佳策略的遊戲以及人工智慧的許多其他現實應用都是有意義的。
有洞察力的玩家
DeepMind還對AlphaStar施加了限制,以確保人工智慧真正是透過智力而非僅僅是透過點選速度來擊敗其人類對手。因為遊戲獎勵快速點選的能力,所以點選速度超人的計算機可能會在沒有更智慧或做出更好決策的情況下擊敗人類。因此,DeepMind將AlphaStar的反應速度限制在經驗豐富的人類玩家的水平。
在這些條件下,經過27天的訓練,AlphaStar躋身歐洲伺服器所有玩家的前0.5%。
然而,在50場比賽後,DeepMind遇到了障礙。一些玩家注意到,Battle.net遊戲平臺上的三個使用者帳戶在相似的時間段內玩了完全相同數量的星際爭霸II遊戲——AlphaStar秘密使用的三個帳戶。在觀看這些比賽的重播時,玩家注意到帳戶所有者正在執行對於人類來說極其困難甚至不可能完成的動作。作為回應,DeepMind開始使用許多技巧來保持試驗的盲法性並阻止玩家發現AlphaStar,例如定期切換帳戶。
最終版本的AlphaStar依賴於累計44天的訓練,並經常遇到職業玩家。人工智慧未能像在國際象棋和圍棋中那樣擊敗世界最佳玩家,但DeepMind認為其基準已達到,並表示已完成星際爭霸II的挑戰。
其他人工智慧科學家尚未確信AlphaStar可以聲稱完全勝利。加拿大紐芬蘭紀念大學聖約翰分校的人工智慧研究員Dave Churchill認為,AlphaStar仍然存在許多弱點,例如容易受到它以前沒有見過的策略的攻擊。
他說:“AlphaStar非常令人印象深刻,絕對是迄今為止任何星際爭霸遊戲中最強大的人工智慧系統。” “話雖如此,星際爭霸遠未被‘解決’,而AlphaStar甚至還遠未達到世界冠軍水平。”
本文經許可轉載,並於2019年10月30日首次發表。
