縱觀人類歷史,智力和意識一直是兩個緊密相關的概念。如果你擁有大量的智力,人們會以某種模糊的方式認為你比街上那個遲鈍的傢伙更有意識。一個聰明的女孩也會是一個非常有意識的人,她可以詳細地告訴你她的經歷(因為這就是意識,體驗某事物的能力,無論是牙痛、看到金絲雀黃色的房子還是怒火中燒)。但這種密切的關係可能正在瓦解。
考慮一下DeepMind的最新進展,這是一家位於倫敦的小公司,由英國國際象棋神童、影片遊戲設計師和計算神經科學家德米斯·哈薩比斯於2011年共同創立。DeepMind去年被谷歌以數億美元收購。它的新程式碼所做的事情令人歎為觀止:它自學玩電子遊戲,而且通常比人類玩家玩得更好。這項技術突破在一項研究中進行了描述,該研究發表在2月份的《自然》雜誌上。(《大眾科學·思想》是自然出版集團的一部分。)
要了解這種激動人心的感覺,請上網搜尋YouTube影片,名為“DeepMind人工智慧 @ FDOT14”。這是一個短小的片段,用智慧手機拍攝,來自哈薩比斯在2014年技術會議上的演講,其中展示了一種計算機演算法,該演算法學習翫經典街機遊戲《打磚塊》。這款遊戲是《乒乓球》的變體,目的是讓玩家使用一個在頂部和側壁彈跳的球來打破排列在螢幕頂部的磚塊。如果球碰到螢幕底部,玩家將失去三條生命中的一條。為了防止這種情況發生,玩家移動底部的球拍以向上反彈球。
支援科學新聞事業
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞事業 訂閱。透過購買訂閱,您正在幫助確保關於塑造我們今天世界的發現和思想的具有影響力的故事的未來。
這款遊戲由蘋果公司的史蒂夫·沃茲尼亞克共同創作,以今天的標準來看是原始的,但仍然引人入勝。哈薩比斯在舞臺上介紹演算法時解釋了這一點。它開始時一無所知,隨機地笨拙地擺弄球拍,沒有太多協調性,只是偶爾擊中球。經過一小時的訓練,一遍又一遍地玩,它的表現有所提高,經常返回球並打破磚塊。經過兩個小時的訓練,它變得比大多數人類都更好,快速地以陡峭的角度返回球。
程式設計師讓演算法繼續自行執行,並且它不斷改進。經過四個小時的遊戲,該演算法發現了一種創新的《打磚塊》策略,使其效能遠遠超過任何人類。該演算法透過學習在側壁上挖一個隧道來完成這一壯舉,使球能夠從後面快速摧毀大量磚塊。非常聰明。這項成就令人印象深刻,以至於聚集的專家們爆發了自發的掌聲(這在科學會議上很少發生)。
為了理解正在發生什麼以及為什麼這是一件大事,讓我們看看幕後。該演算法結合了三個特徵,所有這些特徵都來自神經生物學:強化學習、深度卷積網路和選擇性記憶回放。
行為主義是20世紀上半葉主導人類和動物行為研究的領域,其持久的遺產是這樣一種觀念,即生物體透過將特定行為的後果與先前的特定刺激聯絡起來來學習最佳行為。這種刺激被稱為強化行為。
以我的伯恩山犬Ruby為例,當它還是幼犬時,我必須對它進行家務訓練。在按規定的間隔給Ruby喝水後,我立即帶它到花園裡的一個特定地點等待——並等待。在某個時候,它會自發地小便,我會熱情地稱讚它。如果室內發生意外,我會嚴厲地對它說話。狗對這種積極和消極的社會訊號反應良好。經過一兩個月,Ruby瞭解到,內部刺激——膀胱充滿——隨後是一種行為——在它的特殊地點小便——預示著獎勵並避免了懲罰。
強化學習已被形式化並在神經網路中實現,以教計算機如何玩遊戲。IBM的傑拉爾德·特薩羅使用強化學習的一種特殊版本——時間差分學習——來設計一個玩雙陸棋的網路。該程式分析棋盤,並檢查所有可能的合法走法以及對手對這些走法的回應。所有由此產生的棋盤位置都被輸入到程式的核心,即其價值函式中。
程式選擇的動作是導致棋盤位置得分最高的動作。在輪到程式後,網路會稍微調整,以便程式預測接下來發生的事情比它在上次移動後預測的要好一點。從零開始,該程式透過反覆試驗變得越來越好。強化學習面臨的挑戰在於,任何一個特定動作與其最終的有利或不利結果之間通常存在相當大的延遲。克服這種障礙需要訓練、訓練和更多的訓練——要擊敗雙陸棋方面的人類專家,特薩羅的程式需要與自己對弈20萬局。
DeepMind成功的第二個要素被稱為深度卷積網路。它基於哺乳動物視覺系統中發現的大腦回路模型,該模型由哈佛大學的托爾斯滕·威塞爾和已故的大衛·H·休伯爾於1950年代後期和1960年代初期提出(他們的工作後來獲得了諾貝爾獎)。該模型假設一個處理元件或單元層,該層計算輸入的加權和。如果總和足夠大,則模型開啟單元的輸出;否則,它保持關閉狀態。
一些理論家認為,視覺系統本質上只不過是這種處理層級的級聯——這被稱為前饋網路。每一層接收來自前一層的輸入,並將輸出傳遞到下一層。第一層是視網膜,它捕獲到達的光子雨。它解釋了影像亮度的變化,並將這些資料傳遞到下一個處理階段。最後一層由一組單元組成,這些單元發出訊號,表明諸如您的祖母或詹妮弗·安妮斯頓之類的高階特徵是否出現在該影像中。
學習理論家開發了數學上合理的方法來調整這些單元上的權重——一個輸入相對於另一個輸入應該有多大的影響力——以使這些前饋網路學習執行特定的識別任務。例如,一個網路暴露於來自網際網路的數萬張影像,每張影像都根據照片是否包含貓進行標記。每次曝光後,所有權重都會略微調整。如果訓練時間足夠長(再次強調,訓練是非常計算機密集的),並且影像在足夠深的網路中處理——那些具有許多處理單元層的網路——神經網路會概括化,並且可以準確地識別新照片是否包含貓科動物。該網路已經以監督的方式學會了區分貓的影像與狗、人、汽車等的影像。這種情況與母親和蹣跚學步的孩子一起翻看圖畫書,同時向孩子指出所有貓的情況並沒有什麼不同。深度卷積網路在谷歌、臉書、蘋果和其他矽谷公司中風靡一時,這些公司尋求自動標記影像、將語音翻譯成文字、檢測影片中的行人以及在乳房掃描中查詢腫瘤。
監督學習與強化學習不同。在前一種情況下,每個輸入影像都與一個標籤配對——一個影像包含一隻貓;另一個不包含。在強化學習中,遊戲中任何動作的得分結果都會隨著時間推移而展開——這些動作可能會產生好處(提高分數),但僅在多次移動之後。
哈薩比斯及其龐大的團隊(《自然》雜誌的論文總共包括19位合著者)使用了一種稱為Q學習的強化學習變體,作為深度學習網路的監督者。網路的輸入包括彩色遊戲螢幕的模糊版本,包括遊戲得分——與人類玩家看到的一樣——以及與最後三步移動相關的螢幕。網路的輸出是對操縱桿的命令——以八個基本方向之一移動,無論是否啟用紅色“開火”按鈕。從權重的隨機設定開始,即所謂的空白石板,該演算法弄清楚了哪些動作會導致最重要的分數增加——何時球拍最有可能成功攔截底部的球,從而打破向上軌跡上的磚塊。透過這種方式,該網路學習並透過重複強化了成功玩《打磚塊》的訓練方法,其表現比專業人類遊戲測試員高出驚人的1327%。
該演算法的第三個關鍵組成部分是選擇性記憶回放——類似於被認為發生在海馬體中的情況,海馬體是與記憶相關的腦區。在海馬體中,與特定經歷(例如跑迷宮)相關的神經細胞的活動模式會重新出現,但在回放時速度更快。也就是說,該演算法會隨機回憶起一個特定的遊戲片段,包括它自己早先從記憶庫中遇到的動作,並將使用這種早期經驗重新訓練自己,從而適當地更新其評估功能。
DeepMind的人們並不滿足於讓他們的演算法只學習一個遊戲。他們在49種不同的Atari 2600遊戲上訓練了相同的演算法,所有這些遊戲都是為了吸引幾代青少年而設計的。它們包括《影片彈珠檯》、《星際槍手》、《機器人坦克》、《公路跑者》、《乒乓球》、《太空入侵者》、《吃豆小姐》、《異形》和《蒙特祖瑪的復仇》。在所有情況下都使用了相同的演算法,具有相同的設定。只有輸出根據每個遊戲的具體需求而有所不同。結果讓所有競爭的遊戲演算法都黯然失色。更重要的是,在這些遊戲中,該演算法的表現優於人類專業遊戲測試員水平的75%或更高,有時甚至超出幅度非常大。
該演算法確實有其侷限性。隨著遊戲需要越來越長期的規劃,其效能逐漸變差。例如,該演算法在《吃豆小姐》中的表現非常糟糕,因為該遊戲要求人們選擇迷宮中的哪條路徑,以避免被仍然在未來10步或更遠處的幽靈吞噬。
然而,該程式預示著人工智慧的新複雜性。IBM的“深藍”程式在1997年擊敗了國際象棋特級大師加里·卡斯帕羅夫,而IBM的沃森系統在智力競賽節目《危險邊緣》中擊敗了肯·詹寧斯和布拉德·魯特,它們都是精心手工製作的演算法的高度專業化集合,專門針對其特定的問題領域。新一代演算法的標誌是,它們像人一樣從自己的勝利和失敗中學習。從遊戲螢幕上的原始畫素開始,它們最終在橫向卷軸射擊遊戲、拳擊遊戲和賽車遊戲中競爭。當然,它們執行的世界在物理上非常簡單,遵守限制性規則,並且它們的動作受到嚴格限制。
這些演算法中沒有任何意識的跡象。它們不具備我們與意識相關的任何行為。現有的意識理論模型會預測深度卷積網路沒有意識。它們是殭屍,在世界上行動,但這樣做沒有任何感覺,表現出一種有限形式的異類、冷酷的智慧:一種演算法“無情地利用了它發現的系統中的弱點。這一切都是自動的,”哈薩比斯在他的2014年演講中說。這種演算法,包括那些控制谷歌無人駕駛汽車或在金融市場上執行交易的演算法,表明在地球歷史上,智慧首次可以與感覺、與意識完全分離。
它們是聰明的,因為它們可以學習適應新的世界,其動力僅僅是最大化累積獎勵,正如遊戲得分所定義的那樣。我毫不懷疑DeepMind的設計師們正忙於開發更復雜的學習引擎,教他們的演算法主宰第一人稱射擊遊戲,如《毀滅戰士》或《光環》,或策略遊戲,如《星際爭霸》。這些演算法將越來越擅長在現代世界中大量存在的狹窄定義領域中執行特定任務。它們既不會創造也不會欣賞藝術,也不會對美麗的日落感到驚奇。
從長遠來看,這對人類來說是好事還是壞事還有待觀察。我們統治自然世界的原因不是因為我們比其他動物更快或更強壯,更不用說更聰明,而是因為我們更聰明。也許這些學習演算法是人類地平線上的烏雲。也許它們將是我們最後的發明。
