人工智慧的春天:深度學習的崛起

經過數十年的失望,人工智慧終於趕上了早期的承諾,這要歸功於一項名為深度學習的強大技術

Tavis Coburn

在 20 世紀 50 年代,當計算機開始在跳棋上擊敗人類並證明數學定理時,它們引起了極大的轟動。在 20 世紀 60 年代,人們越來越希望科學家可能很快能夠在硬體和軟體中複製人腦,並且“人工智慧”很快將在任何任務上與人類的表現相匹配。1967 年,今年早些時候去世的麻省理工學院的馬文·明斯基宣稱,人工智慧的挑戰將在一代人之內得到解決。

當然,事實證明這種樂觀情緒為時過早。旨在幫助醫生做出更好診斷的軟體以及模仿人腦的網路(用於識別照片內容)未能達到最初的炒作。早期演算法缺乏複雜性,並且需要比當時可用的更多資料。計算機處理能力也過於緩慢,無法為能夠執行近似人類思維複雜性所需的大量計算的機器提供動力。

到 2000 年代中期,構建具有人類水平智慧的機器的夢想幾乎在科學界消失了。當時,即使“人工智慧”這個術語似乎也離開了嚴肅科學的領域。科學家和作家將從 1970 年代到 2000 年代中期的這段希望破滅的時期描述為一系列“人工智慧寒冬”。


關於支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您將有助於確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。


十年變化真大。從 2005 年開始,人工智慧的前景發生了翻天覆地的變化。那時,深度學習(一種從腦科學中汲取靈感來構建智慧機器的方法)開始嶄露頭角。近年來,深度學習已成為推動人工智慧研究向前發展的獨特力量。主要的資訊科技公司現在正在向其開發投入數十億美元。

深度學習是指模擬神經元網路,這些網路逐漸“學習”識別影像、理解語音甚至自行做出決策。該技術依賴於所謂的 искусственные нейронные сети(人工神經網路)——當前人工智慧研究的核心要素。人工神經網路並非精確地模仿實際神經元的工作方式。相反,它們基於一般的數學原理,使它們能夠從示例中學習,以識別照片中的人或物體,或翻譯世界主要語言。

深度學習技術改變了人工智慧研究,重振了計算機視覺、語音識別、自然語言處理和機器人技術的失落雄心。首批產品於 2012 年推出,用於理解語音——您可能熟悉 Google Now。緊隨其後的是用於識別影像內容的應用,該功能現已納入 Google 相簿搜尋引擎。

任何對笨拙的自動電話選單感到沮喪的人都可以體會到在智慧手機上使用更好的個人助理的巨大優勢。對於那些還記得幾年前物體識別有多糟糕的人來說——可能會將無生命物體誤認為動物的軟體——計算機視覺方面的進步令人難以置信:我們現在擁有在某些條件下幾乎可以像人類一樣識別影像中的貓、石頭或人臉的計算機。事實上,人工智慧軟體現在已成為數百萬智慧手機使用者生活中常見的固定裝置。就我個人而言,我很少再打字發簡訊了。我經常對著手機說話,有時它甚至會回覆我。

這些進步突然打開了該技術進一步商業化的大門,而且這種興奮感仍在持續增長。公司競相爭奪人才,深度學習專業的博士學位是一種極為稀缺且需求量極高的商品。許多在該領域擁有專業知識的大學教授——據一些統計,大多數——已被從學術界拉到工業界,並配備了裝置完善的研究機構和豐厚的薪酬待遇。

克服深度學習的挑戰帶來了驚人的成功。神經網路在圍棋比賽中戰勝頂尖棋手李世石的訊息佔據了顯要的頭條新聞。應用範圍已擴充套件到涵蓋人類專業知識的其他領域——而且不僅僅是遊戲。一種新開發的深度學習演算法據稱可以像心臟病專家一樣透過磁共振成像診斷心力衰竭。

智慧、知識和學習

為什麼人工智慧在過去的幾十年裡遇到了如此多的障礙?原因是,我們對周圍世界的知識大多沒有以書面語言形式化為一組明確的任務——這是編寫任何計算機程式的必要條件。這就是為什麼我們一直無法直接程式設計計算機來完成我們人類輕鬆完成的許多事情——無論是理解語音、影像或語言還是駕駛汽車。試圖這樣做——在精心設計的資料庫中組織事實集,以使計算機具有智慧的副本——收效甚微。

這就是深度學習的用武之地。它是更廣泛的人工智慧學科(稱為機器學習)的一部分,機器學習基於用於訓練智慧計算系統的原則——並最終讓機器自學。其中一項原則與人類或機器認為什麼是“好的”決策有關。對於動物來說,進化原則決定了應該做出能夠最佳化生存和繁殖機會的行為的決策。在人類社會中,好的決策可能包括帶來地位或幸福感的社會互動。但是,對於機器(例如自動駕駛汽車)而言,決策質量取決於自動駕駛汽車在多大程度上模仿了稱職的人類駕駛員的行為。

在特定環境中做出良好決策所需的知識不一定以可以轉化為計算機程式碼的方式顯而易見。例如,老鼠瞭解周圍環境,並且天生就知道在哪裡嗅探以及如何移動腿、尋找食物或配偶以及躲避捕食者。沒有程式設計師能夠指定一組逐步的指令來產生這些行為。然而,這些知識被編碼在齧齒動物的大腦中。

在建立可以自學訓練的計算機之前,計算機科學家需要回答諸如人類如何獲取知識等基本問題。有些知識是天生的,但大多數是從經驗中學習的。我們憑直覺知道的東西無法轉化為計算機執行的清晰步驟序列,但通常可以從示例和實踐中學習。自 1950 年代以來,研究人員一直在尋找並試圖改進通用原則,這些原則允許動物或人類——甚至機器——透過經驗獲取知識。機器學習旨在建立稱為學習演算法的程式,該程式允許機器從呈現給它的示例中學習。

點選或輕觸放大

圖表作者:Jen Christiansen;PUNCHSTOCK (面孔)

機器學習科學在很大程度上是實驗性的,因為不存在通用的學習演算法——沒有一種演算法能夠使計算機很好地學習給定的每項任務。任何知識獲取演算法都需要在特定於手頭情況的學習任務和資料上進行測試,無論是識別日落還是將英語翻譯成烏爾都語。沒有辦法證明對於任何給定的情況,它將始終比所有其他演算法更好。

人工智慧研究人員已經對這一原理進行了正式的數學描述——“天下沒有免費的午餐”定理——該定理表明,不存在解決每個現實世界學習情況的演算法。然而,人類行為顯然與該定理相矛盾。我們似乎在頭腦中擁有相當通用的學習能力,使我們能夠掌握進化沒有為我們的祖先準備的眾多工:下棋、建造橋樑或在人工智慧領域進行研究。

這些能力表明,人類智慧利用了關於世界的通用假設,這些假設可以作為建立具有通用智慧形式的機器的靈感。正是出於這個原因,人工神經網路的開發者採用了大腦作為設計智慧系統的粗略模型。

大腦的主要計算單元是稱為神經元的細胞。每個神經元透過細胞之間稱為突觸間隙的微小間隙向其他神經元傳送訊號。神經元跨越間隙傳送訊號的傾向以及該訊號的幅度被稱為突觸強度。隨著神經元“學習”,其突觸強度會增加,並且當受到電脈衝刺激時,它更有可能向其鄰居傳送訊息。

腦科學影響了人工神經網路的出現,這些網路使用軟體或硬體來建立虛擬神經元。人工智慧子領域(稱為連線主義)的早期研究人員假設,神經網路將能夠透過逐漸改變神經元之間的連線來學習複雜任務,從而使神經活動模式能夠捕獲其輸入的內容,例如影像或對話片段。隨著這些網路接收到更多示例,學習過程將透過更改連線神經元之間的突觸強度來繼續,以實現對日落影像等更準確的表示。

關於日落的課程

當前一代神經網路擴充套件了連線主義的開創性工作。這些網路逐漸更改每個突觸連線的數值,這些數值表示該連線的強度,從而表示神經元將訊號傳輸到另一個神經元的可能性。深度學習網路使用的演算法每次觀察到新影像時,都會稍微更改這些值。這些值穩步地朝著那些允許神經網路更好地預測影像內容的值邁進。

為了獲得最佳效果,當前的學習演演算法(學習演算法)需要人類的密切參與。這些演算法中的大多數使用有監督學習,其中每個訓練示例都附帶有關正在學習內容的由人手工製作的標籤——例如,日落的照片與寫著“日落”的標題相關聯。在這種情況下,有監督學習演算法的目標是將照片作為輸入,並生成影像中主要物件的名稱作為輸出。將輸入轉換為輸出的數學過程稱為函式。產生此函式的數值(例如突觸強度)對應於學習任務的解決方案。

死記硬背地產生正確答案很容易,但有點無用。我們想教演算法什麼是日落,但隨後讓它識別任何日落的影像,即使是它沒有訓練過的日落。辨別任何日落的能力——換句話說,將學習推廣到特定示例之外——是任何機器學習演算法的主要目標。事實上,任何網路的訓練質量都是透過使用以前未見過的示例進行測試來評估的。正確推廣到新示例的難度在於,存在幾乎無限多的可能變化,這些變化仍然對應於任何類別,例如日落。

為了成功地從觀察到的大量示例中進行推廣,深度學習網路中使用的學習演算法不僅需要示例本身。它還依賴於關於資料的假設和關於特定問題的可能解決方案的假設。內置於軟體中的典型假設可能假設,如果特定函式的資料輸入相似,則輸出不應發生根本性變化——更改貓影像中的幾個畫素通常不應將動物變成狗。

一種結合了影像假設的神經網路稱為卷積神經網路;它已成為推動人工智慧復興的關鍵技術。深度學習中使用的卷積神經網路具有許多層神經元,這些神經元的組織方式使得輸出對影像中主要物件的更改不太敏感,例如當其位置略有移動時——訓練有素的網路可能能夠從不同角度識別單獨照片中的人臉。卷積網路的設計靈感來自視覺皮層的多層結構——我們大腦中接收眼睛輸入的部分。卷積神經網路中虛擬神經元的許多層使網路“深入”,從而更好地瞭解周圍的世界。

深入

在實踐層面,使深度學習成為可能的進步來自於大約 10 年前出現的具體創新,當時人們對人工智慧和神經網路的興趣達到了幾十年來的最低點。一個由政府和私人捐助者資助的加拿大組織,加拿大高階研究所 (CIFAR),透過贊助多倫多大學的 Geoffrey Hinton 領導的專案,幫助重燃了火焰。該專案還包括紐約大學的 Yann LeCun、斯坦福大學的 Andrew Ng、加州大學伯克利分校的 Bruno Olshausen、我和其他幾個人。那時,人們對這一研究方向的負面態度使得發表文章甚至說服研究生在該領域工作都很困難,但我們中的一些人強烈地感到,向前邁進非常重要。

當時對神經網路的懷疑部分源於這樣一種信念,即訓練神經網路是徒勞的,因為最佳化它們的行為涉及挑戰。最佳化是數學的一個分支,試圖找到一組引數的配置以達到數學目標。在這種情況下,引數稱為突觸權重,表示從一個神經元傳送到另一個神經元的訊號強度。

目標是以最少的錯誤次數進行預測。當引數和目標之間的關係足夠簡單時——更準確地說,當目標是引數的凸函式時——可以逐漸調整引數。這種情況會一直持續到它們儘可能接近產生最佳可能選擇的值,稱為全域性最小值——這對應於網路產生的最低可能的平均預測誤差。

然而,一般來說,訓練神經網路並非如此簡單——並且需要所謂的非凸最佳化。這種型別的最佳化提出了更大的挑戰——許多研究人員認為這個障礙是無法克服的。學習演算法可能會陷入所謂的區域性最小值,在這種情況下,它無法透過稍微調整引數來減少神經網路的預測誤差。

直到去年,關於神經網路由於區域性最小值問題而難以訓練的神話才被打破。我們在研究中發現,當神經網路足夠大時,區域性最小值問題會大大減少。大多數區域性最小值實際上對應於在幾乎與全域性最小值的最優值相匹配的水平上學習知識。

儘管理論上可以解決最佳化的理論問題,但構建具有兩層或三層以上的大型網路通常會失敗。從 2005 年開始,CIFAR 支援的工作取得了突破,克服了這些障礙。2006 年,我們設法使用逐層進行的技術訓練了更深層次的神經網路。

後來,在 2011 年,我們找到了一種更好的方法來訓練更深層次的網路——具有更多層虛擬神經元的網路——透過改變每個處理單元執行的計算,使它們更像生物神經元實際計算的內容。我們還發現,在訓練期間將隨機噪聲注入到神經元之間傳輸的訊號中(類似於大腦中發生的情況),使它們能夠更好地學習正確識別影像或聲音。

兩個關鍵因素促進了深度學習技術的成功。計算速度立即提高了 10 倍,這要歸功於最初為影片遊戲設計的圖形處理單元,這使得可以在合理的時間內訓練更大的網路。推動深度學習發展的另一個原因是,可以獲得大量的標記資料集,學習演算法可以在其中識別正確答案——例如,“貓”,當檢查影像時,貓只是其中的一個元素。

深度學習最近取得成功的另一個原因是它能夠學習執行一系列計算,逐步構建或分析影像、聲音或其他資料。網路的深度就是此類步驟的數量。人工智慧擅長的許多視覺或聽覺識別任務都需要深度網路的許多層。事實上,在最近的理論和實驗研究中,我們已經證明,如果不使用足夠深的網路,就無法有效地完成其中一些數學運算。

深度神經網路中的每一層都會轉換其輸入併產生一個輸出,該輸出被髮送到下一層。網路在其更深層表示更抽象的概念,這些概念更遠離初始原始感官輸入。實驗表明,網路中更深層的人工神經元傾向於對應於更抽象的語義概念:例如,視覺物件,例如桌子。即使“桌子”的概念不在網路訓練的類別標籤中,對桌子影像的識別也可能來自更深層的神經元的處理。而桌子的概念本身可能只是一箇中間步驟,用於建立更抽象的概念,該概念可能在更高的層級被網路歸類為“辦公室場景”。

超越模式識別

直到最近,人工神經網路主要因其執行任務的能力而脫穎而出,例如識別靜態影像中的模式。但是另一種型別的神經網路也在取得進展——特別是對於隨時間推移而發生的事件。遞迴神經網路已證明有能力正確執行一系列計算,通常用於語音、影片和其他資料。順序資料由按順序相互跟隨的單元組成——無論是音素還是整個單詞。遞迴神經網路處理其輸入的方式與大腦的工作方式有相似之處。當處理來自感官的輸入時,在神經元之間傳遞的訊號不斷變化。這種內部神經狀態會以取決於大腦當前從周圍環境接收的輸入的方式發生變化,然後在發出導致身體運動的一系列命令,以實現特定目標。

遞迴網路可以預測句子中的下一個單詞是什麼,這可以用於一次生成新的單詞序列。它們還可以承擔更復雜的任務。在“閱讀”完句子中的所有單詞後,網路可以猜測整個句子的含義。然後,一個單獨的遞迴網路可以使用第一個網路的語義處理將句子翻譯成另一種語言。

對遞迴神經網路的研究在 1990 年代後期和 2000 年代初期經歷了低潮。我的理論工作表明,它們在學習檢索來自遙遠過去的資訊(即正在處理的序列中的最早元素)時會遇到困難。試想一下,當您剛剛到達最後一頁時,嘗試逐字背誦一本書的前幾句話。但是,一些進步透過使這些網路能夠學習儲存資訊以使其持續更長時間,從而減輕了其中的一些問題。神經網路可以使用計算機的臨時記憶體來處理多個分散的資訊片段,例如文件中分散在不同句子中的想法。

深度神經網路在經歷了漫長的人工智慧寒冬後的強勁復甦不僅僅是一場技術上的勝利。它還為科學社會學提供了教訓。特別是,它強調需要支援挑戰技術現狀的想法,並鼓勵多元化的研究組合,以支援暫時失寵的學科。

更多探索

使用深度卷積神經網路進行 ImageNet 分類。 Alex Krizhevsky 等人。在 2012 年第 26 屆神經資訊處理系統年度會議 (NIPS 2012) 上發表,內華達州斯塔特萊恩,2012 年 12 月 3 日至 8 日。

表徵學習:回顧與新視角。 Y. Bengio 等人。發表於IEEE 模式分析與機器智慧彙刊,第 35 卷,第 8 期,第 1798–1828 頁;2013 年 8 月。

深度學習。 Yann LeCun 等人。發表於自然,第 521 卷,第 436–444 頁;2015 年 5 月 28 日。

來自我們的檔案

當計算機超越我們時 Christof Koch;意識再現,《大眾科學·思想》,2015 年 9 月/10 月。

大眾科學線上

觀看 Bengio 談論深度學習的影片,網址為 ScientificAmerican.com/jun2016/ai

Yoshua Bengio 是蒙特利爾大學的計算機科學教授,也是深度學習方法的先驅之一,這些方法引發了當前人工智慧的復興。

更多作者:Yoshua Bengio
大眾科學 雜誌 第 314 卷 第 6 期本文最初以“會學習的機器”為標題發表於 大眾科學 Magazine 第 314 卷 第 6 期 (), p. 46
doi:10.1038/scientificamerican0616-46
© .