大多數下午,我都會在牧場邊消磨時光。很快我就開始看到一些東西。一個人影從白樺林中走出,徑直朝我跑來。通常是綿羊人,但有時是老鼠,有時是我的女朋友。有時是背上有星星的羊.
—村上春樹,《
尋羊冒險記》, 1982
人工智慧最近一直是新聞熱點,這得益於日益廉價的計算機處理能力,這種能力實際上已成為近乎普遍的商品。興奮點圍繞著被稱為深度卷積神經網路或 ConvNets 的數學抽象概念展開。應用於照片和其他影像時,實施 ConvNets 的演算法可以從面部識別個人,將物體分類為 1,000 個不同的類別(獵豹、哈士奇、草莓、雙體船等等)——並且可以描述他們是否看到“兩個披薩放在爐灶烤箱上”或“一輛紅色摩托車停在路邊”。所有這些都無需人工干預。研究人員正在研究這些強大演算法的內部機制,他們對所發現的美麗事物感到驚訝、困惑和著迷。
關於支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您將幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事能夠擁有未來。
谷歌科學家開發了一種名為 Inceptionism 的技術,用於探索神經網路的工作原理。它以名為 DeepDream 的開原始碼形式提供,可以將普通照片變成奇異而美麗的影像,其中眼睛、昆蟲和奇怪的生物從場景中浮現出來。
照片:Liz Tormes
人工智慧的春天
ConvNets 是如何工作的?從概念上講,它們只比 20 世紀 80 年代和 90 年代初工程師和學習理論家開發的人工神經網路落後一兩代。而後者又是從神經科學家在實驗動物的視覺系統中發現的迴路中抽象出來的。早在 20 世紀 50 年代,一些先驅者就在青蛙的視網膜中發現了一些細胞,這些細胞對在靜止背景上移動的小黑點反應強烈,即著名的“昆蟲探測器”。托爾斯滕·威塞爾和已故的戴維·H·休貝爾(當時都在哈佛大學)在 20 世紀 60 年代初對大腦外層表面接收視覺資訊的部分(初級視覺皮層)進行記錄時,發現了一組他們稱之為“簡單”細胞的神經元。這些神經元對動物視覺視野特定區域中特定方向的暗條或亮條做出反應。儘管這些細胞對定向線在視覺空間中的位置非常挑剔,但第二組“複雜”細胞對該線的確切位置不太在意。威塞爾和休貝爾假設了一個佈線方案來解釋他們的發現,這個模型產生了巨大的影響。它由多層細胞組成——第一層對應於輸入細胞,這些細胞攜帶眼睛捕獲的視覺資訊。這些細胞對光點反應最佳。它們饋送到第二層神經元(簡單細胞),簡單細胞又與第三層神經元(複雜細胞)對話。
每個細胞本質上都是一個處理元件或單元,它計算其輸入的加權和,如果總和足夠大,則開啟該單元的輸出;否則,它保持關閉狀態。單元的佈線方式決定了輸入層中對任何方向的邊緣做出反應的細胞如何轉換為關心特定方向和位置的簡單細胞,然後轉換為丟棄部分空間資訊的單元。隨後在猴子視覺皮層的一個區域發現了對猴子或人的面孔檢視做出反應的神經元,這進一步加強了這種想法——視覺處理發生在處理階段的層次結構中,資訊向上流動,從關心亮度、方向和位置等低階特徵的單元到以更抽象的方式表示資訊的單元,例如任何給定面孔或特定面孔(例如祖母的面孔)的存在。顧名思義,這種處理層級聯被稱為前饋網路。
ConvNets 的運作方式也類似於這些專門的網路。第一層單元表示原始影像,而後續層提取越來越抽象的特徵。最後一個輸出層可能由 1,000 個單元組成,每個單元代表上述視覺物件類別之一。它有效地決定了影像中存在哪個物件。其他訊號編碼了網路對其最終決策的信心。
這些前饋網路的現代後代非常臃腫,擁有 20 層或更多層。每個處理層都有自己的佈線方案,指定哪個單元影響哪個其他單元以及影響的強度。整個網路可能具有 1000 萬或更多個稱為權重的引數。並且每個引數都必須分配某個數值,正數或負數。這些大量的數字無法憑直覺或猜測獲得;它們必須手動設定,這是一項不可能完成的任務。
這就是機器學習的用武之地。這些引數的設定發生在學習階段,在此階段,網路會顯示一百萬張或更多張單個物體的圖片,以及標籤,例如“哈士奇”或“獵豹”。想象一下媽媽給她的蹣跚學步的孩子看圖畫書,指著一幅畫說:“狗狗”。在每次這樣的展示之後,網路都會根據其權重的某些初始隨機設定做出猜測。
然後對這些權重進行微調,以減少網路輸出(對其所看物體的猜測)與正確標籤之間不可避免的錯配。這個過程一遍又一遍地重複。監督學習(書呆子式的術語是反向傳播誤差,或反向傳播)在計算上非常昂貴,並且僅由於廣泛使用為支援影片遊戲而開發的所謂圖形處理單元才變得可行。一旦訓練完成,網路就會被凍結——它停止標籤練習——現在可以處理新的影像,即以前從未見過的影像,並且可以猜測它們的身份,通常具有接近人類的準確性。
機器學習在學術界和工業界風靡一時,應用數學家和計算機科學家團隊競相開發更智慧的演算法來最佳化效能。
這些網路究竟在做什麼?
儘管相對簡單,但 ConvNets 可以產生意想不到的驚喜。是的,它們可以正確識別您的度假照片是哈士奇還是秋海棠,但它們有時也會得出荒謬的結論。懷俄明大學的 Anh Nguyen 和 Jeff Clune 以及康奈爾大學的 Jason Yosinski 的工作就是一個例證。為了揭示網路黑匣子的內部情況,計算機科學教授 Clune 和他的學生開發了技術來發現可以從訓練好的 ConvNet 中的特定單元中引發強烈啟用的圖片,詢問“這個單元真正喜歡和想要看到什麼?” 並且這些影像與網路在嬰兒期(接受訓練時)遇到的圖片有多相似?該團隊從隨機影像開始,並反覆“進化”它們,直到網路以高度的信心確定它們是獵豹、手持遙控器或它接受過訓練的其他視覺物件類別。預期是進化演算法將發現最忠實地代表獵豹本質(獵豹的柏拉圖式理念)的影像。
令他們驚訝的是,生成的影像通常完全無法識別,基本上是垃圾——色彩鮮豔、嘈雜的圖案,類似於電視靜電。儘管 ConvNet 以 99.99% 的信心在影像中看到了獵豹,但沒有人會將其識別為一隻又大又快的非洲貓科動物。請注意,計算機科學家沒有修改 ConvNet 本身——它仍然可以正確識別獵豹的圖片,但奇怪的是,它也堅持認為這些看似嘈雜的影像屬於同一物件類別。生成這些愚弄影像的另一種方法產生了包含可識別紋理和幾何結構碎片的圖片,網路自信但錯誤地認為它是吉他。而且這些並非罕見的例外。
我懷疑,如果在記錄視覺大腦深處的面部細胞的同時進行相同的影像操作,這個過程將不會收斂到如此荒謬的影像,而是會捕捉到關於面部本質的一些本質的東西。
這些偽造影像突出了人類和計算機理解視覺物件方式之間的巨大差距。透過在動物園觀看獵豹或在自然紀錄片中看到獵豹追逐瞪羚,我們建立起對這些貓科動物的內在表徵,使我們能夠描述它們。如果被迫,我們大多數人甚至可以畫出這些優雅動物的卡通,並說明它們與獅子或家貓的區別。但是計算機對此背景一無所知。它們得到的只是一百張獵豹照片和無數張非獵豹照片。在不瞭解關於貓的任何資訊(它們有腿、爪子、皮毛、尖耳朵等等)的情況下,網路必須找出少量訓練影像中哪些特徵是被稱為獵豹的物體類別的特徵。這些相同的特徵也可以在各種其他誤導性影像中找到。
美國哲學家約翰·塞爾在他著名的“中文房間”論證中指出了這一差距,在該論證中,一位不會說中文的人能夠透過遵循一套精心設計的英文指令來操作漢字,從而對用中文提出的問題提供連貫的答案,即使這個人根本不知道這些漢字的意思。塞爾發明了這個有力的思想實驗來支援他的主張,即計算機(就像中文房間裡的人一樣)永遠無法理解任何東西——它們只是遵循一套指令,使它們看起來很智慧。今天仍然如此。但在未來十年,機器將變得更加複雜,並且更難愚弄它們。它們與我們之間的差距將縮小。的確,與塞爾非常不同,我確實相信,一個正確表述的意義理論,與意識理論密切相關,將使我們最終彌合這一差距——然後真正智慧的機器將會出現。
樹木長出鳥頭
如果您認為藝術和演算法除了首字母相同之外沒有任何共同之處,請考慮另一種理解這些網路內部結構的方式。在 6 月 17 日的部落格文章中,谷歌的三位軟體工程師 Alexander Mordvintsev、Christopher Olah 和 Mike Tyka 描述了一種稱為 Inceptionism 的技術,這是一個具有營銷天才的名稱,指的是 2010 年流行的心理科幻驚悚片。程式設計師向完全訓練好的機器學習網路呈現一個起始影像,然後專注於輸入層(相當於眼睛的視網膜)和對物件進行分類的最終輸出層之間的特定層中的人工神經元。然後,工程師調整輸入影像以最大化他們關注的單元的響應。如果他們專注於一組類似休貝爾和威塞爾的單元,這些單元提取水平邊緣,則在原始影像中新增水平線將增強它們的內部響應。或者,如果他們專注於網路上層中編碼眼睛的單元,則在影像中插入眼睛將最大化它們的放電率。影像緩慢變形;可以將其視為受控幻覺。當專注於上層中的鳥類單元時,Inceptionism 開始對鳥類進行成像,並將它們疊加到原始影像上。這會開啟鳥類單元,從而進一步驅動演算法來增強影像中鳥類的顯著性,依此類推。只需在網上搜索“Inceptionism”,您就會明白我的意思。毫不奇怪,這篇 6 月份的帖子已在網上瘋傳。
這些影像怪異、陌生但引人入勝,而且通常非常賞心悅目。在空曠的天空中,鳥類變得可見。貓科動物疊加在人群中人們的臉上。一條巨大的魚在天空中復活。充滿意義的圖案出現在樹葉中。城堡隱約可見,在空曠的沙漠景觀背景中盤旋。深度網路進入睡眠並做夢。這太神奇了。
許多人注意到這些影像與服用 LSD、麥司卡林或裸蓋菇素蘑菇產生的幻覺之間驚人的相似之處。為了回應爆炸式的興趣,谷歌釋出了名為 DeepDream 的開原始碼,用於生成此類影像並將它們組裝成電影(請參閱 http://bit.ly/1FcTca2)。對於我們這些不會程式設計的人來說,一家初創公司將收取少量費用來修改您提供的任何影像。
對我這個持有執照的神經科學家來說,最誘人的是大腦和 ConvNets 行為方式之間的結構相似性。如果讓 ConvNets 自由發揮,它們會夢到什麼?電子羊?或者也許是豬和蝸牛的雜交體,閃爍著迷幻的彩虹色?
