2017年3月28日

毫無意義行為的意義

我們在兒童身上看到的“內在動機”如何幫助我們開發更好的機器人

本文發表於《大眾科學》的前部落格網路，反映了作者的觀點，不一定反映《大眾科學》的觀點

當我那些睡眠不足的朋友試圖讓他們的寶寶吃東西時，我會發笑。即使孩子可能餓了，但他似乎從未使用食物來實現其預期目的。他寧願捏碎香蕉片，弄碎麥圈，然後把它們都扔到地板上（狗立刻就學會了這種行為）。

這個小怪物在其他情況下也表現出看似毫無意義的行為：聖誕節早上揉搓包裝紙而不是玩洋娃娃，在洗澡時把水（希望是水）潑到爸爸臉上，災難性地敲擊智慧手機螢幕等等。發展心理學家通常將這類行為稱為“內在動機”，因為它似乎是為了其自身而執行，而不是作為實現某種獨立（可能是獎勵性的）結果（如吃甜食）的方式。

然而，內在動機行為可能並非“毫無意義”，而是可能幫助孩子瞭解周圍環境。當他玩香蕉片或餅乾時，他會了解它們的物理特性。當他確實想吃食物（或扔給狗）時，他會利用這些知識：對於鬆脆的餅乾，他會用力握住並用力咬，但對於軟綿綿的香蕉片，他可能會用更輕柔的觸控。從研究內在動機中獲得的見解對於理解人類發展具有重要的意義。然而，在過去的幾十年裡，它們也為另一種發展做出了貢獻：構建更好的人工智慧體，包括未來的機器人。

關於支援科學新聞

如果您喜歡這篇文章，請考慮透過以下方式支援我們屢獲殊榮的新聞報道訂閱。透過購買訂閱，您正在幫助確保有關塑造我們今天世界的發現和想法的具有影響力的故事的未來。

科學家可以告訴人工智慧體將某些事物視為獎勵——例如找到特定物體或導航到特定位置——並對其進行程式設計以學習實現它。這是外在動機，其中獲取諸如食物或金錢之類的東西可以滿足某些已知的需求。然而，內在動機有點棘手，更精確的描述將有助於我們理解它如何有用。

一種可能性是，一個不可預測的“令人驚訝的”感官事件使我們有動力重複事件發生之前我們所做的事情。然而，如果情況是這樣，我們就會“卡住”重複有時會隨機發生的事件，但實際上什麼都不做的行為。相反，計算機科學家于爾根·施密德胡伯在 1990 年代初期，在最早對人工智慧系統中的內在動機進行計算解釋之一中描述了一個更有用的公式：重複隨後預測後續事件的能力得到提高的行為。

作為一個簡單的例子，如果您不知道智慧手機上的按鈕有什麼作用，並且按下它會開啟 LED 燈，那麼每次您按下它，您預測接下來會發生什麼（LED 燈會亮起）的能力都會提高。因此，您有動力按下按鈕，至少在一段時間內是這樣。但是，在某個時候，您預測按下按鈕的結果的能力無法再提高，因此動機就會消退。

在這個公式中，我們有動力去學習預測以前無法預測的事件的行為，而不是浪費時間試圖預測已經很好預測或無法預測的事件。（在Oudeyer 和 Kaplan 2007 以及 Santucci 等人 2013 中描述了人工智慧系統中內在動機的其他公式，其中大多數公式也涉及預測的某些方面。）

如何使用這種或其他型別的內在動機來構建更好的機器人和通用人工智慧體？就像孩子（或任何動物）一樣，沒有預先程式設計絕對知識的機器人必須能夠學習事物，例如看到下雪如何預測另一個觀察結果（道路會變得溼滑）。檢測觀察序列中的規律性可以訓練內部預測模型——機器人“大腦”的一部分，專門用於預測接下來會發生什麼——以幫助它更好地理解周圍世界是如何運作的。

有了良好的內部預測模型，它就可以做出好的決策，例如在下雪時緩慢行駛（或根本不行駛），而無需真正滑倒在溼滑的道路上。在模擬系統的實驗中，施密德胡伯賦予了一個人工智慧學習體如前所述的內在動機：它有動力觀察可靠地預測其他事件的事件，並在很好地學習預測後繼續觀察其他事件。與沒有內在動機的人工智慧體相比，它能夠更好更快地學習模擬世界的工作方式，這種知識對於以後必須決定做什麼很有用。

心理學家羅伯特·W·懷特在 1950 年代後期描述了內在動機的另一種潛在用途：透過發展影響周圍環境的行為來獲得能力。例如，蹣跚學步的孩子可能在揮舞玩具時碰巧按下了汽車車門上的按鈕，並意外地聽到車門鎖定或解鎖時發出的響亮的咔噠聲。

意外的咔噠聲促使她重複她的動作，她最終多次按下按鈕，最終她瞭解到咔噠聲是在按下按鈕之後發出的，之後她轉向其他事情。此外，透過反覆按下按鈕，她學會了熟練地按下按鈕的行為技能（而不是總是揮舞她的玩具）。她增加了在汽車中按下按鈕發出咔噠聲的技能，即使她不立即知道這有什麼用。換句話說，她提高了與環境互動的能力。

懷特的方法影響了計算機科學家安德魯·巴託及其同事在 2000 年代初期所做的工作，他們使用該方法研究了在模擬環境中行動的人工智慧體的技能發展，其中某些感官事件非常突出（例如汽車中的咔噠聲）。當具有內在動機的人工智慧學習體隨機行動並偶然獲得突出的感官事件時，它會重複並改進之前的行為，以可靠地熟練地實現該事件，並將該行為儲存為以後可以呼叫的單一技能。

隨著該事件變得可預測，實現它的動機逐漸消失，智慧體轉向其他情況，整個過程針對其他突出事件重複進行。巴託及其同事表明，首先透過這種內在動機過程獲得一系列技能的學習智慧體，比從未發展出此類技能的智慧體更快地學會完成該環境中的新任務。這個過程類似於孩子學習按下汽車車門按鈕發出咔噠聲的技能，並且當爸爸不小心將孩子和鑰匙鎖在車裡時，該技能會派上用場。

內在動機也已在現實世界中行動的真實機器人中進行了研究。即使是具有預程式設計行為的機器人也必須學習在哪些感官條件下這些行為實際上可能會完成某些事情，例如僅在看到按鈕時才嘗試按下按鈕，或僅在手感覺到有東西時才合攏手指以抓住東西。

這些感官條件類似於心理學家詹姆斯·吉布森在 1970 年代後期描述的“可供性”。大約十年前，機器人專家斯蒂芬·哈特和羅德里克·格魯彭為一個機器人配備了預先指定的行為，但僅對特定行為可能完成某些事情的感官條件進行了粗略估計，模仿瞭如果將機器人放置在全新的環境中可能預期的條件型別。內在動機是透過在行為成功執行時傳遞訊號來實現的，並且該訊號透過對該行為預期完成某些事情的感官條件的估計（估計的可供性）與行為成功執行的實際感官條件之間的差異進行縮放。

縮放後的訊號是機器人在相似感官條件下重複該行為的內在動機。透過重複執行，機器人學習了其每種行為的準確可供性。憑藉準確的可供性，機器人可以有效地與環境互動：如果它感覺不到手中有東西，它就不會嘗試合攏手指抓住東西，如果它看不到按鈕，它就不會嘗試按下按鈕。

機器人專家阿德里安·巴蘭斯和皮埃爾-伊夫·烏德耶使用了內在動機的不同公式來控制在桌面上二維工作的多連桿機器人手臂（如 2D 章魚觸手）。與嬰兒拍打手臂和翻身類似，幼稚的機器人必須透過移動來學習如何控制自己的身體。在他們的工作中，機器人手臂生成一個要到達的目標位置，嘗試到達該位置，並調整其控制機制以使後續到達更加準確。

當到達特定目標的能力比機器人上次嘗試到達該目標時有所提高時，會產生更高的內在動機訊號。因此，機器人更有可能嘗試到達其能力有所提高的目標位置——從而提高其運動控制能力——而不是其能力沒有提高的目標位置，這可能是因為該目標位置目前太難到達，或者是因為機器人已經可以毫無問題地到達它。因此，機器人透過集中精力學習逐漸變得更難的動作，有效地學習控制自己的身體，而不會浪費時間嘗試學習對於它在任何時候來說都太難或太容易的動作。

在所有四個示例中，內在動機訊號暫時導致人工智慧體重複行為，原因與完成特定任務無關。相反，生成的行為會產生學習有用的東西的經驗：使能夠準確預測的內部模型、影響環境的技能、指示何時可以執行行為的可供性，或有效地學習如何控制自己的身體。

當這些已經學習到某種可接受的程度時，內在動機訊號就會消退，學習智慧體轉向其他事情，但它們使智慧體能夠更好地與環境互動，從而在未來更好地完成任務。在浴缸裡玩塑膠杯中水的男孩培養了知識和技能，這些知識和技能在他最終開始在麥片上倒牛奶時會很有用。在客廳裡搭建積木塔的女孩培養了知識和技能，這些知識和技能在她以後堆疊箱子搬到車庫時會很有用。

該研究表明，被認為構成“毫無意義”的玩耍行為基礎的內在動機如何集中行為以瞭解世界以及如何更好地與之互動。重要的是，學習是自我導向的，並且是透過實際經驗而不是透過外部教師的指導來完成的，這在它可以傳達的內容方面存在侷限性（就像關於如何投球的講座與實際嘗試投球相比顯得蒼白無力）。

本專欄重點介紹了人工智慧體預測事件和執行行為的相對客觀領域，但發展心理學的研究表明，類似的內在動機過程以及從實際經驗中進行的自我導向學習在認知和社會發展中的重要性。透過嘗試足夠精確地描述和理解這些過程，以使其控制人工智慧體，我們可以獲得見解，從而更好地理解人類在許多層面上的發展。