本文發表於《大眾科學》的前部落格網路,僅反映作者的觀點,不一定反映《大眾科學》的觀點
對我們許多人來說,駕駛汽車似乎是與生俱來的技能,但實際上這是一個相當複雜的過程。最簡化的版本是,首先你坐在駕駛座上,然後啟動引擎,然後換擋,然後你必須同時操控方向盤,同時保持腳踩油門。這還不包括調整後視鏡、確認你不會撞到其他人或汽車等等。
從某種意義上說,紐西蘭的三隻狗狗學會了以相當初步的方式駕駛汽車,這令人難以置信。它們坐在駕駛座上,換擋,操作方向盤,並踩油門。然而,真正值得稱讚的不是狗狗,而是人類訓練員,因為他們令人印象深刻的耐心和決心。
關於支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。透過購買訂閱,您將有助於確保關於塑造我們今天世界的發現和想法的具有影響力的故事的未來。
訓練人類最好的朋友操作汽車的訓練,與世界各地動物園的鳥類表演,或您可能在海洋世界看到的dolphin、虎鯨、海豹或海獅表演背後的訓練沒有什麼不同。這與科學家用來探索大鼠、小鼠和其他實驗室動物的情感和認知生活的訓練型別相同。歸根結底,這一切都歸結為一種學習形式,這種學習形式最初由愛德華·L·桑代克在 1900 年代初提出,後來由B.F.斯金納擴充套件和普及,並教授給每一位心理學導論學生:操作性條件反射。
什麼是操作性條件反射?
雖然經典條件反射是一種將外部刺激與反射性的、非自願的反應聯絡起來的學習形式,但操作性條件反射涉及自願行為,並透過隨之而來的結果來維持。在一項實驗中,斯金納將鴿子單獨放入實驗箱(有時稱為“斯金納箱”)中,這些箱子被設計為按系統的時間間隔提供食物獎勵。他發現,透過在鳥類表現出期望的行為後獎勵它,他可以激勵鳥類增加該特定行為的頻率。
操作性條件反射中使用的工具被稱為正強化和負強化以及正懲罰和負懲罰。
那麼,正強化和負懲罰之間有什麼區別?負強化?正懲罰?救命啊!
不止一位心理學導論學生被正負之間、強化和懲罰之間的差異弄糊塗了。以下是你需要了解的三點(和半點):
1. 強化用於維持或增加期望的行為,而懲罰用於減少或消除行為。(斯金納認為,在改變行為方面,強化比懲罰更有效。)
2. 正涉及在情境中引入或新增刺激。那麼,負意味著刺激被撤回或移除。
3. 如果刺激是令人愉悅或獎勵性的,你的心理學教科書可能會將它們稱為“喜好性”刺激。如果刺激是不獎勵或不需要的,它們可能被稱為“厭惡性”刺激。
3a. 正強化和負懲罰涉及喜好性刺激。正懲罰和負強化涉及厭惡性刺激。
許多學生認為刺激本身是正面的或負面的,這就是事情變得混亂的地方。跟我說:正面和負面指的是刺激的新增或移除,而不是刺激本身。
正強化可能包括用糖果獎勵孩子,以鼓勵他與兄弟姐妹好好玩耍。糖果是一種喜好性刺激,用於增加或維持期望的行為。
如果孩子行為不端,他們可能會被剝奪看電視的權利。這是負懲罰,因為你移除了喜好性刺激(電視),以消除不想要的行為。
如果孩子繼續行為不端,父母可能會對他或她大喊大叫;這將構成正懲罰。它涉及施加厭惡性刺激(大喊大叫),以消除不想要的行為。
最後,沮喪的父母可能會與他們行為不端的孩子協商,提出減少他或她本週必須完成的家務,以換取期望的行為。這是一種負強化形式,因為厭惡性刺激(家務)被移除,目的是增加良好行為。
但是等等,還有更多
在訓練動物(或有時是人類)時,強化是根據預定的時間表進行的。如果在設定次數的反應後提供刺激,則被認為是固定比率時間表。例如,鴿子可能在每次啄按鈕十次後獲得食物獎勵。鴿子會了解到需要按十次按鈕才能獲得獎勵。
如果獲得刺激所需的反應次數是變化的,那麼你正在使用可變比率時間表。這方面最好的例子是老虎機,它在一段時間內提供獎勵的機率是固定的,但兩次獎勵之間拉桿的次數是可變的。難怪可變比率強化時間表是快速建立和維持期望行為的最有效方法。
如果在固定的時間量後給予刺激,而與反應次數無關,那麼你就得到了固定間隔時間表。無論鴿子啄按鈕多少次,它每十分鐘只獲得一次獎勵。這是最無效的強化時間表。
最後,如果在可變的時間量後給予刺激,那麼你就得到了可變間隔時間表。刺激可能平均每週施加一次,這意味著有時它發生的頻率高於每週一次,有時則低於每週一次。隨堂測驗是可變間隔強化時間表最著名的例子,因為它們發生的精確時間是不可預測的。在這種情況下,期望的反應是學習。
總的來說,比率時間表比間隔時間表更有效地改變行為,而可變時間表比固定時間表更有效。
將所有內容整合在一起
斯金納從早期的鴿子實驗中吸取了教訓,並繼續開發方法,透過將更復雜的行為分解為若干部分來引發這些行為,然後可以對每個部分進行單獨的條件反射。這被稱為連鎖,是訓練狗狗駕駛汽車的基礎。與駕駛狗狗一起工作的行為學家首先訓練它們操作槓桿,然後使用方向盤調整移動小車的方向,然後按下或鬆開踏板來加速或減速小車。隨著每隻狗狗掌握每個步驟,都會新增一個額外的部分,直到它們學會整個目標行為。與食物是鴿子最好的獎勵不同,馴化過程意味著狗狗可以透過口頭表揚來獎勵(儘管食物肯定有幫助)。
最初是如何引發如此不自然的行為的?透過結合強化和懲罰,訓練員可以透過獎勵逐漸接近的近似行為來塑造期望的行為。斯金納恰如其分地將這個過程稱為塑造。在1953年,斯金納這樣描述它(重點已新增):
我們首先在鳥類從籠子的任何部分稍微轉向該點時給它食物。這增加了這種行為的頻率。然後,我們停止強化,直到做出稍微朝向該點的移動。這再次改變了行為的總體分佈,而沒有產生新的單元。我們繼續透過強化越來越接近該點的位置,然後僅在頭部稍微向前移動時進行強化,最後僅在喙實際接觸到該點時才進行強化。……最終形式的反應的原始機率非常低;在某些情況下,它甚至可能為零。透過這種方式,我們可以構建複雜的、否則永遠不會出現在生物體行為庫中的操作。透過強化一系列連續的近似行為,我們在短時間內將罕見的反應提高到非常高的機率。……從盒子中的任何一點轉向該點、走向它、抬起頭並擊中該點的整個動作可能看起來是一個功能上連貫的行為單元;但它是由未分化的行為透過持續的差異強化過程構建而成的,就像雕塑家從一塊粘土中塑造他的雕像一樣。
這也是教狗狗跳莎莎舞的方式
或者這隻小鼠被訓練來導航障礙賽道的方式
或者這隻雞
或者這隻山羊
雞和山羊影片中出現的,以及許多人用於訓練狗狗的響片訓練,結合了經典條件反射和操作性條件反射。經典條件反射用於使咔噠聲成為條件刺激,然後將其用於操作性條件反射中的正強化。
野外的操作性條件反射
已經提到了幾個操作性條件反射的真實世界例子:獎勵孩子的良好行為或懲罰孩子的壞行為、老虎機和隨堂測驗。在動物園和其他動物設施中,飼養員使用操作性條件反射來訓練動物在不同圍欄之間移動,展示身體部位以進行檢查,或確保獸醫檢查安全進行。
操作性條件反射也可以解釋為什麼一些動物園動物會表現出刻板行為或重複性行為。為了理解這是如何運作的,讓我們回到斯金納的鴿子。在一項實驗中,斯金納將鳥類放入它們的箱子中,並將食物獎勵設定為按系統的時間間隔提供,而與鳥類的行為無關。鴿子繼續發展出斯金納所說的“迷信行為”,這是它們的公開行為與食物獎勵的呈現之間偶然並置的結果。一隻鴿子在獎勵呈現之前在籠子裡逆時針轉動,這導致鴿子學會了逆時針轉動與食物之間的聯絡。這隻鴿子花時間轉來轉去等待獎勵。另一隻鴿子將頭伸進籠子的一個角落以引出食物。兩隻鳥左右搖晃頭部,另一隻鳥被條件反射地啄向地面——幾乎但沒有完全接觸到地面。
圈養動物的刻板行為可能源於多種來源,但偶然的操作性條件反射可能解釋了其中很大一部分。事實上,動物園動物最常見的刻板行為形式是踱步,如果與刻板的游泳模式相結合,其次是各種形式的搖擺或搖頭晃腦。幸運的是,操作性條件反射的原理也可以用於補救這些問題。
你能想到其他操作性條件反射的真實世界例子嗎?請在評論中留下它們!
斯金納 B.F. (1948). 鴿子中的“迷信”。, 實驗心理學雜誌,38 (2) 168-172. DOI: 10.1037/h0055873
Shyne A. (2006). 富集對動物園哺乳動物刻板行為影響的薈萃分析綜述, 動物園生物學,25 (4) 317-337. DOI: 10.1002/zoo.20091
相關