人工智慧最終或能讓我們與動物對話

人工智慧有望徹底變革我們對動物交流的理解

A close-up, side-view view of the head of a Sperm Whale under water, with blue background.

鯨目動物翻譯計劃(CETI)正在使用機器學習來嘗試理解抹香鯨的發聲。

Franco Banfi/明登圖片社

南太平洋一個偏遠島嶼的茂密森林樹冠下,一隻新喀里多尼亞烏鴉從它的棲息處窺視著,黑色的眼睛閃閃發光。這隻鳥小心翼翼地取下一根樹枝,用喙剝去不需要的葉子,並用木頭製作成一個鉤子。這隻烏鴉是一個完美主義者:如果它犯了一個錯誤,它會把整個東西都扔掉,然後重新開始。當它滿意時,這隻鳥會將完成的工具戳進樹上的一個縫隙中,並釣出一條蠕動的蛆。

新喀里多尼亞烏鴉是已知為數不多的會製造工具的鳥類之一,這種技能曾經被認為是人類獨有的。蘇格蘭聖安德魯斯大學的行為生態學家克里斯蒂安·魯茨(Christian Rutz)花費了他職業生涯的大部分時間研究烏鴉的能力。魯茨觀察到的非凡的獨創性改變了他對鳥類能力的理解。他開始想知道是否可能還有其他被忽視的動物能力。烏鴉生活在複雜的社會群體中,可能會將工具製造技術傳給後代。實驗還表明,島嶼周圍不同的烏鴉群體有不同的發聲。魯茨想知道這些方言是否可以幫助解釋群體之間工具製造方面的文化差異。

由人工智慧驅動的新技術有望提供這些型別的見解。動物是否以我們可能理解的方式相互交流是一個持久的迷戀問題。儘管許多土著文化中的人們長期以來一直認為動物可以有意識地交流,但西方科學家傳統上一直迴避模糊人類與其他動物之間界限的研究,以免被指責為擬人化。但是隨著近期人工智慧的突破,“人們意識到我們正處於理解動物交流行為方面取得相當大進展的邊緣,”魯茨說。


支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。


除了建立取悅人們的聊天機器人和製作贏得美術比賽的藝術品之外,機器學習可能很快就能破譯烏鴉的叫聲等,非營利組織地球物種專案的創始人之一阿扎·拉斯金(Aza Raskin)說。它的由人工智慧科學家、生物學家和保護專家組成的團隊正在收集來自各種物種的廣泛資料,並構建機器學習模型來分析它們。其他團體,例如鯨目動物翻譯計劃(CETI),則專注於嘗試理解特定物種,在本例中是抹香鯨。

解碼動物發聲可能有助於保護和福利工作。它也可能對我們產生驚人的影響。拉斯金將即將到來的革命比作望遠鏡的發明。“我們仰望宇宙,發現地球不是中心,”他說。他認為,人工智慧重塑我們對動物理解的能力將產生類似的影響。“這些工具將改變我們看待自身與萬物關係的方式。”

當肖恩·格羅(Shane Gero)在多明尼加結束一天的野外工作後下研究船時,他很興奮。他研究的抹香鯨有複雜的社會群體,在這一天,一隻熟悉的年輕雄性鯨魚回到了它的家庭,這為格羅和他的同事們提供了一個機會來記錄鯨群重聚時的發聲。

近 20 年來,格羅是渥太華卡爾頓大學的常駐科學家,他詳細記錄了加勒比海碧綠水域中兩個抹香鯨家族的情況,捕捉到它們的咔噠聲以及動物發出聲音時的行為。他發現鯨魚似乎使用特定的聲音模式,稱為“尾音”,來識別彼此。它們學習這些尾音的方式很像幼兒學習單詞和名字,透過重複周圍成年鯨魚發出的聲音。

在手動解碼了一些尾音後,格羅和他的同事們開始懷疑他們是否可以使用人工智慧來加速翻譯。作為概念驗證,該團隊將格羅的一些錄音輸入到一個神經網路中,這是一種透過分析資料來學習技能的演算法。它能夠正確識別來自尾音的一小部分個體鯨魚,準確率達到 99%。接下來,該團隊設定了一個雄心勃勃的新目標:監聽大片海洋,希望訓練計算機學習“鯨語”。鯨目動物翻譯計劃(Project CETI)計劃部署一個連線到浮標的水下麥克風,以全天候記錄多明尼加常駐鯨魚的發聲。

隨著感測器變得更便宜,以及水聽器、生物記錄器和無人機等技術的改進,動物資料量呈爆炸式增長。突然間,生物學家有太多的資料無法有效地手動篩選。然而,人工智慧在海量資訊中蓬勃發展。諸如 ChatGPT 之類的大型語言模型必須攝取大量的文字才能學習如何響應提示:ChatGPT-3 接受了大約 45 TB 的文字資料訓練,這相當於美國國會圖書館的很大一部分。早期的模型需要人類用標籤對大部分資料進行分類。換句話說,人們必須教機器什麼是重要的。但是,下一代模型學會了“自我監督”,自動學習什麼是必要的,並獨立建立一種演算法來預測序列中接下來會出現哪些詞語。

2017 年,兩個研究小組發現了一種在人類語言之間進行翻譯的方法,而無需羅塞塔石碑。這項發現的關鍵是將詞語之間的語義關係轉化為幾何關係。機器學習模型現在能夠透過對齊它們的形狀來在未知的人類語言之間進行翻譯——例如,使用“母親”和“女兒”等詞語彼此相鄰出現的頻率來準確預測接下來會出現什麼。“似乎存在著一種隱藏的潛在結構將我們所有人團結在一起,”拉斯金說。“機器學習解碼我們尚不知道如何解碼的語言的大門已經開啟。”

該領域在 2020 年迎來了另一個里程碑,當時自然語言處理開始能夠“將一切都視為一種語言”,拉斯金解釋道。以 DALL-E 2 為例,它是可以根據口頭描述生成逼真影像的人工智慧系統之一。它以驚人的準確度將代表文字的形狀對映到代表影像的形狀——這正是動物交流翻譯可能需要的“多模態”分析型別。

許多動物同時使用不同的交流模式,就像人類在說話時使用肢體語言和手勢一樣。在發出聲音之前、期間或之後立即做出的任何動作都可以為理解動物試圖表達的內容提供重要的背景資訊。傳統上,研究人員已將這些行為編目在一個稱為行為圖譜的列表中。透過正確的訓練,機器學習模型可以幫助解析這些行為,並可能在資料中發現新的模式。例如,去年在《自然通訊》雜誌上發表文章的科學家報告說,一個模型發現了以前未被識別出的差異,即雌性斑胸草雀在選擇配偶時會注意到的歌曲差異。雌性更喜歡與像她們從小一起長大的鳥類一樣唱歌的伴侶。

您已經可以將一種人工智慧驅動的分析與 Merlin 一起使用,Merlin 是康奈爾鳥類學實驗室的免費應用程式,用於識別鳥類物種。為了透過聲音識別鳥類,Merlin 會獲取使用者的錄音並將其轉換為頻譜圖——鳥類鳴叫的音量、音高和長度的視覺化表示。該模型在康奈爾音訊庫上進行訓練,並將其與使用者的錄音進行比較,以預測物種識別。然後,它將此猜測與 eBird(康奈爾的全球觀測資料庫)進行比較,以確保它是在使用者所在位置可以找到的物種。Merlin 可以非常準確地識別 1000 多種鳥類的鳴叫聲。

但是世界很吵,從嘈雜聲中挑出一種鳥或鯨魚的曲調是很困難的。分離和識別個體說話者的挑戰,被稱為“雞尾酒會問題”,長期以來一直困擾著動物發聲的處理工作。2021 年,地球物種專案構建了一個神經網路,可以將重疊的動物聲音分離成單獨的音軌,並過濾背景噪音,例如汽車喇叭聲——並且免費釋出了開原始碼。它的工作原理是建立聲音的視覺化表示,神經網路使用該視覺化表示來確定哪個畫素是由哪個說話者產生的。此外,地球物種專案最近開發了一個所謂的“基礎模型”,可以自動檢測和分類資料集中的模式。

新喀里多尼亞烏鴉以其工具製造能力而聞名,它們具有區域獨特的發聲,有一天可以使用人工智慧進行破譯。圖片來源:Jean-Paul Ferrero/Auscape International Pty Ltd/Alamy Stock Photo

這些工具不僅正在改變研究,而且還具有實際價值。如果科學家能夠翻譯動物的聲音,他們也許能夠幫助瀕危物種。夏威夷烏鴉,當地被稱為 ‘Alalā,在 2000 年代初期在野外滅絕。最後幾隻鳥被帶入圈養以啟動保護繁殖計劃。魯茨擴充套件了他對新喀里多尼亞烏鴉的研究工作,現在正與地球物種專案合作研究夏威夷烏鴉的詞彙。“這個物種已經從其自然環境中移除了很長時間,”他說。他正在編制一份圈養鳥類目前使用的所有鳴叫聲清單。他將把它與最後幾隻野生夏威夷烏鴉的歷史錄音進行比較,以確定它們的曲目在圈養中是否發生了變化。他想知道它們是否可能失去了重要的鳴叫聲,例如與掠食者或求愛有關的鳴叫聲,這可能有助於解釋為什麼將烏鴉重新引入野外如此困難。

機器學習模型有一天也可以幫助我們弄清楚我們的寵物。《追逐杜立德醫生:學習動物的語言》的作者康·斯洛博奇科夫(Con Slobodchikoff)說,長期以來,動物行為學家並沒有過多關注家養寵物。當他開始他的職業生涯研究草原犬鼠時,他很快就欣賞了它們複雜的叫聲,這些叫聲可以描述掠食者的大小和形狀。這種經歷幫助啟發了他後來的工作,即擔任行為顧問,為行為不端的狗提供諮詢。他發現他的許多客戶完全誤解了他們的狗試圖表達的內容。當我們的寵物試圖與我們交流時,它們通常會使用多模態訊號,例如吠叫聲加上身體姿勢。然而,“我們太專注於聲音是唯一有效的交流元素,以至於我們錯過了許多其他線索,”他說。

現在,斯洛博奇科夫正在開發一種人工智慧模型,旨在為其主人翻譯狗的面部表情和吠叫聲。他毫不懷疑,隨著研究人員將研究擴充套件到家養動物,機器學習的進步將揭示寵物令人驚訝的能力。“動物有自己的想法、希望,甚至可能是夢想,”他說。

農場動物也可以從這種深入的理解中受益。哥本哈根大學動物行為學副教授埃洛迪·F·布里弗(Elodie F. Briefer)已經表明,根據動物的發聲來評估動物的情緒狀態是可能的。她最近建立了一種演算法,該演算法在數千種豬叫聲上進行訓練,使用機器學習預測動物是否正在經歷積極或消極的情緒。布里弗說,更好地掌握動物體驗情感的方式可能會促使人們努力改善它們的福利。

但是,儘管語言模型在尋找模式方面表現出色,但它們實際上並沒有破譯意義——而且它們絕對並非總是正確的。即使是人工智慧專家也常常不理解演算法如何得出結論,這使得驗證它們變得更加困難。本傑明·霍夫曼(Benjamin Hoffman)在加入地球物種專案之前曾幫助開發 Merlin 應用程式,他說,科學家現在面臨的最大挑戰之一是如何從這些模型發現的內容中學習。

“在機器學習方面做出的選擇會影響我們可以提出的科學問題型別,”霍夫曼說。他解釋說,Merlin Sound ID 可以幫助檢測哪些鳥類存在,這對於生態研究很有用。但是,它無法幫助回答有關行為的問題,例如,當個體鳥類與潛在配偶互動時,它們會發出哪些型別的鳴叫聲。霍夫曼說,在嘗試解釋不同型別的動物交流時,研究人員還必須“理解計算機在學習如何做到這一點時正在做什麼”。

省理工學院計算機科學與人工智慧實驗室主任丹妮拉·魯斯(Daniela Rus)向後靠在辦公室扶手椅上,周圍環繞著書籍和成堆的論文。她渴望探索機器學習為研究動物交流開闢的新可能性。魯斯之前曾設計遙控機器人,與生物學家羅傑·佩恩(Roger Payne)合作收集鯨魚行為研究的資料,佩恩在 1970 年代對座頭鯨歌曲的錄音幫助普及了“拯救鯨魚”運動。現在,魯斯正在將其程式設計經驗帶入鯨目動物翻譯計劃(Project CETI)。用於水下監測的感測器已迅速發展,提供了捕獲動物聲音和行為所需的裝置。能夠分析這些資料的人工智慧模型也得到了顯著改進。但是直到最近,這兩個學科還沒有結合起來。

在鯨目動物翻譯計劃(Project CETI)中,魯斯的第一個任務是將抹香鯨的咔噠聲從海洋領域的背景噪音中隔離出來。與二進位制程式碼相比,抹香鯨的發聲在表示資訊的方式上要長得多。但它們比這更復雜。在開發出精確的聲學測量方法後,魯斯使用機器學習來分析這些咔噠聲如何組合成尾音,尋找模式和序列。“一旦你有了這種基本能力,”她說,“那麼我們就可以開始研究語言的一些基本組成部分是什麼。”魯斯說,該團隊將直接解決這個問題,“分析[抹香鯨]詞彙是否具有語言的屬性。”

但是,掌握語言的結構並不是說這種語言的先決條件——至少現在不是了。現在,人工智慧可以獲取三秒鐘的人類語音,然後以完全模仿的方式,用相同的模式和語調滔滔不絕地說話。拉斯金預測,在未來一兩年內,“我們將能夠為動物交流構建這個模型。”地球物種專案已經在開發模擬各種物種的人工智慧模型,目的是與動物進行“對話”。他說,雙向交流將使研究人員更容易推斷動物發聲的含義。

地球物種專案計劃與外部生物學家合作,測試回放實驗,在實驗室環境中向斑胸草雀播放人工生成的鳴叫聲,然後觀察鳥類的反應。拉斯金斷言,很快“我們將能夠透過草雀、烏鴉或鯨魚圖靈測試”,指的是動物無法分辨它們是在與機器還是與同類交談的點。“情節反轉是,我們將在理解之前就能夠交流。”

這項成就的前景引發了倫理方面的擔憂。《生命之聲:數字技術如何拉近我們與動植物世界的距離》的作者、數字創新研究員凱倫·巴克(Karen Bakker)解釋說,可能會有意想不到的後果。商業行業可能會使用人工智慧進行精確捕魚,方法是監聽目標物種或其捕食者的群體;偷獵者可以部署這些技術來定位瀕危動物,並模仿它們的叫聲來引誘它們靠近。對於座頭鯨等神秘歌曲可以以驚人的速度在海洋中傳播的動物來說,合成歌曲的創作可能會“將病毒式模因注入世界種群”,從而產生未知的社會後果,巴克說。

到目前為止,處於動物交流工作前沿的組織都是像地球物種專案這樣的非營利組織,它們致力於開源共享資料和模型,並由對其研究動物充滿熱情的科學家組成。但是,該領域可能不會保持這種狀態——以營利為目的的參與者可能會濫用這項技術。魯茨和他的合著者在《科學》雜誌上發表的一篇最新文章中指出,“迫切需要最佳實踐指南和適當的立法框架”。拉斯金警告說,“僅僅製造技術是不夠的。“每次你發明一項技術時,你也會發明一種責任。”

正如鯨目動物翻譯計劃(Project CETI)所渴望的那樣,設計一個“鯨魚聊天機器人”並不像弄清楚如何複製抹香鯨的咔噠聲和口哨聲那麼簡單;它還需要我們想象動物的體驗。儘管存在巨大的身體差異,但人類實際上與其他動物共享許多基本的交流形式。以父母與後代之間的互動為例。例如,哺乳動物嬰兒的哭聲可能非常相似,以至於白尾鹿會回應土撥鼠、人類或海豹發出的嗚咽聲。不同物種的發聲表達也可以以類似的方式發展。就像人類嬰兒一樣,港海豹幼崽學會改變它們的音高以對準父母的耳膜。幼年鳴禽和人類幼兒都參與咿呀學語——“從導師那裡學到的一系列複雜的音節,”馬里蘭大學大腦與行為倡議研究科學家喬納森·弗裡茨(Johnathan Fritz)解釋道。

然而,動物的叫聲在它們傳達的內容方面是否與人類語言相當,仍然存在深刻的分歧。“有些人會斷言,語言的本質定義使得人類成為唯一能夠使用語言的動物,”巴克說,語言有語法和句法規則。懷疑論者擔心,將動物交流視為語言或試圖翻譯它可能會扭曲其含義。

拉斯金對這些擔憂不屑一顧。他懷疑動物是否在說“把香蕉遞給我”,但他懷疑我們會發現一些共同經歷的交流基礎。“如果我們在不同物種中發現[表達]‘悲傷’或‘母親’或‘飢餓’,我不會感到驚訝,”他說。畢竟,化石記錄表明,鯨魚等生物已經發聲了數千萬年。“為了讓某種東西長期生存,它必須編碼一些非常深刻和非常真實的東西。”

最終,真正的翻譯可能不僅需要新工具,還需要超越我們自己的偏見和期望的能力。去年,當我家後面的積雪消退時,一對沙丘鶴開始在荊棘叢中潛行。求偶開始了,雄性殷勤而梳妝打扮。很快,每天早上,一隻鳥獨自飛出去覓食,而另一隻鳥則留在後面照顧它們的蛋。我們陷入了一種習慣,鳥和我:當太陽昇到山頂時,我一直關注著窗外,數著日子,因為我設想細胞分裂,新翅膀在溫暖的羊膜黑暗中形成。

然後有一天早上,它結束了。在房子後面的某個地方,鳥兒開始哀嚎,將它們的聲音纏繞成一聲刺耳的哭聲,直到我突然看到它們都跑下山坡,開始斷斷續續地飛行。它們盤旋了一圈,然後消失了。我等了幾天,但我再也沒有見過它們。

我想知道它們是否在為失敗的巢穴哀悼,或者我是否過度解讀了它們的行為,我聯絡了喬治·哈普(George Happ)和克里斯蒂·雲克(Christy Yuncker),他們是退休科學家,在阿拉斯加與一對他們暱稱為米莉和羅伊的野生沙丘鶴分享了他們的池塘。他們向我保證,他們也曾見過鳥類對死亡做出反應。在米莉和羅伊的一隻幼鶴去世後,羅伊開始撿起草葉,並將它們扔在它後代的屍體附近。那天晚上,當太陽滑向地平線時,這個家庭開始跳舞。倖存的幼鶴加入了它的父母,它們旋轉、跳躍,將它們的長脖子向後仰向天空。

哈普知道批評家可能會不贊成他們將鳥類的行為解釋為悲傷,考慮到“我們無法精確地指定潛在的生理相關性”。但基於研究人員對這對鶴夫婦十多年的密切觀察,他寫道,將這些引人注目的反應解釋為缺乏情感“與證據背道而馳”。

每個人最終都可以體會到失去親人的痛苦。這是一個成熟的翻譯時刻。

也許任何語言的真正價值在於它可以幫助我們與他人建立聯絡,從而將我們從自己思想的束縛中解放出來。每年春天,當陽光掃過雲克和哈普的家時,他們都會等待米莉和羅伊回來。2017 年,他們徒勞地等待著。其他鶴爭奪這片領地。兩位科學家錯過了觀看幼鶴孵化和成長的機會。但是去年夏天,一對新的鶴夫婦築巢了。不久之後,它們的幼鶴從高高的草叢中探出頭來,乞求食物並學習跳舞。生命開始了一個新的迴圈。“我們總是看著大自然,”雲克說,“但實際上,我們是大自然的一部分。”

© .