人工智慧開發出識別鳥鳴的“耳朵”

機器學習演算法可以快速處理數千小時的自然聲音景觀

Bright Yellow Warbler perched on tree branch with open beak, singing.

優勝美地國家公園中的雄性黃鶯。

如果我們多傾聽大自然,就能從中學習到很多東西——世界各地的科學家們正在努力做到這一點。從山峰到海洋深處,生物學家們越來越多地安裝錄音裝置,以便不引人注意地竊聽鯨魚、大象、蝙蝠,特別是鳥類的呻吟、尖叫、口哨和鳴叫聲。例如,今年夏天,將有超過2000個電子耳朵記錄加利福尼亞州內華達山脈的聲音景觀,產生近一百萬小時的音訊。為了避免花費人類多個生命週期來解碼這些音訊,研究人員正在依靠人工智慧。

這些錄音可以建立有價值的動物群落快照,並幫助自然資源保護主義者詳細瞭解政策和管理措施如何影響整個種群。收集有關某個地區物種和個體數量的資料只是一個開始。內華達山脈的聲音景觀包含了關於去年曆史性野火如何影響該地區不同棲息地和生態條件下的鳥類的重要資訊。這些錄音可以揭示各種動物種群如何度過這場災難,以及哪些保護措施可以更有效地幫助物種反彈。

這些錄音還可以捕捉到較大群體中個體之間互動的細節。例如,配偶如何在求偶的喧囂中找到彼此?科學家們還可以利用聲音來追蹤遷徙時間或種群範圍的變化。來自其他地方的大量音訊資料也在湧入:正在進行基於聲音的專案,以計數昆蟲,研究光和噪聲汙染對鳥類群落的影響,追蹤瀕危物種,並在錄音機檢測到非法偷獵或伐木活動的噪聲時觸發警報。


關於支援科學新聞

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。透過購買訂閱,您正在幫助確保有關塑造當今世界發現和思想的具有影響力的故事的未來。


“音訊資料是一個真正的寶藏,因為它包含大量資訊,”康奈爾大學的生態學家、博士後研究員康納·伍德說,他正在領導內華達山脈的專案。“我們只需要創造性地思考如何共享和訪問[這些資訊]。”這是一個迫在眉睫的問題,因為人類需要很長時間才能從錄音中提取有用的見解。幸運的是,最新一代的機器學習人工智慧系統——可以從動物的叫聲中識別物種——可以在不到一天的時間內處理數千小時的資料。

康奈爾鳥類學實驗室保護生物聲學中心助理主任勞雷爾·西姆斯說:“機器學習對我們來說是一個重大的改變。”她研究動物(包括蟋蟀、青蛙、蝙蝠和鳥類)的聲音交流,並積累了數月的中美洲巴拿馬雨林中鳴螽(一種以鳴叫著稱的長角蚱蜢,是食物網的重要組成部分)的錄音。繁殖活動和季節性種群變化的模式隱藏在這些音訊中,但分析這些音訊非常耗時:西姆斯和她的三位同事花了600個小時的工作時間才從10個小時的錄音中對不同的鳴螽物種進行分類。但是她的團隊正在開發的一種名為 KatydID 的機器學習演算法,在其人類創造者“出去喝啤酒”的時候就完成了相同的任務,西姆斯說。

像 KatydID 這樣的機器學習裝置是自學習系統,它使用神經網路——“一個非常粗略的人腦近似模型”,康奈爾大學保護生物聲學中心和德國開姆尼茨工業大學的機器學習專家斯特凡·卡爾解釋說。他構建了BirdNET,這是當今最受歡迎的鳥類聲音識別系統之一。伍德的團隊將依靠 BirdNET 來分析內華達山脈的錄音,其他研究人員正在使用它來記錄法國布里埃地區自然公園光和噪聲汙染對晨曲的影響。

這些系統首先分析許多輸入——例如,數百個錄製的鳥鳴聲,每個都用其對應的物種“標記”。然後,神經網路會自學哪些特徵可用於將輸入(在本例中為鳥的叫聲)與標籤(鳥的身份)相關聯。由於通常涉及數百萬個極其細微的特徵,人類甚至無法知道其中大多數特徵是什麼。

舊版本的檢測軟體是半自動的。它們掃描頻譜圖(音訊訊號的視覺化表示),以尋找已建立的特徵,例如頻率範圍和持續時間,從而透過歌曲識別鳥類。這對某些物種來說效果很好。例如,北美紅雀的歌曲通常以幾個音調上升的長音開始,然後是音調明顯下降的快速短音。可以很容易地從頻譜圖中識別出它,就像可以從樂譜中識別出創作的歌曲一樣。但是,其他鳥類叫聲更復雜且變化多端,可能會使舊系統感到困惑。“您需要的不只是簽名來識別物種,”卡爾說。許多鳥類都有不止一種歌曲,並且像其他動物一樣,它們通常有地區“方言”。來自華盛頓州的白冠麻雀的聲音與加利福尼亞州的同類大相徑庭。機器學習系統可以識別出這種細微差別。“假設今天推出了一首尚未發行的披頭士樂隊歌曲。您以前從未聽過旋律或歌詞,但您知道這是一首披頭士樂隊的歌曲,因為這就是他們聽起來的樣子,”卡爾解釋說。“這些程式也學會了做到這一點。”

事實上,這些系統受益於最近在人類語音和音樂識別技術方面的進步。在與康奈爾鳥類學實驗室的安德魯·法恩斯沃思合作下,紐約大學音樂和音訊研究實驗室的專家們利用他們的音樂經驗構建了一個名為 BirdVox 的鳥鳴識別系統。它可以檢測和識別夜間遷徙的鳥類,並將鳥鳴聲與背景噪音區分開來,包括青蛙和昆蟲的叫聲、人類的地面和空中交通,以及風和雨等來源——所有這些都可能非常響亮且多變。

每個系統的學習效果在很大程度上取決於可用的預標記錄音的數量。對於常見的鳥類,已經存在大量此類資料。卡爾估計,網上有大約 420 萬個錄音可用於 10,000 個物種。但是,BirdNET 可以識別的 3000 多個物種中的大多數都可以在歐洲和北美找到,而 BirdVox 則進一步將重點縮小到美國鳥類的歌曲。

“在其他地方,對於較稀有的物種或沒有經過良好分類的物種,[BirdNET] 的效果不佳,”印度生態學家 V. V. 羅賓說。他正在追蹤傑頓鴴,這是一種瀕臨滅絕的夜行性鳥類,大約十年沒有正式發現過。羅賓和他的合作者在印度南部的一個野生動物保護區放置了錄音機,試圖捕捉它的叫聲。自 2009 年以來,他還一直在記錄西高止山脈(印度南部的一個全球生物多樣性熱點)的鳥類。這些錄音經過精心註釋,以訓練當地開發的機器學習演算法。

公民科學家還可以幫助填補鳥鳴儲存庫中的空白。BirdNET 為一款智慧手機應用程式提供支援,該應用程式在業餘觀鳥者中非常受歡迎。他們錄製音訊片段並將其提交到該應用程式,該應用程式會告訴他們歌唱者的物種,並將錄音新增到研究人員的資料庫中。卡爾說,每天有超過 300,000 個錄音湧入。

這些機器學習演算法仍有改進的空間。儘管它們分析音訊的速度比人類快得多,但它們在篩選重疊的聲音以尋找感興趣的訊號方面仍然落後。一些研究人員認為這是人工智慧要解決的下一個問題。然而,即使是當前不完善的版本,也能夠實現人類獨自處理太過耗時的大型專案。“作為生態學家,”伍德說,“像 BirdNET 這樣的工具讓我們敢於夢想。”

© .