這個機器人真的會說唱

深度學習機器人 Shimon 即時創作和押韻

如果你的數字助手可以進行說唱對戰會怎麼樣？這聽起來可能有些牽強，但佐治亞理工學院的音樂技術專家吉爾·溫伯格已經改造了一個名為Shimon的音樂機器人，使其能夠即時創作歌詞和表演。這意味著它可以與人類進行說唱“對話”，甚至可以幫助他們創作自己的歌詞。Shimon 的設計初衷是聽起來像機器（在此收聽），它旨在成為獨一無二的音樂合作者——或非人類的說唱對戰對手。

計算機生成音樂可以追溯到 20世紀50年代，當時早期的計算機使用演算法來創作旋律。現代機器人可以使用機器學習在樂器上即興演奏，包括長笛和鼓。其中一臺機器是早期版本的 Shimon，它可以演奏馬林巴琴和唱歌。最近更新的機器人外觀相同；它仍然由一個球形的“頭部”組成，在機械臂的末端，頭部上方是帶有調皮可動眉毛的遮陽板覆蓋的眼睛。但現在溫伯格聲稱 Shimon 是第一個涉足說唱的即興機器人，其獨特的風格特徵帶來了獨特的程式設計挑戰。

說唱的桂冠在於歌詞。除了語義內容之外，歌詞還需要符合美觀的節拍和節奏，同時還要傳遞多層次的詩意複雜性。在最近發表於第 11 屆國際計算創造力會議 2020論文集中的一篇論文中，溫伯格的研究團隊概述了使說唱 Shimon 成為現實的技術進步。

支援科學新聞報道

如果您喜歡這篇文章，請考慮支援我們屢獲殊榮的新聞報道，方式是訂閱。透過購買訂閱，您正在幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。

當 Shimon 進行說唱對戰時，軟體會將其人類對手口語化的歌詞轉換為文字。機器人的系統從此文字中識別關鍵詞，並根據 Shimon 接受過訓練的幾個自定義詞彙資料集（使用深度學習模型）生成新的歌詞。這些資料集可以來自任何文字：Lil Wayne、JAY-Z 或其他說唱歌手的作品；來自其他流派的歌詞；甚至非音樂文學作品。想象一下莎士比亞或簡·奧斯汀說唱起來會是什麼樣子；Shimon 可以為您模擬。

Shimon 設計的一個新穎之處，其創造者說，是額外使用了音素資料集來構思新歌詞。音素是構成單詞發音的獨特單元。論文的第一作者、佐治亞理工學院的音樂技術專家理查德·薩弗裡說，將關鍵詞分解為這些單元是將韻律融入歌詞的最有效方法。“單詞之間音素的關係非常重要，”薩弗裡解釋說，有時甚至“比單詞的實際含義更重要”。音素訓練資料集使 Shimon 能夠生成以關鍵詞為中心的押韻短語，然後機器人將節奏節拍疊加到其語音上。

Shimon 的系統必須足夠快，才能即時響應，而不會影響效能質量。為了實現這一點，研究人員做出了幾個艱難的程式設計決定，例如將 Shimon 的響應詞彙量限制在 3,000 個單詞左右，並縮短 Shimon “傾聽” 對手的時間長度。到目前為止，Shimon 可以在不到七秒的時間內說唱反擊，同時即興做出諸如搖頭和挑眉等手勢。硬體升級，例如更強大的圖形處理單元，最終將使該過程更快。

普雷姆·西塔拉曼說，Shimon 技術的任何單個元件都不是全新的——但這種特殊的零件組合是全新的，他是科技初創公司 Descript的研究科學家，他沒有參與該專案。“總的來說，該領域被相當孤立地劃分為不同的事物，例如語音轉文字、文字轉語音、音樂，”西塔拉曼說。“該領域正在接近一個足夠好的複雜程度，以便人們能夠採用這些[元件]並將它們連線在一起，形成真正有趣的互動式系統。”

除了 Shimon 的新穎價值之外，溫伯格還希望他的機器人能夠為人們提供嘗試新型音樂的機會。“如果 [Shimon] 在沒有人類的情況下做自己的事情……作為一個完全自主的音樂系統，對我來說沒有意義，”他說。他的目標是看到他的機器人“與 [人類] 交流和互動，並以令人驚訝的方式啟發他們。” 溫伯格以前從未寫過歌詞，但他說 Shimon 使他第一次創作歌曲。他補充說，他甚至收到了來自患有寫作障礙的作詞家的幫助請求。

西塔拉曼本人也是一位業餘音樂家，他也表示對 Shimon 的技術可能為非音樂家提供的可能性感到興奮。“使用人工智慧的工具可以降低進入藝術領域的門檻，”他說。“人們一直在這樣做：您會看到人們製作 Instagram 故事和 TikTok [影片]。”

然而，專業人士有一些保留意見。里斯·蘭斯頓是一位說唱歌手和多媒體藝術家，他沒有參與該專案，他說他很樂意與 Shimon 一起說唱，尤其是在 COVID-19 大流行限制了蘭斯頓從中獲得大部分靈感的面對面互動之後。他說人工智慧可以取得的成就是令人印象深刻的——但也暗示機器人根本無法獲得有時會從人類錯誤等事物中偶然產生的靈感。蘭斯頓解釋說，在錄音過程中，錯誤有時最終會出現在最終錄音中，因為它們聽起來出奇地好。事故“解鎖了可能性，因為[錄音中的]一切都不是計劃好的，”他說。“你能教機器犯錯嗎？”