機器可以創作藝術,但它們會即興演奏嗎?

爵士樂作曲和演奏是創意人工智慧的下一個前沿領域

埃裡克·奈夫勒

加入我們的科學愛好者社群!

本文發表於《大眾科學》的前部落格網路,反映了作者的觀點,不一定反映《大眾科學》的觀點


作為一家應用計算機視覺公司的首席技術官,我大部分時間都在監督和完善全棧人工智慧設定,這些設定採用神經網路和計算機視覺演算法來識別和分析影像和圖片的內容。在業餘時間,我與我的爵士五重奏樂隊一起演奏薩克斯,與其他音樂家輪流獨奏、即興演奏和自由發揮。這是一個充滿情感、驚喜和交流的過程。我一直認為這是一項獨特的人類事業——一項不受技術篡奪野心影響的事業。

的確,很長一段時間以來,我只從人工智慧的實用優勢來看待它的可行性。最近湧現出大量關於神經網路和創造力的實驗——從寫詩設計世紀中期傢俱生成刻意非衍生的繪畫創造時裝秀時尚——開始改變我的看法。這讓我開始思考,同樣的方法是否可以應用於爵士樂——以及最終目的是什麼?建立一個能夠透過爵士圖靈測試的人工智慧機器人、程式或代理有什麼好處?以今天的人工智慧技術水平,這甚至是可以想象的嗎?我研究了這個課題,並與來自學術界和商界的、處於人工智慧和音樂交叉領域的專家,以及我的一些音樂家同行進行了交談。以下是我的發現。

有些音樂型別比其他型別更適合人工智慧


關於支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。 透過購買訂閱,您將幫助確保有關塑造我們今天世界的發現和想法的具有影響力的故事的未來。


在人工智慧和音樂創作的交叉領域,已經做了很多工作。科技巨頭如微軟谷歌IBM Watson索尼,以及初創公司如AivaAmper,都擁有商業上可用的技術和圍繞人工智慧生成音樂的業務。去年夏天,YouTube 明星泰琳·南方釋出了我是人工智慧專輯,該專輯是在 Aiva、Amper、微軟和 IBM 的工具和技術的幫助下創作的。您在商店、電梯、電視購物廣告和影片遊戲中聽到的一些配樂很可能是人工智慧創作的。有些是由管絃樂隊根據人工智慧創作的樂譜和編曲進行現場演奏的。有些是流行音樂的錄音棚製作風格,以超乎尋常的完美形式直接從計算機中噴湧而出。

儘管有一些人為干預的例外情況,但您可能在那些場所和平臺上聽不到人工智慧生成的爵士樂。這有點令人驚訝,因為演算法有時會產生意想不到的結果,這似乎很適合爵士樂的即興性質。然而,正如任何專業的爵士音樂家或俱樂部老闆可以證明的那樣,爵士樂往往是表演者愛的勞動。它服務於熱情的利基受眾。而且,人們很難期望它能像自動配樂 YouTube 內容和影片遊戲那樣引起商業上的緊迫性。

但還有其他挑戰。

你的學習有多深入?

DeepJazz 是普林斯頓大學計算機科學系學生金智星在 2016 年的一個專案,它吐出了帕特·梅西尼的《然後我知道了》的鋼琴獨奏變奏曲。該模型使用帕特·梅西尼原曲 MIDI 檔案作為資料來源,Keras 和 Theano 機器學習 API,以及一個

長短期記憶(LTSM)迴圈神經網路。迴圈神經網路(RNN)在今天的人工智慧作曲中很流行,因為它們透過迴圈從先前的輸入中學習,從而動態地進行反向傳播。

也就是說,傳統的 RNN 往往只適用於簡短的樂句。如果您創作的音樂長度超過鈴聲,那麼 LTSM 就會發揮作用,因為它們能夠呼叫更多的記憶體,並在整首歌曲的過程中工作,處理整體結構、副歌、橋段、疊句等等。

如果對節奏和力度進行更多細微的調整,那麼 DeepJazz 產生的廣闊旋律和跳躍的和絃進行肯定可以被認為是真品,如果您在收音機、超市或客戶服務等待時聽到它們。但是,如果作為計算機或人類圖靈測試問題提出——即這首歌是由人還是機器創作的?——可能就沒那麼容易了。由於它只在一首歌曲上進行了訓練,DeepJazz 的輸出永遠只能產生聽起來類似於那首歌曲的結果。

更重要的是,輸出將原始的吉他、貝斯、鼓和鍵盤樂器縮減為僅鋼琴。從原始歌曲及其原始樂器生成即興演奏將是一項更加複雜的任務。畢竟,鋼琴的固定音符與通常與爵士樂相關的其他樂器(如小號、長號和薩克斯管)的可塑性更強的擴充套件音調之間存在很大差異。

卡內基梅隆大學計算機科學教授羅傑·丹能伯格說:“對於計算機來說,使管樂器如此困難的事情是,您一直在向它們注入能量,因此您可以進行持續控制,而爵士樂演奏者可以自由地非常有表現力地使用這種控制。”他本人也演奏爵士小號。“這不僅僅是弄清楚要演奏哪些音符,而是如何演奏它們。您幾乎可以無限靈活地控制顫音、彎音,甚至產生鋼琴等樂器根本無法發出的聲音。”

現場援助

除了音色之外,與人工智慧“音樂家”的現場表演還帶來了其他挑戰。無論音樂型別如何,現場即興演奏的集體即興演奏期間音樂家之間發生的臨時、即時的交流在機器和人類之間仍然不存在。房間或表演場地的影響聲音的聲學效果、觀眾的能量,當然還有音樂家之間共享的視覺線索,都是當前任何技術都無法考慮的。

圖片來源:埃裡克·奈夫勒

這將需要複雜的音訊識別技術,使機器能夠聽到和解釋其他樂器,先進的計算機視覺技術來捕捉各種微妙的視覺線索,以及某種方式來向人類音樂家發出訊號並與之交流——所有這些都與即時即興演算法同步。僅支援這些操作所需的計算能力就將是驚人的。許多研究——從機器人馬林巴琴任天堂 Wii 啟用的波普爵士即興演奏生成器

現有的音樂軟體混搭能夠與人類音樂家進行機器人式的呼叫應答獨奏——已經在這個領域完成,但還沒有任何東西能夠將通用或通用人工智慧等同於有價值的人類爵士音樂家。  

如果沒有搖擺感,一切都毫無意義

鑑於一些關於使用神經網路在現有傑作上訓練的藝術的研究和實驗,我經常想知道是否可以用傳奇爵士音樂家的音樂來實現同樣的目標。是否有可能重現查理·帕克超快速的精湛波普爵士樂獨奏,或康特·貝西鋼琴和樂隊的極簡主義精確性?

查理·帕克確實演奏了音符,所以他的一些曲調已經被轉錄成樂譜和 MIDI,甚至有一些被輸入到深度學習演算法中。但這仍然不足以提供足夠的訓練資料,以機器演奏的方式輸出新的查理·帕克獨奏,從而具有引人入勝的效果並且能夠透過圖靈測試。儘管存在一些工具可以解析歌曲中的各個樂器音軌,但它們還不夠好,無法解開現場表演的錄音,而現場表演構成了一位偉大的爵士音樂家作品的很大一部分。

丹能伯格說:“那是另一個大型訊號處理和機器學習問題,這是一個非常活躍的研究領域,但它尚未得到解決。” 這甚至還沒有考慮到每場現場表演和錄音所獨有的節奏、音色、力度、張力、釋放、戲劇性和敘事性的細微之處。

您可能需要從頭開始建立自己的資料集:讓新的爵士音樂家以每一種可能的查理·帕克或康特·貝西式的方式演奏每種樂器,然後在這些錄音上訓練演算法。這種方法類似於 Amper Music 為其他音樂型別所做的事情。獲取帕克或貝西本人的定製樣本為時已晚,但對於約書亞·雷德曼或卡馬西·華盛頓來說並非如此。將其視為音訊的動作捕捉。

我們需要人工智慧爵士樂嗎?

目前,使用人工智慧和爵士樂的最有希望的研究之一是在國防高階研究計劃局 (DARPA) 進行的研究,該機構正在開發爵士演奏機器人,以研究和推進人與機器之間的交流,這在舞臺上或在自主汽車合併而擁堵的高速公路出口處,以及在戰場上都將同樣有用。就人工智慧生成的音樂而言,這似乎仍然更適合於更基於樂譜的音樂型別,如電影和古典音樂,或者高度製作且經常合成和大量取樣的流行音樂。

我也對人工智慧和爵士樂感到好奇,僅僅是因為有一天如果能擁有一個隨時隨地以無縫逼真的方式與你即興演奏的音樂夥伴,那將很有用,不僅是為了純粹的享受,也是為了學習。畢竟,如果音樂專業的學生擁有可以隨時提供演奏指導和反饋的人工智慧教師,他們的才能會有多大的提升?這將是對音樂教育的福音,並使練習更加實用。

我們離這兩個目標都還很遙遠。我們仍然不知道如何讓這些爵士人工智慧音樂家能夠演奏或檢測到“搖擺感”、“情感”和“靈魂”的存在。更重要的是,他們能即興演奏嗎——在傳統的訓練和音樂理論會讓他們轉彎的時候,他們卻反其道而行之?正如我樂隊的鼓手所說:“如果你談論的是現場即興演奏,那就會涉及到人工智慧的終極核心。那就像擁有一段關係。它必須是 100% 真實的。”

肯·韋納與一個小爵士樂團一起演奏薩克斯。圖片來源:卡姆布倫·卡特

儘管目前世界對機器學習情有獨鍾,但這可能不是人工智慧生成音樂的最終方法。“爵士樂中的深度學習同樣淡化了音樂中至關重要的節奏、音色和紋理方面,”加州大學聖地亞哥分校音樂教授和薩克斯管演奏家大衛·博爾戈說,除了是我的朋友之外,他還撰寫了《勞特利奇爵士研究指南》中關於即興創作和計算機的引人入勝的章節。“該領域的研究傾向於讓計算機演奏‘正確的音符’,但我們離設計出能夠進行微觀和宏觀的時間、音色和紋理調整的系統還很遙遠,這些調整對於與人類音樂家一起律動,並以非指令碼化的方式發展高水平的集體即興演奏(而不是堅持讓人類音樂家與計算機一起即興演奏或隨計算機律動)是必要的。”

換句話說,即使我很幸運有一天能得到一個按需的機器人查理·帕克樂隊夥伴,但在我們達到人類水平的通用人工智慧的聖盃之前,這仍然可能是一種單方面的體驗。

Ken Weiner is chief technology officer at GumGum where he leads the engineering and product teams. Weiner is a guest columnist for VentureBeat and Forbes, a frequent speaker at conferences and a member of industry groups such as IAB's OpenRTB Working Group and various LA Ad Tech Meetups.

More by Ken Weiner
© .