最新的AI聊天機器人可以處理文字、影像和聲音。這是如何實現的

新型“多模態”AI程式的功能遠不止回覆文字——它們還可以分析影像和進行語音聊天

Artist's illustration of an artificial intelligence concept

大約10個月前,OpenAI的ChatGPT首次向公眾釋出。它的出現開啟了人工智慧頭條新聞不斷的時代,並加速了谷歌、Meta和其他科技巨頭競爭性大型語言模型(LLM)的開發。自那時以來,這些聊天機器人已經展示了生成文字和程式碼的強大能力,儘管並非總是準確。現在,能夠解析文字以及影像、音訊等的的多模態AI正在興起。

OpenAI上週首次向付費使用者釋出了由其LLM GPT-4驅動的ChatGPT多模態版本,此前該公司首次宣佈這些功能已過去數月。谷歌早在5月份就開始將與新型GPT-4提供的類似影像和音訊功能整合到其LLM驅動的聊天機器人Bard的某些版本中。Meta也在今年春天宣佈在多模態方面取得了重大進展。儘管這項新興技術尚處於起步階段,但它已經可以執行各種任務。

多模態AI能做什麼?


支援科學新聞事業

如果您喜歡這篇文章,請考慮訂閱來支援我們屢獲殊榮的新聞事業 訂閱。透過購買訂閱,您將幫助確保未來能夠繼續釋出關於塑造我們當今世界的發現和想法的具有影響力的報道。


《大眾科學》測試了兩款依賴於多模態LLM的不同聊天機器人:由更新後的GPT-4驅動的ChatGPT版本(被稱為GPT-4視覺版或GPT-4V)和Bard,後者目前由谷歌的PaLM 2 模型驅動。兩者都可以僅使用音訊進行擴音語音對話,並且可以描述影像中的場景並解讀圖片中的文字行。

這些能力有無數的應用。在我們的測試中,僅使用一張收據的照片和一個兩行提示,ChatGPT就準確地拆分了一張複雜的酒吧賬單,並計算出四個人中每個人應付的金額——包括小費和稅費。總共,這項任務花費不到30秒。Bard的表現也幾乎一樣好,但它將一個“9”解釋為“0”,從而弄錯了最終總額。在另一次試驗中,當給出裝滿書的書架照片時,兩款聊天機器人都對假設主人的性格和興趣提供了詳細的描述,幾乎就像AI生成的星座運勢。兩者都從一張照片中識別出了自由女神像,推斷出影像是從曼哈頓下城的一間辦公室拍攝的,並提供了從攝影師的原始位置到地標的準確方向(儘管ChatGPT的指導比Bard的更詳細)。在從照片中準確識別昆蟲方面,ChatGPT也優於Bard。

基於這張盆栽植物的照片,兩款多模態AI驅動的聊天機器人——OpenAI的ChatGPT(GPT-4V驅動的版本)和谷歌的Bard——準確地估計了容器的大小。圖片來源:Lauren Leffer

對於殘疾人群體來說,這項技術的應用尤其令人興奮。今年3月,OpenAI開始透過Be My Eyes公司測試其GPT-4的多模態版本,該公司透過同名應用程式為盲人和低視力人群提供免費描述服務。早期試驗進展順利,Be My Eyes目前正在向其所有使用者推出AI驅動版本的應用程式。“我們收到了非常出色的反饋,”Be My Eyes的首席技術官Jesper Hvirring Henriksen說。起初,存在許多明顯的問題,例如文字轉錄質量差或包含AI幻覺的不準確描述。Henriksen表示,OpenAI已經改進了最初的這些缺點——錯誤仍然存在,但已不那麼常見。因此,“人們正在談論重新獲得獨立性,”他說。

多模態AI是如何工作的?

在這波新的聊天機器人浪潮中,工具超越了文字。然而,它們仍然基於建立在語言之上的人工智慧模型。這怎麼可能呢?儘管各個公司不願分享其模型的確切基礎,但這些公司並不是唯一從事多模態人工智慧研究的群體。其他AI研究人員對幕後發生的事情有相當好的瞭解。

斯坦福大學兼職教授Douwe Kiela表示,從純文字LLM到能夠響應視覺和音訊提示的AI,主要有兩種方法。Kiela在斯坦福大學教授機器學習課程,同時也是Contextual AI公司的執行長。Kiela解釋說,在更基本的方法中,AI模型本質上是彼此堆疊的。使用者將影像輸入聊天機器人,但圖片會透過一個單獨的AI進行過濾,該AI專門用於生成詳細的影像描述。(谷歌多年來一直擁有這樣的演算法。)然後,文字描述被反饋給聊天機器人,後者響應翻譯後的提示。

相比之下,“另一種方法是更緊密的耦合,”Kiela說。計算機工程師可以透過組合每個模型底層的計算機程式碼基礎設施,將一個AI演算法的片段插入到另一個演算法中。根據Kiela的說法,這“有點像將樹的一部分嫁接到另一棵樹幹上。”從那裡,嫁接模型在多媒體資料集上進行重新訓練——包括圖片、帶有標題的影像和單獨的文字描述——直到AI吸收了足夠的模式,能夠準確地將視覺表示和文字聯絡起來。這比第一種策略更耗費資源,但它可以產生更強大的AI。Kiela推測,谷歌在Bard中使用了第一種方法,而OpenAI可能依賴第二種方法來建立GPT-4。這個想法可能解釋了兩種模型之間功能上的差異。

無論開發人員如何融合他們不同的AI模型,在底層,都在發生相同的通用過程。LLM基於預測短語中下一個單詞或音節的基本原理運作。為了做到這一點,它們依賴於“transformer”架構(GPT中的“T”)。卡內基梅隆大學計算機科學家Ruslan Salakhutdinov說,這種型別的神經網路將書面句子等內容轉換為一系列以向量表示的數學關係。對於transformer神經網路來說,句子不僅僅是一串單詞——它是一個對映上下文的連線網路。這產生了更像人類的機器人,它們可以處理多種含義、遵循語法規則和模仿風格。為了組合或堆疊AI模型,演算法必須將不同的輸入(無論是視覺、音訊還是文字)轉換為相同型別的向量資料,才能產生輸出。Salakhutdinov說,在某種程度上,這就像是把兩組程式碼“教會它們互相交談”。反過來,人類使用者可以用新的方式與這些機器人交談。

接下來會發生什麼?

許多研究人員將現在視為可能性的開始。一旦你開始協調、整合和改進不同型別的人工智慧,快速的進步必將持續到來。Kiela設想,在不久的將來,機器學習模型可以輕鬆地響應、分析和生成影片甚至氣味。Salakhutdinov懷疑,“在未來五到十年內,你將擁有自己的個人AI助手。” 這樣一個程式將能夠在收到一個簡短的提示後,處理從完整的客戶服務電話到複雜的研究任務的一切事情。

作者將這張書架圖片上傳到GPT-4V驅動的ChatGPT,並要求它描述書的主人。聊天機器人描述了展示的書籍,並回應道:“總的來說,這個人可能喜歡探索深刻主題、社會問題和個人敘事的優秀文學作品。他們似乎既有求知慾,又具有社會意識。” 圖片來源:Lauren Leffer

多模態AI與通用人工智慧不同,通用人工智慧是機器學習的聖盃目標,即計算機模型超越人類的智力和能力。斯坦福大學計算機科學家James Zou說,多模態AI是朝著通用人工智慧邁出的“重要一步”。人類擁有一系列交織在一起的感官,透過這些感官我們理解世界。據推測,要達到通用人工智慧,計算機也需要具備相同的能力。

Zou說,儘管多模態模型令人印象深刻和興奮,但它們與單模態的前輩們有許多相同的問題。“一個巨大的挑戰是幻覺問題,”他指出。“如果AI助手隨時可能偽造資訊,我們如何信任它呢?” 接下來是隱私問題。對於諸如語音和視覺等資訊密集型輸入,甚至更敏感的資訊可能會在不經意間被輸入到機器人,然後在洩漏中被洩露或在駭客攻擊中被洩露。

Zou仍然建議人們嘗試使用這些工具——但要謹慎。“直接將您的醫療記錄放入聊天機器人可能不是一個好主意,”他說。

© .