如何使人工智慧更民主化

一種新型學習模型使用的資料遠少於傳統人工智慧,使資源有限的研究人員也能做出貢獻

今年,GPT-3,一個能夠理解文字、回答問題和生成新寫作示例的大型語言模型,引起了國際媒體關注。該模型由位於加利福尼亞州的非營利組織 OpenAI 釋出,該組織致力於構建通用人工智慧系統。GPT-3 在模仿人類寫作方面表現出令人印象深刻的能力,但同樣引人注目的是其龐大的規模。為了構建它,研究人員收集了 1750 億個引數(一種計算單元)和超過 45 TB 的文字,這些文字來自 Common Crawl、Reddit、維基百科和其他來源,然後在數百個處理單元中進行了數千小時的訓練。

GPT-3 展示了人工智慧領域的更廣泛趨勢深度學習近年來已成為建立新型人工智慧的主流技術,它使用大量資料和計算能力來驅動複雜而精確的模型。大型公司和頂尖大學的研究人員更容易獲得這些資源。因此,西安大略大學的一項研究表明,人工智慧領域出現了“去民主化”:能夠為前沿發展做出貢獻的研究人員數量正在減少。這縮小了能夠定義這項關鍵技術研究方向的人員範圍,而這項技術具有社會影響。這甚至可能導致人工智慧發展面臨的一些倫理挑戰,包括侵犯隱私、偏見和大型模型對環境的影響

為了應對這些問題,研究人員正試圖弄清楚如何事半功倍。最近的一項進展被稱為“少於一次”樣本學習(LO-shot learning),由伊利亞·蘇霍盧茨基和馬蒂亞斯·肖恩勞[Office1] [RK2] (來自滑鐵盧大學)開發。LO-shot 學習背後的原則是,人工智慧應該能夠在不被輸入每個物體的示例的情況下學習關於世界上的物體。這一直是當代人工智慧系統的一個主要障礙,這些系統通常需要數千個示例才能學會區分物體。另一方面,人類通常能夠從現有示例中抽象出來,以便識別以前從未見過的新專案。例如,當展示不同的形狀時,兒童能夠輕鬆區分示例,並識別他們所看到的形狀與新形狀之間的關係。


支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。透過購買訂閱,您將幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。


該團隊首先透過一種稱為軟蒸餾的過程引入了這種學習方式。美國國家標準與技術研究院維護的影像資料庫 MNIST 包含 60,000 個從 0 到 9 的手寫數字示例,該資料庫被提煉成五個影像,這些影像融合了各種數字的特徵。在僅展示這五個示例後,滑鐵盧大學的系統能夠準確分類資料庫中剩餘影像的 92%。

在他們最新的論文中,該團隊擴充套件了這一原理,表明從理論上講,LO-shot 技術允許人工智慧潛在地學習區分數千個物體,即使給定的資料集只有兩個示例。與傳統的深度學習系統相比,這是一個巨大的進步,在傳統的深度學習系統中,隨著區分更多物體的需求,資料需求呈指數級增長。目前,LO-shot 的小資料集需要經過精心設計,以提煉出各種物體類別的特徵。但蘇霍盧茨基正在尋求透過研究現有小資料集中已捕獲的物體之間的關係來進一步發展這項工作。

允許人工智慧使用明顯更少的資料進行學習對於以下幾個原因很重要。首先,它更好地概括了實際的學習過程,迫使系統推廣到它沒有見過的類別。透過構建捕獲物體之間關係的抽象,這項技術還降低了產生偏見的可能性。目前,深度學習系統容易受到偏見的影響,這種偏見源於它們用於訓練的資料中的無關特徵。這個問題的一個著名例子是,當展示雪地環境中的狗的影像時,人工智慧將狗分類為狼——因為大多數狼的影像都以雪為背景。能夠集中關注影像的相關方面將有助於防止這些錯誤。因此,減少資料需求使這些系統更不易受到這種偏見的影響。

其次,需要使用的資料越少,建立更好的演算法來監視人們的動機就越小。例如,軟蒸餾技術已經影響了醫療人工智慧研究,該研究使用敏感的健康資訊來訓練其模型。在一篇最近的論文中,研究人員在基於小型、保護隱私的資料集的診斷 X 射線影像中使用了軟蒸餾。

最後,允許人工智慧使用較少的資料進行學習有助於人工智慧領域的民主化。對於規模較小的人工智慧,學術界可以保持相關性,並避免教授被工業界挖走的風險。LO-shot 學習不僅透過降低培訓成本和資料需求來降低准入門檻,而且還為使用者提供了更大的靈活性來建立新穎的資料集並嘗試新方法。透過減少花費在資料和架構工程上的時間,希望利用人工智慧的研究人員可以將更多時間集中在他們旨在解決的實際問題上。

Ryan Khurana is currently conducting research on responsible AI at the Montreal AI Ethics Institute. He previously founded and ran the Institute for Advancing Prosperity, a Toronto-based non-profit specializing in the social and economic impacts of emerging technologies.

More by Ryan Khurana
© .