當人們聽到“人工智慧”時,許多人會想到“大資料”。這是有原因的:過去十年中一些最突出的AI突破都依賴於龐大的資料集。影像分類在2010年代取得了巨大的進步,這要歸功於ImageNet的開發,這是一個包含數百萬張手工分類成數千個類別的資料集。最近,GPT-3,一種使用深度學習生成類人文字的語言模型,受益於對數千億字的線上文字的訓練。因此,看到AI在人們的普遍想象中與“大資料”緊密相連也就不足為奇了。但是,AI不僅僅關乎大型資料集,“小資料”方法的研究在過去十年中得到了廣泛發展——所謂的遷移學習就是一個特別有希望的例子。
遷移學習也稱為“微調”,在您對感興趣的任務的資料很少,但對相關問題的大量資料時非常有用。它的工作方式是,您首先使用大資料集訓練模型,然後使用與您的特定問題相關的小資料集稍微重新訓練。例如,透過從ImageNet分類器開始,印度班加羅爾的研究人員使用遷移學習訓練了一個模型,僅使用45個訓練示例即可在超聲影像中定位腎臟。同樣,一個研究團隊致力於德語語音識別表明,他們可以透過從在較大資料集上訓練的英語語音模型開始,然後使用遷移學習針對較小的德語音訊資料集調整該模型來改進他們的結果。
過去10年中,遷移學習方法的研究取得了令人矚目的增長。在
關於支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和想法的有影響力的故事的未來。
喬治城大學安全與新興技術中心 (CSET) 的新報告中,我們審查了“小資料”方法科學研究的當前和預計進展,並將其分為五個大致類別:遷移學習、資料標註、人工資料生成、貝葉斯方法和強化學習。我們的分析發現,遷移學習作為一個類別脫穎而出,自 2010 年以來,該類別的研究平均增長最為持續和最高。這種增長甚至超過了規模更大、更成熟的強化學習領域,而強化學習近年來已引起廣泛關注。
此外,預計遷移學習研究在不久的將來將繼續增長。使用三年增長預測模型,我們的分析估計,在我們考慮的小資料類別中,到 2023 年,遷移學習方法的研究增長速度將最快。事實上,遷移學習的增長率預計將遠高於整個人工智慧研究的增長率。這意味著遷移學習可能變得更易於使用——因此也更廣泛地使用——從現在開始。
諸如遷移學習之類的小資料方法比資料密集型方法具有許多優勢。透過使用較少的資料即可實現 AI,它們可以促進在幾乎沒有或沒有資料的領域取得進展,例如在預測相對罕見的自然災害或預測沒有數字健康記錄的人群的疾病風險方面。一些分析師認為,到目前為止,我們已將 AI 更成功地應用於資料最容易獲得的問題。在這種背景下,隨著越來越多的組織尋求多樣化 AI 應用領域並涉足以前未開發的領域,像遷移學習這樣的方法將變得越來越重要。
思考遷移學習價值的另一種方式是從泛化的角度來看。AI 使用中反覆出現的挑戰是模型需要“泛化”到其訓練資料之外——也就是說,對於比專門訓練的“問題”(輸入)更廣泛的“問題”(輸入)給出好的“答案”(輸出)。由於遷移學習模型透過將知識從一項任務轉移到另一項任務來工作,因此即使只有有限的資料可用,它們也非常有助於提高新任務中的泛化能力。
此外,透過使用預訓練模型,遷移學習可以加快訓練時間,並且還可以減少訓練演算法所需的計算資源量。考慮到訓練一個大型神經網路的過程需要大量能源,並且可能排放相當於一輛普通美國汽車終生碳排放量五倍的碳排放量,這種效率意義重大。
當然,在某些情況下,將預訓練模型用於新任務的效果比其他情況更好。如果模型中的初始問題和目標問題不夠相似,則很難有效地使用遷移學習。這對於某些領域來說是有問題的,例如醫學影像,因為某些醫學任務在資料大小、特徵和任務規範方面與自然影像資料集(如 ImageNet)存在根本差異。研究人員仍在學習模型之間如何傳輸有用的資訊,以及不同的模型設計選擇如何阻礙或促進成功的傳輸和微調。希望透過學術研究和實踐經驗在這些問題上取得持續進展,將有助於隨著時間的推移更廣泛地使用遷移學習。
諸如吳恩達之類的 AI 專家強調了遷移學習的重要性,甚至表示該方法將成為行業中機器學習成功的下一個驅動力。已經出現了一些成功應用的早期跡象。遷移學習已應用於癌症亞型發現、影片遊戲、垃圾郵件過濾等等。
儘管研究激增,但遷移學習的知名度相對較低。雖然許多機器學習專家和資料科學家可能在此刻對此很熟悉,但諸如遷移學習之類的技術的存在似乎尚未引起更廣泛的政策制定者和在人工智慧資助和採用方面做出重要決定的商業領袖的關注。
透過承認像遷移學習這樣的小資料技術的成功——並分配資源來支援它們的廣泛使用——我們可以幫助克服一些關於資料在 AI 中的作用的普遍誤解,並在新的方向上促進創新。
