在過去的30年裡,計算機視覺技術一直難以在視覺任務方面幫助人類,即使是像準確識別照片中的人臉這樣平凡的任務。然而,最近,深度學習(人工智慧的一個新興領域)的突破終於使計算機能夠像人類一樣成功地解讀多種影像,甚至比人類做得更好。公司已經開始銷售利用這項技術的產品,這項技術很可能接管或輔助人們現在執行的各種任務,從駕駛卡車到閱讀掃描結果以診斷疾病。
深度學習方法(稱為卷積神經網路 (CNN))的最新進展是最新進步的關鍵。舉一個簡單的例子來說明它的威力,可以考慮動物的影像。人類可以很容易地區分貓和狗,而卷積神經網路使機器能夠比人類更成功地對特定品種進行分類。它之所以出色,是因為它能夠更好地學習並從影像中細微的、有意義的模式中推斷出結論。
卷積神經網路不需要被程式設計來識別影像中的特定特徵——例如,動物耳朵的形狀和大小。相反,它們透過訓練自主學習識別這些特徵。例如,要訓練卷積神經網路將英國激飛獵犬與威爾士激飛獵犬區分開來,你需要從數千張動物影像開始,包括這兩種犬的例子。像大多數深度學習網路一樣,卷積神經網路也是分層組織的。在較低的層中,它們從影像中學習簡單的形狀和邊緣。在較高的層中,它們學習複雜和抽象的概念——在本例中,是耳朵、尾巴、舌頭、毛髮紋理等特徵。經過訓練後,卷積神經網路可以輕鬆地判斷動物的新影像是否顯示出感興趣的品種。
支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您將幫助確保關於塑造當今世界的發現和想法的具有影響力的故事的未來。
卷積神經網路的實現得益於過去十年圖形處理單元和並行處理的巨大進步。但網際網路也透過滿足卷積神經網路對數字化影像的巨大需求,產生了深遠的影響。
基於深度學習的計算機視覺系統正在為各種應用而開發。該技術透過增強識別行人的能力,使自動駕駛汽車更加安全。保險公司開始應用深度學習工具來評估汽車的損壞程度。在安全攝像頭行業,卷積神經網路使理解人群行為成為可能,這將使公共場所和機場更加安全。在農業領域,深度學習應用程式可用於預測作物產量、監測水位並幫助在作物病害蔓延之前發現它們。
深度學習在視覺任務方面正在醫學領域取得一些最廣泛的進展,它可以加快專家對掃描和病理切片的解讀速度,並在缺乏訓練有素的專業人員來讀取影像的地方提供關鍵資訊——無論是用於篩查、診斷還是監測疾病進展或對治療的反應。例如,今年,美國食品和藥物管理局批准了初創公司 Arterys 的一種深度學習方法,用於視覺化心臟中的血流;目的是幫助診斷心臟病。同樣在今年,斯坦福大學的 Sebastian Thrun 和他的同事在《自然》雜誌上描述了一種系統,該系統對皮膚癌的分類與皮膚科醫生一樣好。研究人員指出,這種安裝在智慧手機上的程式(在世界各地普遍存在)可以提供“低成本的普遍獲得重要診斷護理的機會”。目前,還在開發用於評估糖尿病視網膜病變(一種失明原因)、中風、骨折、阿爾茨海默病和其他疾病的系統。