瞭解人工智慧如何從文字生成影像

生成式人工智慧演算法使用機率從噪聲中建立視覺效果

Person surrounded by black boxes. Each black box has a glowing screen with a similar base image projected on it. A few versions of the image are crisp. One includes static.

馬修·特溫布利

加入我們的科學愛好者社群!


關於支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。


去年,網際網路首次體驗了影像生成人工智慧。突然之間,曾經只提供給專家的技術現在對任何有網路連線的人都可用。這種熱情沒有減弱的跡象,人工智慧生成的影像贏得了重要的攝影比賽,製作了電視劇的片頭字幕,並欺騙人們相信教皇穿著時尚的羽絨服外出。然而,批評人士指出,用現有作品訓練演算法可能會侵犯版權,而使用它們可能會危及藝術家的工作。生成式人工智慧也可能使虛假新聞的影響力倍增:教皇外套很有趣,但一張據稱顯示五角大樓遭受襲擊的生成照片短暫地引發了股市下跌。

DALL-E 2、Midjourney 和 Stable Diffusion 等程式是如何一下子變得如此出色的?儘管人工智慧已經發展了幾十年,但當今最流行的影像生成器使用一種稱為擴散模型的技術,這種技術在人工智慧領域相對較新。以下是它的工作原理

鳴謝:馬修·特溫布利(圖形),阿曼達·霍布斯(研究

索菲·布什威克《大眾科學》的科技編輯。她負責網站的日常技術新聞報道,撰寫從人工智慧到跳躍機器人等各種主題的文章,用於數字和印刷出版物,錄製 YouTube 和 TikTok 影片,並主持播客《Tech, Quickly》。布什威克還經常出現在廣播節目(如《科學星期五》)和電視網路(包括 CBS、MSNBC 和國家地理)上。她擁有十年以上在紐約市擔任科學記者的經驗,此前曾在《大眾科學》《發現》和 Gizmodo 等媒體工作過。在 X(以前稱為 Twitter)上關注布什威克 @sophiebushwick

更多作者:索菲·布什威克

馬修·特溫布利 是一位自由插畫家和資訊圖設計師。他的作品可以在 www.matthewtwombly.com 上檢視

更多作者:馬修·特溫布利

阿曼達·霍布斯 是一位自由研究員、作家和視覺內容編輯,專門從事透過藝術和資訊圖講故事。她的作品可以在 www.athcreative.com 上檢視

更多作者:阿曼達·霍布斯
大眾科學雜誌 第 329 卷 第 3 期本文最初以 “人工智慧如何從文字生成影像” 為題發表於 《大眾科學雜誌》 第 329 卷 第 3 期 (),第 66 頁
doi:10.1038/scientificamerican1023-66
© .