關於 OpenAI 新型文字到影片生成器 Sora，您需要知道的一切

一種將文字提示轉換為詳細影片的機器學習工具引發了興奮和懷疑

A person holding a smart phone playing video generated by Sora AI of a woman walking down a city street at night — NurPhoto/Getty Images

乍一看，這段影片片段看起來像是音樂影片或時尚汽車廣告的素材：一位戴著太陽鏡的女士在夜間的城市街道上闊步走著，周圍是行人和燈火通明的招牌。她的連衣裙和金色圈形耳環隨著每一步擺動。但這並非電視廣告或音樂影片的錄影。事實上，這不是任何真實事物的片段。在螢幕之外，這位女士並不存在，這條街道也不存在。

影片中的一切都由 OpenAI 的新型文字到影片工具 Sora 建立，Sora 是這家 Dall-E 和 ChatGPT 背後的公司推出的最新生成式人工智慧 (GAI) 小工具。給 Sora 一張簡單的靜止影像或一段簡短的書面提示，它就可以生成長達一分鐘的、令人驚歎的逼真影片——據稱這隻需要“出去吃捲餅”的時間。

OpenAI 於 2 月 15 日宣佈了 Sora，但尚未向公眾釋出。該公司表示，目前正在限制部分藝術家和“紅隊”駭客的訪問許可權，他們分別測試生成器的有益用途和有害應用。但 OpenAI 在公告部落格文章、一份簡短的技術報告以及執行長兼創始人 Sam Altman 的 X 個人資料（前身為 Twitter）中分享了由新工具生成的數十個示例影片。

關於支援科學新聞報道

如果您喜歡這篇文章，請考慮透過以下方式支援我們屢獲殊榮的新聞報道：訂閱。透過購買訂閱，您正在幫助確保未來能夠繼續講述關於塑造我們當今世界的發現和思想的具有影響力的故事。

就其輸出的持續時間和真實感而言，Sora 代表了人工智慧生成影片領域最新進展。“[我和我的同事] 對 Sora 所展示的質量水平感到非常驚訝，”密歇根大學電氣工程和計算機科學助理教授 Jeong Joon Park 說。Park 使用機器學習方法開發生成式三維建模技術。七個月前，Park 曾告訴大眾科學 ，他認為僅憑文字就能生成照片般逼真影片的人工智慧模型還很遙遠，需要重大的技術飛躍。“我沒想到影片生成器的改進速度會如此之快，Sora 的質量完全超出了我的預期，”他現在說道。他並不孤單。

Ruslan Salakhutdinov，卡內基梅隆大學計算機科學教授，也對 Sora 的質量和功能“感到有些驚訝”。Salakhutdinov 此前曾開發過其他基於機器學習的影片生成方法。他說，Sora “確實令人印象深刻”。

Sora 的出現表明某些人工智慧的進步速度有多快，這得益於數十億美元的投資——而這種驚人的速度也加速了人們對社會後果的擔憂。Sora 和類似的工具威脅著許多創意領域數百萬人的生計。它們也可能成為數字虛假資訊的放大器。

Sora 的功能

Sora 可以生成長達 60 秒的影片，OpenAI 表示，使用者可以透過要求該工具按順序建立更多片段來延長影片時長。這絕非易事；以前的 GAI 工具難以保持影片幀之間的一致性，更不用說提示之間的一致性了。但儘管 Sora 具有這些功能，但它本身並不代表機器學習技術的重大飛躍。“他們的演算法與現有方法幾乎相同。他們只是在更大的資料和模型上對其進行了擴充套件，”Park 說。“不一定新穎，”Salakhutdinov 同意道。“這是一種蠻力方法。”

從基本層面來說，Sora 是一個非常龐大的計算機程式，經過訓練，可以將文字字幕與相應的影片內容關聯起來。更專業地說，Sora 是一種擴散模型（類似於許多其他影像生成人工智慧工具），具有類似於 ChatGPT 的 Transformer 編碼系統。透過從影片片段中迭代去除視覺噪聲的過程，開發人員訓練 Sora 從文字提示中生成輸出。Sora 與影像生成器的主要區別在於，它不是將文字編碼為靜態畫素，而是將單詞轉換為時空塊，這些時空塊共同構成一個完整的影片片段。谷歌的 Lumiere 和許多其他模型的工作方式類似。

OpenAI 尚未釋出關於 Sora 開發或訓練的太多資訊，該公司拒絕回應《大眾科學》的大部分問題。但包括 Park 和 Salakhutdinov 在內的專家一致認為，該模型的功能源於大量的訓練資料和數十億個在大量計算能力上執行的程式引數。OpenAI 表示，它在訓練中依賴於許可的和公開可用的影片內容；一些計算機科學家推測，OpenAI 可能還使用了影片遊戲設計程式（如虛幻引擎）生成的合成數據。Salakhutdinov 同意這種可能性很大，理由是輸出結果異常平滑的外觀以及一些生成的“攝像機”角度。他說，這種與影片遊戲人工性的相似之處只是 Sora 雖然“非凡”，但遠非完美的原因之一。

仔細檢查這位女士步行的影片可以發現，某些細節不太對勁。她的連衣裙下襬的擺動對於布料來說有點太僵硬了，而且攝像機的平移感覺異常平滑。在切換到特寫鏡頭時，連衣裙上出現了一種以前沒有的斑點圖案。在某些鏡頭中，項鍊不見了，皮夾克翻領上的扣件移動了，夾克本身也變長了。在 OpenAI 迄今為止分享的影片中，這類不一致之處隨處可見，即使其中許多影片很可能經過精心挑選以製造宣傳效果。在某些片段中，場景中整個人物或傢俱物品消失或突然增多。

可能性與風險

加州大學伯克利分校計算機科學教授 Hany Farid 說，如果人工智慧影片的發展方式與影像生成相同，那麼所有這些缺陷將很快變得不那麼常見，也更難被發現。Farid 對 Sora 和其他文字到影片工具充滿熱情。他看到了“非常酷的應用”的潛力，這些應用可以讓創作者更輕鬆地發揮他們的想象力。他補充說，這種技術還可以降低電影製作和其他通常很昂貴的藝術活動的入門門檻。

布法羅大學計算機科學教授 Siwei Lyu 說：“作為人工智慧研究人員，這是我們一直夢想的事情。”“從科學角度來看，這是一項偉大的成就。”

但當計算機科學家可能看到成就和潛力時，許多藝術家可能會看到盜竊。與影像生成的前身一樣，Sora 幾乎肯定在其訓練資料中包含一些受版權保護的材料。並且它很可能複製或密切模仿這些受版權保護的作品，並將其作為其自己的原創生成內容呈現。《機器中的鮮血》一書的作者、科技記者 Brian Merchant 已經發現至少一個案例，其中 Sora 剪輯片段似乎與訓練資料集中的影片非常相似。在這兩個影片中，一隻引人注目的藍色鳥，頭頂有羽毛狀的冠，眼睛是紅色的，在綠色的樹葉背景下呈現側面輪廓。

當然，還有更廣泛的擔憂，即在未來，事實將越來越難以與虛構區分開來。

為虛假新聞火上澆油

透過他在檢測深度偽造方面的工作，Farid 敏銳地意識到生成式人工智慧可能被用於邪惡目的。與每一個新的快速簡單的內容生成工具一樣，Sora 勢必會進一步加劇線上錯誤資訊和虛假資訊的長期存在的問題。目前，製作虛假影片需要結合人工智慧修改和真實素材。文字到影片平臺消除了使用者對源材料的需求，加速和擴大了潛在的濫用。Farid 警告說，Sora 等工具可能是深度偽造色情製品和政治宣傳等有害內容的“放大因素”。

同樣是數字取證專家的 Lyu 也表示擔憂——尤其是對於那些可能瀏覽短影片並在未經仔細分析就吸收資訊的普通社交媒體使用者而言。“對於沒有意識到的使用者來說，人工智慧生成的影片將非常具有欺騙性，”他警告說。而且，將需要新的分析工具來識別虛假內容。Lyu 和他的同事在 Sora 的影片上試用了一些現有的檢測演算法，他說“效果不太好”。在識別 Sora 的影片是否為人工智慧生成方面，這些工具僅比隨機猜測略好。

OpenAI 表示，它正在採取措施使 Sora 更安全，包括平臺的有節制釋出以及內部測試、內容護欄和使用名為內容來源和真實性聯盟 (C2PA) 標準的協議，該協議使用元資料來更容易地判斷內容的來源。Farid 和 Lyu 都認為這些步驟很重要，但它們不足以防止所有潛在的危害。他們說，對於每一項安全功能，都存在一種變通方法。

對虛幻的現實檢驗

然而，虛假資訊的存在不僅僅限於 Sora，馬里蘭大學研究錯誤資訊和虛假資訊的助理教授 Irene Pasquetto 說，解決這個問題最終是一個社會問題，而不是技術問題。她警告說，誇大 Sora 的風險或可能的危害很容易助長圍繞人工智慧的炒作氛圍。Pasquetto 補充說，公司有經濟動機來宣傳他們的模型有多麼強大——即使有些人認為這些產品對社會構成生存威脅。

她說，重要的是要將危害置於背景下考慮，並關注根本原因：儘管 Sora 使製作短影片變得更容易和更快——目前短影片是社交媒體上的主要內容——但就其本身而言，它並沒有構成新的問題。已經有很多方法可以操縱線上影片。Pasquetto 說，即使是釋出帶有錯誤標題的真實錄音也可能導致新的陰謀論。

雖然 Pasquetto 指出，社會、立法和教育解決方案對於阻止有害線上內容的傳播是必要的，但她承認沒有快速的解決方案。與此同時，請注意影片中的物體、地點和人物可能沒有看起來那麼真實。