你的個人資訊可能正在被用於訓練生成式人工智慧模型

各大公司正在使用網際網路上的大量資料來訓練其生成式人工智慧模型——而且幾乎沒有真正的方法可以阻止它們

Digital eye made of binary code

藝術家和作家們正在奮起反抗生成式人工智慧系統——這是可以理解的。這些機器學習模型之所以能夠生成影像和文字,僅僅是因為它們接受了大量真實人物的創意作品的訓練,其中很多作品都受版權保護。包括OpenAI、Meta和Stability AI在內的主要人工智慧開發商現在面臨多起相關訴訟。獨立的分析也支援這些法律訴訟;例如,今年8月,《大西洋月刊》報道稱,Meta在訓練其大型語言模型(LLM)時,部分使用了名為Books3的資料集,該資料集包含超過17萬本盜版和受版權保護的書籍。

這些模型的訓練資料集不僅包括書籍。在競相構建和訓練更大規模的人工智慧模型的過程中,開發者們席捲了大部分可搜尋的網際網路。這不僅有可能侵犯版權,還威脅到數十億線上分享個人資訊的人的隱私。這也意味著,本應保持中立的模型可能會在有偏見的資料上進行訓練。企業缺乏透明度使得準確瞭解公司從何處獲取訓練資料變得困難——但《大眾科學》採訪了一些人工智慧專家,他們對此有大致的瞭解。

人工智慧訓練資料來自哪裡?


關於支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。透過購買訂閱,您將幫助確保有關塑造我們當今世界的發現和思想的具有影響力的故事能夠繼續存在。


為了構建大型生成式人工智慧模型,開發者們轉向面向公眾的網際網路。但華盛頓大學研究計算語言學和語言技術的語言學家艾米麗·M·本德爾說,“沒有一個地方可以讓你下載整個網際網路。”相反,開發者們透過自動化工具來收集和提取網際網路上的資料,從而積累他們的訓練集。網路“爬蟲”在連結之間跳轉,索引資料庫中資訊的位置,而網路“抓取器”則下載並提取相同的資訊。

非營利組織艾倫人工智慧研究所的機器學習研究員傑西·道奇表示,像谷歌的所有者Alphabet這樣資源非常雄厚的公司,由於已經構建了網路爬蟲來支援其搜尋引擎,可以選擇使用自己的工具來完成這項任務。然而,其他公司則轉向現有資源,例如Common Crawl,它幫助提供了 OpenAI的GPT-3的資料,或者像大規模人工智慧開放網路(LAION)這樣的資料庫,其中包含影像及其隨附標題的連結。Common Crawl和LAION均未回覆置評請求。想要使用LAION作為人工智慧資源的公司(道奇表示,它是影像生成器Stable Diffusion訓練集的一部分)可以關注這些連結,但必須自行下載內容。

網路爬蟲和抓取器可以輕鬆訪問幾乎任何地方的資料,只要不是在登入頁面之後。設定為私人的社交媒體個人資料不包括在內。但道奇表示,在搜尋引擎中可見或無需登入網站即可檢視的資料,例如公開的LinkedIn個人資料,仍然可能被抓取。然後,他補充說,“絕對會出現在這些網路抓取中的內容型別”包括部落格、個人網頁和公司網站。這包括熱門照片分享網站Flickr、線上市場、選民登記資料庫、政府網頁、維基百科、Reddit、研究庫、新聞媒體和學術機構上的任何內容。此外,還有盜版內容彙編和網路檔案,其中通常包含自原始網路位置刪除的資料。抓取的資料庫不會消失。“如果2018年從公共網站抓取了文字,那麼無論[該網站或帖子是否]已被刪除,它都將永遠可用,”道奇指出。

芝加哥大學的計算機科學家本·趙表示,一些資料爬蟲和抓取器甚至能夠透過偽裝成付費帳戶來繞過付費牆(包括大眾科學的)。趙說,“你會驚訝於這些爬蟲和模型訓練者為了獲得更多資料願意走多遠。”根據《華盛頓郵報》和艾倫研究所的聯合分析,付費新聞網站是谷歌的C4資料庫(用於訓練谷歌的LLM T5和Meta的LLaMA)中包含的主要資料來源之一。

網路抓取器還可以蒐集到來源不明的、令人驚訝的個人資訊。趙指出一個特別引人注目的例子,一位藝術家發現她自己的私人診斷醫學影像被包含在LAION資料庫中。Ars Technica的報道證實了這位藝術家的說法,並且同一資料集包含了數千名其他人的醫療記錄照片。雖然不可能確切知道這些影像是如何被包含在LAION中的,但趙指出,資料錯放、隱私設定通常寬鬆以及洩漏和洩露事件都很常見。並非旨在公開網際網路的資訊最終會出現在那裡。

除了來自這些網路抓取的資料外,人工智慧公司可能會有目的地將其他來源(包括他們自己的內部資料)納入其模型訓練中。OpenAI根據使用者與其聊天機器人的互動來微調其模型。Meta表示,其最新的AI是部分基於公開的Facebook和Instagram帖子進行訓練的。據埃隆·馬斯克稱,社交媒體平臺X(前身為Twitter)計劃對其自身使用者的內容採取同樣的做法。亞馬遜也表示,它將使用來自客戶Alexa對話的語音資料來訓練其新的LLM。

但除了這些承認之外,近幾個月來,各公司在透露其資料集的詳細資訊方面變得越來越謹慎。儘管Meta在其關於LLaMA第一個版本的技術論文中提供了總體資料細分,但在幾個月後釋出的LLaMA 2包含的資訊要少得多。谷歌也在最近釋出的PaLM2人工智慧模型中沒有具體說明其資料來源,只是表示用於訓練PaLM2的資料比訓練原始版本的PaLM的資料要多得多。OpenAI寫道,出於對競爭的主要擔憂,它不會披露關於其GPT-4的訓練資料集或方法的任何細節。

為什麼不可靠的訓練資料會成為問題?

人工智慧模型可以重新生成用於訓練它們的相同材料——包括敏感的個人資料和受版權保護的作品。許多廣泛使用的生成式人工智慧模型都有旨在阻止它們分享個人身份資訊的模組,但研究人員已多次證明了繞過這些限制的方法。對於創意工作者來說,即使人工智慧的輸出不完全構成剽竊,趙說它們也會蠶食付費機會,例如,模仿特定藝術家獨特的視覺技巧。但是,由於缺乏關於資料來源的透明度,很難將此類輸出歸咎於人工智慧的訓練;畢竟,它可能是“碰巧”“幻覺”出了有問題的內容。

紐約大學研究人工智慧的資料新聞記者梅雷迪思·布魯薩德說,缺乏關於訓練資料的透明度也引發了與資料偏見相關的嚴重問題。“我們都知道網際網路上有美好的東西,也有極其有害的材料,”她說。例如,Common Crawl等資料集包括白人至上主義者網站和仇恨言論。即使是不那麼極端的資料來源也包含宣傳刻板印象的內容。此外,網上還有大量色情內容。因此,布魯薩德指出,人工智慧影像生成器傾向於生成女性的性化影像。“偏見輸入,偏見輸出,”她說。

本德爾也表達了這種擔憂,並指出這種偏見甚至更深——深入到誰可以在網際網路上釋出內容。她說,“這將偏向富裕、偏向西方、偏向某些年齡段等等。”本德爾補充說,網路騷擾加劇了這個問題,迫使邊緣群體退出一些線上空間。這意味著從網際網路上抓取的資料未能代表真實世界的全部多樣性。本德爾說,很難理解如此沉浸在有偏見的資訊中的技術的價值和適當應用,特別是如果公司不坦誠地說明潛在的偏見來源。

你如何保護你的資料免受人工智慧侵害?

不幸的是,目前幾乎沒有有效的方法可以將資料排除在人工智慧模型的“胃口”之外。趙和他的同事開發了一種名為Glaze的工具,可用於使影像對人工智慧模型有效不可讀。但研究人員只能在部分人工智慧影像生成器上測試其有效性,並且其用途有限。首先,它只能保護以前未在網上釋出的影像。任何其他內容都可能已被網路抓取和訓練資料集吸納。至於文字,目前還沒有類似的工具。

趙說,網站所有者可以插入數字標誌,告知網路爬蟲和抓取器不要收集網站資料。然而,是否遵守這些通知取決於抓取器開發者。

在加利福尼亞州和其他少數州,最近透過的數字隱私法賦予消費者要求公司刪除其資料的權利。在歐盟,人們也有權刪除資料。然而,斯坦福大學的隱私和資料研究員詹妮弗·金表示,到目前為止,人工智慧公司透過聲稱資料的來源無法證明,或者透過完全無視這些請求來抵制此類請求。

趙說,即使公司尊重此類請求並從訓練集中刪除您的資訊,也沒有明確的策略讓人工智慧模型忘記它以前吸收的內容。道奇說,要真正從這些人工智慧模型中刪除所有受版權保護的或潛在敏感的資訊,就必須有效地從頭開始重新訓練人工智慧,這可能花費高達數千萬美元。

目前,沒有任何重要的人工智慧政策或法律裁決要求科技公司採取此類行動——這意味著他們沒有動力回到繪圖板。

© .