我們需要針對人工智慧的智慧智慧財產權法

“一刀切”的監管將使人工智慧的出現所承諾的醫療和研究益處受到忽視

Network of glowing purple lines encapsulating a 3D digitally rendered classic sculpture of a human head

人工智慧曾經是一個充滿猜測的落後領域,現在已成為一場關於革命性技術轉型的希望與擔憂並存的炙熱、“火燒眉毛”的大火。圍繞著這些智慧系統——它們在某些領域已經超越了人類的能力——以及對它們的監管,存在著深刻的不確定性。為如何保護或控制這項技術做出正確的選擇,是關於人工智慧益處(為了科學、醫學和更美好的整體生活)的希望戰勝持續存在的末日恐懼的唯一途徑。

過去一年中,人工智慧聊天機器人(如OpenAI的ChatGPT)的公開推出引發了過度的警告。從紐約州參議院多數黨領袖查克·舒默發出的警告(他說人工智慧將“給工作場所、教室、我們的客廳——幾乎生活的每個角落帶來巨大變化”)到俄羅斯總統弗拉基米爾·普京斷言的警告(他說,“誰成為這一領域的領導者,誰就將成為世界的統治者。”)。此類恐懼還包括來自行業領導者關於不受約束的人工智慧的可怕後果的警告

解決這些問題的立法努力已經開始。6月14日,歐洲議會投票通過了新的《人工智慧法案》,此前他們通過了歐洲委員會一份69頁提案的771項修正案。該法案要求像ChatGPT這樣的“生成式”人工智慧系統實施多項保障措施和披露,例如關於使用“在個人意識之外部署潛意識技術”或“利用特定人群因其年齡、身體或精神殘疾而造成的脆弱性”的系統,以及避免“對健康、安全、基本權利、環境以及民主和法治的可預見風險”。


支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。


全球範圍內一個緊迫的問題是,用於訓練人工智慧系統的資料是否需要獲得作者或表演者的同意,他們也在尋求對其作品的使用給予署名和補償。

一些政府已經為版權法建立了特殊的文字和資料探勘例外,以便更容易地收集和使用資訊來訓練人工智慧。這些例外允許一些系統在未經他人允許的情況下,使用線上文字、影像和其他作品進行訓練。這些例外最近受到了反對,特別是來自版權所有者和更普遍反對意見的批評者,他們希望減緩或降低這些服務的質量。最近幾個月,關於人工智慧風險的報道激增,這些例外增加了爭議,這些風險與該技術可能造成的偏見、社會操縱、收入和就業損失、虛假資訊、欺詐和其他風險有關,包括關於“人類末日”的災難性預測。

最近的美國版權聽證會呼應了作者、藝術家和表演者的普遍呼聲——人工智慧訓練資料應遵守“三個C”原則:同意(Consent)、署名(Credit)和補償(Compensation)。每個C都有其自身的實際挑戰,這與一些國家所接受的最有利的文字和資料探勘例外相悖。

各國對與訓練資料相關的智慧財產權採取的方法各不相同且不斷發展。美國正在處理多起訴訟,以確定合理使用例外在版權方面的適用程度。歐盟(E.U.)2019年關於數字單一市場版權的指令包含了文字和資料探勘的例外,包括針對研究和文化遺產組織的強制性例外,同時賦予版權所有者阻止將其作品用於商業服務的權利。2022年,英國提出了一項廣泛的例外,該例外將適用於商業用途,儘管隨後在今年早些時候被擱置。2021年,新加坡在其版權法中為計算機資料分析建立了一個例外,該例外適用於文字和資料探勘、資料分析和機器學習。新加坡的例外要求合法訪問資料,但不能被合同推翻。中國已發表宣告,表示將把“侵犯智慧財產權的內容”排除在訓練資料之外。在斯坦福大學DigiChina專案4月份的一篇文章中,喬治城大學安全與新興技術中心的Helen Toner描述說,這“有點不透明,因為在問題中的大部分資料(通常是從各種線上來源大規模抓取的)的版權狀態是模糊不清的。”許多國家沒有針對文字和資料探勘的特定例外,但尚未明確立場。印度官員表示,他們尚未準備好在這個時候監管人工智慧,但與許多其他國家一樣,印度熱衷於支援國內產業。

隨著法律法規的出臺,應謹慎避免一刀切的做法,即適用於錄製音樂或藝術品的規則也適用於用於醫學研究和開發的科學論文和資料。

先前關於資料庫的立法努力說明了謹慎的必要性。在1990年代,曾流傳著一些提案,旨在自動授予從資料庫中提取的資訊的權利,包括統計資料和其他非版權要素。其中一個例子是世界智慧財產權組織(WIPO)在1996年提出的條約。在美國,一個由學者、圖書館、業餘家譜學家和公共利益團體組成的多元化聯盟反對該條約提案。但可能更重要的是,美國公司(如彭博社鄧白氏STATS)的反對,這些公司開始認為資料庫條約既不必要又繁瑣,因為它會增加許可他們需要獲取並提供給客戶的資料的負擔,並且在某些情況下,會造成不必要的壟斷。WIPO資料庫條約在1996年的外交會議上失敗了,隨後在美國透過法律的努力也失敗了,但歐盟繼續實施了關於資料庫法律保護的指令。在隨後的幾十年中,美國資料庫投資激增,而歐盟則試圖透過法院判決削弱其指令。2005年,其內部評估發現,這項“工具對資料庫的生產沒有產生已被證明的影響”。

純粹的實用性指出了另一個需要注意的地方。大型語言模型中的資料規模可能難以理解。Stable Diffusion的第一個版本(從文字生成影像)需要在23億張影像上進行訓練。GPT-2是ChatGPT模型的早期版本,在40GB的資料上進行了訓練。隨後的版本GPT-3在45TB的資料上進行了訓練,規模擴大了1000多倍。OpenAI面臨著關於其資料使用的訴訟,尚未公開披露用於訓練最新版本GPT-4的資料集的具體大小。即使對於簡單的專案,清理版權作品的權利也可能很困難,而對於非常大的專案或平臺,考慮到定位元資料和評估作者或表演者與出版商之間合同的實際要求,甚至瞭解誰擁有這些權利幾乎是不可能的。在科學領域,獲得使用版權作品的許可的要求可能會使科學文章出版商對哪些公司可以使用這些資料擁有相當大的影響力,即使大多數作者沒有報酬。

誰擁有什麼的區別很重要。讓流行音樂錄音的版權所有者選擇退出資料庫是一回事;如果重要的科學論文因許可糾紛而被排除在外,則是另一回事。當人工智慧應用於醫院和基因治療時,你真的想將相關資訊排除在訓練資料庫之外嗎?

除了同意之外,另外兩個C,署名和補償,也有其自身的挑戰,正如現在關於侵犯版權或專利的高昂訴訟費用所證明的那樣。但是,人們也可以想象在藝術或生物醫學研究中使用資料集,在這些領域,管理良好的AI程式可能有助於實施利益分享,例如為播種成功的生物醫學產品而提出的開源紅利

在某些情況下,用於訓練人工智慧的資料可以是分散式的,並具有許多保障措施。其中包括實施隱私保護、避免不必要的壟斷控制以及使用目前為某些科學資料構建的“資料空間”方法

所有這些都對分配給訓練資料的任何型別的智慧財產權提出了明顯的挑戰:這些權利本質上是國家性的,而開發人工智慧服務的競賽是全球性的。人工智慧程式可以在任何有電力和網際網路接入的地方執行。你不需要龐大的員工隊伍或專門的實驗室。在資料獲取和使用方面對人工智慧訓練施加昂貴或不切實際義務的國家/地區運營的公司,將與在更自由的環境中運營的實體競爭。

如果還有其他人像弗拉基米爾·普京那樣思考人工智慧的未來,那麼這值得深思。

這是一篇觀點和分析文章,作者或作者表達的觀點不一定代表《大眾科學》的觀點。

© .