以下文章經The Conversation許可轉載,這是一個報道最新研究的線上出版物。
我們人類被文字淹沒。這不僅僅是新聞和其他及時資訊:普通人也淹沒在法律檔案中。問題是如此嚴重,以至於我們大多忽略它。每次一個人使用商店的會員獎勵卡或連線到線上服務時,他或她的活動都受到相當於數百頁的法律條款的約束。大多數人都不注意這些大量的檔案,這些檔案通常被標記為“服務條款”、“使用者協議”或“隱私政策”。
支援科學新聞
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您可以幫助確保未來產生有關當今塑造我們世界的發現和想法的影響深遠的故事。
這些只是資訊過載這一更廣泛的社會問題的一部分。儲存的資料如此之多——艾位元組之多,其儲存量相當於人類歷史上所說過的所有話——以至於人類不可能閱讀和解釋所有內容。通常,我們透過選擇要關注的特定主題或問題來縮小資訊範圍。但重要的是要真正瞭解管理我們資料儲存方式以及誰可以檢視資料的法律檔案的含義和內容。
作為計算機科學研究人員,我們正在研究人工智慧演算法如何消化這些大量文字並提取其含義,並以普通人可以理解的方式呈現出來。
計算機可以理解文字嗎?
計算機將資料儲存為 0 和 1 – 人類無法直接理解的資料。它們將這些資料解釋為顯示對人們有意義的文字、聲音、影像或影片的指令。但是計算機真的可以理解語言嗎,不僅可以呈現單詞,還可以呈現它們的含義?
一種找出答案的方法是讓計算機以人們可以理解並認為有用的方式總結他們的知識。如果人工智慧系統可以足夠快地處理文字,以幫助人們在需要時做出決策,那就最好了——例如,當您註冊新的線上服務並被要求同意該網站的隱私政策時。
如果一個計算機化的助手可以在幾秒鐘內消化所有這些法律術語並突出關鍵點會怎麼樣?也許使用者甚至可以告訴自動化助手特別注意某些問題,例如何時共享電子郵件地址,或者搜尋引擎是否可以索引個人帖子。公司也可以使用此功能來分析合同或其他冗長的檔案。
要完成這類工作,我們需要結合一系列人工智慧技術,包括機器學習演算法,這些演算法可以接收大量資料並獨立識別它們之間的聯絡;知識表示技術,用於表達和解釋關於世界的事實和規則;語音識別系統,用於將口語轉換為文字;以及人類語言理解程式,這些程式處理文字及其上下文以確定使用者正在告訴系統做什麼。
檢查隱私政策
如今,現代網際網路生活或多或少需要將私人資訊(如物理地址和電子郵件地址、信用卡號碼和銀行賬戶詳細資訊)和個人資料(照片和影片、電子郵件和位置資訊)委託給營利性公司。
這些公司的基於雲的系統通常會保留使用者資料的多個副本,作為防止服務中斷的備份計劃的一部分。這意味著有更多潛在的目標——每個資料中心都必須在物理上和電子上得到安全保護。當然,網際網路公司認識到客戶的擔憂並聘請安全團隊來保護使用者的資料。但是,他們承諾這樣做的具體而詳細的法律義務可以在他們晦澀難懂的隱私政策中找到。沒有一個普通人——甚至可能沒有一個律師——可以真正理解它們。
在我們的研究中,我們要求計算機總結普通使用者在點選線上服務的“接受”或“同意”按鈕時表示同意的條款和條件。我們下載了各種網際網路公司的公開隱私政策,包括Amazon AWS、Facebook、Google、HP、Oracle、PayPal、Salesforce、Snapchat、Twitter和WhatsApp。
總結含義
我們的軟體檢查文字並使用資訊提取技術來識別關鍵資訊,這些資訊指定了文件中確定的法律權利、義務和禁止事項。它還使用語言分析來識別每條規則是否適用於服務提供商、使用者或第三方實體,例如廣告商和營銷公司。然後,它以清晰、直接、人類可讀的語句呈現該資訊。
例如,我們的系統將亞馬遜隱私政策的一個方面確定為告知使用者,“您可以選擇不提供某些資訊,但您可能無法利用我們的許多功能。”該政策的另一方面被描述為“我們還可能收集技術資訊,以幫助我們識別您的裝置,以進行欺詐預防和診斷。”
來源:The Conversation (CC-BY-ND);來源:UMBC 獲取資料
我們還在總結系統的幫助下發現,隱私政策通常包含針對第三方(不是服務提供商或使用者)的規則,人們甚至可能不知道這些第三方參與了資料儲存和檢索。
隱私政策中規則數量最多的——43%——適用於提供服務的公司。不到四分之一的規則——24%——為使用者和客戶建立義務。其餘規則管理第三方服務或公司合作伙伴的行為,或者無法被我們的系統分類。
來源:The Conversation (CC-BY-ND);來源:UMBC 獲取資料
下次您單擊“我同意”按鈕時,請注意,您可能同意與將分析您的資料的其他隱藏公司共享您的資料。
我們正在繼續提高我們以簡潔準確的方式總結複雜隱私政策文件的能力,使人們可以理解並使用它們來評估使用服務相關的風險。
本文最初發表在The Conversation上。閱讀原文。