公司和個人常常處於對立狀態,一方關注資訊收集,另一方關注隱私保護。線上商店和服務總是渴望更多地瞭解他們的客戶——收入、年齡、品味——然而我們大多數人都不渴望透露太多。
數學為擺脫這種困境提供了一種方法。幾年前,資料探勘研究員拉凱什·阿格拉瓦爾和拉馬克裡希南·斯里坎特提出了一個想法,讓說真話不再那麼令人擔憂。如果公司滿足於準確的彙總資料,而不是關於個人的詳細資訊,那麼這個想法就有效。以下是它的運作方式:你提供某些侵入性線上問題的數字答案,但會隨機新增(或減去)一個數字,並且只將總和(或差值)提交給公司。從提交的數字中恢復近似平均值所需的統計資料並不那麼困難,並且你的隱私得到了保護。
因此,假設你39歲,並且被問及你的年齡。傳送到網站的數字可能在19到59的範圍內,具體取決於生成的-20到+20之間的隨機數(如果你信任該公司,則由該公司生成;否則由獨立網站或你生成)。類似的模糊因子將適用於收入、郵政編碼、受教育年限、家庭規模等等,併為生成的隨機數設定適當的範圍。
關於支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。透過購買訂閱,您正在幫助確保關於塑造我們當今世界的發現和想法的有影響力的故事的未來。
機率論中另一個更古老的例子說明了這個想法的一個變體。想象一下,您在一個組織的網站上,該組織希望瞭解有多少訂閱者曾經做過X事,其中X是令人尷尬或非法的事情。毫不奇怪,如果人們回答這個問題,許多人會撒謊。隨機掩蓋再次發揮作用。該網站會問“您是否曾經做過X事?是或否”,但要求您在回答之前私下拋擲一枚硬幣。如果硬幣正面朝上,網站要求您只需回答“是”。如果硬幣反面朝上,則指示您如實回答。因為“是”的回答可能只表示硬幣正面朝上,所以人們大概沒有理由撒謊。
恢復回答過X事的人的百分比近似值所需的數學很簡單。為了說明:如果1000個回覆中有545個是“是”,我們就會知道這些“是”中大約有500個是硬幣正面朝上的結果,因為大約一半的拋硬幣,按機率,會是正面朝上。在另外大約500個硬幣反面朝上的人中,大約有45人也回答了“是”。我們得出結論,因為大約500個如實回答的人中,大約有45人做過X事,所以做過X事的人的百分比約為45/500,即9%。
在某些情況下,這種低技術技術的變體,結合適當的立法,將是有效的——這位6英尺9英寸的X事實踐者如是認為。