理解大量資料的挑戰之一是使用少量數字來描述它們,這些數字在某種程度上反映了整體。諸如最小值、最大值以及各種平均值之類的統計資料會告訴您資料集的全域性屬性。有時,它們足以揭示有關個人的資訊。這就是為什麼即使僅包含有關人員統計資訊的資料庫也存在隱私問題:足夠的統計問題可能會洩露個人資料。
考慮一個簡單的遊戲,提問者昆汀和回答者羅莎爾巴之間進行。昆汀只能詢問一組數字的全域性屬性(例如,“它們是否都是整數?”、“它們是否各不相同?”以及“統計平均值、中位數、最小值和最大值是多少?”)。羅莎爾巴可以拒絕回答,但她必須給出理由。羅莎爾巴總是說實話。有時,她會為了好玩而主動提供資訊。
熱身
羅莎爾巴:“我有五個整數,都各不相同。”
昆汀:“最小值是多少?”
羅莎爾巴:“15。”
昆汀:“最大值是多少?”
羅莎爾巴:“我不會告訴你,因為那樣你就會知道一切。”
關於支援科學新聞業
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞業 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。
這些數字是什麼?
熱身題的解答
因為這些數字都各不相同,所以只有當最大值是 19 時,它才能揭示一切。那麼這個集合由 15、16、17、18 和 19 組成。好吧,這個很簡單,但接下來的推論會更有趣。
在我們繼續之前,讓我提醒您平均值和中位數的定義。一組數字的平均值是它們的總和除以集合中數字的個數。例如,20、22、22、40 和 101 的平均值是 205/5 = 41。中位數是排序順序中的中間數字,因此對於這個例子來說是 22。也就是說,中位數是值排序後的中間值(我們的例子總是會有奇數個值)。
問題: 1.
羅莎爾巴:“我有五個整數,它們可能相同也可能不同。”
昆汀:“最小值是多少?”
羅莎爾巴:“20。”
昆汀:“在這些中,哪個不會讓你推斷出它們的所有值——各不相同的數字、平均值、最大值或中位數?”
羅莎爾巴:“只有中位數。”
昆汀:“太好了。我知道這些數字了。”
它們是什麼?
2.
羅莎爾巴:“我有七個整數,它們可能相同也可能不同。”
昆汀:“最小值是多少?”
羅莎爾巴:“20。”
昆汀:“你願意告訴我這些中的哪些(也就是說,哪些不會讓你推斷出它們的所有值):平均值、中位數和最大值?”
羅莎爾巴:“所有這些。”
昆汀:“好的,最大值是多少?”
羅莎爾巴:“21。”
昆汀:“我現在知道你願意告訴我平均值和中位數中的哪一個了。”
哪個?為什麼?
3.
羅莎爾巴:“你能找到一些情況,在這些情況下,我更願意告訴你平均值而不是中位數嗎?”
昆汀:“你能給我一個提示嗎?”
羅莎爾巴:“在我能想到的一個例子中,有三個數字,其中兩個是不同的。”
4.
羅莎爾巴:“你能找到一些情況,在這些情況下,最小值、最大值、平均值和中位數都是必要且充分的,足以找到五個數字的身份,而這五個數字都是整數?”
5.
羅莎爾巴:“到目前為止,我們一直在玩只有少量數字的遊戲。我給了你提示,你已經能夠推斷出所有這些數字。但是五個數字並不有趣。讓我們嘗試更多。”
“在我們這樣做之前,讓我定義一個新的全域性屬性:到某個點的總距離。假設我們有五個數字 10、15、20、30 和 60。到某個點的總距離——在這種情況下,我們稱該點為數字 22——是 (22-10)、(22-15)、(22-20)、(30-22) 和 (60-22) 的總和。在數學上,到 x 的總距離是每個數字與 x 之間差的絕對值的總和。”
“現在我們準備好了。有 17 個數字,它們並非都各不相同。它們的最小值是 30,它們的平均值是 34,它們的中位數是 35。”