統計的力量

理解大量資料的挑戰之一是用幾個數字來概括它們,這些數字在某種程度上反映了整體。諸如最小值、最大值和各種平均值之類的統計資料會告訴你資料集的全域性屬性。有時,它們足以揭示有關個體的資訊。這就是為什麼即使僅包含有關人員的統計資訊的資料庫也是一個隱私問題:足夠多的統計問題可以揭示個人資料。

考慮一個提問者昆汀和回答者羅莎爾芭之間的簡單遊戲。昆汀只能詢問一組數字的全域性屬性(例如,“它們是否都是整數?”,“它們是否不同?”,以及“統計平均值、中位數、最小值和最大值是多少?”)。羅莎爾芭可以拒絕回答,但她必須給出理由。羅莎爾芭總是說實話。有時,她會為了好玩而主動提供資訊。

熱身


關於支援科學新聞

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關當今塑造我們世界的發現和想法的有影響力的故事的未來。


羅莎爾芭:“我有五個整數,它們都不同。”
昆汀:“最小值是多少?”
羅莎爾芭:“15。”
昆汀:“最大值是多少?”
羅莎爾芭:“我不會告訴你,因為你會知道一切。”

這些數字是什麼?

熱身題的解答

因為這些數字都不同,所以只有當最大值為 19 時,才能揭示一切。那麼,這個集合由 15、16、17、18 和 19 組成。好的,這個很簡單,但接下來的推論會更有趣。

在我們繼續之前,請允許我提醒您平均值和中位數的定義。一組數字的平均值是它們的總和除以集合中的數字個數。例如,20、22、22、40 和 101 的平均值是 205/5 = 41。中位數是排序順序中的中間數字,因此本例中為 22。也就是說,中位數是值的排序順序中的中間值(我們的示例始終具有奇數個值)。

問題

1.
羅莎爾芭:“我有五個整數,它們可能相同也可能不同。”
昆汀:“最小值是多少?”
羅莎爾芭:“20。”
昆汀:“其中哪些不會讓我推斷出它們的所有值——不同的數字、平均值、最大值或中位數?”
羅莎爾芭:“只有中位數。”
昆汀:“太好了。我知道這些數字了。”

它們是什麼?

2.
羅莎爾芭:“我有七個整數,它們可能相同也可能不同。”
昆汀:“最小值是多少?”
羅莎爾芭:“20。”
昆汀:“你願意告訴我哪些(也就是說,哪些不會讓我推斷出它們的所有值):平均值、中位數和最大值?”
羅莎爾芭:“所有這些。”
昆汀:“好的,最大值是多少?”
羅莎爾芭:“21。”
昆汀:“我現在知道你願意告訴我平均值和中位數中的哪一個了。”

是哪個?為什麼?

3. 羅莎爾芭:“你能找到一些情況,讓我更願意告訴你平均值而不是中位數嗎?”
昆汀:“你能給我一個提示嗎?”
羅莎爾芭:“在我能想到的一個例子中,有三個數字,其中兩個是不同的。”

4. 羅莎爾芭:“你能找到一些情況,其中最小值、最大值、平均值和中位數都是必要且充分的,以找到五個整數的身份嗎?”

5.
羅莎爾芭:“到目前為止,我們一直在玩幾個數字的遊戲。我給你提示,你就能推斷出所有數字。但是五個數字並不有趣。讓我們嘗試更多。”

“在我們這樣做之前,讓我定義一個新全域性屬性:到某個點的總距離。假設我們有五個數字 10、15、20、30 和 60。到某個點的總距離(我們稱這個點在本例中為數字 22)是 (22-10)、(22-15)、(22-20)、(30-22) 和 (60-22) 的總和。在數學上,到 x 的總距離是每個數字與 x 之間差的絕對值的總和。”

“現在我們準備好了。有 17 個數字,它們不都相同。它們的最小值是 30,平均值是 34,中位數是 35。”

昆汀:“它們到 35 的總距離是多少?”
羅莎爾芭:“我不會告訴你,但是到 35 的總距離比到 38 的總距離少 5。哎呀,我不應該告訴你這個。”
昆汀笑著說:“你說得對。現在我知道所有的數字了。”

它們是什麼?

6. 如果數字有 1,701 個,但其他資訊與上一個問題相同,您對此問題的答案會發生什麼變化?

© .