馬克·吐溫曾寫道:“世上有三種謊言:謊言、該死的謊言和統計數字。”(他將這句俏皮話歸於前英國首相本傑明·迪斯雷利,但其真正起源尚不清楚。)鑑於統計學在現代科學中的基礎性重要性,這句話為科學探索描繪了一幅黯淡的景象。幾代人的科學進步證明了吐溫的觀點是誇大其詞。不過,我們不應拋棄這些話語中的智慧。雖然統計學是理解世界的重要工具,但負責任地使用它並避免其陷阱需要精妙的平衡。
所有科學機構的牆壁上都應銘刻一條格言:將你的資料視覺化。統計學專門使用客觀的定量方法來理解資料,但沒有什麼可以替代將資料繪製成圖表,用自己的眼睛觀察其形狀和結構。1973年,統計學家弗朗西斯·安斯庫姆擔心,他所在領域的其他人正在忽視視覺化的價值。“我們很少有人能逃脫被灌輸”這樣一種觀念,即“數值計算是精確的,而圖表是粗略的”,他寫道。為了消除這種誤解,安斯庫姆設計了一個巧妙的演示,即安斯庫姆四重奏。
與其古怪的後繼者“資料集恐龍十二宮”一起,沒有什麼能比這更戲劇性地傳達視覺化在資料分析中的首要地位了。
關於支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道: 訂閱。透過購買訂閱,您將有助於確保有關當今塑造我們世界的發現和想法的具有影響力的故事的未來。
為了理解安斯庫姆四重奏,讓我們穿上科學家的實驗服。假設您對人們的鍛鍊量與睡眠量之間的關係感興趣。您對人口的隨機樣本進行了關於這些習慣的調查,將答案記錄在電子表格中,並透過您最喜歡的統計軟體執行結果。摘要統計資訊如下(此示例不是基於真實資料):
每週鍛鍊小時數:平均值,7.5;標準差,2.03
每天睡眠小時數:平均值,9;標準差,3.32
兩者之間的相關性0.816
平均而言,您樣本中的人每週鍛鍊 7.5 小時,每天睡眠 9 小時。標準差衡量樣本中存在的變異程度。在這裡,對於這兩個變數來說,標準差都是中等的,表明您調查的大多數人都沒有太偏離平均值。兩者高度相關,這意味著鍛鍊更多的人也可能睡得更多。該軟體還輸出一條最佳擬合線,描述了資料的總體趨勢,如下所示。
圖片來源:阿曼達·蒙塔內斯;來源:R:用於統計計算的語言和環境。R 核心團隊。R 統計計算基金會,2023
鑑於此摘要,可能會很想當然地認為資料看起來像下面圖表中的資料集 1。每個點代表您調查中的一個人,並根據該人的個人睡眠和鍛鍊習慣進行定位。該圖表描繪了一個強烈的向上線性趨勢,這表明隨著人們鍛鍊更多,他們也睡得更多(可能是因為兩者都表明一種普遍健康的生活方式,或者是因為鍛鍊會讓人疲勞)。現實、混亂的世界中固有的隨機變異很少。安斯庫姆表明,令人驚訝的是,反頁顯示的所有四個不同資料集都具有相同的摘要統計資訊。
圖片來源:阿曼達·蒙塔內斯;來源:R:用於統計計算的語言和環境。R 核心團隊。R 統計計算基金會,2023
資料集 2 雖然與資料集 1 具有相同的摘要統計資訊,但在逐點繪製時,卻講述了一個完全不同的故事。實際值之間的關係顯然不是線性的,而且無論出於何種原因,鍛鍊量對於睡眠最多的人開始逐漸減少。資料集 3 顯示了一個完美的線性關係,但有一個異常值,該異常值的鍛鍊量異常,並扭曲了結果。在資料集 4 中,幾乎每個人每天都睡整整八個小時,他們的睡眠習慣與他們的鍛鍊量無關,而樣本中的一個人每天睡近 20 個小時,據推測他們所有清醒的時間都用來鍛鍊。請注意,一旦我們將資料視覺化,相同的統計資訊如何引導我們得出截然不同的結論。
儘管它很受歡迎,但沒有人知道安斯庫姆是如何構思出他的四重奏的。多倫多 Autodesk Research 的 Justin Matejka 和 George Fitzmaurice 試圖糾正知識上的這一空白,並將這一概念推向了極致。他們演示了一種通用方法,用於獲取任何資料集並將其轉換為您選擇的任何目標形狀,同時保留您想要的任何摘要統計資訊(精確到小數點後兩位)。結果就是“資料集恐龍十二宮”。
此頁面上的所有散點圖都具有相同的摘要統計資訊!精明的讀者可能會注意到,這是一個數據集恐龍“麵包師的十三個”。恐龍資料集是生成所有其他資料集的起點。(這是對資料視覺化專家 Alberto Cairo 半開玩笑的霸王龍資料集的致敬。)顯然,僅憑摘要統計資訊無法充分說明問題。
安斯庫姆可能會為他的四重奏作為現代統計學課程中常見的教學演示而延續至今感到自豪。正如棒球傳奇人物尤吉·貝拉所說,“觀察可以學到很多東西。”
