本文發表於《大眾科學》的前部落格網路,反映了作者的觀點,不一定反映《大眾科學》的觀點
我很高興本週晚些時候能參加在北卡羅來納州羅利市舉行的 ScienceOnline 會議。我更興奮的是能夠共同主持兩個會議!其中一個會議將於週四中午舉行,主題是 公共統計學。希爾達·巴斯蒂安,我的犯罪夥伴,寫了一篇 卡通 來介紹我們的會議,我一直在思考在這裡寫些什麼。今年新聞中有很多關於統計學的內容,從內特·西爾弗到 "五個西格瑪" 發現 類希格斯粒子,再到每一個健康故事。從哪裡開始呢?
上週,我早上吃早餐時翻閱《芝加哥讀者》,偶然看到了文章 "更綠色的芝加哥會更安全"。在我睡眼惺忪的早晨狀態下,我的眼睛有點掃過頁面,但它們卻鎖定在一個包含幾個數字的段落上。數字是重要的和客觀的(對吧?),所以包含最多數字的部分一定為作者的主要觀點提供了清晰、令人信服的論證。
關於支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和想法的有影響力的故事的未來。
在我分享和評論這段摘錄之前,請了解我喜歡社群花園,並且我認為如果能有更多的社群花園會很好。這篇文章的論點是城市植被為社群帶來許多好處,包括降低犯罪率。我不是在為這個立場辯論或反對;我正在退後一步,思考統計資料在這段段落中的使用方式,以及我們是否應該將它們視為支援文章結論的證據。我也不打算侮辱或誹謗作者。我不認為他很愚蠢或不誠實,並且文章的線上版本確實提供了指向他引用的一些研究摘要的連結,這可以幫助讀者自己評估這些說法。我只是認為他可能沒有用懷疑的眼光看待他在文章中引用的統計資料以及它們可能如何被解讀。
事不宜遲,這是讓我眼前一亮的段落
“伊利諾伊大學研究人員最近對[芝加哥]花園的mapping顯示,絕大多數芝加哥居民——270 萬人中的 240 萬人——居住在沒有社群花園的人口普查區;這些區域中近一半的貧困率高於城市平均水平 21%;並且這些低收入區域大多位於南部和西部。這些地區有許多蔓延的空地,可以從中受益於耕種。”
這些數字意味著什麼?作者顯然試圖表達一個觀點,但對我來說,這有點混亂,甚至有些矛盾。幾乎 90% 的芝加哥居民不住在有社群花園的人口普查區。但是人口普查區有多大?如果一個人口普查區只有幾個街區,你可能離社群花園很近,但卻不會被統計在內。也許更好的衡量標準是居住在與有社群花園的人口普查區相鄰的人口普查區,或者在兩個人口普查區之內。從文章中,這一點尚不清楚。(值得一提的是,我查了一下,看起來我的社群大約有 1.65 平方英里,其中有 14 個人口普查區。我的人口普查區內沒有社群花園,但至少有一個相鄰的人口普查區有,而且我認為我步行四分鐘就能到達那個花園。)
文章繼續寫道,“這些區域中近一半的貧困率高於城市平均水平 21%。” 這好還是壞?換句話說,“這些區域中超過一半的貧困率等於或低於城市平均水平 21%。” 這聽起來像是一個不同的故事。但是,除了“近一半”與“超過一半”的問題之外,我們應該如何假設貧困在城市中的分佈?人口普查區的人口是否非常相似,還是富裕地區人均擁有更多的人口普查區?總體而言,有多少人口普查區的貧困率高於和低於平均水平?我真的不知道我們應該對這種分佈做出什麼假設,但在初次閱讀時,大約一半的人口普查區的貧困率高於平均水平聽起來還不太糟糕。這聽起來和“我們一半的學生低於平均水平”一樣糟糕,這是一個相當沒有意義但通常是真的說法。此外,在 270 萬公民中抽取 240 萬人的樣本中,我們預計統計資料將非常接近整個城市的統計資料;只有與這些數字的較大偏差才會引人注目。在沒有關於城市中高貧困人口普查區的百分比和位置資訊的情況下,我們無法對有城市花園的地區和沒有城市花園的地區進行有意義的比較。
在為這篇文章做一些研究後,我清楚地意識到作者幾乎逐字逐句地從他提到的 研究論文(抱歉,這是 Elsevier,並且有付費牆)中提取了這些數字,該論文在某種程度上順便提到了這些數字,並沒有對南部和西部地區從城市農業中受益進行評論。該論文是關於使用 Google Earth 追蹤城市農業,並更準確地瞭解芝加哥城市花園的數量和型別。為什麼《芝加哥讀者》文章的作者覺得有必要引用這些統計資料?顯然,使用數字似乎能讓論點更具可信度,而且他的讀者很可能會以這種方式回應數字。
這篇文章並非孤立事件。統計資料在報紙、雜誌和網際網路上被廣泛使用和誤用。它們是必要的。沒有它們,科學論文就無法準確描述效應的大小或純粹由偶然性造成的機率,記者也無法讓人們知道一項新研究的含義。作為博主、記者和編輯,我們如何提高媒體統計報道的質量?媒體消費者在閱讀這些故事時應該注意什麼?
如果您將參加 ScienceOnline 會議,我誠摯邀請您來和我們討論統計學。我們將討論我們對統計報道的抱怨、如何在不讓讀者感到厭煩的情況下負責任地撰寫統計學內容,以及為我們這些想要複習一下科學論文中所有這些數字含義的人提供的資源。我們還將討論過去一年中一些最大的統計學故事,以及媒體在統計學方面做對和做錯的地方。
無論您是否會參加會議,都請隨時在評論中分享您對公共統計學的抱怨、資源以及對資源的需求。您可以在週四透過 Twitter 關注我們的會議。我們將使用標籤 #PublicStats。本次(非)會議的標籤是 #scio13。
最後,如果您可以訪問有關芝加哥人口普查區貧困分佈的一些資料,我很樂意瞭解一下!
