本文發表於《大眾科學》的前部落格網路,僅反映作者的觀點,不一定反映《大眾科學》的觀點
費城—2011年夏天,我開始撰寫一篇專題文章,內容是關於一本大多數人從未聽說過的書——《精神疾病診斷與統計手冊》(DSM),這是一本供精神科醫生和臨床醫生參考的指南。DSM的大部分頁面都包含描述不同精神障礙的症狀列表(例如,精神分裂症:妄想、幻覺、言語紊亂等等)。DSM不僅定義了精神疾病,而且通常決定患者是否接受治療——在許多情況下,保險公司要求在補貼藥物或其他治療方法之前,必須有官方的DSM診斷。
美國精神病學協會 (APA) 30 年來首次大幅修訂 DSM,以使診斷更準確,並使該手冊更便於使用者使用(1994 年的 DSM-IV 與 1980 年的 DSM-III 沒有顯著差異)。該協會計劃在 2013 年 5 月出版該手冊的全新版本,DSM-5。
當我在報道我的專題文章時,該文章發表在《大眾科學 MIND》雜誌的五/六月刊,我花了很多時間與 APA 工作組的成員通電話——該工作組由精神科醫生和研究人員組成,他們負責監督 DSM 的修訂工作。本週末,我參加了在費城舉行的 APA 年度會議,親自聽取了其中一些研究人員的發言,並進一步瞭解了 DSM-5。我特別對“現場測試”的結果感到興奮——這是在全國各地的大學和診所對新的 DSM-5 診斷進行的預演。現場測試主要關注一個問題:使用修訂後的 DSM-5 診斷的不同精神科醫生是否對同一患者得出相同的結論?如果他們得出相同的結論,則更新後的症狀列表具有很高的“可靠性”——這在醫學上是一件好事。如果不是,則新的診斷是不可靠的,並且修訂是失敗的。
關於支援科學新聞業
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞業 訂閱。透過購買訂閱,您正在幫助確保未來能夠繼續報道關於塑造我們當今世界的發現和思想的具有影響力的故事。
APA 尚未公佈現場測試的結果,但在費城舉行的年度會議上,該協會在週六的專題研討會上對調查結果進行了預覽。這是首次一窺許多人長期以來一直等待看到的極其重要的資料。
一些結果——以及演講者呈現這些結果的方式——讓我感到沮喪和擔憂。
為了理解原因,首先討論一些統計資料是有幫助的。我會盡量簡化。APA 使用一種稱為 kappa 的統計量來衡量不同診斷的可靠性。kappa 值越高,診斷的可靠性就越高,其中 1.0 代表完美的可靠性。APA 認為 kappa 值為 0.8 或更高的診斷具有奇蹟般的可靠性;0.6 到 0.8 非常好;0.4 到 0.6 良好;0.2 到 0.4 “可以接受”,任何低於 0.2 的都屬於不可接受的不可靠。低可靠性對於臨床醫生、患者和研究人員來說都是一個大問題:這意味著只有少數臨床醫生在診斷疾病時意見一致並且想要研究特定疾病的研究人員將很難找到真正患有所研究疾病的參與者。如果沒人意見一致,就很難取得任何進展。
APA 的 DSM-5 工作組副主席 Darrel Regier 展示了各種 DSM-5 診斷的 kappa 值——這是現場測試中首次公開發布的結果。幸運的是,許多 DSM-5 診斷的 kappa 值看起來很強。例如,新的自閉症譜系障礙 (ASD) 的現場測試——它將 DSM-IV 中對自閉症、阿斯伯格綜合症和其他發育障礙的診斷合併為一個類別——得出的 kappa 值為 0.69。然而,兩個可憐的 kappa 值讓我震驚了。廣泛性焦慮症的 kappa 值約為 0.2,重度抑鬱症的 kappa 值約為 0.3。
根據 APA 自己的標準,這些數字太低了——而且它們遠低於先前版本的 DSM 中疾病的 kappa 值。Regier 和 APA 的其他成員強調,最新版本的現場測試方法比過去更加嚴格,並且早期版本的 DSM 中許多診斷的 kappa 值可能被誇大了。但這並沒有改變 APA 面臨一個問題的事實:其自身的資料表明,一些更新後的定義存在缺陷,以至於只有少數精神科醫生在使用這些定義對同一患者進行診斷時才能得出相同的結論。而且 APA 只有有限的時間來解決這個問題。
儘管 APA 已經為 DSM-5 工作了 11 年多,但現場測試僅在去年才開始。在報道我的專題時,我問 APA 的成員,他們為什麼等了這麼久才進行現場測試。畢竟,距離 DSM-5 的計劃出版日期僅剩一年,而我們仍然不知道修訂後的診斷是否可靠,以及它們是否比以前的版本有了真正的改進。我從未收到令人滿意的答案
為了做一個類比,考慮一個麵包師,他花了幾個月的時間在腦海中開發一個終極巧克力蛋糕的配方,然後在必須交付蛋糕的前一天,才最終嘗試這個配方,結果發現蛋糕味道糟糕透頂。他只有一天的時間來想出其他辦法。APA 也將自己置於類似的絕境。新手冊的最終草案將於今年 12 月到期,這意味著如果 APA 想按計劃出版,它只有不到 8 個月的時間來實施從現場測試中學到的東西。新的現場測試將需要數年時間來安排,並且至少需要額外一年的時間來進行。要麼該協會將 DSM-5 的出版推遲數年,再次修訂診斷並進行新的現場測試——要麼它按照目前的計劃進行,並出版一本存在重大缺陷的 DSM-5。
如果 APA 有行動計劃——除了像“繼續分析我們的資料”這樣的模糊陳述之外——該協會在專題研討會上並沒有明確說明。演講者似乎並沒有被令人震驚的結果所困擾。更糟糕的是,他們有時顯得漠不關心。
美國精神病學研究所研究與教育中心的 Eve Moscicki 在專題研討會上做了最後一次演講。Moscicki 幫助協調了診所的現場測試。出於某種原因,Moscicki 決定在她分配的時間裡,花一半以上的時間談論不相關的細節——例如,一個好的技術支援團隊的好處——然後才談到實際的現場測試結果。最後,她展示了一些彩色條形圖,顯示臨床醫生和患者對新的 DSM-5 診斷的看法。這些條形圖顯示了有多少百分比的受訪者認為新的定義“非常有用”、“很有用”、“中等有用”、“稍微有用”或“完全沒用”。資訊圖愛好者都知道,條形圖是一種呈現此類資料的弱方式——很難同時對這麼多類別進行視覺比較。餅圖會更清晰。**(請參閱下面的“編輯新增”部分,瞭解更正和澄清)。**
“嗯,是的,在我看來,大多數人認為它非常有用或極其有用,”Moscicki 在談到其中一個修訂後的診斷時說。
“那是錯誤的,”我站起來說。“37% 加 7% 不等於超過 50%。” 事實上,大多數受訪者認為新標準介於中等有用和完全沒用之間。“你不能用條形圖來呈現這些資料。這具有欺騙性,”我補充道。這已經是 Moscicki 第三次犯這樣的錯誤了,她高估了正面回應的百分比,並掩蓋了 DSM-5 在結果中明顯的缺點。
“嗯,嗯,記住這只是初步的……”
“完全具有欺騙性,”我說。我把揹包甩到一邊肩膀上,走出了房間。
回想起來,我不應該稱該圖表具有欺騙性,儘管我仍然認為資料的呈現方式很差。我希望我能堅持到演講的最後幾分鐘,但我太沮喪了,無法在房間裡待更久。也許我反應過度了。然而,在反思了這段經歷之後,我仍然真誠地對 DSM 的未來感到擔憂。
Moscicki 有一件事說對了:這只是初步的。在 APA 正式公佈現場測試的結果之前,協會以外的任何人都無法完成適當的分析。到目前為止,我所看到的情況讓我相信,該協會應該預料到比已經承受的批評更強烈的批評。公平地說,APA 根據早期的批評意見對 DSM-5 的草案進行了修改。但草案僅在未來六週內接受評論。到目前為止,APA 以外的任何人都無法訪問現場測試資料,我毫不懷疑許多研究人員會抓住並仔細審查這些資料。我只希望他們發現的缺陷能讓 APA 再次審視——並更仔細地審視。
**編輯新增**
有些人指出,在呈現我討論的資料時,餅圖不一定比條形圖更清晰。這是真的。我現在意識到我沒有正確地解釋我的意思。讓我困擾的是 Moscicki 在進行估算。她用眼睛觀察不同條形圖代表的百分比,並在腦海中將它們加在一起,以檢視“很有用”和“極其有用”的百分比加起來是否大於其餘類別的總和。相反,她應該在演示之前,以圖形方式將資料組合成兩個類別,以便進行清晰的比較——無論是餅圖中的兩個扇形還是兩個條形圖。當時我腦海中閃現的解決方案是一個餅圖,其中代表“很有用”和“極其有用”百分比之和的扇形明顯小於餅圖的一半,而代表“中等有用”、“稍微有用”和“完全沒用”類別之和的扇形明顯大於一半。從大局來看,這個特殊的點是一個小問題——但這卻是壓垮駱駝的最後一根稻草。我的挫敗感在整個專題研討會期間一直在累積,我無法忍受我認為是對關鍵資料輕率的處理方式.