大量資料表明,將許多人的答案取平均值通常比任何個人的意見,甚至是專家的意見都要好。然而,群體智慧遠非萬無一失——在需要專業知識的情況下,即使群體中包含專家,他們也會被大多數人的無知所淹沒。但今天發表在《自然》雜誌上的一項研究,由麻省理工學院的行為經濟學家德拉岑·普雷萊克領導,提出了一種新方法,即使在多數意見錯誤的情況下,也能從人群中提取正確的答案。
最常被引用的群體智慧現象的例子來自 1987 年的一項研究,研究人員要求 56 名學生估計一個罐子裡有多少顆軟糖豆。猜測的平均值 (871) 比除一個以外的所有個別猜測都更接近真實數字 (850)。然而,這種方法並非在所有情況下都有效。
先前旨在提高準確性的研究通常涉及獲取置信度評分。更加重視置信度較高的答案可以提高準確性,但在某些情況下仍然失敗,例如當使用故意誤導的問題時。例如,這項新研究表明,當被問及費城是否是賓夕法尼亞州的首府時,大多數人錯誤地回答“是”,因為他們知道它是賓夕法尼亞州一個歷史悠久的重要城市,即使正確的答案是哈里斯堡。置信度評分並不能解決這個問題,因為人們常常對錯誤的答案和正確的答案一樣有信心。“從概念上講,置信度缺失了一些東西,”普雷萊克說。“你希望人們表達他們的資訊是否來自常識——這實際上是他們對自己擁有獨特資訊有多大的信心。”
關於支援科學新聞
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞工作 訂閱。透過購買訂閱,您正在幫助確保關於當今塑造我們世界的發現和想法的具有影響力的故事的未來。
該團隊設計了一個巧妙而簡單的解決方案,他們稱之為“出乎意料的流行”方法。除了提供答案和置信度評分外,他們還要求參與者預測其他人會如何回應。他們表明,選擇比預測更受歡迎的答案,其表現優於“最受歡迎”和“最自信”的方法。誤導的多數人和正確的少數人都會預測所有人都會給出不正確的答案,因此少數人(但正確)的回答比預測的要多得多。“少數人可能會非常離譜,但在很多情況下,你都擁有知識等級,而擁有更多知識的人往往知道其他人不會分享他們的資訊,”普雷萊克解釋說。“在大多數情況下,專家知道非專家的想法。” 因此,在這種情況下,選擇“出乎意料的流行”的回答會更準確。“這種方法的妙處在於,它讓知識更豐富的少數人透過預測多數人會不同意他們的觀點來揭示自己,”柏林馬克斯普朗克人類發展研究所的決策研究員斯特凡·赫爾佐格說,他沒有參與這項研究。
這項研究側重於四種不同環境中的二元是非問題。第一個實驗包括 50 個關於美國州首府的問題。第二個實驗使用了 80 個對錯常識問題,這些問題經過選擇,既包括大多數人會正確回答的問題,也包括大多數人會回答錯誤的問題。第三個實驗向皮膚科醫生展示了 80 張皮膚病變圖片,並要求他們預測自己對每張圖片是良性還是惡性的信心,以及其他皮膚科醫生判斷的分佈情況。最後一個實驗要求一組藝術專家和一組沒有上過藝術課的麻省理工學院學生來判斷 90 幅 20 世紀藝術作品複製品的市場價值。給出了四個價值範圍,並要求參與者估計預測價值超過 30,000 美元的人的百分比。
在所有情況下,新方法都比單獨的多數或基於置信度的方法表現更好,將誤差減少了 21% 到 35%。“這裡有一個關鍵的想法,那就是詢問人們他們認為有多少人會同意他們的觀點,”加州大學歐文分校的認知科學家邁克爾·李說,他也未參與這項工作。“這似乎是一種聰明的做事方式,結果非常令人信服。” 在涉及皮膚科醫生的實驗中,雖然新方法表現最佳,但差異沒有統計學意義,這很可能是因為所有參與者都是專家,從而減少了人群的知識範圍。“我們想進入更有趣的領域,並讓挑戰變得艱難,”普雷萊克指出。
“群體智慧”通常被理解為一種統計現象而非心理現象,通常透過類比涉及噪聲訊號的物理系統來解釋。答案因不相關的(統計上獨立的)誤差而偏離“訊號”(真相),因此在平均時會相互抵消,因此平均值接近準確值。一些研究人員甚至發現,如果允許參與者溝通,就會降低群體表現,大概是因為錯誤不再不相關。
但是,這種比喻忽略了一個事實,即“系統”是由人組成的。“另一種模型是,發生的事情不是噪聲問題,而是存在一些廣為人知的證據,還有一些集中在小群體中的證據——這從物理科學概念轉向了文化概念,”普雷萊克說。“群體方法中的許多統計資料都將人視為物理粒子,但我們要求群體反思他們所知道的。這不是粒子可以做的事情。” 李的團隊將群體智慧研究視為一個認知建模問題。“資料是由人產生的,並且對個體差異和專業知識等因素非常敏感,而這些因素從根本上來說都是心理學概念,”李說。“接下來我想看到的是,您是否可以透過理解人們如何產生這些型別的判斷來進一步改進這一點?”
該研究還包括將該方法擴充套件到多項選擇情況的理論分析,但它是否在更復雜的環境中起作用,例如估計或排序,仍然是一個懸而未決的問題。“這種[方法]可能適用於各種人類判斷,”李說。“現在有很多工作要做,看看它有多強大和通用。”
這項工作可能具有直接的實際應用。赫爾佐格參與了一項去年發表的研究,該研究使用“集體智慧”來改善乳腺癌和皮膚癌的診斷。“透過結合多位診斷師的意見,它可以應用於新興的遠端皮膚病學領域,”他說。“原則上,它可以應用於我們使用多數投票的任何地方,在這種情況下,不僅可以要求人們做出自己的決定,還可以要求他們認為有多少人會同意他們的觀點。”
更長遠的目標是能夠對沒有已知、明確答案的問題產生良好的估計。“真正的考驗是諸如誰將贏得美國總統大選或體育比賽之類的問題;我很想看看它的表現如何。” 李說。“這是一個有趣的開放性問題,它們是根本不同還是隻是更具挑戰性。” 普雷萊克對此表示樂觀:“一直以來的假設是,這些是兩類不同的問題,但我們在兩個領域中進行的推理非常相似,”他說。“策略是在您可以驗證答案的問題上微調您的方法,然後做出信念的飛躍,並假設這是您在不可驗證的問題上能做的最好的事情。”
