2014年2月3日

智商測驗測什麼？：心理學家 W. Joel Schneider 訪談

W. Joel Schneider 是伊利諾伊州立大學的心理學家，他將時間平均分配在臨床諮詢專案和定量心理學專案之間。

本文發表於《大眾科學》的前部落格網路，僅反映作者的觀點，不一定反映《大眾科學》的觀點

W. Joel Schneider 是伊利諾伊州立大學的心理學家，他將時間平均分配在臨床諮詢專案和定量心理學專案之間。他還運營著大學學習評估服務中心，社群中的學生和成年人可以在這裡瞭解自己的認知和學業優勢與劣勢。他的主要研究興趣在於評估心理評估。他還對幫助臨床醫生使用統計工具來改進案例概念化和診斷決策感興趣。Schneider 撰寫了 Assessing Psyche，這是我最喜歡的關於智商測試和評估的部落格之一。當他同意接受我的採訪時，我感到非常高興。

1. 您對智力的定義是什麼？

支援科學新聞報道

如果您喜歡這篇文章，請考慮透過以下方式支援我們屢獲殊榮的新聞報道訂閱。透過購買訂閱，您正在幫助確保有關塑造我們當今世界的發現和思想的具有影響力的故事的未來。

在個人層面，大多數人根據自己的形象來定義智力。工程師以描述優秀工程師的方式來定義它。藝術家以描述偉大藝術家的方式來定義它。科學家、企業家和運動員也都是如此。我的定義可能更像是描述一位優秀的學術心理學家。這些定義存在相當大的差異，但也存在相當大的重疊。正是定義中的冗餘性證明了使用俗語“智力”的合理性。然而，各種定義中的不一致性是真實存在的，因此需要使“智力”一詞保持歧義性，以便滿足使用它的民眾的需求。

在將智力描述為“民間概念”時，我並不是說它是一個需要升級的原始想法。許多民間概念都非常細緻入微和複雜。它們不需要被翻譯成正式的科學概念，就像民歌不需要被改寫成歌劇一樣。當然，正如民歌旋律已被用於歌劇中一樣，民間概念和正式科學概念可以相互啟發——但它們並不總是需要這樣做。因此，我想消除長期以來存在的陳詞濫調，即智力研究的子學科有些可疑，因為心理學家群體在智力的定義上始終存在分歧。他們不需要達成一致，我們也不應該期望他們達成一致。如果他們碰巧達成一致，他們達成一致的特定定義將是一個任意的選擇，並且對任何其他心理學家（或任何人）都沒有約束力。這就是民間概念的本質；它們的含義由使用它們的民眾靈活、方便和集體地確定——而且民眾可以改變他們的想法。

此外，說某件事是民間概念並不意味著它不是真實的或不重要的；我們用來描述人的許多詞語——禮貌、酷、貪婪、莊嚴、運動等等——都指的是我們大多數人認為非常真實和非常重要的民間概念。智力也非常真實，而且非常重要！事實上，它在定義上很重要——我們用這個詞來描述那些能夠獲得有用知識，並且可以使用邏輯、直覺、創造力、經驗和智慧的某種組合來解決重大問題的人。

看到我剛才做了什麼嗎？我試圖用一堆與我試圖定義的概念一樣模糊的術語來定義智力。當然，像有用知識和重大問題這樣的術語是抽象概念，只有在特定的文化背景下才具有具體的含義。但是，如果我們對所有這些模糊的術語都有共同的理解，我們就能互相理解。如果我們屬於同一個民族，我們的民間概念就能傳達有用的資訊。

說一種現象受文化束縛並不意味著這種現象可以意味著任何事物，或者它脫離了生物學和物理學。例如，運動的含義可能會因人的年齡、性別和過去的成就記錄以及許多其他因素而有很大差異。即使運動的含義因語境而異，但其含義仍然被限制為指體育運動等身體活動中的技能。僅僅因為運動能力是一個民間概念，並不意味著它沒有生物學決定因素。這只是意味著永遠不會有一個適用於所有情況下的每個人的相同程度的運動能力生物學決定因素的單一列表。但是，一些生物學決定因素幾乎會在每個列表中出現。對決定運動技能的因素進行有用的科學研究是完全可能的。智力也是如此。這是一個只有在人、情境和文化的交匯處才有意義的概念；然而，它的含義足夠穩定，可以在個體中進行測量，並且可以構建關於它的有用理論。

以下是斯特恩（1914 年）的《智力心理測試方法》導言中一段特別清晰的段落

“經常有人反對說，在我們對智力本身的普遍本質有了確切的瞭解之前，智力診斷問題在任何情況下都無法成功解決。但在我看來，這種反對意見似乎是不相關的……我們測量電動勢，卻不知道電是什麼，我們用非常精密的測試方法診斷許多疾病，而我們對這些疾病的真實本質知之甚少（第 2 頁）。

沒有必要將科學概念硬塞進像智力這樣的民間概念中。隨著認知能力科學的進步，智力的民間概念將會改變，因為這是民間概念的本質。看看霍華德·加德納（Howard Gardner，1983 年）在調整和擴充套件智力含義方面取得了多麼大的成就。比徵求學者對定義的同意更重要的是鼓勵富有創造力的研究人員做好他們的工作，從不同的角度探討這個主題。也許在很久以後，我們可以整理出一個智力共識定義，如果這看起來是一個好主意的話。然而，一個多世紀以來，在智力的含義上缺乏共識並沒有出現迫在眉睫的危機。可能永遠也不會出現危機。

2. 智商測驗測什麼？

智商測驗的價值更多地取決於它們與什麼相關，而不是它們測量什麼。智商測驗最初並不是碰巧與重要結果相關的理論的操作定義。智商測驗與如此多重要結果相關的原因是，它們經歷了一個類似於自然選擇的漫長過程。要讓自己不再相信比內發明了第一個智力測驗，最快的方法就是閱讀比內自己的著作——他甚至向你展示了他從之前的學者那裡複製來的測試專案！隨著每次新的測試和每次測試修訂，好的測試專案被保留，壞的測試專案被刪除。好的測試專案與每個旨在使用的測試的目標人群的重要結果都具有高度相關性。壞的專案與除其他測試專案之外的任何事物都不相關。一些測試專案必須被丟棄，因為它們在不同的人口亞群中與結果的相關性存在顯著差異，導致測試偏向某些群體而犧牲其他群體的利益。

因此，正如關於某種法國學者的老笑話所說，“它在實踐中有效——但它在理論上有效嗎？” 我並不是說理論在測試開發中沒有發揮作用，也不是說理論沒有加速測試改進的過程。然而，我們通常看不到失敗的測試，其中許多測試都非常基於理論。因此，我們有成功的測試，我們有成功的測試開發者的想法。這些想法可能是大致正確的，但我們還沒有關於進行智商測試時發生的認知過程的強大理論。當然，有許多優秀的研究試圖描述和解釋智商測試表現中涉及的過程。儘管這方面的文獻浩如煙海且內容深刻，但我認為我們仍處於理論驗證工作的初期階段。

對好的智商測驗應該測量什麼的一個粗略描述可能是這樣的。人們需要能夠學習新資訊。估計學習能力的一種方法是向一個人教授新資訊並測量知識保留率。這對於簡單資訊（例如，回憶單詞列表和複述簡單的故事）效果很好，但很難設計一個測試來測量複雜資訊的保留率（例如，記憶有關黎巴嫩政治的講座），而又不會受到先前知識差異的汙染。

學習能力可以透過測量一個人過去學到了多少知識來間接估計。如果我們的目的是測量原始學習能力，則這種方法很差，因為學習能力與學習機會、文化差異、家庭差異以及責任心和學習開放性方面的人格差異相混淆。但是，如果智商分數的目的是預測未來的學習，那麼很難找到比過去學習的衡量標準更好的方法。知識測試是我們擁有的最可靠的績效預測指標之一。

我們這個時代的歷史中的社會重視從不完整的資料中進行概括並從抽象規則中推斷出新資訊的能力。智商測驗需要以最大限度地減少擁有內容領域先前知識的優勢的方式來衡量這種參與抽象推理的能力。

好的智商測驗應該測量視覺空間處理和聽覺處理的各個方面，以及短期記憶和處理速度。

3. 一個人的全球智商分數意味著什麼？如果一個人的智商分數很低，您是否認為這意味著他們必然很笨？

智商是對許多結果的不完美預測指標。在能力合格的智商測試中得分非常低的人很可能在許多領域都遇到困難。但是，智商分數會在許多人身上失準，無論是哪個方向。

當智商測驗失準時，我們應該對它生氣嗎？不應該。所有心理測量都是橡皮尺。它們的本質是會時不時地失準。如果分數是由於不稱職造成的錯誤，我們應該對不稱職的測試管理者生氣。我們應該對使用智商測驗來為壓迫辯護的機構生氣。但是，如果嚴重不正確的測試分數是由稱職、有愛心和認真的臨床醫生獲得的，我們必須接受知識是有限的。稱職、有愛心和認真的臨床醫生理解這些限制，並將他們的不確定性納入他們的解釋以及基於這些解釋的任何決策中。如果一個機構使用測試分數來做出高風險決策，則該機構應建立機制來識別其錯誤（例如，偶爾的重新評估）。

4. 一個人有可能非常聰明，但在智商測驗中得分仍然很低嗎？如果是這樣，在哪些方面可能出現這種情況？

這種情況可能以無數種方式發生。語言和其他文化障礙會導致智力測驗低估智力。未能從幼兒和患有多種精神障礙的人那裡獲得持續的最佳努力是很常見的。在這些情況下，除了最遲鈍的臨床醫生之外，所有人都將認識到有些不對勁，並將採取適當的行動（例如，找到更合適的測試或停止測試，直到再次可能獲得最佳努力）。不幸的是，一位遲鈍的臨床醫生可能會造成很大的損害。

5. 智商測試的實際用途是什麼？

當我們聽到由於誤導性智商分數導致的不正確決策時，幾乎不可能不生氣。公眾和各種專家沉迷於我們可以廢除標準化測試的幻想，這很常見。很容易同情他們的人文主義渴望以及他們對機械決策的反感，這些決策對每個人的個人情況視而不見。閱讀比內的著作之所以重要，是因為在這些著作中，我們對如果允許這種願望實現可能會發生的糟糕事情有了第一手的描述。

當我們面臨在基於來自智商測驗的虛假資訊做“錯誤的事情”和在智商測驗錯誤時透過忽略智商測驗來做“正確的事情”之間做出決定時，我們應該做正確的事情，這似乎是顯而易見的。不幸的是，我們並不生活在那個宇宙中，在那個宇宙中，我們總是知道什麼是“正確的事情”。在這個宇宙中，存在普遍的不確定性，包括關於我們應該對什麼感到不確定的不確定性。智商測驗，儘管存在錯誤，但仍能揭示人們能力的一兩層不確定性。在正確的人手中，它們效果相當好。它們大致正確的時候多於嚴重錯誤的時候。如果我們沒有它們，我們將退回到更不可靠的決策方式。

透過向公眾保證，很少有測試以真正機械的方式用於決策，就可以消除對標準化測試的大部分不安。作為使用標準化測試的專業人士，我們需要溝通我們實際在做什麼。幾十年來，整體判斷和統計決策規則的使用一直處於持續的緊張狀態。這是一種健康的狀態。標準化測試為人類判斷提供了一種錨點。單憑人類理性通常非常不擅長計算相關機率。如果沒有標準化測試，關於診斷和獲得服務的資格的艱難決策仍將做出，但它們的做出方式將更加隨意。

另一方面，如果沒有允許人類判斷的合理保障措施，標準化測試就會變成專斷的暴君。通常，當我們解釋認知能力測試資料時，我們會按照數字所說的去做。有時，這些數字是對真相的良好初步近似，但需要進行少量調整。但是，有時，它們不是真相，甚至不是近似值。當不這樣做是不合邏輯、不切實際或道德上令人髮指時，我們有權推翻數字所說的。當然，如果過於頻繁地援引這種特權，它本身可能會成為一個問題。為了重振一個人成熟謙遜的能力，我建議每隔幾年重讀保羅·米爾關於這個主題的想法（例如，Grove & Meehl，1996；Meehl，1957）。

6. 為什麼智商測驗要測量“常識”和晦澀的詞彙？掌握無用的知識真的是“智力”嗎？還是僅僅是無用的知識？

如果我們認為智商是對純粹潛力的估計，那麼將獲得的知識測試納入智商是一個非常糟糕的主意。我們有非常好的測試來估計各種原始認知能力（例如，工作記憶測試和處理速度測試）。我們有相當好的推理能力測試，這些測試不需要特定的內容知識。但是，如果我們認為智商是預測工具，那麼沒有比過去學習更好的未來學習預測指標了。此外，過去的學習不僅可以預測未來的學習，而且常常可以促進未來的學習。

精心設計的知識測試不僅僅測量對愚蠢事實的記憶。相反，它們測量對某些認知工具的理解，這些工具促進推理和問題解決。舉一個明顯的例子，基本數學事實（例如，6×7=42）的知識使一個人能夠執行其他情況下不可能實現的推理壯舉。以一種不太明顯的方式，對某些單詞、短語和故事的知識有助於推理。智商測驗測量對精心挑選的單詞、短語和故事的知識，因為擁有這些知識的人可能能夠在困難情況下運用更好的判斷力。

單詞

某些詞彙使我們能夠簡潔地交流複雜的想法，並使我們意識到否則可能會被我們忽略的區別。在某些文化中，個人勇敢是一種主要的優點，而懦弱則應不惜一切代價避免。在這種背景下，擁有區分令人欽佩的無畏（英勇、勇敢、英勇）和愚蠢的無畏（魯莽、輕率、自負）的詞語具有很大的優勢。也許更重要的是可恥的恐懼（膽小、懦弱、懦夫）和明智的恐懼（謹慎、審慎、精明）之間的區別。瞭解這些詞語可以讓一個人與同齡人交流對謹慎的需要，而不會被指責為懦弱。否則，如果沒有體面的方式來談論謹慎，體面的人就別無選擇，只能選擇愚蠢和自我毀滅。我在這裡可能為了效果而誇大了我的論點，但毫不誇張地說，單詞是強大的工具。沒有這些工具的人處於嚴重劣勢。

短語

一種文化的集體智慧被收集在引語（“一個偉大地區分學者和戰士的國家，其思考將由懦夫完成，其戰鬥將由傻瓜完成。”）、陳詞濫調（“留得青山在，不怕沒柴燒。”）和口號（“說話要溫和，但要手持大棒。”）中。那些不知道諺語（“謹慎是勇敢的最好部分。”）含義的人必須透過反覆試驗（即，主要是錯誤）來自己弄清楚。

諺語也是工具，是小的認知增強器。當然，你可以用你的雙手徒手釘釘子，但即使是最強壯的手也無法與錘子競爭。當然，選擇哪個諺語適合這種情況仍然需要判斷力。錘子很棒——但不適合擰螺絲。

故事

歷史上的大多數事件都會立即被遺忘，即使是歷史學家也會遺忘。那些被記錄下來的往往是重要的。那些被重複和記住幾個世紀的往往包含對文化至關重要的東西。例如，“皮洛士式勝利”這個短語可能不廣為人知或使用，但它在受過教育的讀者中倖存下來，因為它使用歷史事件以一種引人入勝且簡潔的方式表達智慧。歷史上的某些關鍵事件可以作為我們決策者的模板（例如，拿破崙入侵俄羅斯、內維爾·張伯倫綏靖希特勒、越南戰爭是“泥潭”）。在民主國家，我們大多數人擁有許多好的模板供借鑑至關重要。如果不深入瞭解早期羅馬共和國的歷史，喬治·華盛頓可能不會看到兩屆任期後放棄權力的智慧。如果不深入欣賞歷史，他的同代人就不會稱華盛頓為“美國辛辛納圖斯”，並以他的名字重新命名俄亥俄州的一個新城市以紀念他。選民從抽象意義上理解任期限制的存在是有充分理由的，這是一回事。對於一個共和國來說，要做到能夠防止獨裁者出現，它必須有長期以來尊重強大而受歡迎的領導人自願下臺的傳統。

結晶智力視覺化

7. 所謂的“流體智力”——當場解決新問題和推理——在所有兒童中都以相同的程度測量流體智力嗎？

沒有心理或學業測試在所有兒童中都以相同的程度測量任何事物。誠然，精心設計的抽象推理測試減少了擁有特定內容知識的需求。然而，參與抽象推理的過程本身是後天習得的，並且深受文化的影響。詹姆斯·弗林（James Flynn）對此觀點最為清晰。衡量抽象推理能力是正確的，但將從事抽象推理的能力和意願視為與許多重要的具體文化現實脫節是錯誤的。有些文化必須強調日常生存的現實和當下，而不是永不發生的假設和可能。

古希臘文化在其對抽象的欣賞方面非常奇怪（雖然不是獨一無二的——印度是許多抽象概念的發源地，阿拉伯學者及其佔位阿拉伯數字為我們提供了管理抽象概念的終極工具：代數。）。事實是，大多數古希臘人可能也不太關心抽象。當希臘哲學家開始系統地探索抽象領域時，這是一個危險的領域。蘇格拉底和他那些瘋狂的問題被視為真正的威脅。

我們的抽象推理能力是進化時間尺度上最近的創新。就能力而言，它是一個半生不熟且充滿漏洞的軟體——它很脆弱、不一致、容易出錯，並且很容易被各種奇怪的偏見所推翻。它會因有點累、分心、醉酒、擔憂、生病或受傷而中斷……這樣的例子不勝列舉。系統中的薄弱環節可能是極易受損的工作記憶/注意力控制機制。幾乎每種心理障礙，從抑鬱症到精神分裂症，都與這些系統的缺陷和效率低下有關。

與我們大腦強大的視覺資訊處理系統這一工程奇蹟相比，計算機科學家相對容易設計出比我們大腦擁有的邏輯處理器更好的邏輯處理器。然而，在這個時代，我們社會中掌握抽象工具的成員可以利用他們的優勢來獲得前所未有的財富水平。對於我們這些從科學探索和藝術表達中獲得深刻滿足感的人來說，它們也非常方便。

8. 您認為高智商還是高求知慾更重要？

智商、好奇心、紀律性和成就之間的關係就像長度、寬度、深度和體積的關係。

9. 智商與創造力產出之間有什麼關係？

“[我]寫的東西比我聰明。因為我可以重寫它。”

我對蘇珊·桑塔格的這句引言很感興趣，這是我關注的某人在推特上轉發的。然後我找到了並愛上了整篇文章。高智商固然好，而且有大量證據表明它與創造力產出顯著相關。另一方面，許多高智商的人未能創造出任何東西，而許多智力中等的人卻取得了持久的偉大成就。桑塔格的洞察力表明了我們如何超越我們的侷限性。

10. 您認為多動症是否被過度診斷了？

許多公眾擔心多動症不是一種真正的疾病：它只是懶惰的父母和壞老師給孩子用藥的藉口……這些孩子本質上是正常的，但可能有點精力充沛，有點難以管教。公眾的擔憂是對的！我們不想錯誤地給正常兒童貼上標籤，給他們他們不需要的藥物……但是，多動症是一種真正的疾病。如果你曾經和一個患有嚴重多動症的孩子一起工作過，你就會知道，不僅僅是精力充沛阻止孩子交朋友、在學校表現良好以及為成年生活做準備。

正如我們擔心錯誤地給沒有多動症的孩子貼上標籤和過度用藥一樣，我們也應該擔心未能識別出確實患有多動症的孩子。這些孩子也被錯誤地貼上了標籤。他們被稱為懶惰。他們被稱為沒有動力。他們被稱為不負責任。如果他們遵守規則，他們被稱為心不在焉。如果他們不遵守規則，他們就被稱為一無是處（甚至更糟糕）。隨著時間的推移（在許多情況下），這些術語——懶惰、沒有動力、不負責任和一無是處——是他們開始接受並給自己貼上的標籤。當他們成年時，他們通常已經有了二三十年的失敗計劃和失敗的關係。他們的多動症在他們尋求幫助時才首次被發現——不是為了他們的衝動，不是為了他們的注意力問題——而是為了他們的抑鬱症。我們需要善待所有兒童。目前評估多動症的方法顯然不是最佳的，但如果應用得當，效果還是相當不錯的。目前，我（與許多其他學者一起）正在努力尋找更好的多動症評估方法。

11. 請您介紹一下您的軟體“Compositator”。

Compositator，儘管它的名字聽起來很傻，但它是我多年心血的結晶。它是一個演示專案，展示了我認為下一代測試評分和解釋軟體應該具備的各種功能。我希望主要認知電池的下一個版本儘可能多地借鑑它。軟體手冊列出了所有需要的公式。

Compositator 之所以得名，是因為它能夠建立自定義綜合分數，從而可以更有效、更可靠地使用所有評估資料。這是一個有用的功能，但遠非最重要的功能。Compositator 對心理評估的藝術和科學的主要貢獻在於，它使臨床醫生能夠提出和回答比以前更廣泛的關於個體的問題。它可以做到這一點，因為它不僅計算有關自定義綜合分數的豐富資訊，而且還計算官方和自定義綜合分數之間的相關性。這個看似簡單的功能產生了許多新的和令人興奮的解釋可能性，從簡單的迴歸到路徑分析和結構方程建模，應用於個體，並以使用者友好的路徑圖和互動式圖表呈現。

傳統上，檢測學習障礙的第一步是表明學業成就與預期之間存在差異，給定對一般推理能力的某種估計。無論他們是否意識到，使用預測成就方法來估計預期成就分數的評估專業人員都在使用簡單的迴歸模型。單個預測變數（通常是智商）用於預測結果。不幸的是，這種方法通常涉及大量笨拙的表格和繁瑣的計算。

該過程的第二步是確定可以合理地解釋這種差異的相關預測變數（例如，快速自動命名、語音處理）。Compositator 使使用者能夠選擇任何一組被認為與結果相關的預測變數。也就是說，在分析中包含其他預測變數應該使我們能夠更充分地解釋學業成果，並使解釋更符合個體的情況。藉助 Compositator 程式，使用者還可以計算實際成就是否顯著低於預測成就、與觀察到的差異一樣大的差異在估計人群中所佔的比例，以及每個預測變數對學業成果的貢獻程度。因此，Compositator 使用個人的 WJ-III NU 概況自動生成大量以前難以或繁瑣地獲得的資訊。

Compositator 實現的一項創新是，可以自由地不僅包括認知預測變數，還可以包括其他學業成就變數作為預測變數。例如，在控制了相關認知能力之後，可以確定兒童的閱讀理解問題是否可以合理地用閱讀流利度或單字解碼問題來解釋。

除了基本的多元迴歸分析之外，Compositator 還允許使用者使用路徑分析來檢查不同能力的直接和間接影響。例如，在控制了結晶智力之後，聽覺處理幾乎對每個年齡組的閱讀理解都具有幾乎微不足道的直接影響；但是，它透過單字解碼技能具有顯著的間接影響。識別出聽覺處理和閱讀理解之間以前隱藏的間接聯絡對評估資料的解釋和干預計劃具有重要的意義。Compositator 可以估計“假設情景”。例如，如果聽覺處理技能提高 15 分，單字解碼技能可能會提高多少分，進而閱讀理解可能會提高多少分？

12. 您目前還在從事哪些其他工作？

人類在模式識別和理解複雜結構方面非常出色。不幸的是，人類（包括尤其是我）在機率思考方面非常糟糕。我建立了幾個計算機程式，用作心理評估的解釋輔助工具。我的方法是讓計算機做它們最擅長的事情：計算。一旦相關的機率估計被計算出來，人類的判斷力就會得到提升。
我正在寫一本書，解釋如何使用心理測量學來理解個體。
我正在製作一款軟體，它擴充套件了 Compositator 的理念，並使其更加靈活。我希望它能夠讓你輸入任何 SEM 模型，並將其應用於任何心理測量。
我正在進行研究，試圖理解為什麼自我評估的注意力與注意力的認知測量指標相關性如此之差。
我正在進行一系列研究，希望證明 Gs（處理速度）= Gt（感知速度/決策時間）+ 注意力流暢性（將注意力聚光燈從一個事物平穩地轉移到另一個事物的能力）。

圖片來源 #1: my.ilstu.edu; 圖片來源 #2: assessingpsyche.wordpress.com; 圖片來源 #: assessingpyche.wordpress.com