2019年7月3日

分院帽的誘惑

因為有時候，旨在幫助我們評估績效和潛力的工具就是不起作用

本文發表於《大眾科學》的前部落格網路，反映了作者的觀點，不一定反映《大眾科學》的觀點

我生活中的人們似乎都正被各種評估所包圍。他們被委派評價他人，並在工作中接受評價。他們擔任獎學金申請的遴選委員會成員，或仔細研究自己被拒申請的評估報告。他們正在申請大學，或者參加關於如何最好地重塑大學錄取過程的小組討論。然後，他們眼睜睜地看著這些評估被用來塑造某人的未來，無論是他們自己的未來，還是另一端神秘的學生和專業人士的未來。他們似乎都沉浸在工具和數字的海洋中，這些工具和數字既豐富又抽象。我們都告訴自己，儘管這個過程可能看起來很抽象，但總比沒有過程好。這是一種試圖公平的嘗試。把它想成是公平的，真是太誘人了。

我們得到的工具是如此定製化、如此具體，以至於感覺它們一定能發揮作用，以梳理出我們如此努力想要衡量的細微指標。從旨在排除所有無關偏見機會的約束和類別中進行選擇；這些工具只有一個任務要做，所以它們一定在完成任務，對吧？我們希望我們用來評估同事績效的工具能夠發揮作用，以評估績效。大學的入學考試將人們分為準備就緒和尚未準備就緒且可以從一些幫助中受益的類別，我們希望最終能夠幫助這兩個類別的人充分發揮他們的潛力。《哈利·波特》中的分院帽應該在新學期開始時，在新生的班級中播下足夠的青春期懷疑和內群體/外群體動態的種子，為足夠精彩的學年奠定基礎。雖然最後一句是諷刺，但它可能是列表中唯一一個完成其描述工作的評估工具。

我的一位同事正在共同組織一次會議，她的部分職責包括從提交的摘要池中選擇發言人。他們建立了一個評分系統，並指派多位相關專家作為評審員對其進行評估，並確保每個摘要都呈現在多組人面前。這一切都感覺非常有目的性和公平性。然後評分結果出來了。在一個滿分 100 分的評分系統中，許多摘要的評審員之間的差異超過 40-50 分。一旦他們深入研究資料，他們發現評審員分為兩大類。一類評審員從 100 分開始評分，只扣除他們提出的問題/疑慮的分數。他們的分數往往大多在 80 分及以上。另一類評審員從白板開始，讓申請人從底部開始賺取每一分，最終得到的分數大多在 60 分左右。在個別評審員之間，該工具的應用相當一致。但是，將跨評審員的分數合併，總分很快變得毫無意義。我上次檢視時，他們正在研究根據每個評審員的平均分來調整分數的方法。

關於支援科學新聞

如果您喜歡這篇文章，請考慮透過以下方式支援我們屢獲殊榮的新聞報道訂閱。透過購買訂閱，您將幫助確保有關當今塑造我們世界的發現和思想的具有影響力的故事的未來。

這絕非個例。發表在《應用心理學雜誌》上的一項研究發現，高達 62% 的工作績效評級差異與評審員的特殊性有關，而不是與被評審的績效有關。評審員效應比任何其他因素的總和都強。在他們的著作《關於工作的九個謊言》中，作者馬庫斯·白金漢和阿什利·古德爾將這個過程比作評委對花樣滑冰運動員的評分。即使在這個任務中，基於看似客觀的因素，如旋轉次數以及起跳和落地時的冰刀側面，評委之間的差異也可能很大。與花樣滑冰技術的相對具體的屬性相反，作者感嘆工作績效衡量標準如何要求我們根據“領導力”和“政治手腕”等模糊概念來評價彼此。突然間，為這些會議摘要找到一個數學縮放系統似乎是一個容易解決的問題。

很明顯，這種分類很重要。它可以決定誰獲得加薪、誰獲得晉升以及誰必須在開始大學學習之前參加補習班。適用的標籤通常會貼上。我的一個朋友在一家公司工作，該公司使用評分系統，該系統在多個類別中給員工的年度評分在 1-5 分之間。對於這些員工來說，晉升和加薪取決於他們累積的 4 分和 5 分的數量。但是，由於公司希望限制加薪和晉升，他們對這些評分設定了上限。每個部門只有這麼多 4 分和 5 分可以分配。給一個人 5 分意味著它不能給另一個人。同一部門的經理最終會爭先恐後，試圖防止過多的高評分流向單個部門。當然，這更多地與感知到的公平感有關，而不是與實際績效有關。白金漢和古德爾在他們的書中引用了類似的系統，他們觀察到這些工具不再與評估績效有關，而是成為控制資源分配的一種手段。

但對於員工來說，這些評分和標籤成為他們記錄的一部分，作為他們績效的所謂衡量標準。我的朋友感嘆他的同事們花費數小時努力提供自己工作在令人抓狂的抽象類別中的證據，花費午餐時間推測他們的經理“真正想要的是什麼”。另一方面，經理正在考慮如何在各個部門之間分配一組任意的和預定義的數字——那些詳細的績效報告可能早已被遺忘。

從高等教育方面來看，入學考試和評估也受到了類似的審查。旨在識別將從補習工作中受益的學生的工具應該表明，參加該課程的學生最終比沒有參加該課程的類似學生更成功。但是，就像沒有聽到“今年不適合你獲得 4 分”而是聽到“你缺乏潛力”的員工一樣，這些學生似乎也從其他方面聽到了一些聲音。一項研究發現，被告知需要補習課程的學生中，有 1/3 的學生最終從未註冊該課程的任何課程。他們中只有 60% 的人甚至註冊了推薦給他們的課程。如果被告知需要補習工作的學生不是因為課程作業而未能完成課程或退學，而是因為他們甚至沒有報名就退出了系統，那麼您甚至可以獲得什麼樣的有效性衡量標準？另一份2016 年報告發現，GPA 是比旨在準確評估績效的考試（SAT、ACT、ACCUPLACER）更好的課程績效預測指標。如果結果阻止學生甚至嘗試，您如何判斷安置工具是否有效？對於告訴學生和員工一件事，但最終傳遞的資訊是“也許你應該回家”的分院帽，您該怎麼辦。