做得對,測試促進學習

學校評估往往會加劇焦慮並阻礙學習。 新的研究表明如何扭轉這種趨勢

馬里奧·瓦格納

誰是第一個繞地球飛行的美國人?

A) 尼爾·阿姆斯特朗
B) 尤里·加加林
C) 約翰·格倫
D) 尼基塔·赫魯曉夫

在美國各地的學校中,像這樣的多項選擇題會引起焦慮,甚至恐懼。 它們的出現意味著考試時間到了,而考試是重大的、重要的、極其令人不快的事件。


關於支援科學新聞

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。 透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和想法的有影響力的故事的未來。


但在伊利諾伊州哥倫比亞中學的八年級歷史老師帕特里斯·班恩的課堂上並非如此。 班恩有一雙生動的藍眼睛,快速的微笑,以及看起來既朋克又精靈的尖尖鉑金髮。 在智慧白板上顯示問題後,她停頓了一下,她的學生在稱為答題器的編號裝置上輸入他們的答案。

“好的,每個人都輸入答案了嗎?” 她問道。 “19號,我們正在等你!” 19號匆忙輸入了一個選項,班恩和她的學生一起查看了班級的回答,這些回答現在顯示在智慧白板螢幕的底部。 “你們大多數人都答對了——約翰·格倫——非常好。” 她咯咯地笑著,搖了搖頭,看著她的三個學生提交的答案。 “哦,我的寶貝們,”班恩用開玩笑的責備語氣說道。 “赫魯曉夫不是宇航員!”

班恩繼續進行下一個問題,快速重複提問、回答和解釋的過程,她和她的學生一起完成了 20 世紀 60 年代的歷史學習。

豬灣入侵失敗事件涉及美國和哪個國家?

A) 宏都拉斯
B) 海地
C) 古巴
D) 瓜地馬拉

當每個學生都給出正確答案時,班級成員舉起手,齊聲擺動手指,這是一個他們稱之為“精神手指”的歡快手勢。 豬灣問題就是這種情況:每個學生都答對了。

“太棒了!” 班恩興奮地說。 “這是我們今天的第五個精神手指!”

班恩教室裡的玩笑與全國各地公立學校緊張的對峙截然不同。 自 2002 年《不讓一個孩子掉隊法案》頒佈以來,家長和教師對該法律強制要求對三年級至八年級“每個孩子、每年”進行測試的反對聲日益強烈。 越來越多的家長讓他們的孩子退出年度州級考試; “退出”運動的中心可能是紐約州,據報道,在一些學區,近 90% 的學生拒絕參加 2015 年春季的年度考試。 美國學校過度強調考試的批評者指責說,高風險評估給學生和教師帶來了焦慮,將教室變成了應試工廠,而不是真正有意義的學習實驗室。

在關於美國學生應該如何接受教育的始終兩極分化的辯論中,考試已成為最具爭議的問題。 事實上,為了回應長期以來兩黨對《不讓一個孩子掉隊法案》的反對,國會在 2015 年底頒佈了一項法律,廢除了《不讓一個孩子掉隊法案》政策所確立的大部分聯邦政府對教育的影響。 然而,到目前為止,討論中一直缺少一個關鍵部分。 認知科學和心理學的研究表明,如果做得對,測試可能是一種異常有效的學習方式。 參加測試,以及在測試之前和之後參與精心設計的活動,可以比沒有考試的教育更好地回憶事實——以及更深入和更復雜的理解。 但是,除了簡單地評估之外,積極支援學習的測試製度將與美國學校今天“進行”測試的方式大相徑庭。

班恩在她的課堂上所做的事情被稱為檢索練習。 這種練習在學術文獻中有著良好的實證支援基礎,可以追溯到近 100 年前——但班恩並沒有意識到這項研究,她在課堂上超過 20 年的時間裡,自己摸索出了一些非常相似的東西。

“有人告訴我我是一位出色的老師,這很好聽,但與此同時,我覺得有必要告訴人們:‘不,不是我——是方法,’”班恩在課後採訪中說道。 “我看到它創造瞭如此多的奇蹟,以至於我想爬到山頂大喊,讓每個人都能聽到我:‘你也應該這樣做!’ 但說服其他老師嘗試它一直很困難。”

然後,九年前,她透過一位共同的朋友認識了馬克·丹尼爾。 丹尼爾是聖路易斯華盛頓大學的心理學教授,距離班恩的學校只有半小時車程。 丹尼爾剛開始向班恩描述他對檢索練習的研究,她就驚呼一聲打斷了他。 “帕特里斯說,‘我在我的課堂上做過! 它有效!’”丹尼爾回憶道。 他繼續向班恩解釋說,他和他的同事所說的檢索練習本質上就是測試。 “我們過去稱之為‘測試效應’,直到我們變得聰明並意識到沒有老師或家長會想要接觸一種帶有‘測試’字眼的技術,”丹尼爾現在指出。

檢索練習不使用測試作為評估工具。 相反,它將測試視為學習的機會,這隻有在我們認識到我們誤解了測試的本質後才有意義。 我們認為測試是一種插入學生頭腦中的量油尺,一種告訴我們那裡的知識水平上升了多少的指標——而事實上,每當學生從記憶中呼叫知識時,記憶都會改變。 它的心理表徵變得更強、更穩定、更易於訪問。

為什麼會這樣呢? 普渡大學認知心理學教授傑弗裡·D·卡皮克說,考慮到我們不可能記住我們遇到的一切,這是有道理的。 鑑於我們的記憶必然是選擇性的,一個事實或想法的有用性——正如我們有多少次有理由回憶起它所證明的那樣——為選擇提供了可靠的基礎。 “我們的頭腦對我們在未來某個時間需要知識的可能性很敏感,如果我們現在檢索一條資訊,我們很可能再次需要它,”卡皮克解釋說。 “檢索記憶的過程會改變記憶,以應對我們未來可能遇到的需求。”

使用大腦功能性磁共振成像 (fMRI) 的研究開始揭示測試效應背後的神經機制。 在迄今為止進行的少數研究中,科學家們發現,與簡單地重新學習資訊相比,從記憶中呼叫資訊會在大腦的特定區域產生更高水平的活動。 這些大腦區域與記憶的所謂鞏固或穩定化以及產生使記憶在以後易於訪問的線索有關。 在幾項研究中,研究人員已經證明,這些區域在初始學習會話期間越活躍,研究參與者在幾周或幾個月後的回憶就越成功。

根據卡皮克的說法,檢索是學習發生的主要方式。 “回憶我們已經儲存在記憶中的資訊比首先儲存該資訊更有效,”他說。 “檢索最終是使新記憶持久的過程。” 檢索練習不僅可以幫助學生記住他們檢索到的具體資訊,還可以提高對未直接測試的相關資訊的保留率。

研究人員推測,當我們在大腦中搜索我們試圖回憶的特定資訊時,我們會呼叫相關的記憶,並透過這樣做來加強它們。 檢索練習還有助於防止學生將他們當前正在學習的材料與他們之前學習的材料混淆,甚至似乎可以使學生的大腦做好更充分吸收材料的準備,當他們在測試後再次遇到材料時(研究人員稱之為測試增強學習的現象)。

數百項研究表明,檢索練習在提高保留率方面優於學習者可以使用的幾乎任何其他方法。 舉例來說:在卡皮克和他的導師,華盛頓大學的亨利·L·羅迪格三世於 2008 年發表的一項研究中,作者報告說,對詞彙術語進行自我測驗的學生後來記住了 80% 的單詞,而透過反覆閱讀單詞來學習單詞的學生只記住了大約三分之一的單詞。 與學生最喜歡的學習策略相比,檢索練習尤其有效:突出顯示和重讀筆記和教科書,最近的一項評論發現這些做法是無效的。

而且測試不僅僅增強對孤立事實的回憶。 從記憶中提取資訊的過程也培養了研究人員所說的深度學習。 參與深度學習的學生能夠從他們知道的事實中得出推論,並在事實之間建立聯絡,並且能夠在不同的情境中應用他們的知識——學習科學家稱之為遷移的過程。 在卡皮克和他的普渡大學同事賈內爾·布朗特於 2011 年在 科學 雜誌上發表的一篇文章中,他們明確地將檢索練習與一種稱為概念圖的學習技術進行了比較。 概念圖是一種受到許多教師青睞的促進深度學習的方法,它要求學生繪製一張圖表,描述他們正在學習的知識體系,概念之間的關係用節點之間的連結表示,就像地圖上連線城市的道路一樣。

在他們的研究中,卡皮克和布朗特指導了 200 名本科生志願者(共 200 名)閱讀一篇摘自科學教科書的段落。 然後,一組學生被要求在參考課本的情況下建立概念圖; 另一組學生被要求從記憶中回憶儘可能多的他們剛剛閱讀的課本資訊。 在一週後對所有學生進行的測試中,檢索練習組比概念圖組更能夠回憶起課本中呈現的概念。 更引人注目的是,前一組學生也更能夠從課本中包含的多個概念中得出推論並建立聯絡。 總的來說,卡皮克和布朗特得出結論,檢索練習在促進事實學習和深度學習方面都有效約 50%。

遷移——將在一個情境中學到的知識應用到另一個情境的能力——是深度學習的最終目標。 在德克薩斯大學奧斯汀分校心理學家安德魯·巴特勒於 2010 年發表的一篇文章中,他證明檢索練習比傳統的重讀學習方法更能促進遷移。 在巴特勒的實驗中,學生在閱讀了一篇與一個“知識領域”相關的課文後,要麼進行重讀,要麼進行檢索練習——在本例中,是蝙蝠使用聲波來尋找方向。 一週後,學生們被要求將他們學到的關於蝙蝠的知識遷移到第二個知識領域:潛艇對聲波的導航使用。 對關於蝙蝠的原始課文進行過自我測驗的學生更能夠將他們關於蝙蝠的學習遷移到潛艇上。

現實世界的證據

儘管這些發現非常可靠,但直到最近,它們幾乎完全是在實驗室中對大學生作為受試者進行的。 丹尼爾一直想在現實世界的學校中應用檢索練習,但進入 K-12 課堂是一個挑戰。 在班恩的幫助下,丹尼爾和他的兩位華盛頓大學同事羅迪格和凱瑟琳·麥克德莫特在哥倫比亞中學建立了一項隨機對照試驗,最終涉及 9 名教師和 1400 多名學生。 在實驗過程中,六年級、七年級和八年級的學生以兩種方式之一學習科學和社會研究:1) 材料呈現一次,然後老師與學生複習三次; 2) 材料呈現一次,學生接受三次測驗(使用班恩當前教室中使用的答題器)。

當計算出學生單元測試的常規結果時,兩種方法之間的差異顯而易見:學生在複習過的材料上獲得的平均成績為 C+,在測驗過的材料上獲得的平均成績為 A-。 在八個月後進行的後續測試中,學生仍然比複習過的材料更好地記住了測驗過的材料。

“我一直認為測試是一種評估方式——而不是一種學習方式——所以最初我持懷疑態度,”哥倫比亞中學的前教師,現在擔任教學設計師的安德里亞·馬岑巴赫說。 “但我被檢索練習給學生成績帶來的差異所震撼。” 班恩並沒有感到驚訝。 “我知道這種方法有效,但很高興看到它得到了科學證明,”她說。 丹尼爾、羅迪格和麥克德莫特最終將這項研究擴充套件到了附近的哥倫比亞高中,在那裡,測驗也產生了同樣令人印象深刻的結果。 為了使檢索練習成為全國課堂的常用策略,華盛頓大學團隊為教師編寫了一本手冊,如何使用檢索練習來提高學習

然而,即使有大量證據支援,檢索練習的倡導者仍然必須應對許多教師和家長對測試的本能負面反應。 他們還會遇到更深思熟慮的反對意見,大致是這樣的:美國學生已經接受了如此多的測試——遠遠超過其他國家(如芬蘭和新加坡)的學生,這些國家在國際評估中經常名列美國之前。 如果測試是如此出色的學習方式,為什麼我們的學生沒有做得更好呢?

瑪莎·洛維特對這個問題有一個現成的答案。 洛維特是卡內基梅隆大學教學卓越和教育創新埃伯利中心主任,是“元認知”方面的專家——元認知是指思考我們自己的學習能力,意識到我們知道和不知道什麼,並利用這種意識有效地管理學習過程。

是的,洛維特說,美國學生參加了很多測試。 正是之後發生的事情——或者更準確地說,沒有發生的事情——導致這些測試未能發揮學習機會的作用。 學生們通常很少收到關於他們做對了什麼和做錯了什麼的資訊。 “這種逐項反饋對於學習至關重要,而我們正在浪費這種學習機會,”她說。 此外,很少提示學生以全域性方式反思他們為測試所做的準備以及在測試中的表現。 “通常,學生只是瞥一眼成績,然後把試卷塞到某個地方,再也不看了,”洛維特說。 “再說一遍,這是一個非常重要的學習機會,我們正在讓它白白浪費掉。”

幾年前,洛維特想出了一種讓學生在測試後進行反思的方法。 她稱之為“考試包裝紙”。 當教師將評分後的試卷還給學生時,同時還會附上一張紙,這張紙實際上是包裹在試卷本身上的。 這張紙上列出了一系列問題:一項簡短的練習,學生需要完成並交上來。 洛維特為數學考試設計的包裝紙包括以下問題:

您在以下各項中花費了多少時間複習

  • 閱讀課堂筆記? ___ 分鐘

  • 重做舊的家庭作業題? ___ 分鐘

  • 做額外的習題? ___ 分鐘

  • 閱讀課本? ___ 分鐘

現在您已經看過了您的試卷,請估計您因以下各項原因損失的分數百分比

  • ___ % 來自於不理解概念

  • ___ % 來自於不小心(即,粗心大意的錯誤

  • ___ % 來自於無法制定解決問題的方法

  • ___ % 來自於其他原因(請具體說明

根據上面的估計,您在為下一次考試做準備時會做哪些不同的事情? 例如,您會改變您的學習習慣還是嘗試提高特定的技能? 請具體說明。 另外,我們可以做些什麼來幫助您?

洛維特說,這個想法是讓學生思考他們不知道或不理解什麼,他們為什麼未能掌握這些資訊,以及他們如何在下一次考試之前更有效地做好準備。 洛維特多年來一直在向卡內基梅隆大學的教師推廣考試包裝紙的使用,許多教授,尤其是理科教授,已將這項技術納入他們的課程中。 他們在評分後的考試中分發考試包裝紙,收集完成後的包裝紙,並且——最聰明的是——他們在學生為下一次考試做準備時,將包裝紙還給學生。

這種做法有效果嗎? 2013 年,洛維特在編輯卷使用反思和元認知來提高學生學習中發表了一章關於考試包裝紙的研究。 它報告說,使用考試包裝紙的班級學生的元認知技能在一個學期內的增長幅度大於不使用考試包裝紙的課程的學生。 此外,學期末的調查發現,在獲得考試包裝紙的學生中,超過一半的學生表示,由於填寫包裝紙,他們對學習和學習方法進行了具體改變。

使用考試包裝紙的做法開始 распространяться 到其他大學和 K-12 學校。 洛瑞·西克斯在佛羅里達州邁爾斯堡的裡弗代爾高中任教,並在她的 AP 生物課上使用了考試包裝紙。 當她還回評分後的試卷時,考試包裝紙包括以下問題:

您大約花了多少時間為考試做準備?(請誠實。)

電視/收音機/電腦開著嗎? 您在學習時是否在任何社交媒體網站上? 您在玩電子遊戲嗎?(請誠實。)

現在您已經看過了試卷,請檢查您難以應付的以下領域

  • 應用定義 ___

  • 缺乏對概念的理解 ___

  • 粗心大意的錯誤 ___

  • 閱讀圖表或圖形 ___

根據您對上述問題的回答,說出您在為下一次考試做準備時至少會做三件不同的事情。 請具體說明。

“學生通常只想知道他們的成績,僅此而已,”西克斯說。 “讓他們填寫考試包裝紙會讓他們停下來思考他們是如何為考試做準備的,以及他們的方法是否對他們有效。”

除了分發考試包裝紙外,西克斯還抽出課堂時間逐題複習評分後的考試——這種反饋有助於學生培養“元認知監控”的關鍵能力,即密切關注他們知道什麼以及他們還需要學習什麼。 關於檢索練習的研究表明,測試可以識別學生知識中的具體差距,以及消除學生容易產生的普遍過度自信——但前提是提供及時的反饋作為糾正。

隨著時間的推移,反覆接觸這種測試-反饋迴圈可以激勵學生培養監控自己心理過程的能力。 接受一流教育的富裕學生可能會自然而然地獲得這項技能,但這種能力在就讀於苦苦掙扎的學校的低收入學生中往往是缺乏的——為檢索練習實際上可能開始縮小優勢群體和弱勢群體之間的成就差距提供了希望。

這正是德克薩斯大學奧斯汀分校的詹姆斯·彭尼貝克和塞繆爾·戈斯林教授在他們在共同教授的大型心理學課程中實施日常測驗時發現的。 測驗是在網上進行的,使用軟體在學生提交答案後立即告知學生他們是否正確回答了問題。 在開設日常測驗的課程中,901 名學生獲得的平均成績比彭尼貝克和戈斯林之前的 935 名學生的比較組獲得的平均成績高出大約半個字母等級,後者經歷了涵蓋相同內容的更傳統設計的課程。

令人驚訝的是,參加心理學課程日常測驗的學生在其他課程中的表現也更好,在他們註冊彭尼貝克和戈斯林課程的學期以及隨後的學期中——這表明頻繁的測試和反饋有助於提高他們的一般自我調節技能。 最令教授們興奮的是,日常測驗使不同社會階層學生之間的成績差距縮小了 50%,這是以成績來衡量的。 “反覆測試是一種強大的實踐,可以直接提高學習和思維技能,並且對那些起點學術背景較弱的學生尤其有幫助,”戈斯林說。

標準化困境

戈斯林和彭尼貝克(以及德克薩斯大學研究生傑森·費雷爾)在 2013 年在 PLOS ONE 雜誌上發表了他們關於日常測驗效果的調查結果,他們認為學生收到的“快速、有針對性和結構化的反饋”提高了反覆測試的有效性。 而這正是美國公立學校學生面臨的困境,根據美國進步中心最近進行的一項研究,三年級至八年級的學生平均每年參加 10 次標準化測試。 與此處介紹的教師和教授編寫的試卷不同,標準化測試通常由商業出版公司出售給學校。 這些測試的分數通常在考試結束後數週甚至數月才到達。 並且為了維護試題的安全性——以及在未來的測試中再次使用這些試題——測試公司不提供逐項反饋,只提供相當不翔實的數值分數。

標準化州級測試還有另一個特點,使其無法更有效地用作學習機會。 他們提出的問題絕大多數是膚淺的——這幾乎不可避免地導致膚淺的學習。

教導的測試
測驗可以做的不僅僅是評估學習——它們可以促進學習。 在一項旨在比較學習與測試的研究中,心理學家在 2008 年發表在 科學 雜誌上的一項研究中,要求四組大學生學習 40 個斯瓦希里語詞彙。 第一組學習了這些單詞,並反覆對它們進行了測試。 其他組從後續學習或測試中刪除了他們已經記住的單詞,或兩者都刪除了。 一週後,反覆測試所有單詞的學生記住了 80%,而只學習單詞的學生記住了大約三分之一。
來源:“檢索對於學習的關鍵重要性”,傑弗裡·D·卡皮克和亨利·L·羅迪格三世,《科學》,第 310 卷; 2008 年 2 月 19 日

如果目前美國使用的州級測試本身在他們提出的問題的難度和深度方面進行評估,那麼幾乎所有測試都會不及格。 這是當時在非營利智庫蘭德公司擔任行為科學家的昆·元和維·阮·樂得出的結論。 在 2012 年釋出的一份報告中,元和樂評估了 17 個州提供的數學和英語語言藝術測試,根據每個問題對應試者提出的認知挑戰對其進行評級。 研究人員使用了一種名為韋伯知識深度工具——由威斯康星州教育研究中心的資深科學家諾曼·韋伯建立——該工具確定了四個級別的心理嚴謹性,從 DOK1(簡單回憶)到 DOK2(技能和概念的應用),再到 DOK3(推理和推斷)和 DOK4(擴充套件計劃和調查)。

元和樂考察的州級測試中的大多數問題都處於 DOK1 或 DOK2 級別。 作者使用 DOK4 級別作為衡量更深層次學習的問題的基準,以此標準衡量,測試完全失敗。 元和樂報告說,只有 1% 到 6% 的學生透過州級測試評估了更深層次的閱讀學習; 2% 到 3% 的學生評估了更深層次的寫作學習; 0% 的學生評估了更深層次的數學學習。 “測試衡量什麼很重要,因為測試的內容往往會驅動教學,”斯坦福大學教育研究生院榮譽教授、學習和評估領域的國家權威琳達·達令-哈蒙德觀察到。 她指出,當獎勵和懲罰與測試結果掛鉤時,尤其如此,例如《不讓一個孩子掉隊法案》以及各州自己的“問責制”措施。

根據達令-哈蒙德的說法,《不讓一個孩子掉隊法案》的規定實際上迫使各州採用廉價的多項選擇題測試,這些測試可以透過機器評分——她認為,此類測試幾乎不可能衡量深度學習。 但是其他型別的測試可以做到這一點。 達令-哈蒙德與她的斯坦福同事弗蘭克·亞當森合著了 2014 年出版的超越氣泡測試一書,該書描述了一種截然不同的評估願景:提出開放式問題(答案由教師而不是機器評估)、要求學生髮展和捍衛論點、並要求應試者進行科學實驗或撰寫研究報告的測試。

達令-哈蒙德指出,在 20 世紀 90 年代,一些美國州已經開始實施此類測試。 隨著《不讓一個孩子掉隊法案》的透過,這項努力結束了。 她承認,由於對後勤和成本的擔憂,轉向更復雜的測試的運動也停滯了。 儘管如此,以這種方式評估學生並非痴人說夢:其他國家,如英國和澳大利亞,已經在這樣做了。 “他們的學生正在進行真正的科學家和歷史學家的工作,而我們的學生正在填寫氣泡,”達令-哈蒙德說。 “這太可悲了。”

她確實看到了一些樂觀的理由:美國正在開發新一代測試,以評估學生在多大程度上達到了共同核心州立標準,這是 43 個州採用的一套識字和數學學術基準。 達令-哈蒙德說,其中兩項測試——Smarter Balanced 和大學和職業準備度評估合作伙伴關係 (PARCC)——顯示出作為深度學習測試的前景,她指出,加州大學洛杉磯分校國家評估、標準和學生測試研究中心的瓊·赫爾曼和羅伯特·林恩最近進行了一項評估。 赫爾曼指出,這兩項測試都旨在強調韋伯知識深度 2 級及以上的問題,至少有三分之一的學生總分來自 DOK3 和 DOK4 的問題。 “PARCC……可能沒有達到我們希望的程度,”赫爾曼在 2014 年的部落格文章中承認,“但它們可能會帶來巨大的進步。”

更多探索

檢索對於學習的關鍵重要性。 傑弗裡·D·卡皮克和亨利·L·羅迪格三世,《科學》,第 319 卷,第 966-968 頁; 2008 年 2 月 15 日。

應用研究的價值:檢索練習提高課堂學習以及來自教師、校長和科學家的建議。 普賈·K·阿加瓦爾等人,《教育心理學評論》,第 24 卷,第 3 期,第 437-448 頁; 2012 年 9 月。

使用有效的學習技術提高學生的學習:來自認知和教育心理學的有希望的方向。 約翰·鄧洛斯基等人,《公共利益心理科學》,第 14 卷,第 1 期,第 4-58 頁; 2013 年 1 月。

開發更深層次學習的評估:使用幫助學生學習的測試的成本和收益。 琳達·達令-哈蒙德和弗蘭克·亞當森。 斯坦福大學機會政策教育中心,2013 年。

安妮·墨菲·保羅 是《紐約時報》、《時代》雜誌和 Slate 的常客撰稿人。 保羅是人格測試的邪教起源的作者,後者被列入紐約時報 2010 年 100 本 Notable Books 榜單。 她的下一本書,即將由 Crown 出版,名為傑出:我們如何變得更聰明的科學

更多作者:安妮·墨菲·保羅
SA 特刊第 25 卷第 2s 期這篇文章最初以“測試的新願景”為標題發表於SA 特刊 第 25 卷第 2s 期(),第 38 頁
doi:10.1038/scientificamericankids0616-38
© .