研究人員發現,頻繁測試可以促進學習

學校評估往往會加劇焦慮並阻礙學習。 新的研究表明如何扭轉這一趨勢

在美國各地的學校中,像這樣的多項選擇題會引起焦慮,甚至恐懼。 它們的出現意味著考試時間到了,而考試是重大、重要且極其令人不快的事件。

但在伊利諾伊州哥倫比亞中學的八年級歷史老師帕特里斯·班恩的課堂上卻並非如此。 班恩有一雙活潑的藍眼睛、燦爛的笑容和看起來既像朋克又像精靈般的蓬鬆鉑金色頭髮。 在智慧白板上展示問題後,她停頓了一下,等待她的學生在稱為答題器的編號裝置上輸入答案。

“好了,大家都輸入答案了嗎?”她問道。 “19號,我們在等你!” 19號匆忙輸入了一個選項,班恩和她的學生們一起查看了班級的回答,現在這些回答顯示在智慧白板螢幕的底部。 “你們大多數人都答對了——約翰·格倫——非常好。” 她咯咯地笑著,搖了搖頭,看著她的三個學生提交的答案。 “哦,我的乖孩子們,”班恩用開玩笑的責備語氣說道。 “赫魯曉夫不是宇航員!”


支援科學新聞報道

如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。 透過購買訂閱,您將幫助確保有關塑造我們當今世界的發現和想法的具有影響力的故事的未來。


班恩繼續進行下一個問題,快速重複提問、回答和解釋的過程,她和她的學生們一起完成了 20 世紀 60 年代的內容。

當每個學生都給出正確答案時,班級成員舉起手,齊聲搖動手指,這是一個他們稱之為“精神手指”的歡快手勢。 豬灣事件問題就是這種情況:每個學生都答對了。

“太棒了!”班恩興奮地說。 “這是我們今天第五次精神手指!”

班恩教室裡的玩笑話與全國各地公立學校緊張的對峙截然不同。 自 2002 年《不讓一個孩子掉隊法案》頒佈以來,家長和教師對該法案關於在三年級到八年級“每年對每個孩子”進行測試的強制要求的反對日益強烈。 越來越多的家長讓他們的孩子退出年度州級考試; “退出”運動的中心可能是紐約州,據報道,去年春天,一些學區多達 90% 的學生拒絕參加期末考試。 美國學校對考試的過度重視的批評者指責說,高風險評估給學生和教師帶來了焦慮,將教室變成了應試工廠,而不是真正有意義的學習實驗室。

在關於美國學生應該如何接受教育的始終兩極分化的辯論中,考試已成為最具爭議的問題。 然而,迄今為止,討論中一直缺少一個關鍵部分。 認知科學和心理學的研究表明,正確地進行測試可以成為一種非常有效的學習方式。 參加測試,以及在測試前後參與精心設計的活動,可以比沒有考試的教育產生更好的事實回憶——以及更深刻和更復雜的理解。 但是,除了簡單地評估之外,積極支援學習的考試製度,將與美國學校今天“進行”考試的方式大相徑庭。

班恩在她的課堂上所做的事情稱為檢索練習。 這種做法在學術文獻中有著良好的實證支援基礎,可以追溯到近 100 年前——但班恩並不知道這項研究,她在 21 年的課堂生涯中自己摸索出了一些非常相似的東西。

“有人告訴我,我是一位出色的老師,這聽起來不錯,但與此同時,我覺得有必要告訴人們:‘不,不是我——是方法,’”班恩在課後接受採訪時說。 “我摸索著找到了這種方法,我看到它產生了如此奇蹟般的效果,以至於我想爬到山頂大喊,讓每個人都能聽到我:‘你也應該這樣做!’ 但說服其他老師嘗試它一直很困難。”

然後,八年前,她透過一位共同的熟人認識了馬克·麥克丹尼爾。 麥克丹尼爾是聖路易斯華盛頓大學的心理學教授,距離班恩的學校只有半小時車程。 麥克丹尼爾開始向班恩描述他對檢索練習的研究,這時班恩驚呼一聲打斷了他。 “帕特里斯說,‘我在我的課堂上這樣做! 它有效!’” 麥克丹尼爾回憶道。 他繼續向班恩解釋說,他和他的同事所說的檢索練習本質上就是測試。 “我們過去稱之為‘測試效應’,直到我們變得聰明並意識到沒有老師或家長願意接觸帶有‘測試’字眼的技術,”麥克丹尼爾現在指出。

檢索練習不使用測試作為評估工具。 相反,它將測試視為學習的機會,這隻有在我們認識到我們誤解了測試的本質時才有意義。 我們認為測試是一種插入學生頭腦中的試紙,一種告訴我們那裡的知識水平上升了多少的指標——但事實上,每次學生從記憶中呼叫知識時,記憶都會改變。 它的心理表徵變得更強、更穩定、更容易訪問。

為什麼會這樣呢? 普渡大學認知心理學教授傑弗裡·卡皮克認為,考慮到我們不可能記住我們遇到的一切,這很有道理。 鑑於我們的記憶必然是選擇性的,一個事實或想法的有用性——正如我們有多少次有理由回憶起它所證明的那樣——為選擇提供了良好的基礎。 “我們的思想對我們在未來某個時候需要知識的可能性很敏感,如果我們現在檢索一條資訊,我們很可能再次需要它,”卡皮克解釋說。 “檢索記憶的過程會改變記憶,以應對我們未來可能遇到的需求。”

使用大腦功能性磁共振成像的研究開始揭示測試效應背後的神經機制。 在迄今為止進行的少量研究中,科學家們發現,與簡單地重新學習相比,從記憶中呼叫資訊會在大腦的特定區域產生更高水平的活動。 這些大腦區域與記憶的所謂鞏固或穩定以及產生使記憶在以後易於訪問的線索有關。 在多項研究中,研究人員已經證明,在最初的學習過程中,這些區域越活躍,研究參與者在幾周或幾個月後的回憶就越成功。

卡皮克認為,檢索是學習發生的主要方式。 “回憶我們已經儲存在記憶中的資訊比首先儲存該資訊更有效,”他說。 “檢索最終是使新記憶持久的過程。” 檢索練習不僅可以幫助學生記住他們檢索到的特定資訊,還可以提高對直接測試的相關資訊的記憶力。 研究人員推測,在我們的頭腦中搜索我們試圖回憶的特定資訊時,我們會呼叫相關的記憶,從而也加強它們。 檢索練習還有助於防止學生將他們當前學習的材料與他們以前學習的材料混淆,甚至似乎可以為學生的大腦做好準備,以便在測試後再次遇到該材料時更徹底地吸收該材料(研究人員稱之為“測試增強學習”的現象)。

數百項研究表明,檢索練習在提高記憶力方面優於學習者可以使用的幾乎任何其他方法。 舉一個例子:在卡皮克和他的導師,華盛頓大學的亨利·羅迪格三世於 2008 年發表的一項研究中,作者報告說,對詞彙術語進行自我測驗的學生後來記住了 80% 的單詞,而透過反覆閱讀單詞來學習單詞的學生只記住了大約三分之一的單詞。 與學生最喜歡的學習策略相比,檢索練習尤其強大:突出顯示和重讀筆記和教科書,最近的一項評論發現這些做法是無效的做法之一。

並且測試不僅僅增強孤立事實的回憶。 從記憶中提取資訊的過程也培養了研究人員所說的深度學習。 參與深度學習的學生能夠從他們知道的事實中進行推斷和建立聯絡,並且能夠在不同的背景下應用他們的知識(學習科學家稱之為遷移的過程)。 在卡皮克和他的普渡大學同事賈內爾·布倫特於 2011 年在《科學》雜誌上發表的一篇文章中,他們明確地將檢索練習與一種稱為概念圖的學習技術進行了比較。 概念圖是許多教師喜歡的一種促進深度學習的活動,它要求學生繪製一個圖表,描述他們正在學習的知識體系,概念之間的關係用節點之間的連結表示,就像道路連線地圖上的城市一樣。

在他們的研究中,卡皮克和布倫特指導了 200 名本科志願者閱讀一篇從科學教科書中摘取的段落。 然後,一組被要求在參考課文的情況下建立概念圖; 另一組被要求從記憶中回憶起他們剛剛閱讀的課文中的儘可能多的資訊。 在一週後對所有學生進行的測試中,檢索練習組比概念圖組更能回憶起課文中提出的概念。 更引人注目的是,前一組也更能夠從課文中包含的多個概念中進行推斷和建立聯絡。 總的來說,卡皮克和布倫特得出結論,檢索練習在促進事實學習和深度學習方面都有效約 50%。

遷移——將在一個背景下學習的知識應用到另一個背景下的能力——是深度學習的最終目標。 在德克薩斯大學奧斯汀分校心理學家安德魯·巴特勒於 2010 年發表的一篇文章中,他證明檢索練習比傳統的重讀學習方法更能促進遷移。 在巴特勒的實驗中,學生在閱讀了關於一個“知識領域”的課文後,要麼進行重讀,要麼進行檢索練習——在本例中,是蝙蝠使用聲波導航。 一週後,學生們被要求將他們所學的關於蝙蝠的知識遷移到第二個知識領域:潛艇對聲波的導航使用。 對關於蝙蝠的原始課文進行過自我測驗的學生更能將他們對蝙蝠的學習遷移到潛艇上。

儘管這些發現非常可靠,但直到最近,它們幾乎完全是在實驗室中進行的,以大學生為研究物件。 麥克丹尼爾長期以來一直希望在現實世界的學校中應用檢索練習,但進入 K-12 課堂是一個挑戰。 在班恩的幫助下,麥克丹尼爾和他的兩位華盛頓大學同事羅迪格和凱瑟琳·麥克德莫特在哥倫比亞中學建立了一項隨機對照試驗,最終涉及 9 名教師和 1400 多名學生。 在實驗過程中,六年級、七年級和八年級的學生以兩種方式之一學習科學和社會研究:1) 材料呈現一次,然後老師與學生一起復習三次; 2) 材料呈現一次,學生對其進行三次測驗(使用像班恩當前課堂上的那種答題器)。

當計算出學生定期單元測試的結果時,兩種方法之間的差異很明顯:學生在複習過的材料上獲得了 C+ 的平均成績,而在測驗過的材料上獲得了 A- 的平均成績。 在八個月後進行的後續測試中,學生們仍然比複習過的材料更好地記住了他們測驗過的材料。

“我一直認為測試是一種評估方式——而不是一種學習方式——所以最初我持懷疑態度,”哥倫比亞中學的前教師安德里亞·馬岑巴赫爾說,她現在是一名教學設計師。 “但我被檢索練習對學生表現產生的差異震驚了。” 班恩本人並不感到驚訝。 “我知道這種方法有效,但很高興看到它得到科學證明,”她說。 麥克丹尼爾、羅迪格和麥克德莫特最終將研究擴充套件到附近的哥倫比亞高中,測驗也產生了同樣令人印象深刻的結果。 為了使檢索練習成為全國課堂上常用的策略,華盛頓大學團隊(在哈佛大學的研究助理普賈·K·阿加瓦爾的幫助下)為教師編寫了一本手冊《如何使用檢索練習來提高學習效果》。

然而,即使有大量證據支援,檢索練習的倡導者仍然必須應對許多教師和家長對測試的本能負面反應。 他們還遇到一個更深思熟慮的反對意見,大致是這樣的:美國學生已經被測試了很多次——遠遠超過其他國家(如芬蘭和新加坡)的學生,這些國家在國際評估中經常位居美國之前。 如果測試是一種如此好的學習方式,為什麼我們的學生沒有做得更好?

瑪莎·洛維特對這個問題有一個現成的答案。 洛維特是卡內基梅隆大學埃伯利教學卓越和教育創新中心主任,是一位“元認知”專家——即思考我們自己學習的能力,意識到我們知道什麼和不知道什麼,並利用這種意識有效地管理學習過程。

是的,洛維特說,美國學生參加了很多考試。 關鍵在於之後發生的事情——或者更準確地說,沒有發生的事情——導致這些測試未能發揮作為學習機會的作用。 學生們通常很少收到關於他們答對什麼和答錯什麼的資訊。 “這種逐項反饋對於學習至關重要,而我們正在浪費這種學習機會,”她說。 此外,很少提示學生以宏觀的方式反思他們對考試的準備和表現。 “學生們通常只是瞥一眼成績,然後把試卷塞到某個地方,再也不看它了,”洛維特說。 “再說一遍,這是一個非常重要的學習機會,我們正在讓它白白浪費掉。”

幾年前,洛維特想出了一種讓學生在考試後進行反思的方法。 她稱之為“考試包裝紙”。 當老師將評分後的試卷還給學生時,會附帶一張紙,這張紙實際上包裹在試卷本身上。 這張紙上列出了一系列問題:學生需要完成並交上來的一項簡短練習。 洛維特為數學考試設計的包裝紙包括以下問題,例如

根據以上估計,您在準備下一次考試時會有什麼不同的做法? 例如,您會改變您的學習習慣還是嘗試提高特定的技能? 請具體說明。 此外,我們能為您提供什麼幫助?

洛維特說,其目的是讓學生思考他們不知道或不理解什麼,他們為什麼沒有掌握這些資訊,以及他們如何在下一次考試前更有效地準備。 洛維特多年來一直在向卡內基梅隆大學的教員推廣考試包裝紙的使用,許多教授,尤其是在科學領域的教授,已將這項技術納入他們的課程。 他們在發回評分後的試卷時附帶考試包裝紙,收集已完成的包裝紙,並且——最聰明的是——他們在學生準備下一次考試時發回包裝紙。

這種做法有作用嗎? 2013 年,洛維特在編輯卷《使用反思和元認知來提高學生學習效果》中的一章中發表了一項關於考試包裝紙的研究。 該研究報告稱,使用考試包裝紙的班級學生的元認知技能在一個學期內的提高幅度大於未使用考試包裝紙的課程的學生。 此外,學期末調查發現,在獲得考試包裝紙的學生中,超過一半的人表示,他們因填寫包裝紙而在學習和學習方法上做出了具體的改變。

使用考試包裝紙的做法開始 распространяться 到其他大學和 K-12 學校。 洛裡·西克斯在佛羅里達州邁爾斯堡的裡弗代爾高中任教,並在她的 AP 生物課上使用了考試包裝紙。 當她發回評分後的試卷時,考試包裝紙包括以下問題,例如

根據您對以上問題的回答,說出您在準備下一次考試時至少會做的三件不同的事情。 請具體說明.

“學生通常只想知道他們的成績,僅此而已,”西克斯說。 “讓他們填寫考試包裝紙讓他們停下來思考他們是如何準備考試的,以及他們的方法是否對他們有效。”

除了分發考試包裝紙外,西克斯還抽出課堂時間逐題講解評分後的試卷——這種反饋有助於學生培養“元認知監控”的關鍵能力,即掌握他們知道什麼以及他們仍然需要學習什麼。 關於檢索練習的研究表明,測試可以識別學生知識中的具體差距,並消除學生容易產生的普遍過度自信——但前提是提供及時的反饋作為糾正。

隨著時間的推移,反覆接觸這種測試-反饋迴圈可以激勵學生髮展監控自己心理過程的能力。 接受一流教育的富裕學生可能會自然而然地獲得這項技能,但就讀於困難學校的低收入學生往往缺乏這種能力——這為檢索練習實際上可能開始縮小優勢群體和弱勢群體之間的成績差距提供了充滿希望的可能性。

這正是德克薩斯大學奧斯汀分校的詹姆斯·彭尼貝克和塞繆爾·戈斯林教授在他們共同教授的大型心理學課程中實行每日測驗時發現的。 測驗是在網上進行的,使用軟體在學生提交答案後立即告知學生他們是否正確回答了問題。 參加每日測驗的課程的 901 名學生的平均成績比彭尼貝克和戈斯林之前 935 名學生的比較組的平均成績高出大約半個字母等級,後者體驗了涵蓋相同材料的更傳統設計的課程。

令人驚訝的是,在心理學課上參加每日測驗的學生在其他課程中也表現得更好,無論是在他們參加彭尼貝克和戈斯林課程的學期還是在隨後的學期,這表明頻繁的測試和反饋有助於提高他們的自我調節的普遍技能。 最令教授們興奮的是,每日測驗使不同社會階層的學生之間的成績差距縮小了 50%,以成績衡量。 “反覆測試是一種直接提高學習和思維能力的強大實踐,對於那些起點學術背景較弱的學生來說尤其有幫助,”戈斯林說。

戈斯林和彭尼貝克(以及德克薩斯大學研究生傑森·費雷爾)於 2013 年在《PLOS ONE》雜誌上發表了他們關於每日測驗效果的發現,他們認為學生收到的“快速、有針對性和結構化的反饋”提高了反覆測試的有效性。 而這給美國公立學校的學生帶來了一個困境,根據美國進步中心最近進行的一項研究,三年級到八年級的學生平均每年參加 10 次標準化考試。 與此處介紹的教師和教授給出的教師編寫的測試不同,標準化測試通常由商業出版公司出售給學校。 這些測試的分數通常在考試結束後幾周甚至幾個月才到達。 為了維護試題的安全性——並在以後的測試中再次使用試題——測試公司不提供逐項反饋,只提供一個相當不informative的數字分數。

標準化州級考試還有另一個特點,使其無法更有效地用作學習機會。 它們提出的問題絕大多數是膚淺的——這幾乎不可避免地導致膚淺的學習。

如果目前美國使用的州級考試本身在它們提出的問題的難度和深度方面進行評估,那麼幾乎所有考試都會不及格。 這是當時在非營利性智庫蘭德公司擔任行為科學家的昆·袁和維-阮·樂得出的結論。 在 2012 年釋出的一份報告中,袁和樂評估了 17 個州提供的數學和英語語言藝術測試,根據測試對應試者提出的認知挑戰對測試中的每個問題進行了評分。 研究人員使用了一種名為韋伯知識深度工具——由威斯康星州教育研究中心的高階科學家諾曼·韋伯建立——該工具確定了四個級別的心理嚴謹性,從 DOK1(簡單回憶)到 DOK2(技能和概念的應用),再到 DOK3(推理和推斷)和 DOK4(擴充套件計劃和調查)。

袁和樂考察的州級考試中的大多數問題都在 DOK1 或 DOK2 級別。 作者使用 DOK4 級別作為衡量更深層次學習的問題的基準,按照這個標準,測試完全失敗了。 袁和樂報告說,只有 1% 到 6% 的學生透過州級考試評估了閱讀方面的更深層次學習; 2% 到 3% 的學生評估了寫作方面的更深層次學習; 0% 的學生評估了數學方面的更深層次學習。 “測試衡量什麼很重要,因為測試中的內容往往會推動教學,”斯坦福大學教育研究生院榮譽教授、學習和評估方面的國家權威琳達·達令-哈蒙德觀察到。 她指出,當獎勵和懲罰與測試結果掛鉤時尤其如此,《不讓一個孩子掉隊法案》和各州自己的“問責制”措施就是這種情況。

達令-哈蒙德認為,《不讓一個孩子掉隊法案》的規定實際上迫使各州採用廉價的多項選擇題測試,這些測試可以透過機器評分——她認為,這種測試幾乎不可能衡量深度學習。 但是其他型別的測試可以做到這一點。 達令-哈蒙德與她的斯坦福大學同事弗蘭克·亞當森合著了 2014 年出版的《超越氣泡測試》一書,該書描述了一種非常不同的評估願景:提出開放式問題的測試(答案由教師而不是機器評估); 要求學生髮展和捍衛論點的測試; 以及要求應試者進行科學實驗或撰寫研究報告的測試。

達令-哈蒙德指出,在 20 世紀 90 年代,一些美國州已經開始實施此類測試; 隨著《不讓一個孩子掉隊法案》的透過,這項努力結束了。 她承認,向更復雜的測試過渡的運動也因對後勤和成本的擔憂而停滯不前。 儘管如此,以這種方式評估學生並非異想天開:其他國家,如英國和澳大利亞,已經在這樣做了。 “他們的學生正在做真正的科學家和歷史學家的工作,而我們的學生正在填寫氣泡,”達令-哈蒙德說。 “這太可悲了。”

她確實看到了一些樂觀的理由:美國正在開發新一代測試,以評估學生在多大程度上達到了共同核心州立標準,這是一套已被 43 個州採用的識字和數學方面的學術基準。 達令-哈蒙德說,這些測試中的兩項——Smarter Balanced 和大學和職業準備評估合作伙伴關係 (PARCC)——作為深度學習測試顯示出了希望,她指的是加州大學洛杉磯分校國家評估、標準和學生測試研究中心 (CRESST) 的研究人員瓊·赫爾曼和羅伯特·林恩最近進行的一項評估。 赫爾曼指出,這兩項測試都旨在強調韋伯知識深度 2 級及以上的問題,學生總分中至少有三分之一來自 DOK3 和 DOK4 的問題。 “PARCC 和 Smarter Balanced 可能沒有達到我們希望的水平,”赫爾曼去年在一篇部落格文章中承認道,但“它們可能會帶來一大步進步。”

安妮·墨菲·保羅是《紐約時報》、《時代》雜誌和 Slate 的撰稿人。 保羅是《人格測試的崇拜》和《起源》的作者,《起源》被列入《紐約時報》2010 年 100 本 Notable Books 榜單。 她的下一本書,即將由皇冠出版社出版,名為《傑出:我們如何變得更聰明的科學》。

更多作者:安妮·墨菲·保羅
大眾科學雜誌第 313 卷第 2 期本文最初以“測試的新願景”為標題發表於《大眾科學》雜誌第 313 卷第 2 期(),第 54 頁
doi:10.1038/scientificamerican0815-54
© .