美國國家標準與技術研究院如何測試面部識別演算法的種族偏見

某些演算法在識別白人面孔方面表現好 100 倍

面部識別技術已經被用於從解鎖手機到識別潛在罪犯等各種應用。儘管取得了進展，但它仍然因種族偏見而受到抨擊：許多成功識別白人面孔的演算法仍然無法正確識別有色人種。上週，美國國家標準與技術研究院 (NIST) 釋出了一份報告，顯示了全球 99 家開發商提交的 189 種人臉識別演算法在識別不同人口統計資料的人時的表現。

除其他發現外，美國國家標準與技術研究院的測試顯示，許多此類演算法錯誤識別黑人或東亞人面孔照片的可能性是白人面孔的 10 到 100 倍。在資料庫中搜索給定面孔時，它們在黑人女性中選擇錯誤影像的比例明顯高於其他人口統計資料。

這份報告是美國國家標準與技術研究院稱為人臉識別供應商測試 (FRVT) 的一項計劃的最新評估的第三部分，該計劃評估不同人臉識別演算法的功能。“我們希望能夠為有意義的討論提供資訊，併為決策者、政策制定者和終端使用者提供經驗資料，讓他們瞭解該技術的準確性、實用性、功能[和]侷限性，”美國國家標準與技術研究院影像組經理克雷格·沃森說。“我們希望終端使用者和政策決策者看到這些結果並自己做出決定。”《大眾科學》採訪了沃森，瞭解他的團隊如何進行這些評估。

關於支援科學新聞

如果您喜歡這篇文章，請考慮透過以下方式支援我們屢獲殊榮的新聞報道訂閱。透過購買訂閱，您正在幫助確保關於塑造我們當今世界的發現和想法的具有影響力的故事的未來。

【以下是訪談的編輯版文字記錄。】

什麼是人臉識別供應商測試計劃？

這是人臉識別核心演算法測試。第一部分關注一對一驗證準確性：演算法在拍攝兩張影像後，能夠多好地判斷它們是否是同一個人？一個應用就像您的手機：當您開啟手機時，如果您使用的是人臉識別，您會將您的臉展示給手機。它會說：“您是可以訪問這部手機的人嗎？”

然後，第二部分關注一對多識別。這是針對未知影像庫進行搜尋。如果相簿中有匹配項，演算法是否可以準確返回該匹配項？可以進行一對多搜尋來訪問設施：理想情況下，有人會走進去，展示他們的生物識別資訊。它會與允許訪問的人員進行比較，然後他們將被自動授予訪問許可權。執法部門也使用它——搜尋潛在的犯罪資料庫以找出某人是否在該資料庫中。我想指出的是，從演算法返回的所有內容通常都會交給人工稽核。

然後，第三部分是檢視一對一和一對多應用程式的人口差異，[以檢視]演算法在資料集中的不同人口統計資料中的表現是否不同。

第三部分的結果是什麼？

我們報告兩種型別的錯誤：假陽性和假陰性。假陽性是指當演算法說兩張照片是同一個人時，實際上它們不是。假陰性是指當演算法說兩張照片不是同一個人時，實際上它們是同一個人。如果您嘗試訪問您的手機，並且您展示了您的臉，但它不允許您訪問，這就是假陰性。在這種情況下，這可能是不方便的——您可以再次展示，然後您就可以訪問您的手機。如果您正在進行設施訪問控制，那麼假陽性會讓系統所有者感到擔憂，因為假陽性會允許不應允許的人員進入設施。然後，如果您進入執法視角，這會將可能不應該出現在列表中的候選人放入列表中。

我們發現的一件事是，提交的大多數演算法都表現出一定程度的人口差異。我們發現假陽性通常高於假陰性。它們在大多數演算法中都存在一定程度，但實際上並非所有演算法都存在。在一對一中，效能非常廣泛。某些演算法在某些人口統計資料中（相對於其他人口統計資料）的錯誤率顯著增加，最多達 100 倍。這有點像是最壞的情況。但也有較低的錯誤率，演算法表現更好。因此，這裡的重點是效能確實存在很大差異。我們強烈建議大家在做出決策時瞭解您的演算法、瞭解您的資料並瞭解您的應用。

在亞洲國家開發的演算法在非白人面孔方面似乎表現更好。該報告對此有何評價？

具體來說，它所談論的是在亞洲國家開發的演算法在亞洲面孔方面沒有人口差異。這表明演算法訓練所用的資料有望提高這些效能。我們不清楚具體來說演算法是如何訓練的。我們只是做出某種程度的假設，即亞洲國家的演算法比大多數其他演算法用更多的亞洲面孔進行訓練。

那麼為什麼美國的開發人員沒有用更多樣化的面孔來訓練他們的演算法呢？

當您進入這些深度學習和卷積神經網路時，您需要大量資料並訪問這些資料。這可能並非易事。

美國國家標準與技術研究院從哪裡獲得這些測試的照片和資料？

我們有其他機構贊助商提供大量匿名運營資料。在此特定測試中，我們有四個資料集。我們有聯邦調查局提供的國內嫌疑犯照片、移民福利申請照片、國務院提供的簽證申請照片以及國土安全部提供的從美國入境的旅客的邊境過境照片。我想指出的是，這些資料在與美國國家標準與技術研究院共享之前，會經過人類受試者審查、法律審查和隱私審查。

這些是海量資料。在這種情況下，大約有 1800 多萬張影像，涉及 800 多萬個物件，這使我們能夠進行此項測試。這些資料附帶各種元資料——例如，對於聯邦調查局嫌疑犯照片，其種族類別為黑人或白人。然後，我們可以使用這些元資料來執行這些人口差異分析。對於國土安全部的資料，我們有出生國家，我們將其用作種族的替代品，我們可以將資料劃分為全球七個不同區域的類別。然後，我們還可以獲得大部分資料的年齡和性別，這使我們能夠進行此分析。

這些資料被隔離在美國，我們不會共享它們。我們所做的是開發一個 [應用程式程式設計介面 (API)] 來驅動測試。因此，我們擁有美國國家標準與技術研究院的所有硬體。我們在此端編譯驅動程式，它連結到他們的軟體，然後我們在我們的硬體上執行它。該 API 只是關於控制負載如何在我們的硬體上分配——我們如何訪問影像。因此，它關係到對此端測試的控制——也關係到資料的控制。