2019 年 1 月 31 日

即使是孩子也能理解演算法可能存在偏見

亞歷山大·奧卡西奧-科爾特斯說得對：機器會導致種族主義結果

Three children working in front of a computer — 蓋蒂圖片社

本文發表於《大眾科學》的前部落格網路，反映作者的觀點，不一定代表《大眾科學》的觀點。

本月早些時候，亞歷山大·奧卡西奧-科爾特斯提出，演算法由於是由人類設計的，可能會使人類的偏見永久化。雖然有些人仍然抵制這種觀點，但該領域的專家早已廣泛接受。ProPublica 上有一個專門的機器偏見報道系列，正如科學記者瑪吉·科爾斯-貝克指出的那樣。我為 2017 年 11 月/12 月的《繆斯雜誌》撰寫了以下關於演算法偏見以及計算機科學家正在努力解決的一些方法的文章，該雜誌的讀者是 9-14 歲左右的孩子。我在此版本中添加了一些進一步資訊的連結。

假設你想要申請一份新工作。你可能會先寫一份簡歷。這是一份列出你的姓名、教育背景和資格的檔案。

但研究表明，如果頂部的姓名是 Jennifer 而不是 John，或者 Lakisha 而不是 Laurie，人們對同一份簡歷的評估結果會有所不同。無論我們是否有意，人類都存在偏見。這些好惡使得我們很難準確和公正地看待我們的世界。人們更傾向於僱用 John 而不是 Jennifer 或 Laurie 而不是 Lakisha 來從事許多工作。這些人不會認為自己是性別歧視或種族主義者，但他們會無意識地偏袒某些群體的人，而不是其他人。

關於支援科學新聞報道

如果您喜歡這篇文章，請考慮透過以下方式支援我們屢獲殊榮的新聞報道訂閱。購買訂閱有助於確保關於當今世界塑造我們的發現和想法的有影響力的故事的未來。

偏見對所有人都不利。如果做出招聘決定的人允許他們的偏見影響他們，他們顯然會傷害他們歧視的人。但他們也會傷害自己。他們的公司會因為人的偏見而錯過優秀的員工。而且，擁有更多樣化員工的公司通常比員工彼此非常相似的公司表現更好。

那麼，為什麼不讓計算機來僱用員工呢？一堆金屬，或者構成其程式的 0 和 1，不可能有種族主義或性別歧視，對吧？問題解決了！

編寫配方

彆著急。計算機沒有自由意志或感情，但越來越多的計算機科學家、資料科學家和其他研究人員正在關注一個事實，即演算法即使在沒有程式設計師插入任何明顯的種族主義或性別歧視規則的情況下，也可以加強社會中的偏見。“很多人認為演算法是數學的，所以它們會自動是公平的，”資料科學家凱茜·奧尼爾說。“事實並非如此。”

演算法有點像配方。它是一組指令，告訴計算機如何回答問題或做出決定。（遺憾的是，結果不會像配方的最終結果那麼美味。）人工智慧是一種特定型別的計算機演算法。“任何試圖讓計算機像人類一樣行動的東西”都是人工智慧，蘇雷什·文卡塔蘇布拉馬尼安說。他是猶他大學的計算機科學家。計算機科學家、軟體工程師和程式設計師從事計算機的不同方面的工作。這些方面包括人工智慧、機器學習和演算法。計算機科學家通常專注於該領域更理論的方面，而軟體工程師則設計供計算機執行的程式。程式設計師則負責編寫演算法的實際工作。如果演算法是配方，那麼程式設計師就是編寫它們的食譜作者。

一種流行的人工智慧技術被稱為機器學習。“它是製作演算法的演算法，”文卡塔蘇布拉馬尼安說。機器學習演算法會檢視有關過去如何做出決策的資料，並使用它來做出未來的決策。

例如，當您訪問亞馬遜或 YouTube 並瀏覽您想閱讀的下一本書或想觀看的影片時，您會看到一個推薦列表。這些推薦是機器學習演算法的結果，該演算法已經查看了數百萬甚至數十億次的點選，並計算出具有您的偏好的人傾向於選擇哪些書籍或影片。

這為潛在的問題奠定了基礎。“它會模仿過去發生的事情，”資料科學家凱茜·奧尼爾說。“在我們擁有一個完美社會之前，我們可能要小心這一點。”對於亞馬遜或 YouTube 的推薦，這些偏見似乎相當無害。您可能會收到不吸引您的圖書推薦，或者錯過您會喜歡的影片。但是，有偏見的演算法也可能產生更明顯的負面後果。

傾斜的輸入

在 20 世紀 80 年代初，英格蘭倫敦的一所醫學院開始使用一種演算法進行第一輪入學篩選。他們使用了前十年的資料來訓練該演算法。在那段時間裡，做出錄取決定的人歧視婦女和非歐洲人。該演算法旨在模仿人類的選擇，它更喜歡男性而不是女性，並且更喜歡名字聽起來像歐洲人的人而不是名字聽起來像非歐洲人的人。“現在發生的事情要微妙得多，但它們仍然在發生，”奧尼爾說。

作為一個更現代的例子，一些面部識別程式在識別深膚色的人的臉方面比識別淺膚色的人的臉更差。在這種情況下，問題出在最初使用的資料上。可能在不知不覺中，程式設計師使用的大多數是淺膚色的人的臉來訓練演算法。當面對膚色範圍更廣的人時，演算法就會出現問題。在一種情況下，一個影像識別程式將兩人的照片標記為“大猩猩”。這是一種冒犯性的種族歧視言論。但是，計算機程式並不知道這一點。感到尷尬的工程師很快修復了這個錯誤。即使程式設計師或演算法本身沒有任何惡意，人們也會並且正在受到有偏見的演算法的傷害。

編寫演算法的程式設計師可以通過幾種方式來嘗試消除偏見。在面部識別演算法的情況下，程式設計師可以使用範圍更廣的面孔來訓練演算法。演算法設計者可以嘗試確保他們的資料真正代表與之相關的人口。如果您要使用它來對人的照片進行分類，那麼如果它僅對淺膚色的人有效，那就沒用了。

醫學院可能需要不同的解決方案。那裡出現的問題不是演算法的資料太少，而是它擁有的資料反映了歷史偏見。一種選擇是告訴演算法忽略性別或姓氏，但即使這樣也可能無法解決問題。該演算法可能會注意到與性別或民族出身相關的因素。例如，它可能會開始歧視那些就讀於女性多於男性的學校或居住在移民比例較高的社群的人。

走向公平

文卡塔蘇布拉馬尼安也有一個略微令人驚訝的建議：告訴演算法更加隨機。“如果你一直都是隨機的，你可能會做出錯誤的決定，”他說。“但偶爾你應該做一些非常隨機的事情。”他和他的同事最近進行了研究，表明包含少量隨機性的機器學習演算法可能比試圖嚴格模仿其訓練資料的演算法更公平。從某種意義上說，他說，“你希望演算法認識到它不能確定。”[要閱讀文卡塔蘇布拉馬尼安及其合著者關於可以消除演算法偏見的技術的論文，請點選此處。]

文卡塔蘇布拉馬尼安說，我們需要認識到，我們不應該對演算法過於自信。我們需要對潛在的偏見保持警惕，並對我們使用的演算法的公平性持懷疑態度。“演算法並非一無是處。我們可以超越人類主觀性的想法是一件好事，”他說。但是，他補充說，“把我們所有的信任都放在機器上是行不通的。有了適當的懷疑，我們也許可以做得更好。”與加強社會現有的偏見相反，包含他和他人建議的演算法實際上可以幫助我們更公平地做出決定。就像我們一開始認為它們會做的那樣。