2019年12月12日

認真對待性格中的性別差異

新方法正在揭示性格中性別差異的程度，結果非常有力且普遍，以至於它們再也不能被忽視

本文發表在《大眾科學》的前部落格網路中，反映了作者的觀點，不一定反映《大眾科學》的觀點

在心理學中，很少有話題比性別差異[1]更具爭議性。辯論可以分為兩種主要型別：（a）性別差異的描述，包括在眾多生理和心理特徵中性別差異的大小和變異性，以及（b）性別差異的起源和發展，包括影響性別差異的社會、文化、遺傳和生物因素之間複雜的相互作用。

這些界限常常變得模糊不清。在其研究中強調社會文化因素的研究人員傾向於將性別差異概念化為很小，並擔心如果我們誇大差異，那麼社會就會大亂。另一方面，那些強調生物學影響的人傾向於強調性格和行為的差異可能非常大。

我相信，描述性和解釋性分析層面之間的這種模糊不清阻礙了該領域的發展，並扭曲了公眾對這些複雜和敏感問題的辯論。為了做出真正持久的改變，從而實際影響期望的結果，我們對真相的認識需要儘可能清晰。

關於支援科學新聞

如果您喜歡這篇文章，請考慮透過以下方式支援我們屢獲殊榮的新聞報道訂閱。透過購買訂閱，您正在幫助確保有關塑造我們今天世界的發現和想法的具有影響力的故事的未來。

在本文中，我將重點關注人格領域，該領域僅在過去幾年就取得了真正引人入勝的進展。我將論證，雖然科學要充分闡明自然和後天在造成這些差異中的複雜相互作用還有很長的路要走，但現在是認真對待性格中的性別差異的時候了。

男性和女性的性格

大量做得很好的研究描繪了一幅相當一致的性格性別差異圖景，這種差異在不同文化中驚人地一致（參見此處，此處，以及此處）。事實證明，最普遍的性別差異出現在性格特徵的“狹隘”層面，而不是“廣泛”層面（關於這種基本模式的一個很好的例子，請參見此處）。

在廣泛的層面上，我們有諸如外向性、神經質和宜人性等特徵。但是，當您檢視這些廣泛因素的特定方面時，您會意識到有些特徵男性（平均而言）得分較高，而有些特徵女性（平均而言）得分較高，因此差異相互抵消。這種抵消作用給人一種性格中的性別差異不存在的假象，但實際上它們確實非常存在。

例如，男性和女性平均而言在外向性上差異不大。然而，在狹隘的層面上，您可以看到男性平均而言更具自信（外向性的一個方面），而女性平均而言更善於交際和友好（外向性的另一個方面）。那麼，當深入到性格的廣泛層面以下時，男性和女性平均而言的總體情況如何呢？

平均而言，男性往往更具支配力、自信、冒險傾向、尋求刺激、堅強、情緒穩定、功利主義，並且對抽象觀念持開放態度。男性在智力自我評估中也往往得分較高，即使作為能力衡量的一般智力中的性別差異可以忽略不計[2]。男性也傾向於形成更大、更具競爭力的群體，在這些群體中，等級制度往往是穩定的，個人關係往往不需要太多的情感投入。在溝通方式方面，男性傾向於使用更具自信的言語，並且更可能更頻繁地打斷別人（男性和女性）——尤其是侵入性的打斷——這可以被解釋為一種支配行為。

當然，有很多男性並沒有表現出所有這些特徵的高水平。但這一事實並不與更廣泛的模式相矛盾。例如，我可以認識到我是一個兼具極其男性化和極其女性化性格特徵的男人，並且也認識到我自己的個人經歷並不能使普遍適用的發現無效。這就是為什麼我將不斷用斜體字強調平均而言來強調這一點。

相比之下，女性平均而言，往往更善於交際、敏感、熱情、富有同情心、禮貌、焦慮、自我懷疑，並且對美學更開放。平均而言，女性更感興趣於親密的、合作的二元關係，這些關係更注重情感，其特點是不穩定的等級制度和強烈的平等主義規範。當出現攻擊性時，往往更間接，更少公開對抗。女性也往往表現出更好的溝通技巧，表現出更高的語言能力和解碼他人非語言行為的能力。女性也傾向於在語言中使用更多聯結性和試探性的言語，並且在面部表情和肢體語言上都更具表現力（儘管男性傾向於採取更具擴張性的開放姿勢）。平均而言，女性也傾向於微笑並比男性更頻繁地哭泣，儘管這些影響非常情境化，並且當男性和女性認為自己被觀察到時，差異比他們認為自己獨處時要大得多。

與人們可能期望的相反，對於所有這些性格效應，性別差異在更個人主義、性別平等的國家往往更大——而不是更小。人們可能會指出，許多這些差異並不巨大，如果我們僅僅在這裡停止分析，他們基本上是對的[3]。然而，近年來，越來越清楚的是，當您著眼於性格的整體格式塔——考慮到特徵之間的相關性——性別之間的差異變得更加引人注目。

性格的格式塔

性格是多維的，這對計算性格中的性別差異具有影響。當作為一個整體的特徵概況來考慮時，多個特徵上的相對較小的差異可以累積成顯著差異。以人臉為例。如果您只取臉部的某個特徵——例如嘴巴寬度、額頭高度或眼睛大小——您將很難區分男性臉和女性臉。例如，您根本無法分辨男性眼球和女性眼球。然而，看一下面部特徵的組合，就會產生兩個非常不同的男性與女性面孔叢集。事實上，觀察者可以以超過 95% 的準確率[4]從圖片中正確判斷性別。這裡有一個有趣的問題：這是否同樣適用於性格領域？

有趣的是，是的。您可以計算一個名為D的指標，該指標是兩個群體在統計學上彼此分離的程度的摘要（即，從統計學的角度來看，您可以在群體之間畫出多好的一條線）。此指標允許您考慮所有性格特徵在一般人群中如何相互關聯。例如，盡責的人也往往更情緒穩定，因此，如果您發現有人非常盡責並且也非常神經質，那麼鑑於整體相關結構，這個人會更突出（具有更不尋常的性格概況）。隨著特徵的增加，事情變得更加有趣。您可能會遇到不太期望的特徵組合，因此資訊量更大，因為它們與相關結構的趨勢背道而馳[5]。

現在有四項大規模研究使用了這種多變數方法（參見此處、此處、此處和此處）。所有四項研究都是跨文化進行的，並報告了對狹隘性格特徵的分析（您可能還記得，當涉及到性別差異時，狹隘性格特徵是大部分行動發生的地方）。至關重要的是，所有四項研究都趨同於相同的基本發現：當檢視人類性格的整體格式塔時，典型的男性和女性性格概況之間存在著真正驚人的差異。

到底有多驚人？嗯，實際上，真的很驚人。在一項最近的研究中，蒂姆·凱澤、馬可·德爾·朱迪切和湯姆·布思分析了來自許多英語國家/地區的 31,637 人的性格資料。全球性別差異的大小為D = 2.10（僅美國為D = 2.06）。為了將這個數字放在上下文中，D= 2.10 意味著分類準確率為 85%。換句話說，他們的資料表明，根據對某人全球性格概況的瞭解，隨機挑選的個體被正確歸類為男性或女性的機率為 85%（在校正性格測試的不可靠性之後）。

與之前的研究一致，研究人員發現，當與其他格式塔分開考慮時，以下特徵在女性中最被誇大：敏感性、溫柔、熱情、焦慮、對美的欣賞和對變革的開放性。對於男性，最被誇大的特徵是情緒穩定性、自信/支配性、盡責、保守以及對社會等級制度和傳統結構的順從。

這種基本發現模式在另一項最近的大規模調查中得到重複，該調查對 50 個國家的近一百萬人進行了狹隘性格特徵的調查。使用不同的性格測試，並對所有國家/地區進行平均，蒂姆·凱澤發現D = 2.16，這與另一項對英語國家/地區的研究中發現的效應量非常相似。雖然效應存在跨文化變異，但總的趨勢是，更發達、更個人主義的國家，食物供應量更高、病原體流行率更低、性別更平等的國家，在全球性格中表現出最大的性別差異[6]。

特別是，斯堪的納維亞國家以及美國、加拿大、澳大利亞、英國和其他北歐和東歐國家在全球性格中始終表現出大於平均水平的性別差異。全球性格性別差異最小的國家包括幾個東南亞國家。可以肯定的是，更發達、性別平等的國家與性別差異之間並非完全相關（例如，俄羅斯表現出最大的性別差異，D = 2.48）。但即使是巴基斯坦——根據這項研究，全球性格性別差異最小的國家——也有D = 1.49。這意味著，即使您環顧世界，尋找全球性格性別差異最小的國家，該國家的分類準確率仍然為 77%！

這些數字與許多研究結果相吻合，這些研究表明，在檢視全腦資料時，分類水平相似。透過應用全腦的多變數分析，研究人員現在能夠以 77%-93% 的準確率對大腦是男性還是女性進行分類（參見此處、此處、此處、此處和此處）。事實上，一些最近使用最先進技術的研究始終發現，在檢視全腦資料時，準確率高於 90%（參見此處、此處和此處）。雖然這種預測水平絕對不是完美的——並且絕不意味著這些發現證明了個人的刻板印象或歧視是合理的——但就科學而言，這真的是很高的準確率[7]。

所有這些資料都很難忽視和斷然否定。但其含義是什麼呢？

含義

到目前為止，我提出的所有發現都僅僅是描述性的；它們沒有規定任何特定的行動方針，也沒有說明可能首先導致這些差異產生的遺傳和文化影響的複雜相互作用。很難找到證據表明性別差異在多大程度上是由於社會與遺傳造成的（儘管這肯定是兩者兼而有之；稍後會詳細介紹）。即使上面討論的大腦發現也沒有揭示大腦發育的原因。經驗不斷塑造著大腦的發育。

但即使我們僅停留在描述性層面，性格中存在巨大的性別差異仍然具有許多非常重要的含義。首先，多變數研究結果可能有助於回答人們在心理學中困惑已久的一個問題：為什麼我們有這麼多研究表明男性和女性的行為如此相似，但日常生活中的人們仍然認為男性和女性非常不同？日常生活中的人們實際上可能更接近真相，因為當我們推理性格時，我們很少一次推理一個特徵。

如果人們確實在性格感知中創造了一個格式塔，那麼相關的分析是多變數分析，而不是單變數分析（長期以來一直是該領域的主要方法）。“人們可能比你想象的更合理”，性別差異科學領域的領導者馬可·德爾·朱迪切告訴我。“你為什麼要期望人們僅僅捏造男人和女人之間不存在的差異？一種可能性是他們沒有捏造。他們在思考男人和女人時所考慮的不僅僅是一個特徵，而是特徵的組合。”

可能有助於進一步理解普遍存在的刻板印象期望的另一個可能因素也可能與認識到性格分佈尾部的重要性有關。即使平均水平上相對較小的差異也可能導致極端群體比例的巨大差異。例如，如果您檢視宜人性的密度分佈，男性和女性之間的平均差異僅為約 0.4 個標準差。但是，如果您仔細觀察，您會發現遠比男性多的女性非常宜人，並且遠比女性多的男性非常不宜人。那些尾部所表現出的行為很可能對社會產生巨大影響——在社交媒體上，在政治上，在會議室裡，甚至在臥室裡。

男性和女性宜人性的重疊分佈。縱軸表示密度，或曲線下給定區域中樣本的比例。來源：圖 10，韋斯伯格、德揚和赫希，2011 年

現在，有人可能會在此時反駁：斯科特，你真的應該停止公開誠實地談論這些發現和含義，因為如果真相洩露出去，可能會造成傷害。但問題是：我們很少考慮忽視性別差異可能造成的危害！人們可以想到許多方法，在這些方法中，假裝某事不存在實際上可能比接受事實真相在心理上造成更大的傷害。正如德爾·朱迪切對我所說

“人們不想僅僅放棄嘗試理解世界。他們想理解世界。因此，如果正確的解釋是存在某種差異，而你因為意識形態原因而關閉了這種可能的解釋，但這並不意味著人們會停止問為什麼。他們會提出不同的解釋。因此，你會得到一連串越來越糟的解釋，這些解釋實際上可能會在各方面適得其反。”

以異性婚姻為例。許多夫婦在結婚時假設性格中的性別差異很小。然而，我們知道，平均而言，女性在戀愛關係中想要持續的情感聯絡，而平均而言，男性往往對戀愛關係的這一方面沒有同等的興趣。婚姻中令人難以置信的壓力可能歸因於人們基於一切都必須平等，並且雙方伴侶必須對一切事物都有完全相同的感受的假設而對彼此的期望。但問題是：我們不必在每個維度上都相同才能欣賞和尊重彼此。

當然，夫妻需要理順他們非常特殊和獨特的性格之間的契合度。我堅信，個體差異比性別差異更重要。然而，性別差異也是圖景的一部分，如果所有伴侶在結婚時都認為它們“不應該存在”，而不是健康地接受性別差異，甚至嘲笑它們並試圖理解沿著性別相關路線的興趣和動機差異，那麼性別差異可能會對關係特別有害。當然，男性和女性在關係中會有許多方面的重疊，但可能存在一些有意義的差異，平均而言，這些差異可能在預測關係滿意度和理解方面真正具有影響力和解釋力。

走向成熟、細緻入微和複雜的性別差異科學

我認為，現在是時候就這些顯然敏感但又極其重要的問題進行更成熟、誠實和細緻入微的公共討論了。

首先，我認為這需要認識到，我在本文中提出的任何發現，以及未來將出現的任何發現，都不能為個人歧視辯護。我們應該首先將所有人視為獨特的個體。無論科學怎麼說，如果一個人表現出進入一個性別極度不足的領域（例如，數學和科學領域的女性，護理和教育領域的男性）的興趣和能力，我們絕對應該鼓勵這個人進入該領域，並盡一切努力幫助他們感受到歸屬感。我可能很奇怪，但我看不出在倡導所有人的平等機會與同樣強烈地倡導尊重科學發現並努力盡可能接近關於平均性別差異的真相之間有任何矛盾。

我還認為，對性別差異起源的真正成熟、誠實和細緻入微的討論必須認識到遺傳和生物學的深刻影響[8]。這並不意味著我們忽視社會文化因素，這些因素顯然很重要。但是，行為中的性別差異在幾乎所有其他物種中都如此普遍。儘管人類進化史上存在生理差異和不同的生殖角色，但男性和女性的心理在某種程度上進化成相同的，這簡直是不合理的。

這就是為什麼生物學導向的人們借鑑了生物學、跨文化、人類學和靈長類動物學中關於現代和古代人類及其靈長類親屬的大量解釋性概念。這並不意味著這些理論總是正確的。關鍵是，這種方法比大眾媒體中經常對待的方式更豐富和系統。反駁這種誤解的最佳來源是戴夫·吉里的著作《男性，女性》和斯圖爾特-威廉姆斯的《理解宇宙的猿猴》。如果您想深入研究更學術的論文，請查閱約翰·阿徹的這篇學術論文此處。

我實際上非常樂觀，這種討論不必演變成兩極分化和人身攻擊式的謾罵，一方指責“性別歧視”，另一方指責“反科學”。我之所以樂觀，是因為我認為關於這個話題的成熟辯論已經存在一個很好的例子。

2019 年 2 月，心理學家科迪莉亞·範恩、達普納·喬爾和吉娜·裡彭撰寫了一篇文章，題為“關於性、性別、大腦和行為你需要知道的八件事：學術界人士、記者、父母、性別多元化倡導者、社會正義戰士、推特使用者、臉書使用者以及所有其他人的指南。”根據他們多年來對大腦和行為中性別差異主題的科學和大眾化處理的觀察，作者提供了一份通俗易懂的指南，以幫助所有人解釋新的生物學發現。他們正確地指出，不幸的是，人們傾向於不加思索地將性別差異的單純存在歸因於“不可改變的生物學因素”，這種假設並非必然從資料中得出。不僅如此，而且確實很少有生物學上的東西是“不可改變的”，除了基因序列，這是我認識的所有心理學家都廣為人知的事實。

馬可·德爾·朱迪切、大衛·普茨、大衛·吉里和大衛·施密特隨後對他們的文章寫了八個反駁點，同意他們的一些前提，但不同意其他前提。他們認為，範恩及其同事假設大多數性別差異都很小、不一致、高度可塑，並且在很大程度上是社會建構的，並認為

“淡化重要性別差異的程度和否定其生物學起源可能與誇大它們和表面上接受對性別差異的簡單生物學解釋一樣具有破壞性（對科學和社會而言）。關於性別差異的誠實、複雜的公開辯論需要一個廣闊的視角，欣賞細微差別並充分參與問題的各個方面。”

在對他們的反駁點的回應中，科迪莉亞·範恩、達普納·喬爾和吉娜·裡彭對德爾·朱迪切及其同事的回應表示高興，但指出了幾個“幽靈分歧”點——也就是說，德爾·朱迪切及其同事反對了他們沒有表達並且實際上不持有的觀點的地方。

這種來回交流是建設性辯論的重要性的一個很好的例子，並且給予人們足夠的善意，讓他們澄清自己的觀點，以免他們的觀點被誤解或被誇大。範恩及其同事得出結論：“當關注證據和主張時，如此類的交流是有價值的——並且比我們希望的要少見。”對於任何想要更深入地研究這些複雜辯論並看到如何在增進知識和理解方面取得真正進展的絕佳示例的人，我強烈建議閱讀整個交流過程。

在我看來，更有可能對性格和行為中的性別差異進行更成熟、複雜和細緻入微的理解。重要一步是認真對待性格中的性別差異。只有儘可能清楚地面對現實，我們才能開始做出對每個人都產生真正積極影響的改變。

尾註

[1] 由於已經對該主題進行了研究，因此我在本文中有意使用了“性別”差異而不是“性別”差異——性別定義為約 99.98% 的人類中聚集在一起的一組特徵（例如，X/Y 染色體、性腺、激素和生殖器）（參見此處和此處）。當然，我並非暗示性別二元性的例外情況不重要，我完全相信性別認同和性取向的所有變異都適合科學研究，並且應該對其全部豐富性進行研究。此外，我認為性格中是否存在性別差異是一個有趣且開放的問題，尤其是在近年來人們正在採納的許多不同性別認同中。我肯定有興趣看到更多研究也調查這個問題。

[2] 然而，應該指出的是，通常發現男性在一般認知能力得分方面比女性表現出更大的差異（參見此處和此處）。

[3] 一個值得注意的例外是對人的興趣與對事物的興趣。在這個維度上，性別差異實際上非常大，一些大型研究發現，男性和女性在這個維度上的平均差異大於 1 個標準差（參見此處和此處）。

[4] 我可以看到有人擔心這一發現會以某種方式剝奪我們的個性——超越我們生物性別的本質。但是，我認為這種擔憂是沒有根據的。畢竟，現在存在非常複雜的應用程式，您可以在其中更改臉部的性別，但即使這樣，您仍然可以被識別出來。我認為保持一個人的個性與關於基於一個人的身體特徵對性別進行高分類率的一般性發現並不矛盾。

[5] 誠然，多元方法（將人格視為一個整體）並不總是比更單一的方法（專注於特定變數）更好。這一切都取決於具體情況、你試圖預測的內容以及你的預測目的。例如，如果你試圖預測的內容顯然是基於特定的人格特質子集，那麼僅僅在模型中新增更多特質可能會產生一種虛幻的效果。然而，對多元方法有一些批評確實站不住腳（參見此處）。其中一種批評是，人格的多元方法沒有任何意義，因為在多元分析中彙總特質是無效的。對於包含各種各樣、以任何有意義的方式都不相關的特質的領域來說，這是一種合理的批評。但這並不適用於人格領域。跨文化人格相關結構的研究非常豐富。當然，如果你開始在人格資料中新增不相關的變數，例如鞋碼、投票偏好或身高，你會得到人為的性別之間的大分離，但這並不能告訴我們任何有意義的東西。然而，這些研究並不是這樣進行的。第二個潛在的批評是，你在多元分析中投入的特質越多，當然效果就會變得越來越大。因此，我們得到這些巨大的效果並不令人感興趣。雖然這種批評是正確的——從技術上講，你新增的特質越多，差異就會越大，而且永遠不會縮小——但差異會以相同的速度持續增長，這根本不是真的。因為多元分析考慮了特質之間的相關性，所以你最終會開始看到新增額外人格特質的效果越來越小，因為額外的特質將開始變得越來越冗餘。

[6] 有趣的是，凱澤發現，在控制了與生態壓力相關的一些潛在混雜因素後，只有歷史病原體流行率、食物可獲得性和文化個人主義仍然與人格的性別差異相關（在控制了混雜因素後，國家的性別平等與性別差異之間的具體相關性降至零）。凱澤的結論是，“[先前] 報道的性別差異越大與性別平等結果之間的相關性可能是由於生態壓力的影響造成的混淆。”

[7] 有人可能會看這些研究並說：“那麼，這篇《紐約時報》的專欄文章怎麼說：《我們最終可以停止談論“男性”和“女性”大腦了嗎？”事實證明，達芙娜·喬爾及其同事進行的那項研究中提到的資料（參見此處）並非基於全腦資料。這很重要。研究人員讓讀者推斷他們的發現也適用於全腦，但事實證明，鑑於最近大量研究都匯聚在基於全腦資料的 77%-93% 的分類準確率上——包括達芙娜·喬爾領導的一項更新的研究——這種推論是不成立的！更重要的是，達芙娜·喬爾及其同事在其早期文章中設計的用於量化“內部一致性”的方法是一個稻草人，註定總是發現非常低水平的一致性。透過將“一致性”定義為 100% 的統一性，只要每個性別內部存在一些差異，他們的方法就永遠無法檢測到一致性。馬可·德爾·朱迪切及其同事已經用人工資料證明了這一點，並透過展示該方法甚至無法檢測到物種內的一致性（他們比較了不同種類猴子的面部解剖結構）來說明了這一點。在我看來，比 100% 的一致性更現實的是，模式是否在統計學上穩健——你是否可以根據興趣的總體模式，以非常高的準確度區分男性和女性。這就是為什麼他們最初的發現是一個誤導：他們的結論並非基於全腦資料。要更深入地瞭解對喬爾及其同事研究的批評，我建議閱讀這篇和這篇。

[8] 我在這句話中有意將“遺傳”與“生物”分開，因為“生物”等同於“遺傳”是一種常見的誤解。“性別差異是生物性的還是文化性的？”這個問題實際上是一個毫無意義的問題，因為每個性別差異在表達時都是生物性的，無論其起源是文化性的還是遺傳性的。社會學習過程是生物性的。學習到的人格方面也是生物性的。事實上，任何影響行為的事物都在生物學上作用於大腦。當人們說特質或性別差異是“生物性的”時，他們可能真正指的是“遺傳性的”。