今天,世界上幾乎一半的人口說印歐語,這種語言的起源可以追溯到數千年前的單一原始語言。英語、俄語、印度斯坦語、拉丁語和梵語等截然不同的語言都可以追溯到這種祖先語言。
在過去的幾百年裡,語言學家已經弄清楚了很多關於第一種印歐語的知識,包括它使用的許多詞彙和一些支配它的語法規則。在此過程中,他們提出了關於最初的 speakers 是誰,他們住在哪裡和如何生活,以及他們的語言如何如此廣泛傳播的理論。
大多數語言學家認為,這些 speakers 是遊牧的牧民,他們大約在 6000 年前居住在烏克蘭和俄羅斯西部的草原上。然而,少數人將起源地放在更早的 2000 到 3000 年前,在安納托利亞(現代土耳其地區)的農民社群中。現在,一項新的分析,使用了從進化生物學中借鑑的技術,已經傾向於後者,儘管草原在後期發揮了重要的作用。
支援科學新聞報道
如果您喜歡這篇文章,請考慮透過以下方式支援我們屢獲殊榮的新聞報道 訂閱。透過購買訂閱,您正在幫助確保有關塑造我們當今世界的發現和思想的具有影響力的故事的未來。
新分析中使用的計算技術在語言學家中備受爭議。但其支持者表示,它有望為該領域帶來更嚴格的定量方法,並可能將關鍵日期推向更遠的過去,就像放射性碳定年在考古領域所做的那樣。
秘魯天主教大學(位於利馬)的歷史語言學家保羅·赫加蒂說:“我認為語言學可能會迎來一場類似於放射性碳革命的變革。”他是新研究的合著者;他在 2021 年的《語言學年度評論》中描述了這種計算方法。
揭示死語言
為了理解正在發生的事情,瞭解印歐語研究的發展歷程會有所幫助。
在 16 世紀,隨著旅行和貿易使歐洲人接觸到更多的外語,學者們對語言之間的關係以及它們的起源越來越感興趣。
18 世紀後期,在印度的英國法官威廉·瓊斯爵士注意到梵語、拉丁語和希臘語在詞彙和語法上的相似之處,這不可能是巧合。
例如,英語單詞“father”在梵語中是“pitar”,在拉丁語和希臘語中是“pater”。“Brother”在梵語中是“bhratar”,在拉丁語中是“frater”。儘管瓊斯實際上並不是第一個注意到這些相似之處的人,但他關於必然存在共同起源的宣告有助於推動比較語言和追溯其關係的運動。
1882 年,雅各布·格林提出了後來被稱為格林定律的重要進展。格林今天最為人所知的是格林兄弟中的一位,他們收集並出版了《格林童話》。但除了作為一位民俗學家之外,雅各布·格林還是一位重要的語言學家。
格林表明,隨著語言的發展,聲音以規則的方式發生變化,這有助於理解語言之間的關係。例如,印歐語中“二”的單詞是“dwo”。但是“dwo”是許多單詞中的一個,當它傳入英語和德語的共同祖先時,它的首字母“d”變成了“t”。後來,“t”音在現代德語的祖先中變成了“ts”。因此,印歐語單詞“dwo”在英語中變成了“two”,在現代德語中變成了“zwei”(發音為“tsvai”)。其他以“d”音開頭的單詞也表現出類似的規律。學者們發現了許多這樣的音變模式,每種模式都遵循不同的規則,就像一種語言孕育了另一種語言一樣。
除了這些音變之外,語言學家還研究單詞是如何構成的,例如英語新增“s”來使單詞變成複數的方式。他們還研究單詞是如何排列的,例如英語將主語放在動詞之前,將動詞放在賓語之前的方式。當然,他們還會研究共享的詞彙。透過比較不同語言的所有這些特徵,語言學家能夠繪製出語言如何從一種語言演變而來,並將它們放在顯示其關係的家譜樹中。
格林定律描述了語言中聲音變化的規律性。該圖表顯示了原始印歐語中的一些聲音如何在日耳曼語族語言(如英語)中發生變化,而在非日耳曼語族語言(如法語)中保持不變。來源:Knowable Magazine, 由大眾科學重新設計; 資料來源:改編自 L Campbell/The History of Linguistics
今天,語言學家在印歐語系的基本分組以及它們彼此之間的關係上達成了廣泛的共識。他們一致認為,最初的語言(他們稱之為原始印歐語)分裂成 10 或 11 個主要分支,其中兩個分支現已滅絕。
他們通常也同意將語言放在主要分支中的位置。例如,他們知道義大利語分支產生了拉丁語,拉丁語本身又發展成羅曼語族語言,如法語、西班牙語和義大利語。日耳曼語分支發展成包括德語、荷蘭語和英語在內的語言。印伊語分支產生了像印地語、孟加拉語、波斯語和庫爾德語這樣的語言。
祖先的生活方式
透過追溯語言的變化,語言學家推斷出了原始印歐語的許多基本特徵,包括一些詞彙、單詞的構成方式以及一些發音方式。許多語言學家認為,他們甚至找到了最初的原始印歐人可能如何生活的線索。
例如,原始印歐語有一個表示車軸的詞,兩個表示車輪的詞,一個表示轅杆的詞,以及一個表示“用車運輸”的動詞。考古學家知道車輪和車軸技術大約在 6000 年前被髮明,這表明原始印歐語不可能比這更古老。如果它更古老——換句話說,如果在它有表示車軸和轅杆的詞之前就開始分裂成其他語言——那麼它的後代語言就不得不發明它們自己的詞來表示這些東西。它們使用相同的詞這一事實表明,分裂是在這些技術發展之後開始的。
語言中的其他詞彙表明,最初的印歐語 speakers 可能熟悉馬、牛和綿羊的放牧、乳製品、羊毛、蜂蜜和蜜酒。他們似乎有首領(“reg”這個詞給了我們英語單詞“regal”)並且可能是父權制的(他們有僅適用於新娘家庭一方的“姻親”一詞,這表明丈夫的家庭被認為是主要的)。
許多語言學家認為,這些詞彙描繪了牧民——遊牧的牧民——的景象,他們使用馬匹和馬車。結合基因證據表明,大約在 5000 年前,人們從草原迅速分散到歐洲中部,他們得出結論,印歐語從草原遷移出來,並隨著牧民傳播開來。
然而,在 1987 年,劍橋考古學家科林·倫福儒拒絕了印歐語的牧民起源說。倫福儒認為,印歐語的巨大傳播必然需要比與零星的遊牧牧民群體接觸所能提供的更大的推動力。倫福儒認為,對於一個單一語言發展壯大到統治從愛爾蘭到印度地區的重大轉變,你需要更強大的力量。
他在農業的傳播中找到了它。簡而言之,隨著人們開始務農,他們的人口增長速度超過了狩獵採集鄰居。隨著農業的擴張,語言也隨之傳播。考古證據表明,農業大約比牧民從草原向外擴張早 3000 年開始從安納托利亞向外擴張。因此,倫福儒得出結論,農民是印歐語傳播的真正動力。到牧民開始遷徙時,他們遇到的農民已經在說印歐語了。
倫福儒在很大程度上駁斥了草原假說所依據的語言學推理。他說,對於車輪、轅杆等詞彙的共通性,可以用平行變化來解釋,即不同的語言在創造新詞時借鑑相同的基本含義。
例如,原始印歐語中“車輪”一詞的原始含義似乎類似於圓形或轉動。不同的語言可能繼承了這種基本含義,並在建立自己的車輪詞彙時獨立地加以利用。
同樣,如果表示轅杆的詞“thill”具有更普遍的意義,如棍子或杆子,那麼它可能被不止一種語言採用來表示轅杆。
尋求嚴謹性
諸如此類的論點促使一些語言學家嘗試使用更定量的 approach 來重建印歐語的歷史。為此,他們借鑑了一種生物學中常用的技術,根據可測量的特徵構建進化樹。他們的方法稱為計算系統發育學,將語言視為類似於生物有機體的進化系統。但是,生物學中的計算系統發育學追蹤 DNA 的變化,而語言學中的這項技術追蹤的是詞彙。具體來說,大多數分析都著眼於不同語言中含義相同的詞彙模式,並且可以追溯到相同的原始印歐語詞根。這些模式越相似,語言通常就被認為關係越密切。
雖然這聽起來可能像語言學家長期以來使用的語言樹,但計算系統發育學產生的樹遠沒有那麼主觀:該方法受嚴格的演算法和明確宣告的規則支配。
本質上,計算機程式的工作原理是繪製一棵語言樹,並根據所有資料和假設估計其正確的機率。然後,程式對該樹進行單次更改,並比較機率分數,保留機率更高的樹。這個過程重複進行,有時數百萬次,最終產生一組最可能的樹。
這些樹顯示了語言之間的密切關係。為了估計時間——語言起源和彼此分離的時間——研究人員還向計算機程式提供了他們認為不同語言存在的時間的日期,這些日期基於專家的最佳估計。例如,拉丁語大約在 2050 年前存在,古冰島語大約在 800 年前存在,邁錫尼希臘語大約在 3350 年前存在。計算機程式使用這些錨定日期來建立其時間估計,包括印歐語最終起源的日期。
結果可以與語言使用的歷史記錄相結合,以幫助弄清它們在地理上如何傳播的可能地圖。這些日期可以與考古記錄和古代人類 DNA 研究相結合,以檢視印歐語是否與早期的農業起源或後來的草原起源相符。
矛盾的結果
其中一項此類分析,於 2012 年發表,指出印歐語起源於大約 9000 年前的安納托利亞,支援了印歐語起源於農民的理論。但僅僅三年後,另一個團隊使用了大致相同的資料,得出結論,起源地是僅僅 6000 年前的草原,支援了相反的觀點,即牧民是最初的印歐語 speakers。兩個團隊如何從如此相似的詞彙列表中得出如此不同的結論?
赫加蒂深入研究了這個問題,發現問題在於早期分析中使用的資料集,該資料集主要基於 20 世紀 60 年代由耶魯大學語言學家伊西多爾·戴恩整理的資料集。戴恩的資料集對於戴恩正在進行的研究來說不是問題,但是當用於新的計算技術時,它正在擾亂研究結果。當研究人員感興趣追蹤的每個詞根含義都有一個單詞時,計算系統發育學效果最佳。但是,例如,“dirty”這個含義在英語中可以有許多同義詞,包括“filthy”和“unclean”。戴恩資料集在某些語言的某些單詞中包含這樣的同義詞,但在其他語言中則沒有。
赫加蒂意識到,包含任何同義詞都會使新的計算技術更難使用該資料集。但是,同義詞的數量不一致——某些語言的同義詞更多,另一些語言的同義詞更少——確實會嚴重干擾計算。“我說,‘聽著,我們必須完全從頭開始重新制作這個資料庫。我們必須做得更好,’”赫加蒂說。
因此,他和他的同事選擇了他們想要追蹤的 170 個核心含義——您會期望語言保留的基本詞彙,例如表示計數數字、身體部位、顏色以及房屋、山脈、笑和夜晚等事物的詞彙。然後,他們召集了一個由 80 多名語言學家組成的團隊,讓他們確定 161 種印歐語中每種概念的主要詞彙。只有該詞,沒有同義詞,進入了分析。
“我們從中製作了一個高度一致的資料庫,這是以前從未有人做過的,”赫加蒂說。“我們做了大量的分析,以確保我們選擇了最合適的含義。如果你不盡職調查,你的結果將無效。”
當赫加蒂的團隊使用這個新資料庫重新執行分析時,他們的發現與早期的農民起源理論大致一致,將起源地明確地定位在大約 8000 年前的安納托利亞。從那裡,該語言的一些分支向東移動,產生了包括波斯語和印度斯坦語在內的語言。其他分支向西移動,最終發展成希臘語和阿爾巴尼亞語。
但該分析也承認草原是大多數歐洲語言的次要故鄉,發揮了重要作用:在一個分支從安納托利亞向北遷移到草原之後,它從那裡輻射到北歐,產生了日耳曼語、義大利語、蓋爾語和其他歐洲語系。
不相信
然而,主流歷史語言學家仍然持懷疑態度——對一般的計算系統發育學和特別是新的結果。主要的批評是,該方法主要依賴於詞彙,而忽略了詞的聲音和結構,例如構成單詞的詞幹、字首和字尾。批評者說,僅憑詞義本身並不能提供足夠的資訊來得出確鑿的結論,無論計算多麼複雜。
托馬斯·奧蘭德是哥本哈根大學的歷史語言學家,他說,依賴相關詞彙的問題在於,語言一直在互相借用詞彙。因此,僅僅看到兩種語言之間存在共同的詞彙,並不意味著這兩種語言來自同一個母語。例如,英語 speakers 現在使用“sushi”這個詞,並不意味著英語和日語是相關的語言。
相反,大多數語言學家傾向於信任音變——例如“dwo”– “two” – “zwei”的變化——以及詞彙結構的相似性,這可以表明它們起源於哪種語言。詞義也可以是這種混合的一部分,但它們不能單獨做到這一點,奧蘭德說。
赫加蒂的樹也有其他問題。例如,它顯示凱爾特語與日耳曼語密切相關。但奧蘭德說,大多數歷史語言學家認為凱爾特語與義大利語更密切相關。
“這又是一件令人驚訝的事情,”奧蘭德說。“我認為‘令人驚訝’可以翻譯成‘這可能意味著他們的方法是錯誤的。’”
奧蘭德認為,更可能的情況是,凱爾特語和日耳曼語分支長期以來密切共存,並互相借用詞彙。他說,僅基於共享詞義的分析顯示它們之間的關係比實際更密切。
劍橋大學的語言學家詹姆斯·克拉克森也認為原始印歐語的早期日期以及樹的其他細節令人難以置信。但他認為計算系統發育學值得追求。他說,如果說還有其他的話,那麼最近的研究建立了一個非常高質量的新資料集,這將對一般的歷史語言學家在尋求解決他們領域中許多懸而未決的問題時非常重要。
與此同時,計算系統發育學的倡導者可能會繼續推廣他們的方法,並尋求更廣泛學科的認可。赫加蒂認為,隨著主流語言學家越來越適應這種方法及其使用的高質量資料,他們可能會更多地傾聽它。
克拉克森表示,他願意被說服。“這是一個發展中的領域,值得關注,”他說。
本文最初發表於Knowable Magazine,這是來自 Annual Reviews 的一項獨立新聞事業。註冊新聞通訊。
