複旦大學金力院士團隊曆時兩年多,通過語言學和遺傳學等多學科交叉的分析方法,揭示漢藏語系約6000年前最早分化于中國北方。日前,該研究論文在線發表于《自然》雜志。本版特約論文共同第一作者、複旦大學人類表型組研究院嚴實博士撰文介紹相關科學問題。
現代全世界的語系分布,紫色為漢藏語系,淺綠色為印歐語系。
公元前3世紀到公元2世紀,瑤族先民主要生活在湖南北部;5-6世紀時,向北遷;13-17世紀,他們被大量南遷。瑤族人民使用瑤語,屬漢藏語系苗瑤語族瑤語支。
雲南省西雙版納傣族自治州景洪市基諾山上的基諾族,于1979年6月經民族确認,成為中國的第56個民族。基諾語屬漢藏語系藏緬語族彜語支。
1.300年前發現語系的秘密
我們從哪裡來?在數十萬年的曆史中,人類如何從共同的祖先逐漸演化成為不同的族群?這一直以來都是有意思的問題。語言學是研究人類族群演化的一個重要切入點。因為語言是在傳承過程中不斷變化的,當一個祖先人群分化成為不同人群并遷往不同的地方而相互隔絕以後,這些人群所說的語言就會逐漸形成方言,以至最終形成不同的語言。
通過語言學方法,比如對詞彙或者語法特征的比較,語言學家能夠判斷出哪些語言是接近的,并由此認為,這些語言有一個共同祖先。如果人群沒有發生過語言換用的話,講這些相關語言的人群也應該有一個共同的祖先人群。擁有一個共同祖先的語言被劃為一個語系。
人們最早發現的一個語系是印歐語系。大約300年前,歐洲人發現印度的一些語言,比如梵語,和歐洲的拉丁語、希臘語在很多詞彙的發音以及整體的語法上都有非常明顯的相似性,因此認為這些語言是從一個共同的原始語分化而來的,并把這些語言稱作“印歐語系”或者“印度-日耳曼語系”。此後通過語言的整理和比較,語言學家把歐洲絕大多數的語言,以及亞洲的印度、伊朗、亞美尼亞等地的很多語言都劃入了印歐語系。再結合曆史學、考古學、文化特征等,學者們還推測出,講原始印歐語的人數千年前生活在黑海和裡海北岸的草原上或者安納托利亞(今土耳其),有車、馬、犁等,還能推測出他們各自在什麼時候通過什麼樣的路徑擴散到現在廣闊的分布地域的。
通過同樣的辦法,語言學家們嘗試把世界各處的語言都聯系起來,歸入一百多個語系。人們發現漢語和藏語、緬甸語、彜語、嘉絨語、白語、土家語、西夏語、景頗語、克倫語等都共享大量的詞彙,尤其是最基本的一些詞彙,例如人稱代詞、數詞、親屬關系、身體部位詞等。比如古漢語中“五”“吾”“魚”的發音,和藏語、緬語這三個詞的發音都非常相似,而三個詞的語義并沒有聯系,而且都是語言裡面非常基本的詞彙,很難從其它語言借用,因此這幾個詞隻能是有共同來源的。類似的例子還有很多。因此漢語、藏語、緬語必然是從一個共同的祖先語言那裡繼承下來的。
我們應該注意,語言的出現遠遠早于文字的出現,語系誕生和最早分化的時候都沒有文字,使用什麼文字主要是晚期受什麼文化影響的結果,而與語言的來源和譜系沒有必然關系。比如維吾爾語曆史上曾經用突厥字母、回鹘字母、阿拉伯字母、拉丁字母等來書寫。日語、朝鮮語、越南語曆史上受到漢文化非常深刻的影響,文字使用了漢字,語言裡也引入了大量的漢語借詞,然而這些語言最基礎的核心詞彙卻和漢語的來源不同,因此這些語言不屬于漢藏語系。日語和朝鮮語屬于隔離的語言(也有學者将其劃入阿爾泰語系),而越南語屬于南亞語系。
2.漢藏語系起源曆史衆說紛纭
漢藏語系主要分布在中國、緬甸、印度北部喜馬拉雅山南麓和東北部、尼泊爾、不丹等地。以漢藏語系語言為母語的人口約有15億,僅次于印歐語系。漢藏語系已知有400多種語言,漢語、藏語和緬甸語及其方言的使用在絕大多數人口分布區域,而衆多使用人數較少的語言集中在四川西部、雲南、西藏東南部、緬甸北部、印度東北部、尼泊爾這一帶。
漢藏語系的語言内部差異非常大。在語法方面,多數漢藏語都是主語-賓語-謂語的語序,比如“我飯吃”,隻有漢語、白語(雲南大理白族的語言)和緬甸東部的克倫語是主語-謂語-賓語的語序,就是“我吃飯”。語音上多樣性也很強,有的有8個以上聲調,也有的沒有聲調。
在語言分類裡,傳統上把漢藏語系中漢語之外的其它語言統稱作“藏緬語族”。然而,因為漢藏語系語言之間差異很大,又缺乏曆史文獻材料,漢藏語的早期曆史,以及漢藏語系各語支之間的親疏關系在學者之間有很多争議。
其中一種比較傳統的觀點認為,漢藏語系起源于6000年前左右黃河流域的仰韶文化(約7000-5000年前,陝西、甘肅東部、河南西部一帶)和馬家窯文化(約5500-4000年前,甘肅中東部、青海東北部一帶)。所有漢藏語中,漢語是最早從共同祖先裡分化出去的,其餘的語言即藏緬語族有一個共同原始語,後來講藏緬語的人群逐漸向西南方向遷徙并分化,形成了各個語支。
而近年來也有學者提出第二種觀點,認為語言多樣性高的地方就是起源地和最早分化的地方,這個地方位于印度東北部到四川西部一帶,有9000年以上甚至上萬年的曆史,最早分化的語言是喜馬拉雅山南麓的一些語言,而漢語和藏語等一些語言有更晚近的共同祖先。
還有第三類觀點,即認為很難判斷這些語支相互之間的遠近關系,于是提出了“落葉模型”,每個語支就像地上散落的葉子一樣,無法知道它們原先在樹上哪個位置。
3.新研究支持漢藏語系約6000年前起源于中國北方
為了檢驗上面這些觀點哪種更符合曆史真相,複旦大學金力院士團隊的張夢翰博士、嚴實博士及潘悟雲教授,利用漢藏語的詞彙數據重構了漢藏語系的譜系。研究者們采用了美國斯坦福大學馬提索夫教授主持搜集整理的“漢藏語詞源數據庫”,從中篩選了共19個語支、109種語言的100個核心詞義的949個詞彙形式,比較每個詞彙在各個語言中的分布情況。大體來說,如果兩種語言共有的詞彙數目越多,就說明這兩種語言相互分開得越晚,在譜系上也就越接近。
計算的樹形結果支持了漢語是最早從漢藏語系中分化出來的,而藏緬語構成一個單獨的支系。漢藏語的首次分化時間約在6000年前,而藏緬語内部分化大約從4800年前開始。這些都和前面所說的傳統觀點一緻,即漢藏語系最早分化應該是在中國北方,很可能與仰韶文化相聯系。
而馬家窯文化可能與藏緬語先民相關。現代藏緬語人群都是數千年内從馬家窯文化逐漸向南及向西遷徙的。而現今四川西部到喜馬拉雅山南麓藏緬語極高的多樣性,一是因為高山深谷密林、人群之間相對隔絕造成的,同時也可能是漢藏語人群到達這裡以後與當地以采集-狩獵為生的原住民混合交流的結果,并不說明這裡是祖源地。
以上結果,即《語言譜系證據支持漢藏語系在新石器時代晚期起源于中國北方》一文,今年4月份發表在了英國《自然》雜志上。這是中國學者首次在世界頂級的綜合性學術期刊上發表語言學方向的原創研究成果。
4.遺傳學研究與語言學結論相互印證
除了語言譜系能體現出人群之間在文化方面的曆史聯系以外,DNA遺傳信息也能體現人群在生物屬性上的親緣關系。講漢藏語系語言的大多數人群均包含有擴張于大約8000年前的Y染色體Oα-F5支系,說明了漢藏語人群也共享一些祖先成分。這與語言學得出的漢藏語言同源的結果相互印證。而近年來通過對常染色體的大數據計算,還能更清楚地看出人群之間的混合關系。多個上萬年前古DNA樣本測序的進展也讓我們确認,現代亞洲和歐洲人的基因組中保留有尼安德特人、丹尼索瓦人的少量(通常占全基因組的2%以下)但重要的混血成分,這加深了我們對人類演化曆史的認識。
結合現代的計算方法和大數據處理手段,語言學和遺傳學将會更加準确、深刻地揭開人類族群曆史上不為人知的故事,告訴我們很多衆說紛纭問題的答案。(嚴實)
,