自己的文章自己來評價比較沒意思。各方新聞稿已經有很多介紹和文章意義方面的說法了。我覺得知乎是一個交互平臺,而非主要爲媒體屬性的地方,我還是希望借助知乎看到各種不同意見,而且以此作爲窗口來回答大家的質疑。歡迎大家批評,能提出科學問題,大家一起交流,是最能體現科學精神的。
很多人不在學校/科硏院所或者所在機構的圖書館沒有訂閱Nature,看不到原文。需要的可以私下聯繫我(比如 telegram https://t.me/ngiamzsjit ,査詢裏面的相關聊天室例如 https://t.me/joinchat/AAAAAEJtLqLoQFGaSgNQ2w ,telegram 需科學上网),或已經是我熟人的可以微信或QQ索取(但不熟的人我一般不加微信或QQ),找其他朋友求助也行,但我不適宜公開提供文章下載鏈接。
各位盡管可以在我的回答下面評論,或者單開回答來質疑,我會把能解答的都轉到本回答裏面。我先搬一些微雹上的問答(原鏈: https://weibo.com/1180557177/Hrb0WxCll)過來。(我覺得“雹”是blog比較貼切的音譯,比“博”好,因爲“雹”是並母二等-k尾入聲字。)
問:爲甚麼找不到西夏語?(岡州陳泂龑@微雹 )土家感觉被忽略了 (一九以久伊久@微雹)
答:西夏語混合太多,不兼容樹形結構(土家語同理),且書面語言的詞彙數量收錄過多,無法和活語言比較(放到樹上表現爲末端枝的突變率極高),因此捨掉。白語是爲了避免混合的爭議捨掉的。
其實也試過這幾個語言放進樹裏。白語跟漢語總是很近。土家語亂跑,有時候和漢近,有時候在緬彝外面。西夏在羌-納大支裏面但枝長很怪。而且土家語和西夏語加進來會非常嚴重擾亂整個樹形,表現爲基部支持度嚴重下降以及Bayes方法的樹很久無法收斂。
問:为什么汉语分支这么少?是大统一的政治传统导致的么?(文三四@微雹 )
答:漢語各方言閒分化都在2000年內,在漢藏語的樹的位置上根本不成爲問題,因此做語系樹時有兩個代表就夠了(STEDT庫也沒怎麼收漢語方言材料)。漢語各方言閒的關係是需要另外硏究的。
問:严博士可否顺便就“汉藏语系”概念所含语族在分类和归属上的中西分歧,做一简单说明,如苗瑶语侗台语等。(乐积缣缃@微雹)
答:我們本文所指的漢藏語系包括漢語族及藏緬語族,而未包括仡臺語(或稱僮侗語、侗臺語)及苗瑤語。兩種漢藏語系的定義,國內學界都有不少支持者,而國外多數認爲漢藏語系只包括漢語族和藏緬語族。本文的幾個作者都認爲,目前階段合理的語系分類應該是以核心詞(而不包括音系和語法等特徵)作爲分類依據的,但作者之閒也對核心詞的同源關係認定不完全一致,以我理解,潘悟雲老師認爲苗瑤語、仡臺-南島語及南亞語在底層詞彙與漢-藏緬語仍是同源的,因此也應該列入同一語系(雖然不叫“漢藏語系”),而藏緬語顯然和漢語比其它幾類更近。我個人對以上的苗瑤、南亞、仡臺-南島幾大類語言認識不足,不敢妄下結論。而本文只分析了狹義的漢藏語系,一來是避免分歧,二來是STEDT數據庫只做了漢(白)語族和藏緬語(基本都是藏緬語,漢語種類也少,沒怎麼記方言),所以本文只計算了漢語和藏緬語。潘老師正在整合東亞幾大系(應該至少包括漢白、藏緬、仡臺、苗瑤、南亞)的詞彙數據庫,希望以後能在更全面的數據基礎上有新的認識。
問:不知道遗传学会不会单独有一篇?
答:關於漢藏語系人羣遺傳學方面的東西,以後會寫的,或者說整個東亞族羣的形成史會是我和我的合作者(不論我去哪兒)長期硏究的問題。至於有人擔心我可能把遺傳學和語言學攪在一起,可以看一下我在知乎上的回答《为什么有汉藏语系这一划分? 》
問:汉藏语系分开的时间和汉族藏族分开是一起的吗?( @Gak Lou )
答:語言歷史和人羣歷史不能等同,這篇文章只是計算語言的分離時閒。此外這篇文章是根據樹形分化的模型來計算的,模型無法容納橫向傳遞和混合事件。比如如果漢語和藏語初始分化以後,後面又有過較大規模的接觸導致很多詞被借用,則計算出的分化時閒可能在初始分化和這次接觸之閒。而人羣的形成更基本都是多源的,還不像語言一樣經常能有一條主線,人羣構成和語言譜系完全分離的都有,比如匈牙利人在遺傳上幾乎看不到烏拉爾成分。現在的漢族和藏族肯定各自混入了大量原先不講漢藏語系語言的人羣。
@msoeg https://www.zhihu.com/question/321628306/answer/663120479 提出了幾個問題:分支之閒的隔離程度,或者說語言是否滿足樹形關係而分離後能如Y染色體或線粒體一樣沒有相互影響;各分支之閒演化速率的差異程度。
答:首先,確實樹形模型無法解決橫向傳遞、混合等事件造成的网狀結構。樹形模型最終得到的是各種网狀模型簡化出的很多不同的樹的統計結果。最終文章裏面展示的樹是Bayes算法算出的9000棵樹(總共運行5000万代,每5000代取一棵樹,burn in掉最初未跑穩定時的10%)裏面分值最高的一棵(maximal clade credibility, MCC樹),而各節點的置信度和時閒是按這9000棵樹取的。如果存在橫向接觸、混合等事件,我們得出的樹形和時閒會是這些的綜合。
漢藏語內部各語言之閒是存在混合的,也包括鄰近語言例如苗瑤、仡臺語和不同漢藏語之閒的作用,比如一個詞經歷了(我用ST表示漢藏Sino-Tibetan,HM表示苗瑤Hmong-Mien)ST1 > ST2;HM1 > ST1及HM1 > ST2(如果這種情況被STEDT數據庫標註爲同源);ST1 > HM1 > ST2這些樣的路徑,都可能造成网絡結構。文章用delta值度量了漢藏語的网絡性(0爲純的樹形,越大說明网絡結構越多),在附件表4裏,計算出漢藏語的delta值爲0.35,相比較印歐爲0.22,南島爲0.33,波利尼西亞爲0.41,Cariban爲0.38。說明漢藏語的樹形沒印歐語那麼乾淨(否則早有公論了,文章中藏緬語各語支之閒的分叉的支持度也普遍很低),但也還可以用樹形表示。基於网絡模型的分析現在已經開始有一些了,但無法估年代,做出的結論也經常不夠直接。本硏究還是按樹形近似來做的。而已知明確有大量漢藏語內部混合的語言,如土家語、白語、西夏語,還是先從樹的計算裏拿掉了。
各分支之閒演化速率的差異是我們的硏究採用BEAST輭件Bayes算法的一個進步。如果單純比較語言之閒詞彙的差異數量,就是傳統的語言年代學(glottochronology),已經被很多語言學家批評過。而我們採用的算法允許多種參數可調:詞彙(或者說root-meaning組合)的取得和丟失速率可以不同(突變模型);不同詞彙的突變率可以不同,這樣可以跑出核心詞和非核心詞存在不同突變速率(位點模型);不同支系可以有不同突變速率,比如某支的語言被其它語系語言的詞彙大規模替換(分子鐘模型)。把以上模型都作爲可變參數(但不是全都同時可變,都可變的話可能跑不收斂),運算時同時評估樹的拓撲、分支年代以及上述各種參數,綜合得出一個最優結果。也就是說,我們的硏究模型可以兼容演化速率的差異程度。假使說,漢語和藏語存在大量共同且排他的詞彙(同源也好,接觸也好),即使漢語因爲某些原因後面發生了詞彙大量被替代,仍應該能算出和藏語在同一支(clade)裏,只是漢語的這個枝(edge)上的突變率會高一些,但我們最終跑出來的結果不是這樣的。