在不同语言当中,如果一个或一系列词汇在语音与语义上都存在相似性,那么存在以下几种模型来解释这一相似性(Thurgood, 1994):
某种程度上,比较语言学家的思路可以按照以下的贝叶斯式的思路来理解:在现有证据的条件下,我们可以比较不同模型所对应的后验概率,进而采纳后验概率最高的那种模型。以下是一些例子:
当然,采用频率学派式的思路也是一样的:如果两种语言有足够多的同源词且存在规律的语音对应,那么,这时候在零假设(亦即偶然相似或零星的语言接触)的前提下观察到以上现象的概率(=p值)是非常低的,这时就应当拒绝零假设而认为两个语言确实是同源的。当然,区别系统的接触和同源这两种情况则更加复杂。
远距离的语言亲缘关系,例如在两个语系之间建立可能的亲缘关系,一直以来都是一个争议非常大的问题。这并不是说在足够久远的历史中这些语系的祖语就一定不可能追溯到同一个祖先语言,而是说在只有零星关于词汇相似性证据的前提下,两种语系真正同源和这些相似性是由接触/偶然巧合造成是无法区别开的。当然,现有被广泛接受的语系划分往往是保守的乃至稍显滞后的,所以在新证据出来之后原本的两个语系未必就不能被合并为一个新的语系——只要新证据能足够支持其亲缘关系。
对于南岛语、仡台语、苗瑶语和南亚语而言,其中任意两个组合基本上在历史上都有人提出过关于同源关系的假说。在这其中,目前有充分证据支持同源关系的只有南岛语和仡台语这一对,亦即最早由白保罗(Paul Benedict)提出的南-台假说(Austro-Tai hypothesis)[1]。其他假设,例如关于苗瑶语和南亚语亲缘关系的假说,虽然也有一定证据支持其存在着一定的历史关系而非偶然相似(Ostapirat 2018),但这种相似究竟是真正的同源还是早期接触所导致的尚无定论。其中一个原因是目前只有原始孟高棉语的构拟,而对原始南亚语的构拟则尚未完成。
仡台语与南岛语的共享核心词汇
如图一所示,从许家平(Ostapirat 2018)所列出的这个核心词汇表(即最不容易被借贷的一批词汇)中,尽管有部分词汇没有对上(如Sikan vs bala:),但是南岛语和仡台语的核心词汇之间总体上存在着显著的语音对应关系,且这种对应关系的水平和汉语与藏缅语的对应关系的水平是相当的。反之,汉语和南岛语或仡台语中只有零星的相似,这就基本上排除了汉语和南岛语或汉语和壮侗语的同源关系。
同源还是借用?
当然,成体系的语音对应未必一定是由于同源关系所造成,也有可能是历史上大规模的语言接触。杜冠明(Thurgood 1994)就认为,白保罗所指出的许多南岛-仡台同源词是由于仡台语借用了南岛语而非这两个语系同源所导致,而杜冠明的主要论据则是语音的不规则对应。之后的研究则显示了更多关于两者同源的证据,而之前认为的“不规则”很大程度上是由于以下原因所造成:
另外,即使抛开语音系统对应不谈,足够数量的核心词汇的共享这一事实本身其实就可以作为同源关系的证据之一。核心词汇中发生零星的借贷当然有可能,但到了如图一所示的规模的概率是相当低的。同时,沙加尔(Sagart 2004)也指出,南岛语和仡台语共享的文化词汇是很稀少的,而在借贷的过程中文化词往往比核心词汇更容易被借用。再者,即便假设仡台语中非南岛、非汉藏、非苗瑶、非南亚的成分来自一个未知底层语言A,那么仡台语也应当和南岛语而非这个未知底层A同一系属。否则按照类似的逻辑,也会得出汉语族和其词汇中非藏缅的未知底层B同一系属而非与藏缅语组成汉藏语的错误结论。
仡台-南岛的元音系统对应
Smith (2021)中介绍了以下一些在仡台语,尤其在原始台语(Proto-Tai, PT)中发生的系统元音音变。其中一些条件音变可以规则地解释PT和原始南岛语(PAN)中一些看似不规则的对应现象。以下C1、C2、C3表示PAN中第一、第二、第三个辅音。
即PT末音节中ə无条件低化为短a。如,PAN * tanəm > PT *t-nam A
与之平行地,PAN C1a/əC2iC3> C1.C2eC3 > PT C1.C2eC3;PAN C1a/əC2uC3> C1.C2oC3 > PT C1.C2oC3。如,PAN manuk > PT C.nok D “鸟”。
反之,PAN 中的短a在PT中则变成长a:。同时,PAN末尾的开音节-u和-i在PT中则会变成-aw和-aj。
这就可以解释为什么PAN的a既可以对应PT的a:(如PAN bəlaŋ vs PT ɓlaːŋB)也可以对应ə (PAN bulaN vs PT ɓlɯənA)。
类似地,PAN C1iC2a> C1.C2ia > PT C1.C2wɯː,例如PAN qalima > PT mwɯː A
同时,这一系统的音位变换也能系统地解释PT中ɯ介音和长元音的来源(即便在尚未与南岛语找到同源词的词汇中),并且能够支持早期仡台语是系统性地以双音节而非单音节词素为主的。因此,这些词早期的双音节形式与其说是仡台借用南岛的证据,不如说是仡台与南岛同源关系的佐证。
PS: 以上的一些议题都是比较语言学内部的方法论问题。在讨论语言亲缘关系的时候,一个严重得多的问题是用遗传学的证据代替语言学的证据来论证语言的亲缘关系。语言的起源、演化和传播自然和人群的迁徙是有着密切联系的,但两者很多时候并非是一一对应、完全平行的,而遗传学的证据,不论是古人还是现代族群的DNA,只能用来直接论证后者而非前者。因此,语言学的论证和遗传学的论证是相互独立的,两者只能用来相互印证(corroborate),而绝不能用其中一个代替另一个的论证。并且,由于不完全谱系分选(incomplete lineage sorting)和人群混合的存在,Y染色体和线粒体树的树形经常和人群分化是不平行的,所以用Y染色体的分化直接等价于语言的分化则是更加不可靠的。