树模型历史语言学中,树模型或树状模型、发生模型、分类模型是与谱系图相似的语言演化模型,尤其与物种演化的系统发生树相似。有同一共同祖先的语言属于同一个语系。 树模型由德国语言学家德国语言学家奥古斯特·施莱谢尔在1853年推广,[1][2]自首次尝试以来一直是描述语言间语系关系的常用方法。它也是比较语言学的核心,涉及用已知语言的证据和观察到的语言特征演变规律来重构每个语系的祖语,例如原始印欧语与印欧语系。但这在很大程度上是一种理论的、定性的追求,语言学家一直强调树模型的固有局限性,因为水平转移也在语言演化的过程中发挥了重要作用,从借词到有多个祖先的克里奥尔语,都是其可能的后果。[1]波浪模型于1872年由施莱歇谢尔的学生约翰内斯·施密特提出,作为含水平转移的树模型的替代。[3] 在量化连续现象方面,树模型也具有与生物分类学相同的局限性,如生物学中的环物种和语言中的方言连续体等。语联指从方言连续体而不是从单一的祖语演变而来的一组语言。[2] 历史![]() 《旧约》与圣奥古斯丁希波的奥古斯丁认为诺亚的每名后代都建立了自己的民族,都有一种语言:阿舒尔说阿卡德语,希伯说希伯来语等等。[4]他总共确定了72个民族、部落奠基者和语言,主要的分歧出现在诺亚-闪姆-希伯-法勒一脉。[5][6]奥古斯丁的假说与后来历史语言学家的假设没什么不同,即希伯家族“保留了这种语言,并没有被无理认为是该种族的通用语言……因此命名为希伯来语。” 然而,这72种语言中的大多数都可以追溯到希伯后的许多代人。圣奥古斯丁通过假设活了430岁的希伯在上帝指定72岁时还活着,从而解决了第一个问题。[7]:123 原语,天堂的语言圣奥古斯丁的假说一千多年来都没受到什么质疑。托马斯·布朗爵士在1684年出版的一系列小册子中,对各种信仰,尤其是圣经信仰表示怀疑:[8]
![]() 到那时,新大陆的开辟与远东的探索使得新发现的语言数量远超圣奥古斯丁计算的72种。布朗引用美洲原住民语言,论证“起初,语言的混乱只发生在那些在Sinaar建造巴别塔的人身上……”对于那些“在山脚下,方舟停泊的地方……他们的原始语言可能会随时间扩展到欧洲和亚洲的几个部分......”[9]这正暗示着树模型。布朗认为,从比希伯来语更大的土著语言简化的假设出发,可以解释语言的差异。[10]:225 布朗提到当时学者们主持的构拟活动:[11]:226–228
巴别塔的混乱就这样被搁置一旁,作为障碍被消除了。在所有语言中寻找相似之处的尝试导致逐渐发现一种古老的母语,所有其他语言都源自该母语。毫无疑问,布朗在1684年之前的写作和思考都做得很好。在英国的同一个革命世纪,James Howell出版了第二卷《书信》,该书是写给该领域各种重要人物的准虚构信件集,其中包含有效的历史信息。在第八封信中,语言树的隐喻似乎被完全提出了,但尚未得到成为专业语言学家的支持:[12]
欧洲所有语言学家都在寻找“天堂的语言”,拉丁语写作lingua prima、lingua primaeva或lingua primigenia,德语中是Ursprache或hebräische Ursprache。有人认为它就是希伯来语,这种神秘的语言有着纯洁和不朽的气息,这些特质正是选拔候选的标准。如此概念的“原语”(Ursprache)早在新语法学派将其应用于各色祖语之前就已经开始使用了。大相径庭的语系间的鸿沟仍未消除。[來源請求] 印欧模型1786年2月2日,威廉·琼斯爵士以亚洲学会主席的身份向亚洲学会发表了他关于印度人的《三周年演讲》。其中,他将树模型的逻辑应用于希腊语、拉丁语和梵语,这是历史上第一次纯粹基于语言学的理由做出的如此分类,并指出它们“在动词的词根和语法形式上都很像,很不可能是巧合……”他继续假设它们来自“某个共同的来源,这来源也许早已消失。”后来他又加上了哥特语、凯尔特语和波斯语。[13] 琼斯没有命名他的“共同来源”,也没有进一步拓展这个想法,但它被当时的语言学家所接受。 在1813-1814年末的《(伦敦)季刊评论》中,托马斯·杨发表了对约翰·克里斯托弗·阿德隆的《米特里达特,或语言通史》的评论,第一卷于1806年出版,第二、三卷,则在1809-1812年陆续由Johann Severin Vater续写。阿德隆描述了约500种“语言和方言”,并假设从位于克什米尔中央的“天堂语言”下降到500种语言的总范围。托马斯·杨首先指出阿德隆对康拉德·格斯纳1555年的《米特里达特:论语言的差异》引用时的亏欠,以及其他后续的语言和文字目录。Young 1813</ref>:251 ![]() 杨重新解释了阿德隆的分类:单音节语言是最古老的类型,分布在亚洲的伊甸园以东部分,也就是亚当出伊甸园的方向。接下来是琼斯那个仍未命名的分类:“另一类古老而广泛的语言,其中的相似之处多到不可能是偶然。”他提议将其暂时称作“印欧语”[14]:255,这也是该词首次出现在语言学领域中。此前不列颠东印度公司使用“印欧贸易”来表示印度和欧洲之间的商品贸易[15]。杨为存在这样的祖先群体引用的所有证据都是最相似的词:母亲、父亲等。 阿德隆后加的是鞑靼人、非洲人和美洲人,这取决于地理位置和假定的伊甸后裔。杨并不赞同阿德隆对天堂语言的如此热情,并认为这过于投机性。[來源請求] 在英语学界取得胜利的杨的称呼只是1810-1867年间产生的诸多名称中坚持到最后的那个,其他候选名称还有:印度-日耳曼(indo-germanique)(康拉德·马尔特·布戎 1810)、japetisk(拉斯穆斯·拉斯克 1815)、印度-日耳曼(Indo-Germanisch)(朱利斯·克拉普罗特 1823)、印度-德意志(indisch-teutsch)(F. Schmitthenner, 1826)、梵语系(sanskritisch)(威廉·冯·洪堡 1827)、印度-凯尔特(indokeltisch)(A. F. Pott, 1840)、阿里奥-欧罗巴(arioeuropeo)(Graziadio Isaia Ascoli 1854)、雅利安(Aryan)(马克斯·缪勒 1861)、雅利安(aryaque)(H. Chavée, 1867)等。他们都是通晓多种语言的天才。克拉普罗特通晓汉语、日语、藏语和好几种其他文字,批评琼斯用的方法不严谨。《圣经》原语的概念深深吸引了他们的想象力,随着寻找这种语言的希望逐渐破灭,他们转而寻找欧亚平原上游牧部落所说的所谓共同印欧语。尽管他们很好地证明了这种语言能用比较语言学的方法来推断,但在事实上,这不是他们获得它的方式。[來源請求] 新语法学派模型这种模型依赖于威廉·琼斯、弗兰茨·博普、奥古斯特·施莱谢尔等人的早期概念,因新语法学派无例外的语音变化规则而著名。 ![]() 施莱谢尔在1863年写给恩斯特·海克尔的公开信中,说正在将自己的Stammbaum(语系树)与达尔文的进化论相比较,但这信在他身后才公开发表。1869年,海克尔写信建议他读一读《物种起源》。[來源請求] 施莱谢尔读完后写了《达尔文理论和语言学》。[16]在一个让人想起达尔文和华莱士分别独立发现进化论的情景中,施莱歇尔赞同达尔文的观点,但批评它没有引用任何物种就进行了推理。之后他出版了关于语言的Stammbaum,这已不是他第一次出版。[來源請求] 语言的演化并不是达尔文进化论的灵感来源,而是物种的变异,例如在加拉帕戈斯群岛观察到的雀类,似乎都来自某个共同祖先。用本地品种互相杂交以产生新品种也在他的结论中发挥了作用。《物种起源》第一版出版于1859年,也在系属分类的主题下从头讨论了语言树的概念。达尔文批评林奈设计的共时方法,建议将其替换为基于进化的“自然安排”。[來源請求] He says:[17]
在海克尔提醒施莱谢尔之前,施莱谢尔甚至没听说过达尔文。他在1853年的一篇文章中发表了自己Stammbaum的想法,这比第一版《物种起源》早了6年。语言起源的概念绝不是新的。托马斯·杰斐逊本人是位虔诚的语言学家,他提出新词的持续需要意味着语言必须“进步”并“演化”[18]。这些想法预示着生物或语言的进化,在施莱谢尔与达尔文的思想接触后,进化论被引入了语言变迁的研究,这种演化思想成为后世语言分类的依据。[來源請求] 系统发生树约瑟·哈罗德·格林伯格在1950年左右开始发表的一系列论文中以旧名称赋予了这个旧隐喻一个全新的含义。查尔斯·达尔文首先系统地提出了进化的概念,并获生物学普遍接受。由卡尔·林奈发明的生物分类学使用二名法为每个已知的生物体分配种名和属名,被安排在数个门之下依一定次序形成一定的等级,最终分支到各种物种。这种生物分类的基础是观察到的物种共有的物理特征。[來源請求] 而达尔文重新起用了“生命之树”的古老比喻,假设林奈分类(今日的分类单元)随时间推移在某种树结构中从最简单下降到最复杂。林奈的层次树是共时的;达尔文设想了一个有共同起源的历时过程。林奈构想了不同的分类阶元,这与理性主义者采用的存在锁链一致,达尔文则构想了演化血统。达尔文之后的几十年里,很明显林奈的层次与血统并不完全对应。发现谱系并改变分类以反映它们成为分类学的主要目标,它在命名法的总体指导下进行,国际组织保存的规则手册授权和发布重新分类物种和其他分类群的建议。这种新方法被称为系统发育,其中蕴含的树被称作系统发生树。树中一个单元及其所有后代单元形成一个演化支,进化支的发现即是支序分类学。[來源請求] ![]() 格林伯格写论文时,系统发育学尚缺乏计算机(计算系统学)和DNA测序(分子系统发育学)的辅助,为发现支序关系,研究人员要依靠尽量多的种间形态相似性来定义和制表。从统计上看,相似性越多,物种就越有可能在同一个进化支中。这种方法吸引了对发现语言普遍性感兴趣的格林伯格。他试图改变树模型以使语系树成为系统发育树:[19]
这个类比中,语系自成一演化支,语言就像物种,祖语就是某个分类单元的共同祖先,语言树就像系统发生树,语言和方言就像种和亚种。格林伯格制定了非洲、美洲、印度尼西亚和欧亚大陆北部迄今被忽视的语言的特征大表,并据它们的相似性对它们进行了分类。他将这种方法称为“语言类型学分类”,由描写语言学派方法而非比较语言学方法得出。[20] 日期与语言年代学历史语言学家已经使用比较法来拼凑离散词汇、词法和音系数据的树模型。甚至可以在没有文献支持的情况下建立年表,但没有绝对的日期估计。 语言年代学使得人们可以估计语言使用的绝对日期,同源词数量与比例是计算分歧时间的重要标准。然而,后来发现该方法很可能因数据不可靠而作废,因此历史语言学家难以确定印欧语系的准确年龄。[21][22] 这一困难可能得到计算系统发育学的解决。进化模型等技术提高了树枝长度和拓扑的准确性,使用计算系统发育方法使研究人员能够用进化生物学方法分析语言数据。这进一步有助于理论的相互检验,例如坟塚假说和安纳托利亚假说,两者都是印欧语系起源的理论。[22] 计算系统发生学于历史语言学的功用比较法是通过比较各种语言的特征,以评估一种语言与另一种语言的相似度。这种评估的结果是面向数据的;也就是说,结果取决于特征的数量和比较的语言数量。在计算机降落在历史语言学领域之前,两种方法的数字都必然很小,效果像是用少量像素来描绘照片。[來源請求] 20世纪晚期,语言学家开始使用本为生物分类开发的软件对语言进行分类,程序和方法变得越来越复杂。到21世纪初,历史语言学计算系统发育(CPHL)项目获得了美国国家科学基金会的资助[23]。印欧语系是主要的研究课题。至2012年1月,他们已经收集并编码了一个“已筛选”的“22个语音特征、13个形态特征和259个词汇特征”的数据库,还包括24种印欧语的词汇表,以及含更多特征的未筛选数据库。更大的特征和语言数量能提高精度,前提是它们满足某些标准。+他们用专门的计算机软件测试了各种系统发育假设,以了解它们通过遗传血统来解释特征的能力。[來源請求] 树模型的局限性树模型的一个特有限制是它所基于的非常基本的假设:它需要基于语言的分类,或者更一般地说,基于语言变体。由于变体是从全部语言特征中抽象出来的,因此在将数据(从同言线地图)转换为树的过程中可能会丢失信息,例如方言连续体的问题。它们提供的变体不是明确的一种语言,而是包含不止一种语言的特征。它们如何分类的问题类似于环状物种在物种分类中的问题一样。[來源請求] 树模型的局限性,特别是其无法处理方言连续体中共同创新的非离散分布,已通过非分支(不基于树模型)方法的开发得到解决,如波浪模型、语联等。[3] 树模型的另一个限制涉及混合语言,以及一般的语言混合,因为树模型只允许分化。例如,据Zuckermann (2009:63)[24],现代希伯来语就是一种半欧洲语言混合体,“表明现实的语言起源远比简单的系统发生树复杂。‘复活’的语言不太可能有单亲。” 理想的系统发育系统发育软件的目的是生成分支图,这种树中的链接只分叉,也就是说,在同一方向的任何节点处,仅能有两个分支。输入数据是一组特征,可以匹配不同语言的状态,例如存在 (1) 或不存在 (0)。这样,一种语言可以由一个唯一的由所有特征的状态值组成的坐标集来描述,共享最多状态的语言彼此最相似。[來源請求] 该软件通过几种数学方法之一对所有语言所有特征的所有状态进行分析,以完成每种语言与所有其他语言的成对比较。接着,它根据相似度构造一个分支图;例如,假设语言a和b仅彼此最接近,那么就假定它们有共同祖先a-b。假设下一个最接近的语言c与a-b有共同祖先,就依此类推。结果是从整体的共同祖先(根)到语言(叶子)的一系列历史路径的预测,每条路径都是独一无二的,且路径之间没有链接。每个叶子和节点都有且仅有一个祖先。所有的状态都是由其他状态来计算的。符合这些要求的分支图就是理想的系统发育树。[25]:383 起初,在改变假定相关因素的试验中,结果似乎几乎没有一致性,任何变化都会产生一个新的分支图,这表明该方法没有捕捉到语言的潜在演变,而只是反映了研究人员的临时判断。为了找到影响系统发育的因素,研究人员需要对其结果的准确性进行一些衡量;即需要根据已知的系统发育校准结果。他们使用不同的假设进行实验,以寻找与最安全的印欧系统发育最接近的假设。这些假设可以更有把握地用于印欧系统发育的存疑领域。[來源請求] 为了获得合理有效的系统发育,研究人员发现他们需要输入语音、词汇和形态三种特征,才能用计算系统发育得到足够详细的图景。这其中,又只有定性特征才能产生有意义的结果。[25]:384–385 理想系统发生网![]() 尽管他们小心翼翼地编码足够数量的最佳定性特征,研究人员还是无法获得某些群体的完美系统发育,如印欧语系中的日耳曼语族和阿尔巴尼亚语族。他们推断有大量特征被借用了,这些特征无法用该组计算出的共祖特征来解释。如果解释借用的波浪模型能完整解释该群体的特征,那么根本就不会存在它的系统发育树。如果这两种模型都部分有效,那就会存在一棵需要通过非遗传解释来补充的树。 因此,研究人员修改了软件和方法,以囊括借用的可能性。[26] 研究人员在实验中引入了界面(interface)的概念,也即允许特征流动的边界。直系演化的称为单向界面,或称边缘。如果只用单向界面就足以解释一种语言中所有状态的存在,那就没必要应用理想系统发育以外的模型。如果不是,则可以在系统发育中添加一个或多个接触边缘或双向界面。这样,一种语言可能有不止一个状态的来源。[來源請求] 一棵经过如此修改的树不再是一棵树:从根到叶的路径不止一条,而形成一张网。特征的状态仍沿着从根到叶的独特路径演变,但它的起源可能是所考虑的根或有接触的语言。如果网可以解释所有状态,则称为理想系统发育网。[25]:388–391 相容性与可行性理想系统发育网的产生有两个阶段。第一阶段,研究人员设计了许多用于测试兼容性的系统发育树,称为候选树。首先,使用印欧语数据集(特征状态的字符串)输入系统发育生成软件,然后将生成的树修改为要测试的其他假设,来获得候选树。当一个特征的起源能用生成的系统发育树解释时,则称它是相容的[25]:387。在理想系统发育中,所有特征都是相容的,即树的相容性是100%。根据简约性原则或奥卡姆剃刀,没有网络是必须的。[來源請求] 最初的候选树都不是完美的系统发育,不过其中一些子树是完美的。下一阶段是选用相容性最高的树,一次添加一个界面,从中生成网络,选择相容性最高的界面,直到整张网的相容性最高,即获得充分性。事实证明,生成的兼容网数量可能从没有到十几个不等。然而,并非所有可能的界面在历史上都是可行的,一些语言间的界面在时空上不太可能。研究人员检查结果,排除那些不可行的接口,直到只剩下可行网络的列表,再按相容性得分的顺序排列。[來源請求] 最可行的印欧语网络研究人员从印欧语系五棵用字母A-E表示的候选树开始。一棵由系统发育软件生成,接着进行了两次修改;两棵由历史语言学家和印欧语学家Craig Melchert提出。这些树的主要区别在于最模棱两可的组:日耳曼语和阿尔巴尼亚语的位置,后者没有足够的特征。A树有14个互相无关的特征;B,19;C,17;D,21;E,18。A、C树的相容性得分最高,不兼容都是词汇上的,A是C的子树。[25]:396 后来生成的网络发现,除E树外,所有不相容都可通过至少三个接触来解决。E树因其相容性不高,被排除在外。A树有16个可能的网,经过可行性检查减少到3个。C树有一个网络,但由于它需要波罗的海而不是斯拉夫界面,因此不可行。[25]:400 A树是最相容、最可行的树,假设4000-2250 BC间从原始印欧语分裂出7个支:[25]:398
B、E树则给出原始日耳曼-波罗的-斯拉夫语(北印欧),使阿尔巴尼亚语成为一个独立的分支。只有最后一次演化的时间是可以确证比较准确的,这基于颜那亚文化、安德罗诺沃文化和已知的印度-雅利安语文化的连续性。[27]:401 A树还需要3次接触事件才能满足相容性要求,这也是要求接触事件最少的组:[27]
学者们称,具有上述接触的A树是“最好的PPN”[25]:407。在所有PPN中,很明显,尽管最初的子语言在相对孤立的情况下变得不同,但只有与其他语言相互影响的波模型可以解释演化组的后期演变。 另见注释
书目
外部链接
|
Portal di Ensiklopedia Dunia