有些词比其他词更频繁。例如,在来自已发表文本的近1800 万个单词的样本中,该单词可能出现约70,000 次,而souse仅出现一次。但是can不仅出现得更频繁——它也更加模棱两可。也就是说,它有许多可能的含义。 Can有时指用于储存食物或饮料的容器(“他直接从罐中喝啤酒”),但它也兼作动词,表示将东西放入容器的过程(“我需要罐头这种食物”),并且作为关于一个人做某事的能力或许可的情态动词(“她可以打开罐子”)。它甚至偶尔会作为关于被解雇的动词(“他们能因为偷那个罐子而被他吗?”)和作为监狱的非正式名词(“嗯,这比在罐子里待一年要好”)。
这种多种可能的用途提出了一个问题: can 、 souse和其他单词如何以它们所具有的特定数量的含义结束?答案可能在于塑造语言演变的基本竞争力量。
值得注意的是,词频和词歧义之间的关系远远超出了can和souse 。 1945 年,语言学家 George Kingsley Zipf 注意到,平均而言,常用的英语单词比不常用的单词更模棱两可。这种模式在各种语言中都出人意料地强大——以至于它有时被描述为 Zipf 的意义频率定律。对这种现象的主要解释——首先由 Zipf 本人提出——始于语言在某种意义上的进化是为了提高交流效率的前提。根据这种观点,语言的变化(大致)类似于生物进化:正如生物物种是由其环境的需求在一代又一代中形成的,语言也受到使用它们的人的需求的限制。特别是,语言可能会发展以尽量减少传达信息所需的努力。
乍一看,这个理论似乎很明显。据推测,语言不会以使它们无法使用的方式发生变化——谁不喜欢一种更有效的语言而不是一种效率较低的语言呢?然而,沟通是一条双向的道路,这一事实使情况变得复杂。沟通——无论是口头的、签名的还是书面的——都需要一个生产者(试图传达信息的人)和一个理解者(试图理解它的人)。而且,至关重要的是,对语言生产者有效的方法并不总是对理解者最有效的方法。
如果我将每个单词都替换为ba
在其他条件相同的情况下,制作人可能更喜欢更短、更容易说的话语:为什么要麻烦说10 个单词呢?这种经历可能我们大家都很熟悉。与其列举事件的每一个细节,不如使用更简单但更模糊的表达方式,例如“他今天在那里”。当然,这将推论的负担放在了理解者身上,他们——取决于他们对情况的了解程度——可能更喜欢更精确的表述:“我的前男友西蒙来到我今天工作的咖啡店。
齐普夫认为,这些相互竞争的利益将体现在词典的结构中。制作人的理想语言(就所需的努力而言)只是一个单词。在这种语言中, ba这个词可以传达从“请喝咖啡”到“法国的首都是巴黎”的所有内容。正如人们所预料的那样,这样的安排需要很多理解者:每一次语言接触实际上都是一种读心练习。 (当然,如果我用单词ba代替每个单词,这篇文章读起来会非常具有挑战性——尽管可能更容易写。)相比之下,理解者的理想语言是用不同的单词传达每种含义的语言,尽量减少混淆的可能性。结合起来,由演讲者和理解者的需求所产生的对立力量——齐夫分别称之为统一和多样化的力量——导致了权衡。因此,语言必须达成妥协。
这就是 Zipf 的意义频率定律的用武之地。根据 Zipf 的说法,这个定律是这种妥协的产物。我们有比ba更多的词,这部分满足了理解者对清晰度的需要。但是其中许多词——尤其是最常用的词——可以用来表达多个含义,这对生产者有利。换句话说:多样化和统一的对立力量相互对抗,导致齐夫的意义频率定律。
然而,这种解释是不完整的。统一和多样化之间的折衷是否意味着这些力量的强度相等——或者一种压力比另一种压力施加更大的拉力?
一些语言科学家认为,语言结构的某些方面,例如语法,主要是由以生产者为中心的压力塑造的,以使事情更容易说出来。考虑到产生语言需要付出的努力——一个人最终必须将他们希望传达的概念转化为一系列复杂的运动指令——因此生产者将尽可能地采用简单的选择,并且语法将以以下方式发展是有道理的确保一个简单的选项通常可用。例如,语法交替使说话者可以自由地以不同的指称开始一个句子(例如,“噪音让男孩吓了一跳”或“男孩被噪音吓了一跳”),这取决于哪个在精神上对说话者来说更突出任何给定的时间。
然而,人们对词典知之甚少。找出一种压力在词义方面是否占主导地位需要一个中性的基线。也就是说,我们需要了解在没有以生产者为中心或以理解者为中心的压力的情况下,理论上每个词应该有多少含义。一旦建立了这种期望,就可以将其与真实数据进行比较——每个单词实际具有多少含义。如果诸如此类的常用词可以比基线预期具有更多含义,则表明以生产者为中心的压力更大。如果诸如此类的词的含义比您预期的要少,则表明以理解为中心的压力更大。这是指导我与合作者本杰明·卑尔根最近的工作的逻辑。
当制作人和理解者被迫妥协时,理解者带着稍微好一点的协议离开了
最重要的一步是弄清楚如何确定一个不偏袒生产者或理解者观点的中立基线。一个优秀的候选方法是根据单词的语音概率为每个单词分配预期数量的含义。每种语言都有关于哪些声音可以开始和结束一个单词,哪些声音可以按什么顺序出现等等的规则。例如,现代英语单词不允许以mb–开头,但斯瓦希里语单词可以。由于这些模式(或语音),在任何给定的语言中,某些单词比其他单词更有可能:它们包含在该语言的单词中更常见的声音序列。
一个单词的语音概率可以使用一种称为马尔科夫模型的方法来计算,该模型查看给定语言中的所有单词,并确定哪些声音序列最有可能出现在该语言中。从那里开始,计算一个单词在中性条件下应该具有的含义数量很简单:我们将其语音概率乘以该长度单词的可用含义总数。
使用这个程序,我们发现诸如can之类的常用词——尽管由于其含义的数量已经很模糊——通常具有比基线预测的更少的含义。这种模式遍及整个英语词典,以及我们测试的其他语言:荷兰语、德语、法语、日语和普通话。在每种语言中,频繁出现的词——尽管模棱两可——不像人们根据它们的音位所预期的那样模棱两可。这与以理解者为中心的压力胜出最为一致。在这种情况下,似乎生产者和理解者被迫妥协,而理解者则以稍微更好的协议离开了。
从一个角度来看,这一发现是完全有道理的。如果频繁出现的词过于模棱两可——如果can有100 种不同的可能含义——那么理解者将不断遇到大量的模棱两可,以至于它可能完全阻碍交流。然而,重要的是要注意,这个结果从一开始就并不明显。它与其他关于为什么语言看起来如此的理论背道而驰。如前所述,生产语言有其自身的挑战,这就是为什么一些研究人员认为语法是以生产者为中心的原因。出于类似的原因,人们可能会期望这些困难会导致词典赋予说话者特权:少量非常容易检索和产生的单词,每个单词都包含许多含义。这使得在人类词汇的设计中倾向于避免歧义的压力更加引人注目。
个人的交流互动如何冒泡影响词典的结构?
展望未来,语言科学家可以尝试在更大的语言样本中复制这一结果,包括来自尼日尔-刚果语或南岛语系的语言。他们还可以询问这种压力与先前观察到的避免歧义的例子有何关系。例如,最近的工作发现了在历史声音变化中避免歧义的证据。有时,一种语言中的不同声音会随着时间的推移“合并”,这意味着它们不再被视为不同的(例如, cot和catch现在在某些英语方言中的发音方式相同)。然而,根据 Andrew Wedel 及其同事的说法,如果合并会在一种语言中产生许多同音字,那么合并的可能性就会降低——这是避免歧义如何影响语言变化过程的一个典型例子。
此外,语言进化领域仍然存在关于这些大规模语言变化究竟是如何在地方层面发生的深层问题。具体来说,个体交流互动层面的效果如何冒泡影响词典的结构?在我们所研究的情况下,一种推测的可能性是语言理解者难以理解除了预期含义之外具有太多可能含义的任何单词。随着时间的推移,说话者最终可能会使用不同的词来表达这个意思。如果理解错误足够系统,这些影响可能会在许多不同的交互和个体中观察到,从而抑制原始单词的歧义。
语言是动态的生物。它们随着时间的推移而变化,有时以难以理解的方式发生变化。然而,关于语言进化的研究表明,这些变化通常是系统性的。沟通系统是由我们在日常对话中观察到的相互竞争的力量从根本上塑造的,包括说话者想要简单地说些什么,以及理解者想要避免歧义。因此,语言反映了权衡和妥协的悠久历史。
原文: https://psyche.co/ideas/as-language-evolves-who-wins-out-speakers-or-listeners