首页 » 语言本能:探索人类语言进化的奥秘 » 语言本能:探索人类语言进化的奥秘全文在线阅读

《语言本能:探索人类语言进化的奥秘》人脑对语言的理解能力超乎想象

关灯直达底部

在过去的很多世纪里,人们一直害怕自己设计发明的机器会比自己更聪明、更强大,或者抢掉自己的饭碗。长久以来,这种恐惧都是各类科幻故事反复表现的主题。早在中世纪时,犹太人中就流传着关于“高伦”(Golem)的传说,它是一个由黏土制成的假人,由于嘴里刻着神的名字,从此获得了生命。而在电影《2001:太空漫游》中,一台名为哈尔的计算机向人类发起了进攻。但是,在20世纪50年代,当一种被称为“人工智能”(artificial intelligence,简称AI)的工程学科诞生之时,这些虚构的故事似乎就要成为可怕的现实了。如果一台计算机可以算出圆周率π的小数点后100万位,或者能够帮助公司分配薪资酬劳,人们并不会觉得有什么不妥,但是一夜之间,计算机居然拥有了论证逻辑定理的能力,而且还下起了高深的国际象棋。在随后的几年中,一些计算机已经击败了众多棋界高手。在治疗细菌感染、投资养老基金等方面,计算机程序的表现也比大多数专家更为出色。从表面上看,一旦计算机开始胜任这类智能型的工作,我们距离科幻电影中的世界似乎就不再遥远。到那时,你可以轻松地为自己订购一台“C3PO”机器人或者“终结者”,因为现在只剩下一些简单的任务有待开发。据说在20世纪70年代,人工智能的创始人之一马文·明斯基(Marvin Minsky)给一个研究生布置的暑期课题就是“人工视觉”。

然而迄今为止,家用型机器人仍然只存在于科幻世界之中。近35年的人工智能研究所收获的主要经验是:困难的工作非常简单,而简单的工作却无比困难。一个4岁大的孩子已经能够辨认出一张人脸,拿起一支铅笔,穿过一个房间,或者回答一个提问。对于这种智能表现,我们认为这是再正常不过的事情,但实际上,它所解决的是工程学上难度最大的一类问题。在汽车广告中,我们经常会看到在流水线上工作的机器人,你可不要被它们所吓倒,它们的工作只不过是焊接和喷漆而已,这些笨拙的大家伙并不需要去看、去拿或者去摆放任何东西。如果你想故意刁难某个人工智能系统,不妨问它几个无厘头的问题:芝加哥和面包盒哪一个更大?斑马穿不穿内衣?地板会不会跳起来咬你一口?如果苏珊出门去商店购物,她的头有没有跟她一起去?多数情况下,人们对自动化的担忧都是一种误解。随着新一代智能产品的出现,最有可能被机器取而代之的工种是股票分析师、石油化工工程师以及假释委员会成员,而园丁、前台接待或者厨师的工作在未来数十年内还不会受到冲击。

读懂一个句子的含义,也是一种高难度的“简单任务”。为了与计算机交流,我们不得不学习它们的语言,因为它们还不够聪明,无法掌握人类语言。然而,我们很容易对计算机的理解能力做出过高的估计。

最近举办了一次计算机程序的设计大赛,看看是否有一台计算机可以完美地骗过使用者,让他误以为自己是在和另一个人进行对话,这就是“洛伯纳大奖赛”(Loebner Prize)。这个大奖的设立,是基于艾伦·图灵曾经的一个设想。在1950年发表的一篇著名论文中,图灵提出了一个建议,关于“机器是否具有思考能力”的哲学问题,最好的解决方法就是举办一次模拟比赛:一边是真人,一边是可以模拟人类聊天的计算机程序,然后由一位裁判通过终端显示器分别与他们进行对话。图灵认为,如果裁判无法对二者做出分辨,那么我们就没有理由否认计算机具有思考的能力。抛开哲学问题不谈,大赛组织者非常清楚,还没有哪个聊天软件有能力赢走这10万美元的大奖,因此为了公平起见,他们设立了一个1 500美元的小型奖励。按照比赛规则,裁判必须接受程序设计者或者真人聊天对象所选择的某个话题,而且不允许设置“圈套和陷阱”,例如相同的问题问上10遍,或者问一些诸如“斑马穿不穿内衣”之类的问题。对话内容必须“合乎常理”。在与若干聊天软件和真人对象分别进行7分钟左右的交流之后,裁判要判断聊天对象说的是否像“人话”,并以此为标准对聊天对象做出排名。结果,所有真人对象的排名都在计算机之上。不过,有大约半数的裁判将一款聊天软件误判为人类,这款软件也因此获胜。

这听起来是一项了不起的成就,但实际上并非如此。因为比赛规则束缚了裁判的手脚。如果想要确认自己的聊天对象是人类还是机器,使用一些“不合常理的圈套和陷阱”是一种行之有效的办法,这原本是此类测试的关键所在。此外,获胜的程序设计者巧妙地利用了设定话题的权力,他选择的是“不着边际的对话”,而这其实算不上一个真正的话题。所谓的“不着边际”,本身就意味着可以答非所问,缺乏逻辑:

裁判:真是漫长的一天!我现在想轻松一下。今天的天气不怎么好,你有没有什么笑话可以驱散这满天的阴云?

计算机:人人都在对天气说三道四,但却没有人站出来做点什么。你为什么要告诉我你想找些乐子?切……

裁判:你是在存心气我,是吗?我已经解释过了,我就是想轻松一下!

计算机:如果我并不是想存心气你,你是不是会觉得好受些?我已经解释过了,我就是想轻松一下!我存在,所以我计算……你为什么认为我是在存心气你?

裁判:你的问题让我感到莫名其妙……诗人的“天马行空”和我们大多数人的“不着边际”并不是一回事。

计算机:你怎么知道我的问题让你感到莫名其妙……诗人的“天马行空”和我们大多数人的“不着边际”并不是一回事?

实际上,这位程序设计者只不过是将计算机科学家约瑟夫·魏茨鲍姆(Joseph Weizenbaum)1965年发明的一项技术简单地更新了一下。魏茨鲍姆曾经编写了一个非常简陋的程序,并给它取名为“伊丽莎”(Eliza),这个名字源自萧伯纳《卖花女》中的女主人公。这个程序能在输入的语句中找到几个关键词,然后从存储列表中检索出一个现成的回复,并将输入语句中的部分内容插入这个回复之中,再稍微进行一些替换,例如将“你是”换成“我是”。如此一来,这个程序便可以初步模拟人类的谈话。这个程序还有一个名为“医生”(doctor)的版本,它模拟的是一位罗杰斯学派的心理治疗师,根据卡尔·罗杰斯(Carl Rogers)的理论,面对患者的陈述,治疗师应该进行回问,以便引起患者自己的思考。这个程序的一个版本后来被睿侠电子便利店(Radio Shack)作为计算机游戏出售于世,而另一个版本则附带于我所使用的文字处理程序GNU Emacs之中。它的说明书这样写道:“如果Emacs的表现非常糟糕,以上所述的各种方法都无法解决您的问题,Emacs仍然可以帮到您——请输入‘M-x doctor RET’指令。”以下是一段典型的对话:

用户:我最近一直很抑郁。

计算机:你经常感到抑郁吗?

用户:是的,几乎每时每刻。

计算机:你为什么说“是的,几乎每时每刻”呢?

用户:我现在就想哭。

计算机:你是因为想哭才来找我的吗?

有一天,魏茨鲍姆发现自己的秘书居然待坐在显示器前,向计算机程序吐露自己的心扉,这让他感到莫名的恐惧。

大多数计算机科学家对洛伯纳大奖赛嗤之以鼻。在他们看来,它只是一个无聊的宣传噱头,这种比赛只能糊弄一些业余人士,而无法让计算机真正掌握人类的语言(因为人工智能的研究人员和精通语言问题的专家学者都被排除于裁判之列,而他们本身也不屑于参加这样的比赛,报名参赛的都是一些计算机爱好者)。这就好比为了推动生物学的研究而设立一个大奖,看看谁能做出一朵最能以假乱真的绢花,或者说在好莱坞的拍摄场地模拟一番登陆月球的情景,以此实现所谓的太空计划。目前,学者们对计算机的语言理解系统已经有了深入的研究,但没有哪位严肃的工程学家敢预言它很快就会达到人类的水平。

事实上,在科学家看来,人类对句子的理解能力实在是超乎想象的。人们不但可以完成这个极其复杂的任务,而且无须花费太多的时间。接收与理解往往“同步进行”,听话者的思路可以跟上说话者的语速,而不必等到整个谈话结束之后,再回过头来对听到的内容进行解读,就像评论家创作书评那样。一句话从说话者嘴里说出,到听者理解这句话的意思,二者的间隔短得几乎可以忽略不计:大约一两个音节的长度,也就1/2秒左右的时间。还有一些人能够更为快速地理解、跟读他人所说的内容,时间间隔只有1/4秒。

对这种理解能力的研究探析,不但可以帮助我们制造能够与人类交流的机器,还有许多其他的实际用途。人们对句子的理解又快又准,但并非完美无缺。无论是一次谈话还是一篇文章,它的语法结构都必须符合一定的规则,我们才能明白其中的含义,否则就会出现理解上的障碍、反复和歧义。在本章中,我们将探讨语言的理解问题,看看哪一种句子能够被读者充分理解。这样一来,我们就可以制订出一套有关如何清晰写作的行文规范,对于那些指导人们进行科学写作的手册指南而言,例如约瑟夫·威廉姆斯(Joseph Williams)1990年所撰的《风格:清晰、优雅地写作》(Style: Toward Clarity and Grace),本章的诸多发现将对它们提供重要的参考。

另一个实际的用途则与法律有关。在审判实践中,法官常常会遇到一个难题,他们需要判断一个人是否能够理解某些含糊其词的文字,比如那些浏览商业合同的客户、听取法官指示的陪审员,或者面对诽谤文字的普通公民。研究者通过各种实验,已经揭示出人们的许多理解习惯。在《法官语言》(The Language of Judges)一书中,语言学家、律师劳伦斯·索兰(Lawrence Solan)解释了语言和法律的关系。这本书写于1993年,内容十分有趣,我们下面还会提到它。

句法剖析器,理解语言的最基本工具

我们是如何理解一个句子的呢?第一步是进行“句法剖析”(parse)。这并不是指你上小学时所做过的那些令人生厌的语法练习。对于这种练习,戴夫·巴里(Dave Barry)在《请问语言先生》(Ask Mr. Language Person)一书中有过一番调侃:

问:请解释一下如何用图解法分析句子。

答: 首先,找个像烫衣板那样的干净平台,把要图解的句子放在上面。然后用一支削尖的铅笔或者小刀片固定句子的“谓语”,它表明的是动作发生的地方。如果把一个句子比作一条鱼,那么“谓语”通常就位于鱼鳃的正后方。例如,在“拉蒙特从不会咬护林员”这句话中,事发地很有可能是森林,所以你画的图就应该像一棵小树,它伸出的树枝可以用来标识句子的各个组成部分,例如各种动名词、谚语或者附加词等。

不过,句法剖析的过程与巴里所调侃的语法练习也有类似之处,你同样要找出句子的主语、谓语以及宾语等,只不过你自己察觉不到。除非你像伍迪·艾伦那样以神奇的速度读完《战争与和平》,否则你就必须把单词组成短语,然后确定这些短语和动词之间的主谓关系。假如要读懂“帽子里的猫回来了”这句话,你就必须把“帽子里的猫”看成一个短语,这样才能明白回来的不是帽子,而是猫。如果要区分“狗咬人”与“人咬狗”,你必须分清它们的主语和宾语,而如果要区分“人咬狗”与“人被狗咬”或者“人遭到狗咬”,你就得在自己的心理词典中搜寻一下动词词条,以确定句子的主语“人”到底是施动者还是受动者。

语法本身只是一种代码或协议,它就像一个静态数据库,规定了某一特定语言的语音与语义的对应关系。但是,我们之所以具有语言表达能力和理解能力,却并非是因为语法的存在。虽然我们的表达和理解共享着一个相同的语法数据库(我们说出的语言正是我们所理解的语言),但这还远远不够。想要听懂一大段谈话,或者想要开口表达自己的想法,我们的大脑还必须按照某种特定的程序来执行每一步操作。在语言理解过程中,这种对句子结构进行分析处理的心理机制被称为“句法剖析器”(parser)。

要揭示人类对语言的理解过程,最好的方法就是对某个简单的句子进行句法剖析,比如说那些由简单的语法规则生成的句子。这一点在第3章中已经谈到,我在此略作回顾:

S → NP VP

一个句子可以由一个名词短语和一个动词短语构成。

NP →(det)N(PP)

一个名词短语可以由一个可有可无的限定词、一个名词和一个可有可无的介词短语构成。

VP → V NP(PP)

一个动词短语可以由一个动词、一个名词短语和一个可有可无的介词短语构成。

PP → P NP

一个介词短语可以由一个介词和一个名词短语构成。

N → boy, girl, dog, cat, ice cream, candy, hot dogs

在心理词典中,名词包括:boy(男孩),girl(女孩),dog(狗),cat(猫),ice cream(冰激凌),candy(糖果),hot dogs(热狗)等。

V → eats, likes, bites

在心理词典中,动词包括:eats(吃)、likes(喜欢)、bites(咬)等。

P → with, in, near

介词包括:with(和……一起),in(在……里面),near(在……附近)等。

det → a, the, one

限定词包括:a(某个),the(这个),one(一个)等。

让我们以“The dog likes ice cream”(狗喜欢冰激凌)一句为例。我们大脑中的句法剖析器首先注意到单词“the”,并开始在心理词典中查询这个单词,它一边搜寻这个单词的用法规则,一边确定它的词性。显然,这是一个限定词(det),剖析器随之画出树形图的第一根树枝(当然,从植物学的角度来看,一棵树是不可能这样先枝后干,逆生长的):

和其他词语一样,限定词只是某个相关短语的组成部分。通过核查限定词的用法规则,剖析器可以辨认出这个短语。根据用法规则,限定词是用来构成名词短语(NP)的。这棵树因此继续生长:

大脑必须记住这个悬垂结构。剖析器明白,“the”这个单词只是名词短语的组成部分,如果要使这个名词短语完整起来,就必须找到其他一些词语来填补剩下的部分——在这个例子中,至少需要一个名词。

与此同时,这棵树还在继续生长,因为名词短语不能单独存在。根据名词短语的用法规则,剖析器面临着几种选择:这个刚刚“长出”的名词短语可以是句子的一部分,也可以是动词短语的一部分,还可以是介词短语的一部分。不过,如果我们从“根部”入手,这个问题就好解决了:所有的单词和短语最终必须装入一个句子(S)之中,而所有的句子又必须以名词短语开头。因此,如果想让这棵树继续生长,就有必要动用一下句法规则:

现在,剖析器将两个有待补齐的分枝暂存到记忆之中:一个是缺少名词(N)的名词短语,一个是缺少动词短语(VP)的句子。

在这棵树中,树枝N下面空空荡荡,这意味着接下来出现的应该是一个名词。当句子中的第二个单词“dog”映入眼帘时,这个预测就得到了验证,因为根据规则的核实,“dog”正属于名词的范畴。就这样,“dog”一词融入树中,与“the”一起构成了一个完整的名词短语:

现在剖析器可以将名词短语从记忆中清除了,它需要解决的是一个不完整的句子(S)。

到目前为止,我们已经可以推测出这个句子所要表达的部分意思。在名词短语中,名词是整个短语的中心语,它是短语所要表达的主要内容,而短语中的其他部分都是这个中心语的扮演角色。根据心理词典中关于“dog”和“the”的定义,剖析器可以解读出这个短语的含义:一只已经提到过的狗。

接下来的单词是“likes”,很明显,这是一个动词(V)。既然出现了一个动词,那么就必然存在一个动词短语,而这恰好是剖析器所预料的结果,因此它立即被拼接到句子之中。对于动词短语而言,仅有一个动词还不够,它还需要一个名词短语作为自己的宾语。剖析器由此做出预测:接下来应该出现一个名词短语。

下一个出现的是名词“ice cream”,它正好可以作为一个名词短语来填补树枝NP下出现的空缺。就这样,剖析器完成了最后一块拼图:

“ice cream”一词完成了建构名词短语的任务,因此它不必再保存于记忆之中。名词短语完成了建构动词短语的任务,所以它也可以被丢到一边,最终由动词短语将这个不完整的句子补齐了。当记忆中所有不完整的分枝都被清理干净后,一切都变得豁然开朗:我们听到的是一个要素齐全、合乎语法的句子。

当剖析器将一个个分枝拼接起来的时候,它也在解读这个句子的意思。剖析器所利用的工具是心理词典和各种搭配规则。动词是动词短语的中心语,所以句中的动词短语所强调的是“likes”。在动词短语中,名词短语是动词的宾语,根据心理词典对“likes”一词的解释,它的宾语是指被喜欢的对象。因此,句中的动词短语所表达的意思是“喜欢冰激凌”。位于时态动词前面的名词短语是这个动词的主语,根据我们的心理词典,“likes”一词的主语是动作的执行者。通过将主语“The dog”和动词短语“likes ice cream”的语义综合起来,剖析器就可以确定这个句子的意思:一只先前已经提到过的犬科动物喜欢上了一种冰冻的甜品。