《决策与判断》第六部分常见陷阱_决策与判断全本免费在线阅读

本书的这一部分关注困扰决策者的三个常见问题。第19章探讨过度自信的问题，第20章讨论自我实现的预言，而第21章分析了一种被称做“行为陷阱”的特殊情境。同时每一章还提供了如何在实践中避免出现这些问题的技巧。

第19章　过度自信

这里发生泄漏的几率是一万年都难遇的。

——乌克兰能源与电气大臣Vitali Skylarov在切尔诺贝利核泄漏事件发生前2个月这样说道

（引自Rylsky， 1986年2月）　　　　　　　　　　　　　

在人们的决策中，过度自信是一个最为普遍的问题，其所带来的潜在破坏性也是最大的。正如欧文·贾尼斯（1982）在他对群体盲思所进行的研究中提到的那样，美国人的过度自信使日本人在二战期间成功偷袭了珍珠港。同样，在美国的挑战者号航天飞机失事的灾难中，过度自信也扮演了重要的角色。在挑战者号航天飞机的第25次发射之前，美国宇航局（NASA）的官员对飞行风险的估计是十万分之一（Feynman， 1998， 2）。这样的风险估计大致等于航天飞机在三百年的时间内每天发射，也只可能产生一次事故。

约瑟夫·基德的例子

美国宇航局真的是对成功过分自信？还是仅仅需要看上去很自信？因为在这样的情境中，自信的程度是很难测量的，因此有关过度自信的最具有说服力的证据来自严格控制的实验中。

最早也是最著名的三个实验是由斯图尔特·奥斯坎普（Stuart Oskamp）在1965年完成的。奥斯坎普要求8位临床心理学家、18位心理学专业的研究生以及6位心理学专业的本科生阅读一个有关“约瑟夫·基德”的个案研究。约瑟夫·基德是一位29岁的男子，曾经经历过“青春期失调综合症”。这个个案被分成四个部分。第一部分介绍了他是一个退伍的老兵，现在在一个花艺工作室做商业助理，第二部分介绍了基德12岁以前的童年时代，第三部分介绍了基德的中学和大学生涯，第四部分介绍了他服役的经历以及往后的生活。

参与实验的人在读完每一段故事之后都要回答一系列相同的问题。这些问题都来自个案，但是要求被试基于这样的信息对基德的人格形成一个临床判断。问题通常有五个迫选的备选答案，并且在每个项目之后，被试要估计他们的答案在多大程度上是正确的。这些信心的评分从20％（在准确度的机遇水平之外，毫无信心）到100％（完全确信）。

有些令人惊奇的是，心理学家、研究生和本科生之间的评分并没有显著差异，所以奥斯坎普将三个群体合并到一起来对结果进行分析。他发现信心随着被试阅读的信息量的增大而增长，但是准确度却并非如此。

在阅读完个案研究的第一部分之后，被试正确回答了26％的题目（稍高于机遇水平的期望值），并且他们的平均信心得分为33％。这些数字显示出了相当接近的一致性。然而，当被试阅读了更多的信息时，信心与准确度之间的差距增大了（见图19.1）。被试阅读的材料越多，他们就会变得越自信——即使准确度并没有随着增加的信息而显著增长。在他们读完个案研究的第四部分之后，在奥斯坎普的被试中，有超过90％的人对于他们的回答过于自信。

该实验进行之后的若干年里，已经有一系列研究发现人们往往对他们的判断过于自信，特别是当他们难于做出准确判断的时候。比如说，利希滕斯坦和菲什霍夫（1977）进行了一系列实验并发现人们对自己的正确性有65％～70％的信心，但实际上他们只有50％的时候是正确的。

在第一个实验中，利希滕斯坦和菲什霍夫要求人们判断12个儿童的图画是来自欧洲还是亚洲，并且估计每一次判断正确的可能性。尽管仅仅有53％的判断正确（非常接近随机水平），可是平均的信心评分却达到了68％。

图19.1　斯图尔特·奥斯坎普（1965）发现当被试阅读了更多的信息时，他们估计的准确度（自信心）与实际的准确度之间的差异就越大。

在另一个实验中，利希滕斯坦和菲什霍夫给人们呈现了12只股票的市场报告，并请他们来预测在给定的时间段内这些股票将会看涨还是看跌。他们再一次发现，尽管这些预测只有47％是正确的（稍低于预期的机遇水平），但平均的信心评分达到了65％。

又完成了几个研究之后，对于在两可判断中准确度和信心之间的对应关系，利希滕斯坦和菲什霍夫得出了如下结论：

当准确度接近机遇水平时过度自信达到最大。

当准确度从50％增加到80％时，过度自信会随之减少；当准确度超过80％时，人们通常会变得不自信。换句话讲，在准确度达到80％左右时，准确度和信心之间的差距最小，当准确度偏离这一水平时差距会逐渐变大。

准确度与信心之间的分离与决策者的智商水平无关。

对于该研究的早期批评认为，产生这些结果的原因很大程度上是由于实验者总是询问人们一些晦涩或琐碎的问题，但近期的研究已经在一些更为普遍的判断上重复得到了利希滕斯坦和菲什霍夫的发现。举例来说，在一系列包含多于10000个独立判断的实验中，李·罗斯和他的同事发现，当要求被试对他们自己的行为以及他人行为进行预测时，人们表现出了大约10％～15％的过度自信（Dunning， Griffin， Milojkovic，&Ross， 1990；Vallone， Griffin， Lin，&Ross， 1990）。

这并不是说人们总是过度自信的。戴维·罗尼斯和弗兰克·耶茨（David Ronis&Frank Yates， 1987）发现，过度自信部分取决于信心的评分如何得出以及决策者做出了何种类型的判断（一般知识性题目似乎会导致相对较高程度的过度自信）。同样有一些证据表明，桥牌高手、专业赌徒以及国家气象台的预报员——他们在做出判断后都会收到有规律的反馈——表现出较少或没有表现出过度自信（Keren， 1987；Lichtenstein， Fischhoff，&Phillips， 1982；Murphy&Brown， 1984；Murphy&Winkler， 1984）。不过，研究结果表明，就大部分人而言，过度自信现象是普遍存在的。

极度自信

如果人们确信答案正确又会怎样？在这种情况下他们正确的几率有多大？1977年，菲什霍夫、斯洛维奇和利希滕斯坦实施了一系列实验来考察这个问题。在第一个实验中，被试回答了大量一般知识性问题并且估计了答案正确的可能性。比如说，他们回答了苦艾（absinthe）是一种利口酒（liqueur）还是一种宝石，并且要在一个.50～1.00的量表上估计信心程度（这个问题作为读者调查中的第21题出现）。然后，实验者检验了那些被试们完全确信是正确回答的准确度。

他们发现，当被试报告百分之百确信自己的答案时，他们的正确率往往只有70％～85％。你对自己在第21题上的回答有多大信心？正确答案为苦艾是一种利口酒，然而很多人将它与一种被称做紫水晶（amethyst）的宝石相混淆。

为了确保该结果不是由于对概率的误解所致，菲什零夫、斯洛维奇和利希滕斯坦（1977）再次进行了一个实验，这一次，信心大小取决于回答正确的可能性与不正确的可能性之间的比率（比如2∶1， 3∶1等）。这样，被试可以采用3∶1的正确可能性来表达自己的信心，而无需借助概率性的75％。

菲什霍夫、斯洛维奇和利希滕斯坦（1977）发现，当信心估计大约为3∶1时，信心与准确度相当一致，可当信心从3∶1提高到100∶1时，准确度却没有明显提高。当人们将正确的比率设为100∶1时，他们实际上只有73％的时间是正确的。即使当人们将正确的比率设为10000∶1～1000000∶1时——表示完全确信——他们也仅有85％～90％的正确率（本应该相应给出6∶1～9∶1的信心评分）。[1]

最后，菲什霍夫、斯洛维奇和利希滕斯坦（1977）将实验重复了三次，将其作为一项附加检验以确保被试理解并且认真执行了任务。在一次重复中，比率和概率之间的关系在20分钟的发言中被加以详细解释。被试们得到一张说明各种比率估计与概率之间对应关系的图表，并且他们被告知使用比率评分来表达不确定性的微妙之处（特别强调了如何使用1∶1和2∶1之间的比率来表达不确定性）。然而，即便如此，被试还是对他们的答案表现出了毫无根据的信心。当实际比率大约为4∶1的时候，他们至少给出了50∶1的比率；当他们应该给出5∶1的比率时，他们却给出了1000∶1的比率。

在另一次重复实验中，研究者询问被试是否会接受一项金钱上的赌博，这项赌博基于被试认为正确比率为50∶1或更高的那些题目答案的准确度。在42名被试中，有39名愿意参与这项赌博——尽管他们的过度自信将导致总共140多美元的损失。在最后一次重复实验中，菲什霍夫、斯洛维奇和利希滕斯坦（1977）实际是让被试们进行了一次赌博。在该研究中，19名被试中的13名同意以他们答案的准确度来进行赌博，然而在他们认为正确比率为50∶1或更高的那些问题中，12％的回答是错误的（并且如果实验者不加以免除，所有人都会损失1美元至11美元不等）。这些结果表明：（1）当人们真正确信自己是正确的时候他们仍然是过度自信的，（2）并不完全是由于漫不经心地执行任务或错误理解如何评价信心而导致过度自信。事实上，琼·西伯（Joan Sieber，1974）发现，希望表现出色的动机越强烈，过度自信也会随之而增长。

当过度自信变成一种严重的错误

当处在较之几美元更为利害攸关的时刻人们还会过度自信吗？尽管道德上的考虑明显限制了实验室中可以考察的范围，但至少有一条证据提醒我们，即使在人们的生命处在安危未定的时刻过度自信依然存在。这一证据来自对死刑的研究。

在一次对冤案的全面回顾中，雨果·贝多和迈克尔·拉德莱（Hugo Bedau&Michael Radelet， 1987）找到了350个有文件备案的实例，这些实例中无罪的被告都被判定在美国有重大的或潜在重大的罪行——即使被告被判断为“罪行在合理怀疑范围之外”。其中有五个案件，判决之前就已经及时发现了错误。但其他的被告就没有这么幸运了：67人被判处25年以下的监禁，139人被判处终身监禁（25年或更长），并且有139人被判处死刑。在贝多和拉德莱发表评论的时候，已经有23例死刑被执行。

校准

“校准”是指信心与准确度的匹配程度。在给定的信心水平上，并且当所有判断中准确判断的比例与判断正确的期望概率相一致时，决策者就获得了最佳的校准。换句话说，认为正确可能性为90％的判断中有90％是正确的，认为正确可能性为80％的判断中有80％是正确的，依此类推。

当个体的判断被单独考虑时，就没有什么办法来校准了。一个在读者调查中对第21题回答了“.70”的决策者如何进行好的校准？仅有的一个评估校准的可靠方法，那就是在大量判断中将准确性和信心加以比较（Lichtenstein，Fischhoff，&Phillips， 1982）。

正如有许多种方法测量信心一样，我们有几种用以评估校准的技术。一种方法就是简单地计算平均信心得分与全部准确判断所占比例之间的差异。举例来说，决策者可能在一组一般知识条目上具有平均80％的信心，但是他可能只有60％的回答是正确的。这样一位决策者就是过度自信了20个百分点。

尽管这种测量校准的方法非常方便，但它有时候却可能导致错误，比如，考虑一名整体准确率和平均信心得分都是80％的决策者。这个人是否达到了完美的校准呢？并非如此。这个人可能在一半题目的判断上抱有60％的信心而在其他题目上抱有100％的信心（平均起来达到了80％的信心），并且在两种信心水平上都达到了80％的准确度。这样的人在60％确定的时候信心不足，而在100％确定的时候又显得过于自信。

一个更为简洁的方法是在不同自信水平下检验准确性。当对准确度在不同的自信水平下进行单独计算时，可以创建一条“校准曲线”，其横轴代表信心，纵轴代表准确度。图19.2包含了两条校准曲线——一条表示天气预报员关于降雨量的预测，另一条表示医生对于肺炎的诊断。正如你所看到的，天气预报员几乎完美地实现了校准；平均看来他们的预测非常接近实际的天气（与人们通常的观点恰恰相反！）。而内科医生的校准程度则很糟糕；他们的大多数预测都在对角线以下，说明他们过度自信。

还有其他的方法来评估校准，其中一些借助了复杂的数学工具。举例来说，最常用的方法之一是计算一个叫做“Brier分数”（以统计学家Glenn Brier的名字命名）的数字。Brier分数可以被分割为三个成分，其中之一就对应于校准。Brier分数中的校准成分是每个类目下正确率和与该类目存在关联的概率之间的均方差的加权平均值（关于该技术中校准方面的详细介绍，见Yates，1990）。

图19.2　本图包含了天气预报员关于降雨量的预测矫正曲线（空心圆点），以及医生对于肺炎的诊断的矫正曲线（实心圆点）。天气预报员几乎完美地实现了校准，但是内科医生的校准表现出了很明显的过度自信现象（毫无根据地认为病人得了肺炎）。天气预报员的数据来自Allan Murphy和Robert Winkler（1984）的一份报告，内科医生的数据来自于Jay Christens-en-Szalanski和James Bushyhead（1981）的一个研究。

一种最有意思的校准测量方法被称做“惊奇指数”（surprise index）。惊奇指数被用来对未知数量进行区间判断。举例来说，假定你对读者调查第12题的回答是在一英尺和一英里之间，并对此抱有90％的信心（见读者调查第12b题来了解你真正的90％置信区间）。因为正确答案实际上应当大于一英里，所以这个答案被记做“一个惊奇”。惊奇指数其实就是置信区间之外的判断所占的百分比。

在一篇关于校准研究的主要论述中，利希滕斯坦、菲什霍夫和劳伦斯·菲利普斯（1982）进行了几项研究，这些研究要求被试给出98％的置信区间（如，一些区间有98％的机会包含正确回答）。每个研究中，惊奇指数都超过了2％。将所有信息可用的实验数据加以平均——总共接近15000次判断——惊奇指数达到了32％。换句话讲，当被试98％确信一个区间包含了正确答案时，他们做到了68％正确。过度自信再一次被证明是一种规律而非例外。

你过度自信吗？爱德华·拉索和保罗·休梅克（1989）开发了一套自测题目来测量一般知识问题上的过度自信（见图19.3）。尽管一次全面的校准评估需要大量的判断，但该测验能够给你提供一个粗略的反馈，使你了解自己在某个信心水平上对一般知识问题的惊奇指数。拉索和休梅克对1000多人实施了该测验，发现只有不超过1％的人正确回答了9道或更多的题目。大多数人答错了4～7道题目（惊奇指数为40％～70％），反映出了过度自信的基本程度。

图19.3　本测验将使你们了解到你们对于一般性知识是否存在过度自信的情况（Reprinted with permission from Rosso&Schoemaker， 1989）。

信心与准确度之间的相关

尽管会过度自信，但信心与准确度存在相关还是有可能的。举一个例子，假定一名决策者在70％自信的情况下具有50％的准确度，在80％自信的情况下具有60％的准确度，在90％自信的情况下具有70％的准确度。在这样一个例子中，信心与准确度之间存在着必然的联系，尽管这个决策者一直表现出20％的过度自信。

那么问题出现了，信心与准确度之间存在相关吗——如果不考虑决策者是否过度自信的话。如果当准确度提高时信心评分也增加的话，准确度就能够通过决策者的自信程度而得以预测。如果不是这样，信心就是一个准确度的错误指标。

很多研究都已经考察了这一问题，并且结果往往显示信心与准确度之间并不存在什么关系。为了加以说明，考虑下面两个关于军队历史的问题：

问题1：一个距离超级强国A并不太远的国家政府，在讨论过其政党体系的某些变化之后，开始拓展其与超级强国B之间的贸易。为了扭转该国政府及其贸易中的变化，超级强国A向该国派出了军队并且武装支持原来的政府。谁是超级强国A——美国还是前苏联？你对于自己答案的正确性有多大信心？

问题2：20世纪60年代，超级强国A对其边境的一个小国发动了一场突然袭击，目的是推翻当时掌权的政府。这次侵略行动以失败告终，并且多数侵略士兵被击毙或者囚禁。谁是超级强国A？并且再次回答，你对自己的答案有多确定？

这些问题在读者调查中作为第9题和第10题出现。如果在第一个问题中你猜是前苏联，并且在第二个问题中选择了美国，那么两道题目你都回答正确了。第一个问题描述的是1968年前苏联入侵捷克斯洛伐克，而第二个问题描述的是美国入侵古巴的猪湾。大多数人至少答错了其中一个问题，不管他们感到有多么自信。

在《今日心理学》（Psychology Today）1984年11月那一期里，菲利普·津巴多和普劳斯发表了包括这两个问题以及各种有关强权国家冲突在内的一份读者调查的结果。该调查包含了10个关于美国及前苏联的事件、声明或政策方面的描述，而在每个描述中，所有能够识别出美国和前苏联的标志都被删除了。读者的任务就是判断超级强国A是美国还是前苏联，并在一个9点量表上标出他们对每一个回答的信心有多大。

基于对3500人的调查，我们能够得出两点结论。首先，答题者并不能够将美国和前苏联的军事行动区分开。即使他们仅仅通过抛硬币就可以平均正确回答10道题目中的5道，《今日心理学》的读者们（比一般公众更多地参与政治并接受过更好的教育）的总体平均值为4.9道题目正确。仅有54％的答题者正确地指出前苏联是入侵捷克斯洛伐克的超级强国A，并且25％的答题者误认为是前苏联而非美国发动了猪湾侵略。这些发现说明美国人之所以谴责前苏联的行动和政策，很大程度上是因为他们是“苏维埃”，而不是因为他们与美国的行动和政策存在根本的区别。

我们发现的第二个结论是：人们的信心评分实际上与他们的准确度并无联系（每一名答题者信心与准确度的平均相关仅有.08，接近零）。总体而言，答对了9或10道题的人并不比那些成绩较差的答题者具备更强的信心，并且高信心的答题者与低信心的答题者得分基本相同。

这并不意味着信心评分是随机得到的；高信心的答题者在一些方面还是表现出了与众不同之处。即使一般性样本中两性比例十分均衡，在全部的高信心答题者（比如那些在9点的信心量表上平均分达到8以上的人）中，却有2/3是男性，而且80％的年龄在30岁以上。高信心答题者增加国防开支的意愿是低信心答题者的两倍，同时高信心答题者对前苏联政府的不信任程度也是低信心答题者的两倍。这些答题者在调查中达到的平均成绩为5.1道题目正确——几乎就是机遇反应的期望值。因此，高信心的答题者难以将美国和前苏联的军事行动区分开来，但是他们对于这种错误知觉的区分非常自信并倡导增加国防开支。

正如前面所谈及的，许多其他的研究发现了在信心与准确度之间只有很小的相关或根本没有相关（Paese&Sniezek， 1991；Ryback， 1967；Sniezek&Henry， 1989， 1990；Sniezek， Paese，&Switzer， 1990）。这种一般性的模式在关于目击者证词的研究中表现得更为突出。总体而言，这些研究表明目击者对其证词所持的信心与证词的实际准确程度并无太大联系（Brown， Deffenbacher，&Sturgill， 1977；Clifford&Scott， 1978；Leippe， Wells，&Ostrom， 1978）。肯尼思·德芬巴赫（Kenneth Deffenbacher， 1980）曾经发表了一篇包含43个独立研究结果的综述文章，这些研究考察了在目击证人身上存在的准确度和信心之间的关系，他发现在2/3的“法庭相关”研究（如，在这些研究中，被试在观看一起事先策划好的模拟犯罪之前并未得到任何说明）中，信心与准确度之间存在并不显著的正性相关。这些研究发现使得《目击者证词》的作者伊莉莎白·洛夫特斯（Elizabeth Loftus， 1979， p. 101）警告说：“人们不能过于自信地为任何事情提供任何绝对的担保。”

在临床研究中也发现了类似的结果。在最初一项探讨该话题的实验中，路易斯·戈德堡（Lewis Goldberg， 1959）在临床诊断中评估了信心和准确度之间的相关性。戈德堡所感兴趣的是临床医生是否能通过Bender-Gestalt测验（一项被广泛用来诊断脑损伤的测验）来准确探测出器质性的脑损伤。他给4名有经验的临床心理学家、10名临床实习生、8名非心理学家（秘书）呈现了30个不同的测验结果。这些结果中的一半来自于脑损伤病人，另一半来自无器质性问题的精神科病人。被试要做出判断来指明每个病人是“器质性的”还是“非器质性的”，并在一个标有“断定的”、“相当确定的”、“这样认为”、“可能”或“瞎猜”的评价量表上指出他们的自信程度。

戈德堡发现了两个令人惊讶的结果。首先，全部三组判断者——有经验的临床医生，临床实习生以及非心理学家——都正确地对65％～70％的病人进行了分类。不存在基于临床经验的差别；秘书们表现得同那些具有4～10年临床经验的心理学家们一样好。其次，在个体诊断准确性和信心程度之间并没有显著的关系。判断者们在错误诊断的病例上所持有的信心通常与正确诊断的病例一样。后续研究也已经发现在癌症、肺炎的诊断过程中存在错误的校准（见图19.2），还包括其他一些严重的医学问题（Centor， Dalton，&Yates， 1984；Christensen-Szalanski&Bushyhead， 1981；Wallsten， 1981）。

如何才能减少过度自信

在两个考察如何改进校准的实验中，利希滕斯坦和菲什霍夫（1980）发现，在进行200次判断并得到集中的表现反馈之后，一开始过度自信的人能够学会更好地进行校准。同样，哈尔·阿克斯（Hal Arkes）和他的助手们发现在呈现五个富有迷惑性的难题之后，通过给被试提供反馈可以消除过度自信（Arkes， Christensen， Lai，&Blumer， 1987）。这些研究表明过度自信可以被消除，尽管它们的实用价值还比较有限。很少有人会因为希望能够更好地进行校准而接受特殊训练。

有用的是一项能够使决策者便于“携带”至各种决策中并加以利用的技术——重量轻、持久性强，并且易于在一系列环境下加以运用。的确，我们好像有一项这样的技术。最有效的改进校准的方法看起来非常简单：

停下来思考一下为什么你的判断可能是错误的。

阿舍·科莱特（Asher Koriat），利希滕斯坦和菲什霍夫（1980）最先证明了这项技术的价值。在他们的研究中，被试回答了两组二选一的一般知识性问题，第一组呈现控制条件的指导语，第二组呈现原因条件的指导语。在控制条件下，被试选择一个答案并估计回答正确的可能性（在.50和1.00之间）。在原因条件下，被试选择答案之前需要为每个备选答案列出支持以及反对的理由。

科莱特、利希滕斯坦，以及菲什霍夫发现在控制条件的指导语下，被试表现出了典型的过度自信，但是在列出正反两方面理由之后，他们表现出了非常好的校准（与利希滕斯坦和菲什霍夫研究中那些被提供了集中反馈信息的被试大致相当）。在为每个备选答案列出支持以及反对的理由之后，被试变得不那么自信了，（主要是因为他们更多地使用.50而较少使用1.00了）并且准确度更高了（大概是因为他们对于自己的回答投入了更多的思考）。

在接下来的实验里，科莱特、利希滕斯坦和菲什霍夫发现，本质上并不是因为支持的理由导致了校准的改善；而是反对的理由使然。当被试列出理由支持他们所偏好的答案之后，过度自信并没有降低。而当被试思考他们偏好的答案如何可能是错误的时候，校准才会得到改善。尽管这些发现可能部分是由于“社会需要特征（social demand characteristics）”的存在（如，被试感觉指导语暗示他们降低信心水平），但其他研究也证实了反对理由能够改善校准水平（如Hoch， 1985）。

这些结果回顾了第3章讨论过的保罗·斯洛维奇和菲什霍夫（1977）的研究，在那个研究中，当被试思考为什么一些实验结果与他们所设想的有所不同的时候，后见之明的偏差（hindsight biases）减少了。从斯洛维奇和菲什霍夫的研究开始，有几个实验都已经解释了如何通过考虑其他结果或答案的可能性来减少各种判断上的偏差（Griffin， Dunning，&Ross， 1990；Hoch， 1985；Lord， Lepper，&Preston， 1984）。

正如查尔斯·洛德，马克·莱珀和伊莉莎白·普雷斯顿（Charles Lord，Mark Lepper，&Elizabeth Preston， 1984， p. 1239）所指出的：“人们对于相反的可能性存在盲点，这种观察由来已久。在1620年，培根曾经写下‘肯定比否定能够激起更多的感动和兴奋是人类智力中特殊并且永恒的错误。’”在第20章，这个盲点——以及它所带来的某些后果——将会被详细探讨。

结论

对过度自信进行研究是非常重要的。在大多数研究中，平均信心水平从没有超过准确度10～20个百分点以上。因此，只要决策者对自己判断的正确性不是非常确定，过度自信就不会成为一种灾难。与航天飞机的空间探索相似，最具破坏性的错误校准形式是不恰当的确信。

总之，本章的研究为我们提出了几条应对错误校准的策略：

√首先，你可能会希望标记出那些需要特别考虑的判断。当判断难于做出或极端自信的时候过度自信达到最强。在这样的情况下，谨慎前行非常必要。

√其次，你可能会希望“重新校准”你非常自信的判断以及其他人的判断。正如利希滕斯坦和菲什霍夫（1977）所观察到的，如果一个决策者抱有90％的信心而只有70％～75％的准确度，最好的办法可能就是将“90％的信心”看做“70％～75％的信心”。

√同样，你可能会希望将具有“百分之百信心”的判断自动转变为较低程度的信心。百分之百的信心在预测人们如何行动的时候显得尤其没有根据（Dunning， Griffin， Milojkovic，&Ross， 1990）。

√最重要的是，如果你对某个答案感到极度自信，思考一下另外一个答案可能正确的原因。尽管你可能不会改变想法，但是你的判断却可能会得到更好的校准。

第20章　自我实现的预言

假如图20.1中的每张卡片都是一面有数字而另一面有字母，并且有人告诉你：“如果某张卡片的一面是一个元音字母，那么它的另一面就是一个偶数。”你需要翻开哪些卡片来判断这个人是不是在撒谎？（见你对读者调查第39题的回答。）

当彼得·沃森和菲尔·约翰森-莱尔德（Peter Wason&Phil JohnsonLaird， 1972）将这种类型的题目[2]呈现给128名大学生时，他们发现“E和4”是最为常见的回答（59名学生这样选择），而“E”是其次最为常见的回答（42名学生这样选择）。换句话说，大多数学生选择了那些翻过来就能够证实那条陈述的卡片。仅有5名学生给出了正确答案：“E和7”。

如果这个答案看起来难以理解，就试着这样考虑问题。要检验的规则是“如果是元音字母，那么就是偶数”，或者更为基本，“如果X，那么Y”。证明一个“如果……就”类型的陈述错误惟一的办法就是找到一个“是X而不是Y”的例子（比如，元音和奇数）。因此，仅有的能够证伪的方法就是，找出那些具有元音字母和奇数的卡片（“E和7”）。而具有偶数或辅音字母的卡片并不重要。

图20.1

尽管看起来简单，这个问题对于大多数人来说却是极其困难的。罗宾·道斯（Robin Dawes， 1975）甚至发现五名“最受尊敬的”的研究数理的心理学家中有四位都不能解决这一问题。本章的焦点就在于为什么这样的问题如此困难，以及它能够给决策者带来什么启示。

再次猜猜看

“你将得到三个数字，它们符合我头脑中的一个简单规则。这一规则关注的是任意三个数字之间的关系，而与数字本身的绝对大小无关，比如它不是那种类似于‘所有数字都大于（或小于）50’的规则，等等。

你的目标是通过写出由三个数字组成的若干组数字组来发现这个规则……在你写下每组数字之后，我会告诉你这些数字是否符合这一规则……

没有时间限制，但你应该通过尽量少的数字组来发现它。

记住你的目标不是简单地找出符合这一规则的数字，而是发现规则本身。当你非常自信地认为自己已经发现了这个规则时，不要过于匆忙，将它写下来……有什么问题吗？”

在检验假设的实验中，沃森（1960）将这些指导语——以及一组范例数字2，4，6——呈现给29名大学生。他头脑中的规则一直是“三个数字按照从小到大的顺序排列”，但是他发现只有六名被试第一次回答就正确说出了这条规则。作为粗略的解释，下面列出了一名典型被试的手稿：

被试4（一名19岁的女性）：8， 10， 12。

主试：那些数字符合规则。

被试：14， 16， 18。

主试：那些数字符合规则。

被试：20，22，24。

主试：那些数字符合规则。

被试：1， 3， 5。

主试：那些数字符合规则。

被试：规则就是以任意一个数字开头，然后每次加上2来得到下一个数字。

主试：那不是正确的规则。请继续……

与四卡片问题一样，沃森发现被试总是更多地去证实规则（如8， 10， 12）而不是证伪规则（如12， 10， 8）。这种倾向被称做“证实偏好”（confirmation bias）。尽管“证实偏好”已经成为了一个万能词组（Fischhoff&BeythMarom， 1983），它还是经常被用来表示决策者偏好与假设一致的信息，而不是那些不一致的信息。

在一项关于人们如何检验假设（预感、规则、理论等等）的深入分析中，乔希·克莱曼（Josh Klayman）和Young-Won Ha（1987， pp. 220）认为证实偏好是“正性实验策略”（positive test strategy）的结果，这是一种有用的直觉，但是它“就像任何通用直觉一样……并不总是最优的，可能在某些情况下导致非常严重的困难。”在第15章已经讨论了一组困难——当决策者主要关注于正性的共生事件时，由共变评估所产生出来的问题（比如，Jan Smedslund所做的护士研究，1963）。下一部分将给出另外一个例子。

自身永存的社会信念

1979年，马克·斯奈德和南茜·坎托（Mark Snyder&Nancy Cantor）发表了三个关于社会知觉中证实偏好的实验。第一个实验中，所有被试都得到了一位名叫简的女子的例子——她在一些情况下会表现得很外向而在其他情况下却表现得较为内向。举例来说，简在慢跑的时候会与陌生人自由交谈，但在超市里面她会感到害羞和胆小。阅读这个例子两天以后，被试会被要求评估两个命题：（1）简非常适合一个通常与外向性相联系的工作（房地产销售），或者（2）简非常适合一个与内向性相联系的工作（图书馆研究员）。一些被试被告知简正在申请这份工作，而另一些被告知她已经获得了这个工作。简单而言，我们将关注那些认为她正在申请这份工作的被试。

要判断简是否非常适合这项工作，以及她将会有多适合这个工作，这些被试需要列出与事例相关的所有依据。斯奈德和坎托发现，那些考虑简在申请房地产销售工作的被试往往列出她的外向性作为相关依据，而那些考虑简在申请图书馆研究员工作的被试往往列出她的内向性作为相关依据。换句话说，两种条件下的被试都把“证实”性证据看得比“证伪”性证据更有关联性。此外，这种证实偏好与人们对于简在所考虑工作上的适合性所做出的判断有关。被试越喜欢证实性的证据，他们就会认为简越适合——无论她申请什么职位。

第二个实验基本重复了第一个实验，但是有几处小的改动（如：将“非常适合”一词改为“适合性”来避免过于强调证实性）。而在第三个实验中，被试只需要列出他们想要了解一个工作候选者的哪些方面，从而来评估这个人有多适合房地产销售或图书馆研究员的工作。和前面一样，证实性的信息比证伪性的信息出现得更加频繁。比如，当考虑那些房地产销售工作的申请者时，被试提问“这名申请者待人友好吗？”比“这名候选者有多害羞？”的频率高得多。马克·斯奈德和威廉·斯旺（William Swann）（1978）所做的几个实验也获得了类似的结果。

这些结果带给我们的启示可以很好地拓展到职业领域之外。斯奈德和斯旺（1978， pp. 1211-1212）观察到：

【人们】可以为自己创造一个这样的世界，在这个世界中，假设会变成自我验证性的假设，并且信念会变成自身永存的信念……从这个观点出发，就不难理解为什么如此多关于他人的普遍信念（特别突出的是，明显错误的社会及文化刻板印象）会非常难以改变。即使一个人将要对这些信念产生足够的怀疑并主动地对它们进行验证，他仍然可能会“找到”那些他需要用来证实及坚持这些信念所需要的全部证据。这样，最终这个人将会持有一种安全的（但是毫无根据的）感觉，即这些信念一定是正确的，因为它们通过了十分恰当和精确的评估过程。

皮格马利翁效应

按照人们应该成为的样子去对待他们，并且你要帮助他们变成他们能够成为的样子。

——歌德（cited in Peter， 1977）

“自我实现的预言”（self-fulfilling prophecy）一词在1948年由罗伯特·默顿（Robert Merton）提出。用默顿的话说（1948， pp. 195-196）：“起初，自我实现的预言是指对情况的错误定义引发了一种新行为，这种新行为使得最初的错误概念变为了真实的。自我实现预言的外在效果是使得错误的盛行得以延续。因为预言者会引用真实的事件进程来证明他从一开始就是正确的……这就是社会逻辑的反常之处。”简言之，自我实现的预言是错误的概念，但它们是那种最终被证明是正确的错误概念。

在1968年，罗森塔尔和雅格布森发表了当前在自我实现预言方面最为著名的研究。在该研究中，小学教师得到了关于自己学生的一些诊断性信息，这些信息暗示，占总数20％的学生将会在未来的学业中获得巨大发展。在8个月以后的IQ测试中，这些学生的成绩确实比其他学生长进得快。

这一发现值得关注是在于，这些高成就者是随机选出的。显然，教师给予了这些“巨大发展者”更多的赞扬和关注，这样导致的结果就是，这些学生确实比其他人发展得更好。罗森塔尔和雅格布森将这种现象称为“皮格马利翁效应”（来自萧伯纳的戏剧《皮格马利翁》，剧中希金斯教授通过教给一个卖花姑娘如何着装和说话，使她真正变成了一位“淑女”）。

从罗森塔尔和雅格布森的研究开始，已经有400多个实验对人际期望的自我实现性质进行了探讨，并有超过100个实验专门对教师期望的效果进行了检验（Brophy， 1983；Jussim， 1986；Rosenthal， 1987， December）。总之，这些研究表明，尽管效果经常是中等程度的，但教师期望对学生的表现具有重要影响（Brophy， 1983）。有趣的是，同样有“学生皮格马利翁”的证据存在。罗伯特·费尔德曼（Robert Feldman）及其同事发现，学生的期望——既对于他们自己的表现也对于他们老师的表现的期望——能够影响师生关系和学生的表现，且影响程度并不亚于教师的期望（Feldman&Prohaska， 1979；Feldman&Theiss， 1982）。

在男人们的头脑里

尽管罗森塔尔和雅格布森（1968）探讨的是师生之间的互动，皮格马利翁效应却并不仅仅局限于教室之内。对于皮格马利翁效应最富戏剧性的描述之一就是马克·斯奈德、伊莉莎白·坦克（Elizabeth Tanke）和埃伦·伯奇德（Ellen Berscheid）（1977）所做的研究，该研究探讨了男人对女人吸引力的刻板印象是如何能够自我实现的。

实验的第一部分，在通过电话相互认识的过程中，随机配对的男性和女性被录下了十分钟的对话。然而，女性被试所不知道的是，实验者已经事先告知男性被试“实验中的其他人已经告诉我们，当头脑中形成了交谈者的形象时他们会感觉更舒服。”于是男人们用一次性成像的相机照了相，并得到了一张女性的快照（表面上是他们的搭档）。事实上，这些快照是从事先准备好的八张照片中随机选择的。这些照片中有四张是那些被评定为具有高吸引力的女性，有四张是被评定为没有吸引力的女性。这样就引导男性被试相信他们的搭档是外表吸引人的还是外表没有吸引力的。男性被试的快照被丢弃在了一旁，女性被试根本没有得到任何可以形成头脑图像的信息。

在相识谈话之后，每个男性被试完成了一份问卷，内容是关于他对与其谈话的女性的印象。问卷中包括了很多与一个有吸引力的人有关的刻板印象特征——善于交际、镇定、幽默等等。结果并不出人意料，与那些认为交谈同伴没有吸引力的男性相比，认为交谈同伴外表吸引人的男性在随后的评定中，认为同伴更加亲切、镇定、幽默以及善于社交。这是在第4章所讨论过的晕轮效应的一个例子。

更为重要的是几名独立评分者所做出的判断，他们倾听了谈话录音的剪辑。一组评分者在每段谈话中仅仅倾听男性的声音，而另一组评分者仅仅倾听女性的声音（每组评分者都既有男性又有女性，尽管在评分过程中并不存在显著的性别差异）。根据这些评分者做出的判断——他们既不知道实验假设也不知道被试实际的外表吸引力——与以为交谈同伴没有吸引力的男性相比，那些认为自己正在与一位有吸引力的女性交谈的男性被试听起来更加善于交际、温情、宽容、有趣、大胆、外向、幽默，并且有更强的社会适应性。并且从反应推测，与开始被知觉为不具吸引力的女性相比，那些开始被知觉为外表具有吸引力的女性在实际中听起来也更加富有吸引力（比如善于交际、镇定等等）——尽管被试是被随机分配到各种实验条件下的，而且男人的预想与女人实际的外表吸引力没有任何关系。

正如斯奈德、坦克和伯奇德（1977， pp.661， 663）所提出的：“最初在男人们的头脑里形成的事实，现在已经在与他们互动的女人的行为中变成了真正的事实——一个即使是最幼稚的观察判断者也能加以辨别的行为事实，这些观察者仅仅评估了谈话录音中女性的贡献……知觉者最初的错误归因已经变得真实：刻板印象真正作为一种自我实现的预言而发挥了它的作用。”

自我实现的种族刻板印象

这类自我实现的预言——使刻板印象得以延续的一类——在种族歧视中扮演着关键角色。卡尔·沃德、马克·赞纳和乔尔·库珀（Carl Word， Mark Zanna，&Joel Cooper， 1974）发表了关于这个问题的一项研究。

沃德、赞纳和库珀在导言中解释说，人们往往会通过非语言线索表现出他们对别人的态度。比如说，当人们对某人持有正性态度的时候，他们就会让自己和那个人靠得相当近，表现出高度的目光接触、更为直接的肩部相向，以及更多的身体前倾。另一方面，人们往往避开那些名誉不佳的人。比如，他们会很快中止与这种人的会面，并且与他们保持更远的距离。沃德、赞纳和库珀在两个实验中考察了这种偏见——第一个实验中，白人被试面试白人和黑人实验助手，第二个实验中，白人实验助手面试白人被试。所有的被试和助手都是男性。

第一个实验中，被试会在实验室中遇到两个表面上也是被试的人（但实际上是主试的助手）。然后另外一个助手出现，再过一会儿主试走了进来。主试告诉四名“被试”他们将与另外四个团队在一场市场活动中进行较量。但主试解释说，他们的团队还需要一个人，并且团队中的一员将要对四个候选者进行面试以挑选出第五位成员。然后他们会进行一次事先做过手脚的抽签仪式来使得被试成为最后的面试官。

安排四次面试的原因在于隐瞒真正的研究目的（即，直接比较白人考官对待白人、黑人候选者有什么区别）。第一次面试（一直是位白人候选者）被简单地当做面试的热身，而最后一次面试从来没有发生过（告知被试申请者已经打电话取消约定）。令沃德、赞纳和库珀（1974）感兴趣的是第二次和第三次面试。一半被试会首先面试一名白人候选者，再面试一名黑人候选者；另一半被试会首先面试一名黑人候选者，再面试一名白人候选者（尽管后来发现顺序并不会导致差异出现）。在这些面试中，候选者——同样是实验者的助手——被训练过以保证其行为符合标准方式，并且他们不知道任何实验者设计该测试的目标。

沃德、赞纳和库珀（1974）测量了面试过程中的几个特征，包括：（1）面试时间长短，（2）面试官出现语言错误的次数（假定反映了不适感），以及（3）面试官和候选者之间的物理距离。第一个变量由主试测量。第二个变量由独立的评分者进行计分，这些评分者边听面试的录音边对发言结巴、词语重复等诸如此类的内容做记录。第三个变量，物理距离，是通过一种特殊而富有创造性的方法加以测量的。当被试进入面试考场的时候，候选者已经坐下，而主试假装发现没有面试官的椅子了。然后他会要求被试去邻屋拿一把椅子，被试放置椅子的位置提供了其与候选者之间物理距离的测量指标。

沃德、赞纳和库珀（1974）发现被试面试白人候选者所花费的时间比面试黑人候选者多出了35％，在面试黑人时比面试白人时多犯了50％的语言错误，并且椅子放置的位置距离，黑人候选者比白人候选者要远7％。所有差异在统计上都是显著的。

但这还不是全部。在证明了这些差异之后，沃德、赞纳和库珀又进行了第二个实验来评估这种职业面试表现中的歧视效应。在第二个实验中，白人被试由一名白人助手面试，该助手采用第一个实验中对待黑人的方式或者对待白人的方式来对待这些白人被试。就是说，在前一种实验条件下，面试官坐得离候选者更远，犯更多的语言错误，并且更早地中止面试。

沃德、赞纳和库珀（1974）发现，那些被以第一个实验中对待黑人候选者的方式进行面试的被试在面试过程中表现得更加糟糕（由观看过面试录像的独立评判人进行评定），他们犯了50％以上的语言错误，并在后来认为面试官不够友好。因此，第一个实验中黑人被试所遭遇的对待方式使得白人被试在第二个实验中表现得很差——这为种族刻板印象如何能够自我实现提供了一个有力的证明。

结论

尽管关于自我实现的刻板印象方面的研究主要局限在男性被试研究上（Christensen&Rosenthal， 1982），其他自我实现的预言和证实偏好已经在男性和女性被试身上得到了充分的证明（见三篇精彩的综述，Darley&Fazio，1980；Miller&Turnbull， 1986；Snyder， 1984）。人们寻求证实性证据的倾向——不管是逻辑问题解决的任务、职业面试、在班级背景下，还是其他方面——是广泛存在且业已确定证实的。

此外，克利福德·迈纳特、迈克尔·多尔蒂和瑞安·特韦尼（Clifford Mynatt， Michael Doherty，&Ryan Tweney）所做的两个实验表明证实偏好可能难以消除。第一个实验中，迈纳特、多尔蒂和特韦尼（1977）创造了一种模拟研究环境，在这一环境中被试必须发现计算机屏幕上支配“粒子运动”的某个规律。被试随机得到三种指导语中的一种：（1）证实性指导语，他们被告知一名科学家的基本工作就是证实理论和假设；（2）证伪性指导语，他们被告知一名科学家的基本工作就是推翻理论和假设；（3）检验性指导语，他们仅被告知一名科学家的工作就是对理论和假设进行检验。

迈纳特和他的同事发现证伪性指导语实际上对证实偏好没有任何影响。如果不考虑被试得到了哪一种指导语的话，他们在全部实验的大约70％中会寻求证实性的证据。

在第二个实验中，迈纳特、多尔蒂和特韦尼（1978）扩展了证伪性的指导语。采用与前面相同的步骤，他们将被试随机分配到两种条件中的一种：（1）一个没有指导语的控制组，或者（2）一个强线索组，在这个群体中，被试会得到详尽的指导语，强调证伪和多假设验证的价值。然而，结果又是，这样的指导语效果并不明显或根本没有效果。

如何避免证实偏好以及自我实现的预言？尽管针对这一问题的研究相对较少，但有一种策略可能是关注动机因素（Snyder，待发表）。比如说，斯奈德、坎贝尔和普莱斯顿（1982）通过警告面试官他们面试的人可能会把某些问题看做思想封闭或偏见（如指向证实性刻板印象的问题）来消除证实偏好。一旦该研究中的面试官对这种可能性变得敏感，他们就会大致等同地采用证实性和证伪性证据进行衡量。

另外一个有价值的策略可能是采用鼓励证伪性回答的方式来组织问题。决策研究者杰伊·拉索和保罗·休梅克（1989）讲述了一个他们以前学生的故事——杰伊·弗里德曼采用这一策略取得了巨大成功。作为Kidder， Peabody和Company三家投资公司的顶尖分析师，弗里德曼将在制定财务建议之前收集证伪性证据。拉索和休梅克（1989， pp. xiv-xv）这样描述了弗里德曼的方法：

在收集公司的信息时他会故意问一些设计好的问题来“证伪”他认为是真实的那些信息。比如，如果弗里德曼认为免洗尿布生意正在价格上变得没有竞争力，他会问执行官们一个相反的问题，如“一次性尿布的价格竞争是不是正在变得更有优势？”这类问题使他比其他竞争分析师更容易了解真实情况。

正如第19章所谈到的，通过思考自己的判断在哪些情况下可能是错误的，决策者能够降低过度自信并提高他们的决策质量（Koriat， Lichtenstein，&Fischhoff， 1980；Lord， Lepper，&Preston， 1984）。这样一种方法可能也会减少自我实现的预言和自我实现的刻板印象。但是在当前，这种可能性是不确定的，需要通过心理学的研究来证实——或证伪——其正确性。

第21章　行为陷阱

“谢谢您打电话过来。目前我们的接线员正忙。请您在线等待，您的电话会按照顺序得到回应。”

一分钟过去了，两分钟过去了，你开始考虑是继续等待还是过会儿再拨。可能你被转到了无人接听的线上，好像电话在森林里空响，无人应答……

另一方面，挂断可能意味着重新开始。其他人可能会排到队伍的前面，你就丧失了原有的优先权。还是继续等吧，谁知道呢，可能你就是下一个了。

你又等了一会儿，三分钟，四分钟。谁打了那么久啊？你在想。

最后你拿定了主意。如果下个60秒内仍然没有接线员回应，你就挂断。30秒过去了，40秒过去了，50秒了，但是还是没有回答。当最后期限到来的时候，你犹豫了一下，却仍抱有希望，但最后还是在沮丧中狠狠挂了电话。

这样的情形看起来是不是很熟悉？这个情况具备“行为陷阱”的所有特征。行为陷阱（behavioral trap）是指这样一种情境：个人或者群体从事一项很有前景的工作，最后却变得不尽人意并且难以脱身。这个定义类似于约翰·普拉特（John Platt， 1973）在有关社会陷阱的开创性工作中所提出的关于社会陷阱的定义。本章将着重思考普拉特、约翰·克罗斯和梅尔文·盖耶（John Cross&Melvin Guyer， 1980）所做的分析。由于陷阱可能是非社会性的也可能是社会性的，因此我们将使用更加宽泛的“行为陷阱”的概念，而不是传统意义上的“社会陷阱”。

陷阱的分类

1980年，克罗斯和盖耶发表了关于陷阱和反陷阱的分类。用克罗斯和盖耶（1980， p. 18）的话说就是：“当我们避免可能有利的行为时反陷阱（不作为的过失，sins of omission）就发生了，而当我们进行可能有害的行为时则出现陷阱（作为的过失，sins of commission）。”如上所述，一个常见的陷阱就是等待接线员。常见的反陷阱则包括令人厌恶的清理工作（随着时间的推移情况将变得越来越乱）以及逾期的回信（这种情况下耽搁时间越久越令人尴尬）。

生活中存在着几种典型陷阱，每一种都有相应的反陷阱。根据克罗斯和盖耶的分类，我们把陷阱主要分为五类：

延期陷阱

无知陷阱

投入陷阱

恶化陷阱

集体陷阱

尽管这些陷阱常常结合在一起形成混合陷阱，但是每一种陷阱都基于不同的运作原理。因此，以下部分将分别讨论这些陷阱。

延期陷阱

如果你发现按时进食或者锻炼有些困难，那么你应该知道这是由于延期陷阱（time delay traps）的作用造成的。在延期陷阱中，暂时的满足与长期的后果相冲突。无知地开始食用一种好吃的甜食或者吸几根香烟可能在未来许多年以后导致肥胖或者肺癌。或者，在反陷阱中，对目前不愉快事件——对于某些人来说是有氧运动，对于另一些人可能是牙科检查——的逃避，最终可能导致心肌梗塞或者牙周炎。这类陷阱和反陷阱的关键在于短期的相对小的痛苦和愉快足以引起长期的、破坏性的甚至是致命性的后果。

任何短期后果与长期后果冲突时都可能成为一个延期陷阱。典型的冲突包括：喝酒的快感与第二天的宿醉，当前没有保护措施的性行为的快感与延期的感染艾滋病或者非意愿怀孕的可能性，可抛弃产品的方便性与长期的环境污染，受到信用卡影响的“先买后付”的选择与长期财务计划，以及体罚的短期效果与最终的糟糕结果。甚至伊甸园里的苹果也可以被看做是延期陷阱中的一种诱饵——诱惑的最终象征与它潜在的令人上当的后果。

无知陷阱

人们在延期陷阱中通常意识到了他们行为的长期后果。暴饮暴食者通常非常清楚体重上升的后果，吸烟者有时候甚至把香烟称为“癌症小棒”。关于体重上升或者罹患癌症的警告在延期陷阱中很难起到有效作用。

无知陷阱（ignorance traps）与此不同。在这些陷阱中，行为的负面后果并不被理解或者开始时并没有被预见到。例如，19世纪时吸烟者并没有意识到吸烟与肺癌之间的关系，如果当时人们知道这些信息的话，很多人可能不会去吸烟（当然，吸烟仍然具有延期陷阱的特征，上百万人尽管知道两者之间的联系却仍然深陷其中）。

当一段新生活开始时，无知陷阱通常较为常见。例如，大学生们有时会选择一个并没有原先设想的那么有趣的专业，工人们有时发现他们在做一份与他们期望大相径庭的工作，恋人们有时会发现现在的伴侣并没有原先那样吸引人了。这些陷阱是生活中不可避免的一部分，尽管有一些方法可以使被陷阱捕获的概率降到最低（减少或者避免不良后果的技巧会在本章稍后部分讨论到）。

一个特别悲剧性的无知陷阱是美国农业曾经对于杀虫剂的依赖。当合成的有机杀虫剂如DDT在20世纪40年代被引进时，它们看起来似乎是保护作物免受虫害的有效手段。美国农民很快就将它们作为控制害虫的手段。

然后，两件没有预料到的事情发生了：（1）鸟类和其他害虫捕食者开始相继死去，（2）害虫对那些使用过的化学药品产生出了抵抗能力。虫害开始增加了。人们发明了新型杀虫剂，然而再次出现了能够抵抗化学药物的害虫品种。经历了四亿年的进化之后，不经历战斗这些害虫是不会投降的。

数十年来，这场战役一直在美国的农场上进行着，但是每一轮新的“化学武器”只会引起更加严重的虫疫。美国农作物由于虫害而遭受的损失比例在1950～1974年间翻了一番（Robbins， 1987），根据加州大学的昆虫学家统计，在加州，25种最严重的农业害虫中有24种是杀虫剂诱导产生或由杀虫剂导致破坏性增强（Luck， van den Bosch，&Garcia， 1977）。每年，美国使用超过1亿磅的杀虫剂，它们对野生动物、植被、水域及人类安全十分有害。

投入陷阱

克罗斯和盖耶（1980）在他们的分类中没有明确包含投入陷阱（investment traps），但是最近这类陷阱成为了大量研究的课题。当以前花费的时间、金钱或者其他资源让人们做出了他们本不会做出的选择时，投入陷阱就出现了。用决策理论的术语来说，这些陷阱导致了“沉没成本效应”（sunk cost effect）。

哈尔·阿克斯和凯瑟琳·布卢默（Hal Arkes&Catherine Blumer， 1985）在10个不同的小型实验中举例说明了沉没成本效应。在其中的一个实验中，要求一群被试解决以下的问题：

作为一个航空公司的董事长，你已经投资了1000万美元来开发一个项目。目的是制造一种不会被传统雷达监控到的飞机，也就是隐形飞机。在该项目的90％已经完成时，另外一家公司已经开始为隐形飞机做市场宣传了。并且，很明显，与你们的飞机相比，他们的飞机速度更快、也更经济。问题是：你还会把剩余的10％的研究资金用于完成隐形飞机项目吗？

你可以通过查看“读者调查”的第6题去检查你的结果。阿克斯和布卢默发现85％的被试倾向于完成该项目，尽管完成后的飞机与市场上已有的飞机相比处于劣势。给予另外一组被试另一个版本的问题，其中并没有提到先前的投资，结果只有17％的人支持在该项目上投资。一千万美元的沉没成本造成了二者的差异。

在另外一个实验中，阿克斯和布卢默（1985）显示沉没成本可能具有持续的效应。在一个研究中，60位剧院的老顾客到售票口去买俄亥俄大学剧院的季票。这些人所不知道的是，他们随机买到了下面三种票中的一种：（1）普通的15美元的票，（2）打了2美元折扣的票，（3）打了7美元折扣的票。有幸买到打折票的被试被告知折扣是剧院部门的促销活动之一。

每种票有不同的颜色，于是阿克斯和布卢默（1985）能够收集每场演出的票根并且发现多少被试观看了每场演出。出于分析的目的，剧院的演出季被分成了两个部分，每个部分有6个月，期间共有5场演出。尽管阿克斯和布卢默在第二个演出季中并没有发现显著差别，但在前6个月中，他们发现那些买了全额票的顾客比那些买了折扣票的顾客（不管其折扣的幅度）观看演出的次数要多。所以，即使是微不足道的2美元投入也会持续影响行为长达6个月。

这个研究之所以非常重要，原因有以下两点。首先，它表明沉没成本效应不仅仅局限于纸笔测量；其次，它还显示了投入的不同可以对行为产生相对持久的影响。正如巴鲁克·菲施霍夫（Baruch Fischhoff）和他的同事（1981， p.13）在他们名为《可承受的风险》（Acceptable Risk）一书中所述：“美国任何一个大型的水坝只要开工就不会半途而废的事实表明，一点点的水泥都能在一个关键问题中起作用。”

恶化陷阱

恶化陷阱（deterioration trap）与投入陷阱类似，除了行为的成本与收益随着时间而变化之外，这些陷阱——克罗斯和盖耶（1980）叫它们“可变强化陷阱”——出现在当原先高回报的行为逐渐变得不那么有收益或者变得更具有惩罚性时。

恶化陷阱的典型例子是海洛因成瘾（尽管海洛因成瘾也可以被看做是延期陷阱或者无知陷阱）。起先，海洛因使用者发现这种药物令人欣快。但是，随着时间的推移，他们产生了抗药性，因而需要更多的药物量才能达到同样的感觉。最后，海洛因使用者用该药物已是为避免不适症状的出现而不是体验愉悦感。起先的愉悦体验最终成了摆脱不掉的噩梦。

同样的过程也能出现在“杀虫剂成瘾”中。尽管杀虫剂的使用在一开始也可能是无知陷阱，但逐渐地，它转化成为恶化陷阱。据《生物科学》（BioScience）杂志的一篇报告，杀虫剂依赖性的工作原理如下：

起初的一段时间，由害虫所导致的粮食损失显著减少……但是最终，某种主要的、个别的或者杀虫剂引致的害虫产生了抗药性。这个问题是通过增加（多样化）杀虫剂和改变杀虫剂来解决的，但是替代品的有效时间变得更短暂，因此需要更加频繁地使用以达到与原来相同的控制力。此时，种植者要想从这种策略中解脱出来，即便不是不可能，也会变得更困难了。随着他们继续使用杀虫剂，他们的问题也变得越来越严重（Luck，van den Bosch，&Garcia，1977， p. 607）。

在那些没有看到这一过程如何发展的旁观者看来，恶化陷阱和反恶化陷阱常常会产生一种荒唐或自我毁灭性的行为。在斯金纳（1980， pp. 150-151）的回忆录《笔记》（Notebooks）中，他描述了下述行为的例子：

比尔的卡车是他惟一的收入来源，就像渔夫的船或者农民的奶牛与拉犁的马一样。岛上咸咸的海风、缺乏维护的道路，以及醉酒司机的虐待几乎要使它报废了。挡风玻璃上布满了呈辐射状的裂纹；挡泥板已经腐锈成了薄片，弯折着，扭曲着；只有一块块的垫料还残存在座椅的弹簧中。

我曾经请比尔帮忙把我们的船运到山下去。卡车停在一个乡村商店前面的下坡路上。我上了车，坐到了残缺不全的座位上。比尔推了一下卡车，跳了进来，抓住挡把，借助仅有的一点速度挂上了挡。一阵激烈的震动后，马达开始咆哮。比尔……拼命地踩下油门，一只手始终在气门上。看到汽车发动了，他感到非常满意，于是快速地向那家商店倒车以便掉头。可是卡车熄火了，横在路上。我们三四个人一起推，其中包括两个从一辆小汽车里出来的年轻人，卡车堵住了他们的路……我们回到了那个下坡上，再一次将车发动起来，结果又熄火了。比尔不时地跳出来，打开发动机罩，用扳钳调整着什么。我们向错误的方向前进了大约160米，发动机咆哮着，并且在比尔加油的时候拒绝加速。最后他解释道，他的发动机启动装置被送去修理了，可能被游船送回来。如果他花两个小时时间去取回发动机，情况会怎样呢？而他却没去取。48小时之后他的车仍然停在下坡路上。没人愿意雇他的车了。

他为什么继续？从某种意义上讲他没有选择。他喝酒花光了他的收入……（但是他的）没有选择并不是这个故事的全部。他对那辆卡车狂热的关注是（对他所付出辛劳的回报的不断降低）的结果。比尔不愿从卡车那里一无所获。假如那是一匹马的话，他也许早就把它打死了，因为一匹年迈的老马也是它主人专注于在一项所费时间越来越长的工作上的强化物。比尔的卡车也正被他往死里打呢。

对于一个不知道比尔以前经历的旁观者而言，他的行为可能显得荒诞可笑。但是同样的动力在恶化的社会与感情关系中也同样起作用。当人际关系随时间逐渐变坏时，它们就构建了一个非常难以逃遁的反陷阱。

集体陷阱

与前面的陷阱不同的是，集体陷阱（collective traps）涉及多个人。在集体陷阱中，对个人利益的追逐导致了对集体不利的后果。一个简单的例子是高峰期的交通堵塞。上百人倾向于在同一时间开车，但是假如每个人都按照自利的原则行事，那么大家都会遭殃。

集体陷阱——数学博弈论中“社会困境”（socical dilemma）的近亲（Dawes， 1980）——受到的研究关注比其他所有陷阱加在一起还要多。最著名的集体陷阱是囚徒困境，在这种情境下，两个囚犯分别关在单独的牢房里并且被提供了如下的说明：

区律师：听着，比尔小子。如果你们中的任何一个都不认罪的话，我们有足够的证据让你和你的同伙入狱一年。我们真正想要的是，你们当中至少有一个人认罪。如果你认罪但是你的同伙不认罪，我们将判处你的同伙十年徒刑，而你将被无罪释放。但是，如果你不认罪但是他认罪了，你就会被关押十年。

野蛮比尔：如果我们都认罪呢——我们都会被判十年吗？

区律师：不。那样的话，我们会基于你们的诚实把每人的徒刑降为五年。

在一个标准的囚徒困境中，两个囚犯都面临着同样的选择——无论同伙选择什么，他们都最好选择坦白。假如他们的同伙拒绝承认，那么他们无罪释放；否则，他们起码不会被判十年徒刑。困境就在于如果每个囚犯都追求自己的利益而坦白，他们就会分别受到五年徒刑的惩罚，而这比两人都不认罪的惩罚要重（见图21.1）。

图21.1　囚徒困境问题。每一格对角线右上部分为罪犯A的陈述，对角线左下部分为罪犯B的陈述。

另一个著名的集体困境是生物学家加勒特·哈丁（Garrett Hardin， 1968）命名的“共有地的悲剧”（the tragedy of the commons）。在这个陷阱的经典版本中，一个放牧部落使用公共牧场来放养牲畜。起初没有问题，但渐渐地，牛的数量达到了土地承载能力的极限。此刻，增加一头牛对放牧人的效用有两方面——正面和负面的效用。正面效用为增加一头牛所带来的收益。这个收益完全归属于增加这头牛的放牧人。负面效用则是增加一头牛所导致的过度放牧。这个成本由该部落所有的放牧人共同承担，并且对每个放牧人来说，可以忽略不计。结果就产生了一个两难困境——每个人都从增加一头牛中获益，但是对个人利益的追求导致了一个不尽如人意的结果。哈丁把共有地悲剧与另一些问题联系起来，比如人口膨胀、污染、全球资源衰竭以及核武器的扩散等等。

共有地悲剧在很多方面类似于臭名昭著的“床垫问题”，这是由托马斯·谢林（Thomas Schelling， 1971）最先描述的一个集体反陷阱。在床垫问题中，成千上万辆汽车从科德角（Cape Cod）度完周末后，由一条双车道高速公路返回，就在此时，一个床垫从货车的顶端不为人注意地掉了下来，掉入了向北行驶的车道上。问题来了：谁会停下来移开这个床垫呢？

通常，答案是谁也不会。远离该床垫的、处于忙碌交通中的人们不知道问题在哪，所以不会来移开。正在绕过床垫的人们已经等了如此之久，以至于他们只想着如何绕过它。在漫长的等待之后，他们最不情愿做的就是花几分钟时间把床垫从车道上移开了。而已经绕过床垫的人们不再有动力去挪开它。

床垫问题与紧急情况下的集体反陷阱很相似（责任分散了，旁观者干涉的速度就慢了）。这也可能部分解释了政治“冷漠”为何在美国如此普遍。不幸的是，正如道格拉斯·霍夫施塔特（Douglas Hofstadter， 1985， p. 757）贴切的评论：“个体水平的漠不关心会导致社会大众丧失理智。”

你愿意为一美元付多少钱

心理学研究中最著名的行为陷阱之一是美元拍卖的游戏——这个游戏中结合了集体陷阱、投入陷阱、无知陷阱的特征。这个游戏由马丁·舒比克（Martin Shubik， 1971）发明，在该游戏中，1美元被卖给出价最高的人。普拉特（1973）认为该拍卖游戏具有四个简单的规则：

1.拍卖进行时出价者之间不得有任何交流。

2.出价由5美分开始，每次只能加5美分。

3.出价不能超过50美元（为避免竞价者狂热的热情）。

4.出价最高的前两名都必须付出他们所出的价格，即使这1美元只能给予出价最高的那个人（说到底，拍卖商得弥补他的损失）。

尽管游戏听起来非常简单，但有两个“无回报的点”值得注意。其一是当两个出价最高的人所出总额超过1美元时，那么拍卖商就能稳获利润（例如，一个人出50美分而另一个人出55美分）。此时，拍卖在单个竞价者眼中是有吸引力的（1美元只要出55美分就能到手），但是个人利益的追求已经导致了竞价者整体的损失。

第二个要当心的地方是当第一个人出价超过1美元时。为了明白为何人们愿意出大于1美元的钱来获取1美元，我们考虑一个人出了95美分，而此时恰好有另一人出了1美元时此人的困境。如果是你，你怎么做？如果你在该点放弃，你就必定损失95美分。另一方面，如果你出价1美元零5美分，你就赢得了1美元，损失仅为5美分。问题是，你的竞争对手也面临着同样的状况。

于是结果是，拍卖常常会出现几美元的竞价。

拍卖游戏广受关注的一个原因是它很类似于核武器竞赛以及其他的国际冲突（Costanza， 1984）。在1980年，艾伦·特格（Allen Teger）出版了《投资过多，无法退出》（Too Much Invested to Quit）一书，整本书都是关于一美元拍卖游戏的，并且很多结论都可以直接应用到军事冲突上。据特格称，被试们起先是被自己的利益所驱使，但是渐渐地他们的动力变了。随着竞价的进行，被试们开始关注赢得竞争、保住面子、使损失最小化，并且惩罚竞争对手，因为对手使他们陷入窘境（通常，只有两个竞价者在最后还保持活跃）。特格发现，当开价达到1美元时，双方都觉得他们是被对方逼迫继续下去的，并且很多被试认为对方继续下去是疯狂的——他们并没有认识到同样的力量作用于双方的参与者。这个“镜像”酷似核武器竞赛。

深陷泥潭

一旦竞价者在一美元拍卖游戏中被套——“深陷泥潭”，巴里·斯塔（Barry Staw， 1976）这样形容——他们通常会继续打击对方直到对方最终放弃为止。乔尔·布罗克纳和杰弗里·鲁宾（Joel Brockner&Jeffrey Rubin， 1985，p. 5）把这种机制称做“诱捕”（entrapment），被定义为“一个决策过程，此过程中人们持续提高对已经被证明是失误的先前选择行为的忠诚度，目的是使他们以前的投入显得合情合理。”

对诱捕的最先研究之一是由斯塔（1976）所做的。斯塔呈现给商学院学生们一个假想但是非常详细的情境。这是一家开始亏损的高科技公司，他让学生设想自己是公司的财务副总裁。根据该情境，公司的董事们决定额外投资1000万美元的研发资金给两个最大部门中的一个——消费产品部或者工业产品部。在研究的第一部分，半数的学生被问及哪个部门应该得到额外的资金（并且要为自己的决定高度负责），而另一半学生则被告知公司中另一位财务官员已经决定哪个部门将获得这笔资金（且不需要为自己的决定负责）。然后大约半数的学生被告知在接下来的5年里得到资金的部门的确比未得到资金的部门表现得要更好（即，决策的确带来了积极的结果），而半数的学生则被告知相反的结果（即，决策带来了消极的结果）。

在该实验的第二部分，学生们得知，公司的管理者对公司价值的重新评估将决定另外2000万美元的研发资金如何分配，并且学生们可以他们认为合适的任意方式将这笔钱在消费和工业部门之间进行分配。斯塔（1976）发现了“诱捕”现象——对一个失误行为持续增加投入。如图21.2所示，开始选择不成功并且要担负个人责任的学生平均分配了大约1300万美元到以前选择的部门——比其他学生多出约400万美元。当责任重大时，失误导致了更多的投入，而非更少。

斯塔（1976）的实验激发了很多后续的研究，并且在他的研究之后，出现了几种对诱捕行为的理论分析（其中最优的两个是Brockner&Rubin， 1985，及Staw&Ross， 1987）。尽管对诱捕的研究起步不久，但已经有实验证据表明：（1）在被动地维持现状的情境中（例如自动的再投资计划）比在主动选择继续与否的情况下更加有诱捕倾向（Brokner， Shaw，&Rubin， 1979）；（2）诱捕在竞争的社会条件下比非竞争的社会条件下来得激烈，这一点至少对男性而言是成立的（Rubin， Brockner， Small-Weil，&Nathanson， 1980）；（3）诱捕不仅在个体中，而且在群体中也会出现（Bazerman， Giuliano，&Appelman， 1984），尽管这可能仅对女性成立（Brockner&Rubin， 1985）。

图21.2　图为诱捕的一个例子。巴里·斯塔（1976）发现，相对于不必对先前的投资负责的学生以及先前投资获益的学生而言，起初投资失败的学生在后来的投资中会投入更多的资金在先前的失败项目上面。

在恋爱关系中也有诱捕现象存在。卡里尔·拉斯布尔特（Caryl Rusbult，1980）发现大学生在角色扮演的实验中更加忠实于恋爱伴侣——并且较少可能与他人约会——如果他们的关系持续了一年而不是一个月。因此，在其他条件相同的情况下，学生在该关系中投入的时间是与他们未来的忠诚度直接相关的。

胜利解脱

尽管陷阱难以逃脱，但它们很少能够永远持续。最终，等待的人们挂断了电话。公司官员停止把钱投入到不良项目中。令人不悦的恋爱关系解除了。通常，问题不在于行为陷阱会永远抓住受害者不放，而是回头看时，人们希望他们更早地从陷阱中逃离出来。[3]

幸运的是，有一些方法可供减弱或避免诱捕（请回顾：Brockner&Rubin，1985；Cross&Guyer，1980；Staw&Ross， 1987）。一种由巴里·斯塔和杰里·罗斯（Barry Staw&Jerry Ross， 1987）提出的技术是在做出一个承诺之前“把结束的成本明确化”——就是说，在投入一项长期风险之前要清楚地考虑中止行为的代价。实验证据表明，事先将投入成本清晰化可以使诱捕减弱或者消除（Brockner， Rubin，&Lang， 1981；Nathanson et al.， 1982）。

在布罗克纳和鲁宾（1985， p. 203）关于诱捕的专著中，他们建议决策者在任何可能的时候事先设定极限，并且用下述方法利用所设定的极限：

并不是说达到极限所设定的数量就马上主动退出，决策者应该利用他们所设定的极限点，作为一个重新衡量继续或终止行为的决策时间点，而无论他们事先已经投入了多少。也就是说，如果个人决定继续投资而超过事先设定的极限的话，应该以对未来的（而不是过去的）成本—效益分析为基础。

在商业情境下，斯塔和罗斯（1987年3～4月）建议应该先回答这样一个问题：“如果今天我是首次从事这个工作，发现这个项目正在进行中，我会支持它还是放弃它？”这个问题也可以很容易地运用到其他非商业情境下（比如，“假如今天我是第一次遇到这个人，我会被他吸引吗？”）

另一个技巧是让不同的人进行最初的和后续的决策（Bazerman， Giuliano，&Appelman，1984；Staw&Ross， 1987）。例如，商业贷款可以由一位银行官员发放，然后由另一位人员来审查是否可以继续签约。这样做的好处在于，后来的决定是由不必为先前错误负责的人做出的（因此基本没有提高投入的理由）。但是，这种方法也存在缺点，即决策的不连贯性以及“组织记忆”（institutional memory）的潜在损失。

结论

行为陷阱是生活中普遍存在的一部分，如果不加以关注，可能会导致严重后果。斯塔（1981）提出，很多有害的个人决策或者公共政策都是由连续的、不断升级的投入所导致（比如在越战中的种种事例）。普拉特（1973， p. 651）则更加极端，他说：“陷阱代表了我们当今几乎所有难以驾驭的，大规模的城市、国家以及国际间出现的问题。”

但是，陷阱并不总是不好的。正如布罗克纳和鲁宾（1985）所说，有些情况下，人们刻意让自己进入陷阱中。比如恢复中的嗜酒者，以前的吸烟者、暴饮暴食者常常鼓起勇气在陷阱中等待着，目的是可以使他们“陷在”健康的生活方式里。

当陷阱是合意的时候，决策者应该：

√回避有关诱捕成本的信息。

√尽量不要做出限定或评估继续这样做将花费的成本。

√做出一个公开的、坚持下去的承诺。

√与那些有相同目标的人们竞赛。

与本书中讨论的直觉以及偏好相同，行为陷阱并不总是好的或者坏的，心理学研究的目的也并不在于评判这些问题的好坏。而且，对诱捕行为的研究目的——以及一般性的决策研究——是更加局限的。它的目的是，让我们进一步了解决策过程是如何操作的，并且，在这样做的过程中，让我们的决策质量得到提高。

[1]尽管这些结果看起来可能与利希滕斯坦和菲什霍夫早期的结论（被试80％正确时过度自信达到最低）相互矛盾，但事实上并非如此。被试非常自信时他们的平均准确度只有70％～90％，这一事实并不意味着在70％～90％正确的时候他们总是非常自信的。

[2]一些版本的问题使用了符号而不是E、K、4和7，但是问题的逻辑结构都是一样的。

[3]有些集体陷阱，比如说人口膨胀、饥饿、环境恶化以及军事冲突等，可能是这条法则的例外。这些问题可能有永久性的烦人特征，并且有待时间检验人类是否有能力解决它们。

《决策与判断》第六部分 常见陷阱

第19章 过度自信

约瑟夫·基德的例子

极度自信

当过度自信变成一种严重的错误

校准

信心与准确度之间的相关

如何才能减少过度自信

结论

第20章 自我实现的预言

再次猜猜看

自身永存的社会信念

皮格马利翁效应

在男人们的头脑里

自我实现的种族刻板印象

结论

第21章 行为陷阱

陷阱的分类

延期陷阱

无知陷阱

投入陷阱

恶化陷阱

集体陷阱

你愿意为一美元付多少钱

深陷泥潭

胜利解脱

结论

《决策与判断》第六部分常见陷阱

第19章　过度自信

第20章　自我实现的预言

第21章　行为陷阱