《心智探奇：人类心智的起源与进化》立体视觉_心智探奇：人类心智的起源与进化全本免费在线阅读

我们从立体图开始谈起吧。它们是怎么回事，为什么它们对有些人就不起作用呢？尽管有那么多张贴画、书和拼图游戏，我还没见过谁试图将其中的原理向数百万名好奇的消费者解释。理解立体图不仅是掌握知觉工作原理的良好方式，而且还是满足心智好奇的一种方法。立体图还是自然选择杰出设计的又一个例子，只不过这一次是发生在我们自己的大脑里。

立体图利用了不止一个关于如何戏弄眼睛的发现，而是利用了四个。首先，说起来奇怪，是图片本身戏弄了我们。摄影图片、绘画、电视还有电影把我们折腾得不胜厌烦，以至于都忘了它们本是一种有益的错觉。墨迹或闪烁的磷光点能让我们笑、让我们哭甚至唤起我们的性欲。人类制作图片的历史至少已有3万年，与某些社会科学的民间传说恰恰相反，将图片看作一种描述的能力是人类共通的。心理学家保罗·埃克曼（Paul Ekman）引发了一场人类学的狂热，他证明了与世隔绝的新几内亚高地人能够辨认出照片中加州大学学生的面部表情。情绪像其他任何事情一样，被认为是与文化相关的。而一个更基本的发现则被淹没在喧嚣中：新几内亚高地人是在看照片上的内容而不是把它们当作斑驳的灰纸。

图片利用了反射，这是一个令知觉成为难题的光学法则。当从平面反射的一个光子（光能的单位）沿着一条线收缩透过瞳孔，刺激眼球内曲面上的光感受器（杆状体和锥状体）时，视觉就产生了。感受器将神经符号上传到大脑，大脑的首要任务就是弄清楚光子来自何处。然而，界定光子路径的光线一直延伸到无穷，大脑所知的全部仅仅是那个光源就在光射线上的某一处。大脑所能判断的，它或许是在一厘米远，一公里远，或者是许多光年那么远；关于第三维的信息，也就是光源到眼睛的距离，已经在投射的过程中遗失了。这种对物体距离上的不确定性，还会在上百个光感受器之间以排列组合的方式暴增——其中每一个感受器都无法刺激它的光源距离做出精准的预测。因此，任何视网膜图像都可能是由世界上无限多种三维平面的组合排列而产生的。

当然，我们并没有感知到无限的可能性；我们只确定一个，且通常是接近于正确的那个。这就是幻象产生的开端。如果布置一些物体，使其投映在视网膜上的图像与大脑的偏好中所识别物体的图像相同，而大脑就没有办法分辨出它们的差异。一个简单的例子是维多利亚时代的一项发明——通过房门窥视孔看到的是一个装饰豪华的房间，然而当门打开时，却发现房间里空空如也，原来那个豪华房间是钉在房门窥视孔上的一个玩具屋。

开始是画家，后来成为心理学家的埃德尔伯特·阿米斯（Adelbert Ames, Jr.），在其职业生涯的开创时建造了一个更为奇特的幻觉之屋。在一个这样的屋子中，满屋杂乱无章的线上悬挂着一些杆和板。但如果从外面通过墙上一个窥视孔看这个房间，这些杆和板连接起来投映为一把厨房椅子的映像。在另一个房间中，后墙从左到右逐渐倾斜，但它的角度非常古怪，使得左边低得可以抵消它在视角上的扩展，而右边高得足以抵消它在视角上的收缩。通过对面的窥视孔，这面墙投映出的是一个长方形。视觉系统不喜欢巧合：它推测一幅规则的图像来源于一些真的、规则的东西，而不是由一个不规则形状的偶然调整而产生的效果。阿米斯确实校准了一个不规则的形状才得出一幅规则的图像，他还用歪曲的窗户和地板砖来强化他狡猾的把戏产生的效果。当一个小孩站在近角而她妈妈站在远角时，这个孩子在视网膜上投映出更大的图像（见图4-1）。大脑在评估大小时也将深度考虑在内；这就是为什么日常生活中近处学步的孩子看上去并不会比远处的父母更大的原因。而现在，观察者的深度感成了它不喜欢巧合的牺牲品。墙上的每一寸地方都似乎有着相同的距离，因此解释视网膜上的物体图像就根据表面的情况，故而小孩看上去就比妈妈高得多。当她们沿着那堵后墙交换位置后，小孩就缩成了哈巴狗的大小，而妈妈则变成了威尔特·张伯伦（Wilt Chamberlain）[11]的高度。阿米斯的房间已经建在了几家科学博物馆中，如旧金山的探索馆，你可以亲眼看到（或者亲自体验让别人感受）这个令人惊叹的错觉。

图4-1

一张图片不过是布置东西的一种更方便的方式，这样它可以投映出与实际物体相同的效果。模仿的东西是位于一个平面上的，不是在一个玩具屋中，或是由线悬挂着的，它是靠涂抹颜料而形成的，而不是将木头切出形状。即使没有阿米斯式幻象，涂抹的形状也能够确定。达·芬奇曾简洁地描述过这个把戏：“视角不过就是在一面很透明的玻璃后面看一处地方，在玻璃面上画下后面的物体。”如果绘画者是从一个固定的观察位置来看风景，并忠实地复制出它的轮廓，一直到狗的最后一根毛发，那么从绘画者位置观看这幅画的人眼中映入的就是原始景色投映的相同的一束光线。在那部分视觉域中的图画与世界是没有区别的。无论什么假设迫使大脑将世界看成世界而不是看作涂抹的颜料，它们也同样会迫使大脑将图画看成世界，而不是看作涂抹的颜料。

这些假设是什么呢？我们稍后会继续探讨，不过在这里先做一个概览。平面的色彩和质地都是均匀分布的（即覆盖着规则的颗粒、波浪或斑点形状等），因此平面上点纹的逐渐变化是由光与视角造成的。世界上常有一些平行的、对称的、规则的直角形状位于平地之上，但它们看上去似乎是渐进递减式的连续；这种渐进递减的连续形成的就是视角的一种作用。物体有着规则、紧凑的轮廓，所以如果物体A的一小块被拿掉而被物体B填满那个空缺，那么A就在B的后面；而不会是看起来B的凸出的部分涌入了A缺失的一块。在图4-2中，你能体会到这些假设的作用，它们传达了一种深度的感觉。

图4-2　深度的感觉

在实践中，现实主义画家们没有在窗户上涂抹作画，而是使用记忆中的视觉图像和神奇的大脑在画布上完成作品。他们会使用的工具，包括了由细线或是刻印在玻璃板上的细痕而制成的方格坐标、穿越过画布上针孔并紧紧绑在场景和一个观察用标线装置之间的细线，照相机暗箱，投影仪，还有现代的尼康相机。当然，没有画家能够把狗的每根毛都一丝不落地画下来。绘画技巧、画布质地，以及框架形状都使得一幅画达不到达·芬奇窗户的理想状态。此外，我们几乎总是从一个与绘画者在其窗前估测的观察点不同的位置来看一幅画，这就使得映入眼中的那束光不同于真实风景所散发出的光束。这就是为什么绘画只是部分的幻觉：我们看到了绘画所描述的内容，但我们同时只把它看作一幅画，而不是现实。画布和边框向我们泄漏了差异，值得注意的是，我们用这些线索来确定我们相对于这幅图的观察点，并弥补与绘画者观察点之间的差异。我们因此能去除观看画作时所看到的失真现象，而能从画家的角度，去正确诠释那些经过调整后的形状。弥补工作仅限于此。我们去影院看电影迟到时坐到了前排，这时我们观察点和摄影机观察点（类比于透过达·芬奇窗户的画家）之间的差异被拉伸得过大，我们会看到歪歪扭扭的演员在不规则的四边形上滑来滑去。

艺术与生活之间还有一点不同之处。画家只能从一个观察点来看景色，而观看者从两个观察点来看世界：他左眼的观察点和右眼的观察点。伸出一只手指，保持静止，并闭上一只眼睛，然后闭上另一只。手指遮蔽了它背后世界的不同部分。两只眼睛有着略微不同的视觉，这种几何现象被称为双目视差。

许多动物都有两只眼睛，这样每当它们向前瞄准时，它们的视野会有所重叠（而不是为了向外看到全景），自然选择一定曾面临过将双眼的图画组合成一幅统一图像，使得大脑的其他部分都可以使用这幅图的问题。这个假想图像的名字是根据脑门中间长着唯一一只眼睛的神话人物而得来的：独眼巨人——奥德修斯在旅行中遇到的单眼巨人种族的一员。制作独眼图像的问题是，没有直接的方式可以将两只眼的视域叠加起来。大多数物体落在两个影像的不同位置，其不同视它们距离多远而定：物体离得越近，它的模拟图在两眼中的各自映像就离得更远。设想桌上有一个苹果，苹果后面有个柠檬，苹果前面有串樱桃（见图4-3）。

图4-3

你的眼睛盯着苹果，所以苹果的图像落在了每只眼睛的凹处（视网膜的平滑中心，那里的视觉是最敏锐的）。苹果在两只眼睛的六点钟方向。现在来看这串樱桃的映像，它们与苹果离得更近。在左眼，樱桃在七点钟方向，在右眼，它们在五点钟方向，而不是七点钟方向。与苹果离得更远的柠檬在左眼映像是在五点半方向，在右眼的映像是在六点半方向。比固定点离得更近的物体逐渐向着太阳穴外移；离得更远的物体则向着鼻子内移。

但这个简单叠加的不可能性为演化提供了一个机遇。只要学过一些高中的三角学，人们就可以用物体在两只眼睛上映像的差异，以及通过双目注视和双目在头盖骨中分处形成的角度，来计算物体距离有多远。如果自然选择能够连接一个神经计算机来计算三角问题，一种双眼的生物就可以粉碎达·芬奇的窗户而感受到物体的深度。这种机制就被称为立体视觉。

令人难以置信的是，几千年来竟没有人注意到这一点。科学家们认为，动物有两只眼睛的原因和有两个肾的原因一样：身体两边对称方案的副产品，这样也许当一个器官损坏了，另一个就可以备用。欧几里得、阿基米德和牛顿都没有注意到立体视觉的可能性，甚至连达·芬奇也没有完全理解它。达·芬奇没注意到，两只眼睛会看到一个球体的不同部分，左眼对它左边看得稍远些，而右眼对它右边看得稍远些。要是他用一个立方体而不是球来作例子，他就会注意到，视网膜上的投影是不同的。立体视觉直到1838年才被物理学家查尔斯·惠斯顿（Charles Wheatstone）发现。惠斯顿还是一位发明家，惠斯顿电桥就是以他的名字命名的。惠斯顿写道：

为什么艺术家不可能对任何近乎固态的物体进行忠实的描绘，答案是显而易见的了。所谓忠实描绘是指，心智对于图画和原物体本身无法区分。当用两只眼睛来看画和物体时，对于画，视网膜上投映的是两张类似的图像；而对于固态物体，两幅图像则是不相似的。在这两种情况下，感觉器官上留下的印迹，以及由此在大脑中形成的知觉都是有根本差别的。因此，画不可能与固态物体相混淆。

这么晚才发现立体视觉有些令人奇怪，因为它在日常生活经验中并不难发现。你走路的时候，将一只眼睛闭上几分钟，世界就变成了更平的地方，你可能会被门廊蹭着，或将一勺糖舀到膝盖上。当然，世界并没有完全变平，脑中仍然有着图片和电视里呈现的那种信息，比如递减、咬合、是否置于地面和质地成分。最重要的是，还有位移运动。当你移动时，你的观察点在连续改变，使得近处的物体呼啸而过，而远处的物体动得较慢。大脑将这种流态模式理解为经过一个三维世界。光学流态对结构的知觉在《星际迷航》《星球大战》中都有明显的体现，还有在一些流行的计算机屏幕保护中：逐渐离开显示屏中心的白点显示的是飞向太空（尽管真正的星星离得太过遥远，没办法令真实世界的星际舰队成员产生这样的印象）。所有这些对深度的单目线索使得单眼盲人生活不大受影响，其中包括飞行员威利·普斯特（Wiley Post）和20世纪70年代纽约巨人橄榄球队的一位外接手。大脑是一个机会主义者，还是一个数学很好的信息消费者，或许这就是为什么双目视差能长久以来一直避开科学家们审视的原因。

惠斯顿设计了第一幅完全三维的图画——立体图，这样他就证明了，心智将三角学纳入了意识。惠斯顿的想法很简单，他用达·芬奇的两扇窗户，或者实际点儿，用两台照相机来捕捉一幅图景，每台相机的位置就和一只眼睛要看的位置一样（如图4-4）。将右边的照片放在右眼前，左边的照片放在左眼前。如果大脑推测两眼在看一个三维世界，与双目视差看到的有所不同，它就会被照片所愚弄，将两张照片组合成一幅单眼图景，其中物体看上去有着不同的深度。

图4-4

不过，在这里惠斯顿遇到了一个问题，一个仍挑战着所有立体图的问题。大脑对一个平面的深度用两种方式从物理上调整眼睛。首先，尽管我一直将瞳孔描述成好像是一个小孔，但事实上它有一个晶体来汇集发散自世界上某个点的许多束光，并将这些光聚焦到视网膜上的一点。物体离得越近，光线就弯折得越多，这样才可以将光汇聚成一个点而不是汇聚成一个模糊的圆盘，眼睛的晶体也就需要越扁平。眼球内部的肌肉需要加厚晶体来聚焦近处的物体，使晶体扁平来聚焦远处的物体（见图4-5）。

图4-5

这种对晶体的挤压过程是由一个能调整焦距的反射动作加以控制的：这种反馈回路能够对晶体的形状进行调整，直到视网膜上成像的清晰度到达最高为止。这种回路与一些自动调焦照相机的原理很类似。聚焦不清的电影看起来很让人心烦，因为大脑不停地试图调整晶体来减少模糊感，但这是一种徒劳无功的做法。

第二种物理调整是为了将隔着约6厘米的两只眼睛将目标调整到世界的相同一处。物体离得越近，两只眼睛的目光势必交叉得越多（见图4-6）。

图4-6

目光交叉与否由附着在眼边的肌肉实现。控制这些肌肉的是一个努力减少重叠影像的大脑回路。看到重影往往是脑中毒、脑窒息或损伤的一个征兆。这个回路类似于旧式相机中的测距仪：棱镜从两个取景框中取景，摄影师调整棱镜角度（使它适合于照相机镜头），直到图像排列好为止。大脑将测距仪原则作为深度的另一种信息来源，它或许是一个不可缺少的信息源。立体视觉只给出了有关相对深度的信息——在眼睛聚合点之前或之后的深度。眼球方向的反馈必须锚定绝对深度的感觉。

这就是立体图设计者所面临的问题：聚焦反射和眼交叉反射是连在一起的。如果你聚焦到附近一点来减少模糊，目光就逐渐聚合；如果你聚焦到远处一点，目光就变得平行。如果你将目光聚合到附近一点来减少重影，眼睛就压缩晶体从而近距离对焦；如果你将目光分岔到远方一点，晶体就会放松到远处聚焦。这种搭配超过了对立体图最简洁的设计，立体图将一张小图放在每只眼的前面，双眼目光都直视前方，各自看各自的图片。你在看远处物体时，目光直视前方，它将每只眼的聚焦点拖至远方，从而模糊了图片。聚焦图片接着又将目光拉在一起，这样两只眼睛都看着同一张图片，而不是每只眼睛各看一张图片，而且那也没有用处。目光内外摆动、晶体变厚变薄，但时机不对。要想得到立体视图的错觉，还需要其他条件。

一种方法是拆开这对反应。许多实验心理学家都像苦行僧一样训练自己，竭力控制他们的生理反射并用意志力来“自由-融汇”立体视图。有些人将目光交叉到图片前方想象的一点，这样左眼能看着右边的图片，右眼则看着左边的图片，并将每只眼看图片的目光聚焦到后方想象的点。另外一些人将目光锁定到正前方无限远处，同时仍保持着聚焦。在我得知威廉·詹姆斯说过这是每个好的心理学家都应该掌握的一项技能后，我曾经花了一下午时间来训练自己做到这点。不过，一般过着平凡生活的人，却不见得能有这样的决心和毅力。

惠斯顿的发明有些拙劣，因为他还面临着第二个问题：他那个年代的绘画和银板照相都太大，在眼前没法做到不重叠。人们做不到目光向外看，像鱼一样一只眼睛看一边。于是他在两边各放一张图片，两张图片彼此相对，像书挡一样，他还在照片之间放了两面粘在一起的镜子，就像一本打开的书的封面，每面镜子都反射出一幅图片。然后他在每面镜子前放一个棱镜，调整后使得两面镜子看上去像是叠加上去的。当人们透过棱镜看到叠加上去两幅图片的反射时，图片中的景色就变成三维的了。更好的照相机和更小的电影胶片催生了更简便的手持型设计，我们现在仍然在用这些设计。更小的照片——同以往一样，是从两个同双眼间距相同的观察点拍摄的——被并排放置，中间有一个垂直信号灯，每只眼睛前面还放着一个玻璃镜头。玻璃镜头使得眼睛无须聚焦于近处的图片，目光可以放松到无限延伸的远方。这使得目光发散，从而可以直视前方，一只眼睛看一幅图片，图片就自然地融汇在一起。

立体图成为19世纪的电视机。维多利亚时代的人们与家人和朋友一起愉快地花上几个小时轮流来看巴黎林荫大道、埃及金字塔或者尼亚加拉大瀑布的立体照片。漂亮的木质立体图现在在一些古玩商店里仍有销售，供热心的收藏者淘宝。现代的版本是三维魔景，在世界各地的旅游景点都有：一个不贵的观看器，展示了当地风景名胜的立体视图幻灯片。

一种不同的技术——立体影片，是将两张图片盖在一个平面上并运用了巧妙的手法，这样每只眼睛只会看到想看到的图片。一个熟悉的例子是与20世纪50年代早期风靡一时的三维立体电影有关的，就是声名狼藉的红绿色纸板眼镜。左眼的图像投映为红色，右眼图像投映为绿色，映像都照在一块白色屏幕上。左眼看屏幕时通过一个绿色的滤光镜，使得白色背景看上去是绿色的，而为另一只眼睛准备的绿线则看不到，为左眼准备的红线则像黑线一样凸显出来。与之类似，右眼前面红色的滤光镜使得背景呈现红色，红线看不见，绿线变成黑线。每只眼睛都得到它自己的图像，于是阿尔法半人马座的污泥怪兽便跃然屏幕之上。一个不幸的副作用是，当眼睛看到非常不同的模式，比如红色和绿色的背景时，大脑就没办法融汇它们了。大脑将视域雕刻成一块拼凑品，将每个拼凑小块交替看作绿色或红色，这种令人不安的效应被称为双目竞争。当你将一根手指保持在眼前几厘米的距离，同时睁开双目注视远方，你就会看到双重影像，这就是一种轻微的双目竞争体验。如果你集中注意于其中一个影像，你会发现，那部分逐渐变得不透明，然后透明，再度填实，如此往复。

一种更好的立体照片是将偏振滤光片，而不是带色的滤光片，放到两个投映镜头上和纸板眼镜里。用左边的投影仪来投映为左眼准备的图像，在像“/”这样的对角平面中振荡的光波中投映。光可以穿过左眼前面的滤光片，滤光片中有一些细微的裂隙也是同样方向，但光却穿不透右眼前面的滤光片，它的裂隙是反方向的，像“/”这样。相反，右眼前面的滤光片只允许来自右边投影仪的光穿过。叠加的图像可以是彩色的，它们不会造成双目竞争。阿尔弗雷德·希区柯克（Alfred Hitch-cock）在《电话谋杀案》（Dial“M”for Murder）利用这种技术创造了极好的效果，影片场景中，格蕾丝·凯利摸到剪刀刺向就要掐死她的人。而跟据科尔·波特（Cole Porter）的《野蛮公主》（Kiss Me Kace）改编的电影则有些不同之处，影片中一个舞者一边起劲儿地在咖啡桌上表演着“太热了”，一边却朝着摄像机抛甩着围巾。

现代的立体眼镜有用液晶显示屏做的方格（像电子表中的数字一样），起到静音的、电子控制快门的作用。在任何时刻，一个快门是透明的，另一个是不透明的，这迫使眼睛依次看着它们前面的计算机屏幕。眼镜与屏幕是同步的，当左快门张开时显示出左眼的图像，右快门张开时显示出右眼的图像。图像交替很快，眼睛都注意不到闪烁变化。这种技术可以用在一些虚拟现实显示中。不过虚拟现实的最先进水平其实就是高科技版本的维多利亚时代立体视图。计算机在一个小液晶显示屏上显示每张图像，屏幕前面有一个镜头，镜头装在每只眼睛前面头盔的内侧。

这些技术都迫使观看者戴上或通过某种仪器来观看某种神奇的景象。魔术师的梦想是一种可以用裸眼看到的立体视图——自动立体视图。

这个原理是由苏格兰物理学家戴维·布鲁斯特（David Brewster）在19世纪发现的，他还研究偏振光，并发明了万花筒和维多利亚时代的立体视镜。布鲁斯特发现，墙纸上重复的模式可以令人注意到深度。紧挨着的重复模式（见图4-7），比如说花朵，可以让每朵花都吸引一只眼睛盯在那朵花上。这是因为相同的花处在两个视网膜的相同位置，所以双重影像看上去就像只有一个影像。事实上，就像一件扣错纽扣的衬衫，整个双重影像的排列可以错误地编织成一张图像，除了两端没有配对的单个影像之外。大脑则看不到双重影像，它过早地满足于双眼已经恰当地聚合，并将目光锁定在错误的校准中。这使得目光瞄准于墙后面想象中的一点，花朵似乎在这个距离飘浮在空中。它们还似乎长大了一些，因为大脑进行了三角运算，计算出花在那个深度需要多大才能投映出当前的视网膜图像。

图4-7

一种体验墙纸效应的简便方法是眼睛盯着几厘米远的瓷砖墙，距离近得无法使目光轻易聚焦和汇合。（许多男人是站在小便池前才又发现这个效应的。）每只眼前的小瓷砖很容易就融汇在一起，产生出一种很远处有一面很大瓷砖墙的超现实印象。墙向外弯曲，随着脑袋从一边移动到另一边，墙向着相反方向摆动。如果墙真是在那个距离的话，实际情况也会是如此，将在视网膜上投映出同样的影像。大脑轻率地创造了这种错觉，是为了保持整个幻觉几何形状的一致性。

布鲁斯特还注意到，将一对完全相同的东西在空间里不规则地摆放，都会使它们比起其余的更凸显或陷入。设想图4-7中被视线穿过的花朵之间的距离被打印得更为接近些。视线被聚在一起，彼此交叉，离眼睛也更为接近。视网膜上的图像会朝太阳穴方向展开，大脑会看到想象中的花朵离得更近了。类似地，如果花朵的间距被打印得更远些，视线则会交汇在更远处，在视网膜上的投映则会挤到鼻子的方向。大脑会认为这个虚幻物体距离更远了。

现在我们谈到了一种简单的“电眼”错觉——墙纸自动立体视图。一些书和贺卡中的立体视图显示了多列重复的东西——树、云、山和人。当你看这些立体视图时，感到每一层物体在漂进漂出着，都有着自己的深度（尽管在这些自动立体视图中，并没有出现新的形状，我们稍后会谈到那些七拐八扭的立体图。）这有个例子（见图4-8），是伊拉维涅尔·萨比亚（Ilavenil Subbiah）设计的。

图4-8

图4-8有些像布鲁斯特的墙纸，但它刻意有一些不均等的分隔，这并不是出于裱糊工人的草率之举。图片中包括了7艘紧密排列的小船，但只有5座间距疏松一些的桥拱，当你向图片后方看时，小船似乎比桥拱离得更近，因为它们错误交汇的视线聚到了一架更近的飞机上。

如果你还不知道如何融汇看到立体视图，请把这本书举到你眼睛的正前方。使书的距离近得目光无法聚焦，令你的眼睛直视前方，看到重影。然后慢慢将书离远些，同时保持眼睛放松，“穿透”书看到书后面想象的一点。有些人将一片玻璃或一张幻灯片放在立体视图顶部，这样他们就能聚焦到远处物体的反射光了。你应该还能看到重影。这个手法是让重影中一个图像漂到另一个的顶端，然后就像磁石一样，将它们保持在那里。试着校准图像。叠在一起的轮廓应当逐渐聚焦，然后弹进弹出不同的深度。正如泰勒所说，立体视觉就像爱情：如果你不能确定，你就还没有体验到。

有些运气不错的人能做到这点，他们把一根手指放在立体视图前面几厘米处，聚焦于这根手指，然后慢慢移开它，同时目光仍保持那个深度。用这种技巧，目光交叉带来的错误融汇使得左眼看到右边的一只船，而右眼看到左边的一只船。别担心你妈妈说的话；你的眼睛不会永远僵死在那个位置的。你能否对眼看到融汇的立体视图还是对眼程度不够，这依赖于你是否能将目光略微交叉或盯着墙斜视。

通过练习，大多数人都可以目光融汇看到墙纸立体视图。他们不需要像心理学家目光自由融汇来看二图立体视图那样，做瑜伽般的精神高度集中，因为他们不需要将他们的聚焦投影从汇聚投影中以同等程度分离出来。看到自由融汇的二图立体视图需要双眼目光分开，各自保持直视其中一幅图片。而看到融汇的墙纸立体视图则只需要双眼目光分开，保持直视同一幅图中的邻近相同物体。相同物体之间的距离非常接近，会聚角只在聚焦投影想要的地方那条线之外的不远处。在两个投影之间的网络中通过小小的摆动，聚焦于比你目光会聚处稍近一点的地方，这对你来说应该并不太难。如果确实难的话，艾伦·德詹尼丝可能会把你拉到她的辅助小组中。

墙纸立体视图背后的手法——相同图画吸引目光产生了错误的视觉配对——揭示了大脑要看到立体图所必须解决的一个基本问题。在大脑能够测量双目视网膜上某一点的位置之前，它需要确定一只视网膜上的一点与另一只视网膜上的那点都是来自现实世界的同一个标志。如果现实世界只有这一个标志，那就容易了。但如果有两个标志，视网膜的图像就可能以两种方式匹配（见图4-9）：左眼中的1点在右眼中也是1点，左眼中的2点在右眼中也是2点——这是正确的匹配；或者，左眼中的1点在右眼中是2点，左眼中的2点在右眼中是1点——这种错误的匹配会导致两个虚拟标志的幻觉。

图4-9

如果增加更多的标志，匹配错误就会增倍。有3个标志，就有6个错误匹配；10个标志，90个；100个标志，几乎10000个错误匹配。早在16世纪，天文学家约翰内斯·开普勒（Johannes Kepler）就注意到了这个“匹配问题”，他思考了凝望星空的眼睛如何与数以千计的白点相匹配的问题，以及一个物体在空间中的位置如何能够根据它的多重映像而被确定的问题。墙纸立体视图的效果是依靠诱骗大脑接受一个貌似正确但实际错误的方法来解决匹配问题的。

直到最近，每个人都认为大脑解决了日常生活中匹配的问题。大脑首先通过识别出每只眼睛中的物体，然后将相同物体的影像利用匹配的方式加以匹配。左眼中的柠檬与右眼中的柠檬匹配，左眼中的樱桃与右眼中的樱桃相匹配。在智能的指导下，立体视觉可以只把来自同种物体的点连在一起，从而避免错误匹配。一个典型的情景或许包含几百万个点，但包含的柠檬却少得多，也许只有一个。所以如果大脑对整个物体匹配的话，出错的机会就会变少。

但自然并没有选择这种解决方法。第一个线索来自阿米斯的另一个古怪屋子。这一次，不知疲倦的阿米斯建了一座普通的长方形房间，但在每厘米地板、墙壁和天花板上都粘贴了树叶。用一只眼睛通过窥视孔来看这间屋子时，就好像是模糊的绿色海洋。但当用双眼来看时，它又恢复成正确的三维形状了。阿米斯构建了一个只能用神奇的中央独视眼来看而不能单用左眼或右眼看的世界。但如果大脑必须依赖于识别出每只眼中的物体并将之联系起来，它又如何将两只眼睛看到的情形匹配起来呢？左眼看到的是“叶子叶子叶子叶子叶子叶子叶子叶子”，右眼看到的也是“叶子叶子叶子叶子叶子叶子叶子叶子”。大脑面临着能想象到的最困难的匹配问题。尽管如此，它还是轻松地将双眼看到的物体匹配在一起，显现出中央独视眼的视觉。

这个例子并非无懈可击。如果房间的边和角没有被叶子盖好怎么办？也许，每只眼睛都对房屋的形状有一个大概的认识，当大脑将两幅图像融汇在一起时，它就更加确信这种认识是准确的了。大脑无须识别物体即可解决匹配问题的证据来自心理学家贝拉·朱利斯（Bela Julesz）早些时候巧妙运用的计算机图像。在1956年逃离匈牙利来到美国之前，朱利斯是一名对空中侦察感兴趣的雷达工程师。空中侦察采用了一种巧妙的手法：立体视觉穿透伪装。伪装的物体表面覆盖着一些与周围背景环境相一致的标志物，使物体与背景的边界不那么明显。但只要物体不像烙饼那么平，当从两个观察点看时，双眼看到的标志物就会呈现出略微不同的位置，而背景标志则不会怎么移动，因为它们离得更远。空中侦察的手法是拍摄陆地的照片，然后让飞机飞一小会儿，再拍张照片。将两张照片并排放在一起，然后将它们输入一个对这两张照片的差异超级敏感的探测器：一个人。人实际上是在用一个立体图观看器来看图片的，就好像他是一个巨人，将他的两只眼睛放在当初飞机照相机上的两个位置一样，于是伪装的物体就在深度上呈现出来了。因为根据定义，一个伪装的物体用单眼几乎是看不到的，我们有另外一个例子来说明神奇中央独视眼能够看到任何一只真眼都看不到的东西。

证据要来自完美的伪装，这一次朱利斯使用了计算机。对于左眼的视觉，他在计算机上做了一个正方形，上面盖着随意分布的点，就像电视机的雪花点一样（见图4-10）。然后朱利斯让计算机又为右眼做了一个完全相同的正方形，只有一处做了调整的正方形：他将一小片点略微向左挪了一些，将新的一条随意分布的点插入了右边的缝隙，这样移走的点就伪装得非常好了。每张图片自己都像散乱的胡椒籽一样。但当用立体视图观看时，那一片就跃然浮现出来。

图4-10

许多当时的立体视图权威拒绝相信这一点，因为大脑要解决的匹配问题太难了。他们怀疑，朱利斯是不是在一幅图背后划下了小标记。不过计算机当然没有作弊。任何看了随机散点立体视图的人都会立刻信服朱利斯的实验。

与朱利斯偶尔会合作的克里斯托弗·泰勒，发明神奇眼立体视图所用的只是将墙纸自动立体视图与随机散点立体视图组合起来而已。计算机得出了垂直的一条散点，然后把复制后的小条并排放在一起，这样就制作了随机散点墙纸。假设每一条有十个点那么宽，我们将点从1数到10……用“0”代表10就如图4-11所示。

图4-11

任何一簇点——比如说，“5678”——每隔10个空格就重复一次。当目光凝视到邻近条的时候，这些长条图便会在我们的视线里结合起来，就像我们在墙纸立体视图里体验到的一样，只不过我们的大脑是把两片点图而不是把两个花朵图案重叠在一起罢了。那些相距较近的重复图案会带给我们较其他的立体影像更为接近的幻象，这是因为两眼放在其上的视线会在距离我们更近的地方相交的缘故。要在电眼立体视图里让某一片图案浮在其他幻象之前，设计者就必须先决定好该片区域的范围，再让其内的每一圈黑点都能与距离它最近的相同黑点靠得更近。在图4-12中我想做一个漂浮的长方形。所以我从两个箭头之间的长条中剪出两个点4；你能找到被剪的那几排，因为它们要比其他排短两个空格。在长方形中，每一簇点，比如“5678”，都每隔9个而不是10个空格就重复一次。大脑把彼此更加邻近的复制点簇解释为来自更为接近的物体，这样长方体就漂浮起来了。顺便提一句，图4-12不仅展示了自动立体视图是如何制作的，而且它本身就产生了一个自动立体视图效果。如果你把它像墙纸一样看得融汇在一起，一个长方形就会浮现出来。顶部的星形是为了帮助你得到立体幻象而准备的；让你的目光飘移直到看见重影有4个星形，然后慢慢地将图像聚在一起，直到中间两个星形融汇在一起，这样你就看到了一排3个星形而不是4个星形。小心地看图4-12，同时目光不做重新调整，你就可以看到飘浮的长方形。

图4-12　飘浮的长方形

你还应当能看到图4-12下端有一个切开的窗口。我切窗口是通过选出一个长方形小块，并做了与我以前做的相反的事情：我在这小块里的每一个点4旁边塞进去额外一点（标志为“X”）。这将散点簇推开得更远，它们变成每隔11个空格才重复一次。你会注意到，被添加的行比其余的要长。间隔空间更宽的各相同点簇相当于更远的一个平面。当然，一个真正的随机散点自动立体视图是用点而不是用数字做的，所以你不会注意到被剪出或塞进的东西，参差不齐的线被填满了额外的点。这里有个例子（图4-13）。看一个真正的随机散点自动立体视图的乐趣在于，令观看者惊讶的那一刻呈现出的是观看者先前看不到的形状。

图4-13

当自动立体视图风靡日本时，它很快发展为一种艺术形式。点并不是必要的；任何挂毯类的装饰，只要包含着很多的小轮廓，足以迷惑大脑将目光锁定到邻近条格，就会产生立体视图效果。第一个商业化自动立体视图使用了彩色的弯曲线，日本的自动立体视图使用了花朵、海洋波浪，还有从阿米斯的书中取下的一片叶子，组成的无数片树叶。多亏了计算机，立体图像里浮现的形状也不再只局限于死板的镂空形状而已。通过读取平面上三维坐标的点，计算机能够以略微不同的数量来更迭每一个点，从而在中央独视空间中塑造固定形状，而不是严格地变换整个小块。浮现出来的是光滑、球茎的形状，看上去好像它们是用叶子或花朵形成的。

为什么自然选择为我们配设的装备是真正的中央独眼视觉（能够双眼共同看到形状，但任何一只单眼却不行），而不是一个更简单的双眼立体机制呢？（这样任何一只眼看到的柠檬和樱桃都会一致）泰勒指出，我们的祖先确实生活在阿米斯的树叶屋里。灵长目在树上演化，需要识别认清树叶掩盖下的树枝网络。认不清的代价就是从高高的树枝上跌落到森林的地面上。为这些双眼生物构建一个双眼立体计算机系统一定是自然选择所无法抗拒的，但它之所以能够实现，也是基于对数千个视觉组织进行过计算。能够清晰匹配一致的单个物体太少了，彼此之间也隔得太远。

朱利斯指出了中央独眼视觉的另一个优点。动物们使用伪装要比军队早得多。最早的灵长目动物就类似于今天的猿猴亚目、马达加斯加的狐猿和眼镜猴，它们抓树上的昆虫吃。许多昆虫躲避捕猎者的方式是纹丝不动（这样捕猎者的移动探测器就派不上用场了），或者通过伪装（这样捕猎者的外形轮廓探测器也就失灵了）。中央独眼视觉是一种有效的反抵抗措施，就像空中侦察发现坦克和飞机一样发现了猎物。武器的技术发展催生了军备竞赛，这在自然界中和在战争中一样。一些昆虫瞒住捕猎者立体视觉的方式是通过将身体扁平化，并与地面齐平，或者变成活的树叶和树枝雕塑——一种三维的伪装。

中央独视眼是如何工作的呢？匹配问题，即将一只眼中的标志与另一只眼中的对应物彼此匹配的问题，是一个复杂的鸡与蛋的困惑。只有你选择了一对要测量的标志，你才能衡量一对标志的立体差异。但在一个树叶屋或随机散点立体视图中，有数千个能够作为标志的候选物体。如果你知道表面有多远，你就会知道向左眼视网膜的什么地方看，从而找到右眼中对应的标志。但如果你知道这个，就没必要进行立体计算了——你已经有了答案。心智是怎么做到的呢？

戴维·马尔表示，对我们所演化世界的预置前提假设能够有所帮助。在n个点的n2个可能匹配中，并不是所有的匹配都有可能出现在我们所处的美妙环境——地球上。一个设计良好的匹配者应该只考虑那些在物理上可能的匹配点。

第一，世界上的每个标志都是被锚定在某个时间某个平面的某个位置上的。因此，一个合理的匹配必须将两眼中相同的点进行配对，而这两点来自真实世界的一个点。一只眼中的一个黑点应与另一只眼中的一个黑点匹配，而不是与一个白点匹配，因为所谓匹配要表示某个平面的单独一个位置，而那个位置不可能同时既是一个黑点又是一个白点。反过来说，如果一个黑点与一个黑点匹配，它们一定来自真实世界某个平面的一个位置。这就是自动立体视图所违背的假设：在立体视图中，每一个定点的影像都是被分散到了几个不同的位置。

第二，一只眼中的一个点应当与另一只眼中不超过一个点相匹配。这就是说，一只眼的视线应当会与真实世界中一个且仅仅一个平面的一点终结。乍一看，这个假设好像是排除了穿过一个透明平面到一个不透明平面的视线（像一个浅湖的底部）。但这个假设实际上更为微妙；它只排除了一种巧合情况，即两个相同点（一个点在湖面，一个点在湖底）从左眼观察点角度看一个排在另一个后面，而从右眼的角度看两点则都能看见。

第三，物质是内聚而且光滑的。大多数时候，一条视线所终结的真实世界平面不会比临近视线所接触的平面离得更近或更远。也就是说，真实世界的临近点一般会位于同一个光滑平面。当然，这个假设在物体的边缘位置就被违背了：本书封底的边缘就在离你四五厘米近的地方，但如果你只向它的右边瞥一眼，你也许就是在看38万公里之外的月亮。但边缘只组成了视域的很小一部分（你画一幅线性画所需的颜料比为这幅画填色所需的颜料要少得多），因此这些例外能够被忽略。这个假设排除的是一个由沙尘暴、大群蚊虫、团团细线、陡峭山峰间的深深裂隙及星星点点的钉床组成的世界。

这些假设在理论上听起来似乎都是言之成理，但还需要找到一些满足这些假设的匹配。鸡和蛋的问题有时可以用被称为“限制性满意”的技术来解决，我们在第2章谈论内克尔立方体和带口音的讲话时曾提到过这种技术。当一个谜的几部分不能一次都解决时，解谜者可以一次猜几个，再比较这个谜不同部分的猜测，来看看哪些是相互一致的。一个很好的类比就是用铅笔和橡皮来做填字游戏。一个水平单词的线索往往太模糊，好几个单词都可以填进去；一个垂直单词的线索也很模糊，好几个单词也可以填进去。但如果这些猜测的垂直单词中，只有一个与任何猜测的水平单词共用一个字母，这对单词就被保留下来，其他的就被擦掉了。设想对所有的线索和方格即刻做此处理，你这样的做法就是限制性满意。在解决立体视觉的匹配问题时，散点就是线索，匹配和深度是猜测，关于世界的3个假设就像是这条规则：每个单词的每个字母都必须占据一个方格，每个方格里必须有一个字母，所有的字母必须能组合成单词。

限制性满意有时可以在一个像我在图2-8中提供的限制性网络中实行。马尔和理论神经学家托马索·伯吉奥（Tomaso Poggio）设计了一个立体视觉限制性网络。输入单位代表点，就像随机散点立体视图的黑白方块。他们用右眼的一些其他点输入到代表左眼中一点的所有n×n可能匹配的单位排列。当其中一个单位开启时，这个网络在猜测，在世界的特定深度有一块斑点（相对于目光汇聚的地方）。图4-14是这个网络一个平面的鸟瞰图，显示了一部分这些单位。

图4-14

这个模型是这样工作的：当阵列中的某一个单元由两眼获得了相同的输入信号时，它会呈现开启的状态（黑的或白的），这包含了第一个假设（每个标志锚定于一个平面）。由于各单位是相互作用的，激活一个单位会促使其上下临近单位的激活。排列在相同视线的不同匹配单位彼此相互约束，这包含了第二个假设（没有沿着一条视线而校准一致的标志）。在附近深度的临近点单位彼此相互激活，这包含了第三个假设（物质是具有内聚性的）。这些被激活的单位围绕着网络回荡着，网络最终稳定下来，那些激活的单位描绘出一个具有深度的轮廓。在图4-14中，那些填入的单位呈现出悬在背景之上的一道边缘。

在限制性满意技术中，数千个处理器做了许多临时的猜测，在众多猜测中甄选出一个整体答案，这种技术是与认为大脑的工作是许多个相互作用的处理器平行计算的一般性观点相一致的。它也抓住了一些心理学的要旨。在看一个复杂的随机散点立体视图时，你往往不能看到隐藏的图像同时显现出来。杂乱无章的图案中会跳出一些边缘，然后逐渐凸显为一片图案，从而使得另一侧的模糊边缘变得清晰明确，直到整个形状结合而成。我们体会到最后图案的出现，却没有感受到处理器实现这一结果的努力过程。这种体会很好地提醒了我们：在我们观看和思考时，许多信息加工处理都在我们意识水平之下反复进行着。

马尔·伯吉奥模型抓住了大脑对立体视觉计算的要旨，但我们真正的大脑回路要复杂得多。实验已经证明了，当人们被置于违背了唯一性和平滑性假设的人工操控的世界中时，他们观察的能力并不像模型预测得那么差。大脑一定在运用其他信息来帮助解决匹配问题，比方说，眼中的世界就不是散点组成的。大脑能够将所有小斜纹、T形、锯齿形、墨迹斑点以及两眼视觉中的其他点点划划都匹配在一起（这些东西即使对于一个随机散点立体图来说也绰绰有余）。点划之间的错误匹配要比点与点之间的错误匹配少得多，因此需要被排除的匹配数量就显著减少了。

另一种匹配方式是，利用两只眼睛在几何意义上会给我们带来不同效果的原理，这是达·芬奇注意到的：一个物体有一些部分是一只眼睛能看到而另一只眼看不到的。垂直拿着一支钢笔放在面前，钢笔的夹子朝外呈11点钟方向。当你轮番闭上每只眼睛时，你会发现，只有左眼能看到钢笔夹；右眼看不到，这是因为钢笔夹隐藏到了钢笔其余部分之后。自然选择在设计大脑时是像达·芬奇那么精明，让大脑用这个重要线索来确定物体边缘吗？还是大脑忽略了这个线索，不情愿地将每个错误匹配都记录为物质内聚性假设的例外情况？心理学家肯·中山（Ken Nakayama）和下条绅介（Shinsuke Shimojo）证明了自然选择并没有忽视这条线索。他们设计了一个随机散点立体视图，其深度信息不是以更迭散点排列，而是以一只眼睛能看见而另一只眼睛看不见的位置排列的。那些点位于一个想象中的正方形的四角，一些点只在右眼图像的右上角和右下角，一些点只在左眼图像的左上角和左下角。当人们看这个立体图时，他们看到一个由四点界定的悬浮正方形，这说明大脑确实将只有一只眼能看到的图像解释为空中的边缘。中山与心理学家巴顿·安德森（Barton Anderson）认为，有一些神经元发现了这些阻隔；它们会对一只眼睛见到的一对标记做出反应——其中一个标记能够和另一只眼见到的标记加以匹配，而另一个标记却无法找到配对。这些三维立体的边界探测器会帮助立体网络在悬浮的碎片轮廓中确定位置。

立体视觉不是两只眼睛凭空具有的，这种回路必须在大脑中布线。我们知道这个情况，因为大约有2%的人每只眼都看得很清楚，但用中央独视眼却看不到；随机散点立体视图对他们来说仍然是平的。另外4%的人只能很模糊地看到立体图。还有更多的一些少数人群有着更特别的欠缺：一些人看不到固定点后的立体深度；另一些人看不到固定点前的立体深度。惠特曼·理查德（Whitman Richards）发现了这些立体视盲形式，他提出假说认为，大脑有三组神经元来检测双眼中点位的差异。一组神经元负责完全巧合或几乎完全巧合的成对的点，为了达到在聚焦点的细致深度知觉。另一组负责鼻子侧面的成对点，这是为了看到更远的物体。第三组神经元则是负责视网膜上接近太阳穴部分的影像，也就是由较近物体所产生的投影。具有所有这些特性的神经元在猴子和猫的脑中都已经被找到了。不同种类的立体视盲似乎是遗传性的，这说明，每组神经元都是由不同的基因组合设置的。

立体视觉并不是生来就有的，如果在儿童时期或动物幼年时一只眼睛由于白内障或戴眼罩而得不到信息输入，就可能永远不能形成立体视觉。到此为止，这听起来就像一堂乏味的课程，讲述立体视觉就像其他任何东西一样，是先天与后天的混合物。但一个更好的理解方式是：大脑需要组合加工，这种组合加工需要各个项目根据展开的时间表来排程。这个时间表不在乎生物体何时从子宫中脱胎而出；布置顺序可以在出生后再进行。这个过程在关键结合点处还需要基因所无法预测的信息输入。

立体视觉似乎是在婴儿时期突然出现的。当新生儿按照规律的时间间隔被带到实验室时，他们一周接一周都对立体视图无动于衷，然后突然他们就被吸引住了。在接近那个创纪元式的星期，通常是出生3～4个月后，婴儿开始自然、适当地做出对眼状（例如，当他们自然地跟踪一个放到鼻子前面的玩具时），他们还会觉得彼此冲突的视觉——每只眼睛看到的模式不同——很困惑，而在之前他们会觉得那些很有趣。

这不是说婴幼儿“学会了立体视觉”。心理学家理查德·海尔德（Richard Held）给出了一个更简单的解释。当婴儿刚出生时，视觉皮质接受层的每个神经元将双眼相应位置的输入累加起来，而不是将这些输入分隔开来。大脑没办法区分某一点的模式来自哪只眼，而只是以一种二维平面的方式，将一只眼睛看到的融汇到另一只眼睛看到的上面去。如果没有关于一个弯曲线来自哪只眼睛这样的信息，立体视觉、会聚性以及对斥性在逻辑上都是不可能的。大约以3个月为界，每个神经元都确定了一只回应的主导眼睛。连接下端的神经元现在可以知晓，一个标志何时落入一只眼睛的一个区域和另一只眼睛的相同区域，或是略微有所转移的区域——这对立体视觉是有利的东西。

这种情况在猫和猴子身上都是确定发生的，它们的大脑可以得到直接的研究。动物的皮质一旦可以区分两只眼睛，动物就能看到有深度的立体视觉。这说明当输入开始被贴上“左眼”或“右眼”的标签加以区分时，下游一层的立体计算回路其实已经安装好并开始工作了。对于猴子来说，所有这些在两个月内就都结束了：那时每个神经元都有了主导眼，幼猴可以看到立体深度。与其他灵长类动物相比，人类有些“晚熟”：婴儿出生得早，而且出生时没有任何能力，要在子宫外完成他们的发育。按照幼儿期的时间长度比例，人类婴儿比猴子要出生得早，因此从出生日开始测算，人类双眼脑回路配置的出现时间要稍晚。更一般地讲，生物学家比较了不同动物视觉系统的成熟阶段时间，这些动物有些出生得早且无助，另一些稍晚而且一出生就能看见。他们发现，无论之后的发育是在子宫内进行还是在出生后的世界上进行，其顺序都是基本一致的。

关键左眼神经元和关键右眼神经元的出现可能会为具体经历所打断。生物学家戴维·胡贝尔（David Hubel）和托斯滕·韦塞尔（Torsten Wiesel）养育了一只眼睛被蒙着的小猫和小猴子，它们脑皮质的输入神经元全部调向了另外一只眼，使得这些动物那只被蒙上的眼睛在功能上等同于视盲。如果眼睛是在动物发育的关键期被蒙上的，那么即使只是短暂剥夺视觉输入，这种损害也是永久性的。对于猴子来说，视觉系统在出生后的前两周尤其脆弱，这种脆弱性在第一年内逐渐减弱直至停止。而蒙上成年猴子的眼睛即使长达4年之久，也不会有所损害。

乍一看，这好像是“用进废退”的一个例子，但是我们还有另外的发现。当胡贝尔和韦塞尔给小动物蒙上双眼时，大脑并没有显示出双倍的损害——一半的细胞显示根本没有被损害。单眼蒙罩实验的摧残不是由于被蒙眼睛的神经元得不到输入，而是由于来自未蒙眼的输入信号在途中挤走了被蒙眼的输入信号。两只眼睛是同时在争夺着视觉皮层中处理输入信号层面里的神经元的。每个神经元在开始时具有对这只眼或那只眼的细微偏向，而眼睛的输入扩大了这一偏向，直到神经元可以独自做出反应。输入甚至无须来自外部世界，来自中途中间站的激活波——一种内部产生的测试模式，就能起到这个作用。若把学习理解为吸收录入来自外部世界信息的话，成长发育的长篇历程尽管对动物经历的变化很敏感，但还不完全是“学习”。就像一个建筑师将一个粗略的毛坯交给一个低级的工匠来雕琢外观轮廓一样，基因构建了原始的具有眼睛偏向的神经元，然后启动了一个确保可以将之明确化的过程，除非一个神经生物学家插手多事。

一旦大脑将左眼影像与右眼影像分隔开来，随后的神经元层就可以比较它们表示深度的细微差异了。尽管仍然是以令人惊奇的方式进行的，这些回路也可以由于动物的经历而得到修改。如果实验者通过切掉一块眼部肌肉而使得动物变得对眼或斜视，其目光就会指向不同的方向，永远也不会同时在两个视网膜上看到相同的东西了。当然，目光朝向并没有分开180度，所以在理论上大脑能够学习匹配那些确实重叠的不正常的分隔部分。但很显然，它没有具备能够对双眼交叉较大度数进行匹配的能力；这样的动物长大后会成为立体视盲，而且往往两眼中会有一只在功能上视盲，这种状况被称为弱视。弱视有时被称为“懒惰眼”，但其实这是误导。不敏感的是大脑，而非眼睛；而这种不敏感性是由于大脑以一种恒久的竞争去主动压抑一只眼的输入，而不是由于大脑懒散地忽略它。

同样的情况也可以发生在孩子身上。如果一只眼睛比另一只眼睛更加远视些，孩子会习惯上努力去聚焦于近处的物体，而连接聚焦和会聚的反射会使得眼睛内曲。两只眼睛指向不同的方向（这种情况被称为斜视），它们的视界校准得不够贴近，使大脑无法使用其中的差异信息。这种孩子长大后会患斜视和伴随立体视盲，除非及早对眼部肌肉做手术调整眼部肌肉好让两眼能协调运作。直到胡贝尔和韦塞尔在猴子身上发现了这些结果，以及海尔德在孩子们身上发现了类似的情况，人们之前一直认为对斜视的手术仅供外表美观所用，而且只限于学龄儿童。但对双眼神经元的适当校准有一个关键期，它要比单眼神经元的校准关键期稍长些，但大概快到一两岁时会逐渐消退。在这个时间之后做手术往往已经太晚了。

为什么会有一个关键期，而不是天生设定或终身都会因经历而改变呢？对于小猫、猴子和人类婴儿，脸部出生后都一直在生长，眼睛之间的距离被迫越来越远。眼睛的相对观察点也在变化，神经元必须持续不断地调整检测到的双眼间差距幅度。基因无法预测观察点的扩展度，因为扩展度有赖于其他基因、营养和各种意外事件。所以，神经元会在个体成长的一定期间内对不断相互分离的双眼进行着追踪。当眼睛移动到它们在成年个体的头骨上应有的位置时，这种需求就消失了，也就是说，关键期在这时结束了。有些动物，比如像兔子，它们的眼睛已经确定在成年的脸部位置中，脸也几乎不怎么生长了。这些一般会是猎食动物，它们不能享受奢侈而漫长的无助的童年期。从两眼中接收输入的神经元不需要重新调整自己，事实上这些动物在出生时就已完成布线，而无须一个对输入敏感的关键期。

对不同物种双眼视觉可调性的发现，为一般意义的学习提供了一种新的思考方式。学习往往被描述为对模糊脑组织有着不可或缺的塑造作用。然而事实上这个过程存在的原因，却有可能只是为了让那些需要进行自我组装的动物，能满足它们在适应过程中所发展出对排定组装时刻表的需求而已。基因组尽其所能构建了这个动物，对无法提前确定的动物构造部分（比如对双眼以不可预知的速率逐渐分开的适当设置），基因组在成长发育中最需要的时候开启了一种信息搜集机制。在《语言本能》一书中，我阐述了一种对儿童语言学习关键期的类似解释。

我带着你了解了神奇眼立体视图，不仅仅是因为理解魔术很有趣。我认为立体视觉是一个自然的荣耀，也是心智其他部分可能会如何工作的一个范式。立体视觉是我们体会一种特别意识的信息处理，一个心智计算与意识之间的连接，这种连接非常合乎规则，计算机程序员能够将它操控并迷倒数百万人。它是一个几种意义上的模块：它无须心智的其他部分而独立工作（不需要可识别的物体），心智的其他部分没有它也同样可以工作（如果必须的话，可以用其他深度分析法来获知），它在大脑的回路布置上强加了特别的需求，它还有赖于针对其问题的具体原则（双目平行的几何学）。尽管立体视觉的发展是在儿童期进行的，而且对个人经历很敏感，但它并不能被深刻地描述为“学习得到的”或是“先天与后天的混合产物”；这个发展过程只不过是一个组装时刻表里的一部分而已，对经验体会的敏感性是一个结构化的系统对信息的外接纳入。立体视觉展示了自然选择的工程设计智慧，它利用了精妙的光学定理，这些定理在数百万年后又被如达·芬奇、开普勒、惠特斯通以及空中侦察的工程师们重新发现。这种能力会出现的原因，是因为个体要适应存在于我们祖先生态环境中特定的选择压力。它通过做出关于世界的前提假设而解决了本不可解决的问题，这些假设在我们演化时是正确的，但现在却不总是正确。

光、影、形：景物转图像3法则

立体视觉是辨别平面深度和材质的视力发育关键早期的一部分，但并不是唯一的部分。看到三维并不需要两只眼睛。你可以从一幅图片的最简单线索中获得对形状和材质的丰富感觉。下面我们来看看这些由心理学家爱德华·埃德尔森（Edward Adelson）设计的图案（见图4-15）。

图4-15

图4-15左边这个图案看上去是有竖直灰条的白纸板，水平折叠，光从上面照下来。右边那个看上去是有水平灰条的白纸板，竖直折叠，光从侧面照过来。如果你盯的时间足够长，两幅图都会在深度上翻转，像内克尔立方体一样；我们先忽略这点。但两幅图中的用墨（以及在你的视网膜上的映像）实际上却是相同的。每幅都是一个锯齿形井字方格，其中一些方格中有阴影。在两幅图中，各角的方格都是白色的，顶端和侧面的方格是浅灰色的，中间的方格是深灰色的。阴影和锯齿的组合不知为何形成了第三维空间，而且给每个方格着了色，只是以不同的方式而已。标注“1”的边界实际上在两幅图中都一样。但在左图中，这条线看起来就像是一条区分了不同色彩的分界线——也就是介于白色条纹和灰色条纹之间的边界；而在右图中，这条线看起来则像是由形状和阴影所造成的分界线——也就是一条白色条纹落入褶纹另一条阴影中所造成的边界线。以数字“2”标注的两条边界线其实也是相同的边界，只是我们对它们进行诠释的方式刚好与上述相反：那就是左图当中的边线是阴影和褶纹造成的边线，而右图当中的边线则是由不同色彩的条纹所造成的边线。所有这些差异，都是由两个图当中以不同方向扭曲的方块所制造出来的！

要想了解小小图片中的万千乾坤，你需要解释区分图片与现实世界的3条定律。每条定律都需要一位心智“专家”来进行解释。像立体视觉一样，这些专家的工作是为了让我们精确地掌握现实世界的平面，但它们是依靠不同信息来运行的、它们对世界做出不同的假设，解决不同的问题。

第一个问题是视角问题：一个三维的物体如何在视网膜上被投映为二维的形状。不幸的是，任何投映都可能来自无限多个物体，所以没办法只从一个映像来恢复其形状（正如阿米斯提醒他的观察者那样）。“所以说，”演化似乎断言了，“没有什么是十全十美的。”我们的形状分析器在碰运气，在给定视网膜图像的情况下，令我们看到最有可能的世界的状态。

一个视觉系统怎么能根据视网膜的映像来计算出世界最有可能的状态呢？概率理论提供了一个简单的答案：贝叶斯定理（Bayes'theorem）也就是一种能由搜集到的证据进而计算出特定假设为真的概率的方法。贝叶斯定理说，一个假设优先于另一个假设的概率可以只需通过针对每个假设的两个数字而求得。一个是先验概率：在看到证据前，你对该假设的确信程度。另一个是可能性：如果该假设为真，你现在所看到的证据会出现的概率是多少。将假设1的先验概率与假设1证据的可能性相乘，将假设2的先验概率与假设2证据的可能性相乘，算得两个数的比率。现在你就得到了优先第一假设的概率了。

我们的三维线性分析器又是如何使用贝叶斯定理的呢？要找出某一线段究竟是由哪一物件所产生的，它会先假设特定物件是真的出现在该场景里，再找出最有可能产生所见线段的物体——也就是计算出每个物件产生证据的可能性；此外该物件还得在一般的状况下最有可能出现才行——也就是事前概率够大。正如爱因斯坦曾这样谈论上帝一样，我们的三维线性分析器推测，这个世界是难以捉摸的，但它没有恶意。

因此，形状分析器一定具备了一些有关映像的概率信息（从各个角度物体如何显现）和一些有关世界的概率信息（这个世界有着什么样的物体）。一些关于映像的概率确实是非常好的。从理论上讲，一分硬币能够投映为很细的一条线，但只有从它边上看的时候才会这样。如果实景中有一分钱，你从边上看它的概率有多少呢？除非有人专门安排你和硬币，否则概率不会太高。绝大多数视角会使这枚硬币投映出一个椭圆形。形状分析系统假设目前双眼所见的只是一个一般的场景——不是与阿米斯所呈现出的风格一样，会将物件精确安排以便让它们呈现出特别样式的场景——并依此来估测各种假设为真的概率。另一方面，一根火柴几乎总是会投映出一条直线，所以如果图像中有一条线，而其他条件相同的话，猜它是一根火柴比猜它是盘子要有把握得多。

一幅图像中的一堆线可以进一步缩小概率，例如，一组平行或近乎平行的线不可能是巧合。世界上的非平行线几乎不会在图像上投映出接近平行的线来：绝大多数散落在地板上的棍条会彼此交叉，角度或大或小。但世界上平行的线，比如电线杆，几乎总是投映出近似平行的线。所以如果一个图像中有接近平行的线条，那么它们反映世界中平行边棱的可能性就比较大。还有许多其他的经验法则告诉我们，真实世界里的哪些形状会投射出特定的影像标记。小T、Y、角、箭头、鱼尾纹状、平行弯曲线是各种直边、角、直角和对称形状的印记。漫画家几千年来一直在运用这些法则。一个机灵的形状分析器可以运用反向思维，来推测它们在真实世界中是什么。

不过当然进行反向可能性逆推是缺乏依据的——比方说平行的东西通常投映出近似平行的图像，所以近似平行的图像就暗示是平行的东西。就好像你听到窗外有马蹄声，就断言它们来自一匹斑马，因为斑马常常发出马蹄声。认为世界包含有某个实体的先验概率——有多少匹斑马，有多少个平行的条棱——必须考虑进来。要想使一个玩赔率的形状分析器得以运行，这个世界最好包括许多直的、规则的、对称的、紧密的之类的物体，这样才好猜。真的是这样吗？一个浪漫主义者或许会认为，自然世界是有机的和柔性的，它的硬性边缘是被美国陆军工程兵用推土机推出来的。正如一位教文学的教授在他的课堂上说：“风景中的直线是人为设置的。”一个心存怀疑的学生盖尔·詹森·桑福德（Gail Jensen Sanford）出版了一组自然中的直线，最近被《哈泼氏》杂志转载：

在即将碎裂的波浪上缘的线条；草原的遥远边界；暴雨瓢泼、冰雹肆虐、白雪覆盖的原野中的小径；晶体的模式；花岗石表面中的白石英线；冰柱、钟乳石、石笋；平静的湖面；斑马和老虎的标志；鸭子嘴；鹬的腿；候鸟群的角度；猛禽的俯冲；一种蕨类植物的新叶子；仙人掌的刺；生长迅速的小树树干；松针；蜘蛛织的丝束；冰表面的裂纹；变质岩的层；火山的侧面；风吹的高积云云束；半个月亮的边缘。

这当中有一些有争议，另一些对一个形状猜测器来说弊大于利。湖的水平面或草原的地平线，还有半个月亮的边缘不是来自世界固有的线条。但这个论点是正确的。世界的许多法则给了心智很好的、可分析的形状。运动、张力和重力造就了直线。重力造就了直角。内聚力造就了光滑的轮廓。那些能够移动的生命形式通常都会演化出对称的模样。自然选择将它们的身体部件塑造为工具，来复制人类工程师对制造精良部件的要求。大平面收集模式时以大致相同的大小、形状和间距：裂纹、树叶、细砾、沙子、涟漪、针。这些世界上似乎是由能工巧匠雕凿出来的部分不仅是形状分析器最能够恢复的部分，而且也是最值得恢复的部分。它们是那些充斥和塑造周围环境的强大力量的提示符，比那些成堆的碎石屑更值得关注。

即使是最好的线条分析器，其装备也只适合于一个卡通世界。平面并不只是由线条圈起来的，它们是由材料组成的。我们对光和色彩的感觉是一种鉴定材料的方式。我们不会去咬一个塑料苹果，因为色泽已经提示我们，它不是由新鲜果肉组成的。

根据反射光来分析物质是光反射分析师的工作。不同种类的物质反射回不同波长、不同数量的光。为了简明些，我会只介绍黑白两色；彩色大致上是同样的问题再乘3即可。不幸的是，给定数量的反射光可能来自无限多种物质和光照方式的组合。100个单位的光可能来自煤块反射的1000支蜡烛10%的光，也可能来自雪堆反射的111根蜡烛的90%的光，因此没有简单的方法来根据物体反射光来推导物体的材质。光分析器一定设法解析出了照明度的因素。这又是一个不确定问题，完全等价于：我给你一个数，你告诉我哪两个数相乘可以得到它。要想解决这个问题，只能增加新的假设条件。

照相机面临着同样的问题——无论雪球是在室内还是室外，如何将它表现为白色。照相机控制胶片曝光程度的仪表包含了两个假设。第一个假设是光照的一致性：在阳光下、树荫中或灯泡下均是一致的。当这个假设被违背后，拍快照者会很失望。站在蔚蓝天空下的阿姨，拍摄出来的效果很可能会像一团漆黑的剪影，因为照相机被它所见到的场景迷惑了：它见到的是整个被阴影给笼罩住的阿姨的脸，以及被阳光照射得明亮无比的蓝天。第二个假设是景物一般来说是中度灰色的。如果你随意拼凑一堆物体，它们的多种颜色和光亮度通常会平均化为一种中度的灰色阴影，它会反射18%的光。照相机“估计”它在看一个一般的景物，就曝了刚刚足够量的光，使得景物中光亮度范围的中值呈现为胶片中的中度灰。比中间范围淡的小色块表现为浅灰和白；较深的小色块，表现为深灰和黑。但当假设错误，景物事实上并没有平均表现为灰色时，照相机就被欺骗了。黑色丝绒上的黑猫照片呈现为中度灰，雪地上的北极熊呈现为中度灰等。熟练的摄影师会分析一个景物如何与一般景物不同，并使用各种技巧来进行弥补。一个原始但有效的方式是，带一张标准的中度灰色卡（它能准确地反射18%的光），将它挨近物体，将对光仪表对准这张卡片。照相机对真实世界的假设就这样得到了满足，它对于周围照明度水平的估计（从卡片反射的光再除以18%即可得到）也确定会是正确的。

埃德温·兰德（Edwin Land）是偏光过滤器和宝丽莱·兰德易拍得相机的发明人，他也遭到了这个问题的挑战，这个问题在彩色摄影中格外令人头疼。灯泡的光是橘黄色的；荧光灯的光是橄榄色的；太阳光是黄色的；天空的光是蓝色的。我们的大脑设法解析出了照明色彩的因子，就像它解析出照明强度因子一样，在所有这些光下，都能正确地辨别物体的颜色。而照相机不行。除非它们发出自己闪光灯的白光，否则它们在表现室内景物时呈现一种厚重、似乎生锈的色调，表现有阴影的景物时像呈现浆状蓝色等。一个见多识广的摄影师会购买特殊的胶卷或是在镜头上加一个滤光镜做光补偿，优秀的实验室技术人员能够在冲印照片时修正颜色，但易拍得相机显然做不到这点。因此兰德产生一个基于实际应用的需要，就是如何去掉照明的强度和色彩，我们称之为色彩恒常性问题。

不过兰德还是一个自学成才的、卓越的知觉科学家，他对大脑是如何解决这个问题心怀好奇。他建立了一个色彩知觉实验室并提出了一个充满智慧的色彩恒常性理论。他的观点被称为视网膜层次理论，为知觉者提出了几个假设。第一个假设是地球的照明系统是波长的丰富混合。这一法则的例外情况是钠汽灯，即停车场里设置的节能灯。它发出很窄的波长范围，我们的知觉系统无法解析出因子来，因此汽车和脸都被染上了一抹令人感觉阴森森的黄色。第二个假设是视域中亮度和色彩的逐渐变化很可能源自于景物被照亮的方式，而猝然变换则很可能是由于到了边界，即一个物体的终结和另一个物体的开始。为了让事情变得简单些，兰德对人们和他的模型在由二维矩形块组成的人造世界中进行了测试，他称那个世界为蒙德里安，以纪念荷兰著名画家。在一个光从侧面照过来的蒙德里安世界里，一边的一块黄色小块反射的光会与另一边一个相同黄色小块反射的光很不相同。但人们把它们都看作是黄色的，而视网膜层次模型去除了边到边之间光的梯度，所以也同样把它们看作是黄色的。

视网膜层次理论是个很好的开端，不过实践证明，它过于简单了。一个问题是将世界设定为一个蒙德里安式的大平面的这个假设本身。回到图4-15中埃德尔森的图画，那就是锯齿形的蒙德里安平面。视网膜层次模型会处理所有鲜明边界之类的东西，将左图中边缘1阐释为类似右图中的边缘1。但对你来说，左边的看上去像不同颜色的两条之间的分界，右边的则像同一根条被折叠，而一部分在阴影中。这种差异出于你对三维形状的解释。你的形状分析器将蒙德里安平面弯成了分隔房间的屏风，但视网膜层次模型还是把它们看作同样的旧棋盘。很显然，它缺失了什么东西。

缺失的东西就是阴影部分倾斜的效果，也就是将某一个实际场景变成一个影像的第三条法则。正对光源的平面会反射回许多光，因为光正照在平面上就弹了回去。与光源角度几乎平行的平面反射的光要少得多，因为绝大多数光擦过平面继续它的轨迹。如果你的位置离光源比较近，当平面正对你时，你的眼睛能捕捉到更多的光（相比于平面几乎在你的侧面时）。你会看到用手电筒直照一张灰纸片与侧着照这张纸片之间的差异。

我们的阴影分析器又是如何反向运用这条法则，根据平面反射光的数量来计算平面的倾斜度的呢？结果绝不仅仅是估算平板的倾斜度。许多物体，如立方体和宝石都是由倾斜平面组成的，所以恢复其斜度是一种确定其形状的方式。事实上，任何形状都可以被认为是由数百万个小平面组成的雕刻物。即使当平面是光滑弯曲的，可以理解为每个“小面”都缩成了点，阴影法则同样适用于离开每个点的光。如果这条定律可以被反向运用，我们的阴影分析器就可以通过记录每点切面的倾斜度，而理解平面的形状了。

不幸的是，一小块反射的给定数量的光可能来自正对光的深暗平面，也可能来自光源角度很小的明亮平面。所以，如果不做额外的假设，是没有简便方法来恢复光从平面反射的角度的。

第一个假设是平面的光亮度是一致的：假设世界是由石膏做的。当平面颜料涂抹不均匀时，这条假设就违背了，我们的阴影分析器也就被愚弄了。情况就是如此。绘画和摄影照片是最明显的例子。一个不太典型的例子是动物伪装中的反隐蔽。许多动物兽皮的光亮度从背部到肚皮是逐渐变化的，这样就抵消了光照在它们身上产生三维立体形状上的效果。这使得动物看起来变得扁平化，令捕食者脑中做出假设、根据阴影分析形状的设备更加难以检测到目标物。化妆也是一个例子。稍谙化妆之道，涂抹皮肤的化妆品就会令观察者感觉看到形神俱佳的理想形状。鼻子两侧的深红色使它看上去似乎与光呈现更浅的角度，这令鼻子看起来显得更窄。上嘴唇上的白粉底起到相反的作用：嘴唇看起来更加丰满，像是以更好看的撅嘴形状阻截了迎面而来的光。

这些必须从光影现象来推断物体形状的分析系统，还必须对世界做出其他的假设才行。世界上的平面由数千种材料组成，光以非常不同的方式从它们倾斜的平面弹回来。褪光平面像粉笔或无光纸一样遵循简单的法则，大脑的阴影分析器往往推测世界就是褪了光的。而有古木光泽的、毛绒的、有凹陷的以及有刺条的表面则随着光产生其他更奇怪的效果，它们能够愚弄眼睛。

一个著名的例子是满月。它看上去像个扁平的盘子，不过，当然它是个球体。我们毫无障碍地可以根据阴影部分看到其他的球体，比如乒乓球，任何不错的艺术家也都能用炭笔画一个球。月亮的问题在于，它上面密密麻麻布满了各种大小的环形火山口，绝大多数小得从地球上看都看不到，它们组合在一起形成了平面，其效果与我们阴影分析器中想当然的理想褪光平面大不相同。满月的中心正对着观察者，所以它应该是最亮的，不过它有些坑洼和裂缝，其裂壁是斜对着地球观察者的视角的，这使得月球中心显得更暗。月亮周围边缘附近的平面与视线斜掠而过，应当显得更暗，但其峡谷壁呈现的角度刚好正对着观察点并反射回很多光，这使得周边显得更亮了。对于整个月亮来说，平面的角度和环形山侧面的角度相互抵消了。所有的部分都反射回了相同数量的光，所以眼睛就把它看作是一个盘子。

如果我们不依赖这其中任何的分析器，我们将会啃树皮并跌落悬崖。每个分析器都做出假设，但这些假设往往与其他分析器相冲突。角度、形状、材质、光照——它们都聚拢到一起，但我们设法把它们整理清楚，并看到一个形状，具有一种颜色，呈现一个角度，使用一种光照。诀窍是什么？

埃德尔森与心理学家阿历克斯·彭特兰德（Alex Pentland）在一个比喻中使用了他的锯齿形幻象。你是一个设计师，必须要建一个看上去就像图4-15中右图那样的舞台布置。你去了一家作坊，那里的专业人员为戏剧舞台演出搭建场景。一个是灯光设计师，另一个是画师，第三个是金属板工人。你给他们看了图，请他们搭建一个像图一样的场景。实际上，他们需要做视觉系统所做的工作：给定一幅图像，弄明白东西的布置和能够呈现出这样效果的光照。

专业人员有许多种方法能够满足你的要求。每种几乎都能够单独奏效。画师只需在一个扁平金属板上画出平行四边形的布置，然后请灯光设计师用一束探照灯照亮即可（见图4-16）。

图4-16　画师的方法

灯光设计师可以取一张空白板，然后安装9盏设置好的聚光灯，每盏都有特殊的灯罩和滤光器，目的就是为了在白板上投映出9个平行四边形，图4-17显示了其中6盏聚光灯。

图4-17　灯光师的方法

金属板工人可以将一些金属弄弯成特殊的形状，当它被照亮并从合适的角度看时，就呈现出图4-18的图像。

图4-18　金属板工人的方法

最后，这个形状还可以由众专业人员合作而得之。画师在一个方块金属板的中央画出一条，金属板工人将它弯成锯齿形，灯光设计师用一束光来照亮这件作品。当然，这就是一个人在解释这幅图时所做的。

我们的大脑就像这个比喻中的舞台设计师一样，同样面临着由于丰富性带来的困扰。一旦我们允许一个心智“专家”假设颜料涂抹的平面，它就能够将图像中的所有东西都解释为绘画：世界看起来将会是一幅错视画的杰作。类似地，大脑里的照明专家会告诉我们，世界是一部电影。因为这些解释不大令人满意，所以心智应当设法阻止专家们那样做。一种方式是，强迫它们坚持它们的假设，是什么就呈现什么（颜色和照明是均匀的，形状是规则的和平行的），但这样太极端了。世界不总是晴朗日子里的一堆方块；有些时候它确实有复杂的颜色和照明，而且我们能看到。我们不想让专家们否认，世界可以是复杂的。我们想让它们呈现出世界中原本拥有的那么多复杂性，不多也不少。现在的问题是如何让它们去做。

回到那个比喻。假设舞台设计部门预算有限。专家们的服务是要收取费用的，他们用一张费用清单反映出一项要求的难易和寻常程度。简单寻常的工作是便宜的；复杂、特殊的操作是昂贵的。

我们还需要一个专家：管理人员。他来决定如何外包这项工作。

4个解决方案的价格会不同。估算如下：

管理人员的方案是最便宜的，因为它优化地使用了每一位专家，节省的部分弥补了管理人员的费用。这里的寓意在于，专家们必须要彼此协调合作，不一定需要一个小人来协调，但要通过安排最小化成本，尽可能地便宜和简单。在这个比喻中，简单工作容易做；在视觉系统中，较简单的描述对应于世界中较可能的安排。

埃德尔森和彭特兰德将这个比喻付诸实施，他们设计了一个计算机视觉仿真程序，它在很大程度上像我们那样解释涂漆的多边形景物。首先，一个形状分析器（一个软件版的金属板工人）努力还原一个最规则的形状，并复制这幅图（见图4-19）。要得到图4-19左图中的简单形状，人们把它看作是一张折叠的板，就像一本侧面拿着的书一样。

图4-19

形状专家试图组装一个输入形状的三维模型，如图4-19右图所示。开始时，他所知道的只是需要将模型的角和边与图像中的点和线连在一起；他不知道它们之间距离的深度。模型的外端是杆上滑动的小珠（像投映光线一样），小珠之间的线段是具有无限弹性的带子。专家滑动小珠，直到它到达符合图4-19中右图下方需要的形状。每个构成形状的多边形应当尽可能地规则；也就是说，多边形的角度不应当有太大差异。例如，如果多边形有四条边，专家将努力做一个正方形。多边形应尽量在一个二维平面上，就好像多边形被填塞了一个很难折弯的塑料板。而且多边形应当尽量地紧密，而不是沿着视线一直伸长，就好像塑料板很难拉伸一样。

当形状专家完成工作后，他交给照明专家的是一个组装严丝合缝的白板。照明专家知道，反射光如何依赖于照明、平面的光亮度和平面角度的指导法则。照明专家可以移动一个远处的光源从各个方向照亮这个模型。最优的方向就是，使得每对板尽可能地交汇于一个侧面的视角，就像图4-19中左图的那样，使得操作者尽可能少地涂抹灰色颜料，即可完成工作。

最后，反射专家——画师——得到了模型。他是最后一个要依靠的专家，他的任务是负责处理剩余的任何图像与模型间的差异之处。他完成任务的方法是，通过在各个平面上涂抹不同阴影的颜料。

这个程序有用吗？埃德尔森和彭特兰德给了它一张扇折让它来研究。程序显示了它对物体形状的猜测（图4-20第一列），它对光源方向的猜测（图4-20第二列），它对阴影位置的猜测（图4-20第三列）和它对物体如何被涂色的猜测（图4-20第四列）。程序最初的猜测显示在图4-20最上面一行。

图4-20

程序最初估计物体是扁平的，像一幅二维绘画一样平置在桌子上，如图4-20第一列顶端所示。很难向你描述这个，因为你的大脑坚持认为看到了一个锯齿形被折叠为具有不同深度的形状。概略图试着显示一些平置在书页上的线条。程序推测光源是从眼睛的方向正对而来（图4-20第二列的顶端）。有了这样平的光照，就没有阴影了（图4-20第三列顶端）。反射专家承担起所有的责任来复制图像，把它画了上去。程序认为它在看一幅画。

一旦程序有机会调整它的猜测，它调整后的解释如图4-20中间那行所示。形状专家找到了最规则的三维形状（如图4-20左列的侧视图）：方板以合适的角度连接在一起。照明专家发现，从上面照光，这使得影子的效果看起来有些像图像一样。最后，反射专家涂抹些颜料对模型做些润色。图4-20中的第四列——锯齿形三维形状、从上面照光，影子在中间，亮条挨着暗条——对应着人们如何解释最初的图像。

程序还做了任何像人所做的一样的吗？还记得扇折的深度像一个内克尔立方体一样闪变吧。外折变成内折，内折变成外折。程序以一种方式也可以看到这种闪变；闪变的解释显示在最下面一行。程序对两种程序分配了相同的成本，随机到达了其中一种。当人们看到一个三维形状闪变时，他们通常也会看到光源的方向在闪变：顶端向外折，光来自上方；底端向外折，光来自下方。程序也是一样的。不像一个人，程序并不在两种解释之间闪变，但如果埃德尔森和彭特兰德使专家们在一个限制性网络内相互传递它们的猜测（图2-8内克尔立方体网络或是立体视觉模型），而不是像放在一条工厂生产线上一样地单方向传递下来的话，那么这个程序或许也能表现出这样的行为。

这个作坊的比喻阐明了这个观点：心智是一个模块集合，器官系统或是一个专家社会。专家是需要的，因为专业技能是需要的：心智的问题技术性很强，也太专业化，无法由一个“万金油”来解决。而且一名专家所需的绝大多数信息与另一名专家所需的无甚关联，而是只与他的工作相关。但一名专家独自工作，他会考虑太多的解决方法或是固执地探究一个不可能的方法；在一定程度上，专家们必须协商。许多专家在试图解释一个世界，这个世界与他们的辛苦工作是不相互作用的，既不提供容易的解决方法，也不会制造迷惑偏离轨迹。所以协调管理的主旨在于，将专家们约束到一个预算之内，使不可能的猜测更为昂贵。这就会迫使他们合作做出对世界状态最为可能的综合猜测。

从二维到三维

一旦专家们完成了他们的工作，他们会在心智的公告板上贴出什么样的信息，以便大脑的其他部位能够对这些信息进行存取呢？如果我们能够设法从大脑其余部分的视角显示视域，就像假想照相机一样，那会是什么样子呢？这个问题听起来好像一个愚蠢的脑中小人的谬论，但其实不是。它是关于大脑的一个数据表征中的信息和信息所采取的形式。的确，认真考虑这个问题会让我们对心智眼睛的幼稚直觉全新审视。

立体视觉、动作位移、外形轮廓和阴影方面的专家都努力工作来恢复第三维度。利用他们的劳动果实来构建对世界的三维立体表征，这很自然。我们可以从视网膜上所出现足以描述场景的马赛克信息，来推得有关心智产生这种信息方式的蛛丝马迹。图片变成了比例模型。一个三维模型对应着我们对世界的最终理解。当一个孩子隐隐出现在我们面前时，然后逐渐缩小不见，我们知道，我们不是在奇妙仙境，吃一粒药丸可以让你长大，吃一粒可以让你缩小。我们不像是谚语中的鸵鸟（谚语的真实性有待求证），会以为物体在我们不看或我们被掩盖时就会消失。我们处理现实，因为我们的思想和行动是受一个庞大、稳定而坚实的世界的知识所指导的。或许视觉以一个比例模型的形式给予我们这样的知识。

比例模型理论本身并没有什么可以质疑的地方。许多计算机辅助设计程序都使用固体物体的软件模型，CAT扫描和MRI仪器使用了复杂的运算来加工信息。一个描述了特定物件的三维空间模型，其内可能拥有一大串为数好几百万的坐标值，而每一组坐标值所描述的，是构成物体的单一迷你方块的位置，这称为方块元素或“体素”来对应于制作图片的图像元素或“像素”。每组三重坐标都对应一对信息，比如在身体某个位置的组织密度。当然，如果大脑中储存了体素，它们就不必被安置在大脑中的三维立方体里，任何更多的体素都被放置在电脑中的三维立方体里。重要的是，每个体素都有一组稳定的神经元专供使用，这样激活模式就能够记录体素的内容了。

不过，现在是提防小幽灵的时候了。一些软件守护程序、查询运算或神经网络从比例模型中获得信息，这种观点没有问题，只要我们清楚它是直接获得信息的：输入体素的坐标，输出体素的内容。只是不要认为查询运算会看到比例模型，那里漆黑一片，查询者没有晶体、视网膜，甚至没有一个观察点；他在任何地方、也在每个地方。没有投映、没有视角、没有视域也没有啮合。的确，比例模型的存在意义就是为了减少这些恼人的东西。如果你设想一个幽灵，想象在黑暗中一个城市的一个屋子那么大的比例模型。你可以进出其中，从任何方向来到一个大楼，触摸它的外部或将指头伸进窗户或门里探究其中。当你抓住一个大楼，它的侧面总是平行的，无论它伸臂可及还是离得更近。或是想想感觉你手里有一个小玩具的形状，或是嘴里的一块糖果。

但视觉——即使是大脑千辛万苦才实现的，三维的没有错觉的视觉——却一点儿都不像这样。至多，我们有一个对周遭世界稳定结构的抽象理解；在我们眼睛睁开时，填充我们感知的、旋即而辉煌的色彩感和形式感是完全不同的。

第一，视觉不是环幕电影院。我们能形象体验到的只是我们眼前的景物；视域周围以外的世界和脑袋后面的世界只是以一种模糊的印象、几乎是用思想推理的方式为我们所知的。我知道我身后有一个书架，面前有一个窗户，但我只看到了窗户，却没看到书架。更糟糕的是，眼睛一秒钟从一点扫过另一点好几次，中央凹瞄准器之外所看到的事物其实非常粗糙。将手举到视线前几厘米处，你根本无法数指头。我不只是在温习眼球构造的解剖学。人们可以想象，大脑根据每一瞥得到的快照来拼一个拼贴画，就像一个全景相机曝光一帧胶卷一样，摄下精确的一部分景物，曝光到邻接的一段胶卷，再继续下去，最后得到一幅无缝的宽角度照片。但大脑不是一台全景相机。实验室研究表明，当人们移动眼睛或头部时，他们立刻就失去了他们刚看到的图像细节。

第二，我们没有X光的视觉。我们看表面而不是看体积。如果你看到我将一个物体放进一个盒子里或放到一棵树后面，你知道它在哪儿，但却看不到它，也说不出它的细节。同样，这也不只是为了提醒你说你不是超人。我们凡人本可以装备上一个照相机般的记忆，将之前看到的有关信息与现在看到的粘贴在一起来更新三维模型。但我们没有这样的装备。看不到有关具体的视觉细节就不在大脑里了。

第三，我们看物体时有视角。当你站在两根铁轨之间时，它们似乎交汇于地平线。当然你知道它们没有真的交汇，如果交汇的话，火车就会脱轨。但你不可能看不到它们交汇，尽管你的深度感觉提供了足够的信息使你的大脑能够抵消这个效果。我们还知道，移动的东西会放大和收缩。在一个真正的比例模型中，这些都不会发生。为了准确，视觉系统将视角减少到一定程度。除艺术家之外，其他人很难将桌子的近角投映为锐角，远角投映为钝角；现实中它们看起来都是直角。但铁轨显示视角并没有完全消除。

第四，在严格的几何意义上，我们看到的是二维，而不是三维。数学家亨利·庞加莱（Henri Poincaré）得出一种确定某个物体维数的简单方法。找一个东西能够将该物体分为两部分，然后数数这个分隔东西的维数再加一。一个点不能被分割，所以它是零维的。一条线有一维，因为它能被一个点分割。一个面有二维，因为它可以被一条线分开，尽管它不能被点分开。一个球有三维，因为任何少于二维的刀片都无法劈开它；一个小球或一根针不能分开它。那么视域呢？它可以被一条线分开。例如，地平线将视域一分为二。当我们站在一条绷紧的电缆前面时，我们所看到每件东西要么在这一边，要么在另一边。圆桌的周长线也分隔了视域：每个点要么在里面，要么在外面。给一条线加一维度你就得到了二维。根据这条标准，视域是二维的。顺便说一句，这并不意味着视域是扁平的。二维平面可以在第三维被弯曲，就像一个橡胶模具或是一个吸塑包装一样。

第五，我们没有立刻看到“物体”，即那些我们来计数、分类，并冠以名词标签的可移动物质块。就视觉而言，它甚至不清楚物体是什么。当戴维·马尔考虑如何设计一个能够发现物体的计算机视觉系统时，他不得不问：

鼻子是一个物体吗？脑袋算吗？如果它接到身体上还算吗？一个骑在马背上的人呢？这些问题说明，划分影像区域是一个多么困难的问题，其困难程度几乎与哲学问题不相上下。其实这些问题没有答案——所有这些东西可以是一个物体，如果你愿意那样想它们的话，或者它们也可以是一个更大物体的一部分。

一滴强力胶可以将两个物体变成一个，但视觉系统没办法知道这一点。

然而，我们对它们之间的表面和边界却有着非常明显的感觉。心理学中最著名的错觉来自大脑永无止境地竭力将视域雕刻为平面，并决定哪一个在另一个的前面。一个例子是鲁宾的人脸-花瓶（Rubin face-vase，见图4-21），图像在一个高脚杯和一对两人面对面的轮廓之间闪变。人脸与花瓶不能被同时看到（即使有人想象两人用他们的鼻子举起高脚杯也不行），无论哪个形状主导“拥有”了区分界线，都将另一片限制作为模糊的背景。

图4-21

另一个例子是卡尼莎三角形（Kanisza triangle，见图4-22），本来什么都没有，却组成了一个像真的，仿佛用墨水铭刻在其中的形状。

图4-22

人脸、花瓶和三角形都是熟悉的物体，但错觉并不依赖于它们的熟悉性；毫无意义的斑块同样具有震撼力（见图4-23）。

图4-23

我们并不是主动地感知到平面，而是被我们视网膜中涌现出的信息所驱使的；与流行的观点恰恰相反，我们并不是看到我们所希望看到的。

那么视觉的产品是什么呢？马尔称之为二维半草图；其他人叫它能看到的平面表征。深度被降级为半维，因为它没有界定所带视觉信息的介质（不像左右和高低维度），而只是那个介质中所携带的一条信息。想想用几百个滑栓组成的玩具，你将这些滑扣按到一个三维表面上（比如说一张脸），在另一面就形成了一个栓扣轮廓组成的平面模板。这个轮廓有三维，但这三维不是相等的。从边至边和从上至下的位置是由特定的栓扣界定的；深度位置则是由栓扣突出多少决定的。对于任何一个深度都有许多栓扣；而对于任何栓扣则只有一个深度。

这个二维半草图看上去有些像图4-24。

图4-24

它是一个单元或像素的拼制图，每个单元或像素表示从中央独视眼观察点的一道视线。它的宽度比高度更长，因为我们的两只眼睛是并排安置在我们的头盖骨上，而不是一只在另一只的上方。视域中心的单位要比外围的更小，因为我们的解析度在中心更高。每个单元可以代表一个平面或一道边的信息，就好像它有两种空白表格需要填写。一块平面的表格中，有关于深度、倾斜度（平面向后或向前倾斜多少）、偏度（向左或向右偏斜多少）以及颜色的空格，还有一个标签表示它被看作属于哪块平面。一道边的表格中则有备选的方框，表示它是否是一个物体、沟槽或一道隆脊的边界，还有一个表示其方向的刻度盘，也显示（如果是物体边界的话）哪一边属于“拥有”边界的表面和哪一边只充当背景。当然，我们大脑中并不会真正发现这种表格。这个图形是一个描述二维半度草图中信息种类的混合物。大脑估计会利用神经元簇和它们的活动来保留信息，这些信息会作为记录时得到的地图集合，被分配到不同的皮层片区。

为什么我们会看到两个半维度？为什么不是大脑中的一个模型？储存的成本和收益给出了部分答案。任何计算机使用者都知道，图形文件会占用大量储存空间。大脑没有将进来的千兆字节集聚成一个混合模型，这样的话一旦任何东西一移动，这个模型就会失效；大脑让世界自己来储存一眼无法分类的信息。我们的脑袋伸直了，我们的眼睛快速转动，一个全新的、最新式的草图就加载下来了。至于第三维度的次级地位，这几乎是无法避免的。不像其他两种维度，它们能在当时激活的视杆和视锥细胞中显示出来，深度则必须从数据中痛苦地提炼。尝试计算深度的立体图、轮廓、阴影和位移专家们具有能力，来传递有关相对于观看者的距离、倾斜度、偏度和咬合度的信息，而不是世界的三维坐标。它们至多能做的是聚集它们的努力，给我们提供一个与二维半似曾相识的东西，其表面就呈现在我们眼前。这就要靠大脑其余的部分来弄明白如何使用它了。

参考框架

这个二维半草图是视觉系统巧妙设计、协调运转设备的杰作。它只有一个问题：这个作品在交货时是没有用的。

二维半草图中的信息是被列注在一个视网膜的参考框架中的，这是一个以观看者为中心的坐标系统。如果一个特定单元说，“这儿有一个边缘”，“这儿”的意思是视网膜上那个单元的位置——比方说，当你正对着这条线观看的时候，这个位置指的就是你的正前方。如果你是一棵树，在看另一棵树，那没问题，但只要有东西一动——你的眼睛、你的头、你的身体、一个看到的物体——原有的信息便会悄悄地移动到阵列上的另一个位置栖息。排列中信息引导的任何大脑的部分会发现，现在信息失效了。如果你的手被引导着伸向视域中心，因为那个地方有一个苹果，现在这只手伸向的地方只是一片空地。如果昨天你在看你车门把手时会记起你的车的图像，今天你所看到的车挡板将不符合这个图像；这两幅图景几乎不会重叠。你甚至无法做出简单的判断，比如两条线是否是平行的。还记得交汇在一起的铁轨吧。

这些问题令人渴望在脑海中有一个刻度模型，但那不是视觉所提供的。使用视觉信息的关键不在于重塑它，而在于适当地获取它，这就要求有一个有用的参考框架或坐标系统。参考框架与位置的观念是纠缠在一起的。你如何回答“它在哪里”这个问题呢？通过命名一个提问者已经知道的物体——参考框架——并描述“它”相对于这个框架距离有多远，在什么方向。一个如“冰箱旁边”的语言描述、一个街道地址、指南针方向、经度纬度、全球定位系统卫星坐标——这些都表示相对于一个参考框架的距离和方向。爱因斯坦构建他的相对论是凭借质疑牛顿假定的参考框架，这个参考框架在某种程度上像空中楼阁一样，与其中任何东西都不相关联。

用二维半草图包装的参考框架是视网膜上的位置。因为视网膜在不断地旋转，它就像描述方向时说“在停在灯这儿的米色庞提亚克旁边与我会面”一样没有用处。我们需要一个在眼睛四处乱逛时，仍静止不动的参考框架。假设有一个回路能够将一个无形的参考框架滑过视域，就好像是配备在步枪的准心装置里可以在前景上来回滑动十字标记一样。再假设从视域中淘取信息的任何机制都被锁定在来复枪瞄准视线界定的位置（例如在瞄准中心上面两个槽口或是左边一个槽口）。计算机显示器有一个有些类似的装置——光标。读写信息的命令相对于一个特定点来这样做，这个点可以在屏幕上被任意定位，当屏幕上的资料向上翻时，光标也随之移动，好与它原来所指向的图画或是文字资料保持在一起的状态。为了让大脑使用二维半草图的内容，它必须采用一个类似的机制，确切地说，是一些机制。

越过二维半草图移动的最简单参考框架是根植在大脑里的一个。感谢光学定律，当眼睛向右移动时，苹果的图像迅速溜到了左边。但是，让我们假想大脑将有关神经系统的命令传送给眼球肌肉的时候，同时也送了一份命令的副本给我们的视域，好让后者能够使用这些信息，将十字标记往相反的方向移动，与眼球移动相同的距离，如此一来，十字标记便能够持续停留在苹果上，而那些依靠这个标记由视域获得信息的心智过程也能持续得到正确的资料。这个过程可以自然地持续下去，就好像什么事也没发生过，尽管视域的内容已经滑转过来了。

这有一个对这种抄送的简单演示。移动你的眼睛，而世界没有移动。现在闭上一只眼睛，用你的指头轻触另一只眼睛；世界开始跳动。在这两种情况下，眼睛都在移动，视网膜图像都在移动，但只有当眼睛被指头轻推时，你才看到了移动。当你决定看某个地方而移动眼睛时，给眼睛肌肉的指令被抄送至一个将参考框架与滑动图像一起移动的装置，这样就抵消了你主观上对移动的感觉。但当你用手指推眼睛移动时，框架转换装置被绕过了，框架没有被转换，于是你把剧烈跳动的图像解释为来自一个剧烈跳动的世界。

或许还有补偿头部和身体移动的参考框架。它们为视域中每一小块平面，赋予了一个相对于房间或地面的固定位置；这个位置在身体移动时仍保持不变。这些框架转换或许是由对颈部或身体肌肉的指令拷贝所驱动的，它们也可能是由跟踪视域内容滑动的回路所驱动的。

另一个便利的覆盖是标出世界上大小相等区域的不规则心理格子。一个我们双脚附近的格子标记会覆盖一大片视域；一个地平线附近的格子标记会覆盖一小片视域，但如果沿着地面测量的话，其实这两片视域具有相同的范围。因为二维半草图的每一点都包含了深度信息，格子标记对大脑来说比较容易计算。这个世界校准的参考框架使我们能够判断我们皮肤之外的事物的真实角度和范围。知觉心理学家吉布森（J.J.Gibson）认为，我们在视网膜映像上的确附加有这种真实世界的度量感觉，我们能够在心理上在使用它与不使用它之间迅速跳转。站在两根铁轨之间，我们能够推测到一个会看到铁轨交汇的心理框架，或是另一个将之看作平行的框架。这两种态度被吉布森称为“视域”和“视界”，它们源于利用视网膜框架或世界校准的框架来获得相同的信息。

而另一个无形框架是重力的方向。心智的铅锤来自内耳的前庭系统，它是一个包括3个半圆形的、彼此定位角度适中的细管。如果任何人怀疑自然选择利用了人类后来才重新发现的设计原则，让他去观察刻画头盖骨的笛卡儿XYZ坐标轴吧！随着头的下垂、摆动和摇晃，管腔中的液体四处搅动，触发了记录移动的神经信号。大量的小颗粒贴到了其他膜上，它们记录了线性移动和重力方向。这些符号可以被用来旋转心理瞄准器，这样它们就总是正确地指向“上方”。这就是为什么世界似乎并没有倾斜，尽管人们的头几乎没有铅锤般笔直。眼睛在头上向顺时针或逆时针方向偏斜，但偏斜度只能抵消头的小幅偏斜而已。奇怪的是，我们的大脑并没有对重力做出多少补偿。如果补偿是完全的，当我们侧躺下甚至头朝下倒立时，世界看起来仍是正常的样子。当然，事实并非如此。你侧躺时，几乎无法看电视，除非你用手把头支起来；你也不可能看书，除非你把书斜着拿。或许因为我们是生活在陆地上的生物，我们在大多数情况下是用重力信号来使自己的身体保持直立，而不是把重力信号当作视觉输入不均衡时的补偿。

视网膜框架与内耳框架的协调以一种令人惊讶的方式影响了我们的生活：它导致移动眩晕。在通常情况下，你移动时，两个信号同步作用：视域中传来质地和色彩的冲击，内耳中传来的关于重力和惯性的信息。但如果你在一个像汽车、轮船或轿子一样的代步工具中移动时——这在演化意义上是前所未有的移动方式——内耳会说，“你在移动”，但墙壁和地面会说，“你静止不动”。移动眩晕就是因为这种不匹配引发的，常规的处理方式会使你减轻这种感觉：不看书；看窗外；注视地平线。

许多宇航员会有长期太空眩晕，因为太空中没有重力信号，这时重力和视觉极度不匹配。太空眩晕用加恩（Garn）来度量，这个单位是以来自犹他州的共和党参议员杰克·加恩（Jake Garn）来命名的，他利用他在NASA经费分组委员会的职位，争取到超级公款旅游——一次太空之旅。年轻的宇航员加恩创造了历史，成为古往今来无出其右的“呕吐状元”。更糟糕的是，航天器的内部并没有给宇航员提供一个世界校准的参考框架。因为设计者认为，在没有重力的情况下，“地板”“天花板”和“墙壁”都是没有意义的，因此他们还会将仪器放在所有6个平面上。不幸的是，宇航员带着他们的陆生大脑，因而就彻底迷惑了，除非他们停下来对自己说，“我将假装那个方向是‘上’，那个方向是‘前’”等。这会起一定作用，但如果他们向窗外看，看到他们上面的陆地，或是瞥见一个同事正大头冲下在漂浮，一阵恶心就会猛冲上来。太空眩晕对于NASA来说是一个值得关注的问题，不仅因为这导致了成本高昂的飞行期间工作效率的降低；你完全可以想象零重力下呕吐的复杂情况。它还会影响虚拟现实的萌芽技术，这种技术让人们戴上一个宽视野头盔，向人们展示一个呼啸而过的合成世界。《新闻周刊》评价道：“这是自过山车以来最让人反胃的发明了。我们更喜欢百威啤酒。”

为什么在地球上或在太空中，视觉与重力或惯性的不匹配会导致所有生物恶心呢？上下倒置是怎么影响肠子的呢？心理学家米歇尔·特雷斯曼（Michel Treisman）得出了一个很有说服力、但未被验证的解释。动物呕吐是为了在吃了的毒素还没对它们造成进一步损害之前将毒素驱除。许多自然形成的毒素作用于神经系统。这就提出了英格丽·褒曼（Ingrid Bergman）在《美人计》（Notorious）中面临的问题：你怎么知道你什么时候中毒的？你的判断力会被损害，但这会影响你关于你的判断力是否已被损害的判断！更一般地说，一个功能失常的监测器怎么能区分是大脑功能失常，还是大脑准确记录了一次不寻常的情况？古老的保险杠贴纸上写道：世界正经历着技术困境。不要调整你的思想。重力，当然是世界上最稳定的和可预测的特征了。如果大脑的两部分对它有不同意见，那么要么是其中一部分或两部分都功能失常，要么是它们得到的信号被延误或歪曲了。规则将是：如果你认为重力运转不正常，那么你已经中毒了；现在就驱除其余的毒素吧。

心理的上-下轴对我们感觉形状的功能发挥着有力的组织作用。看一下图4-25是什么？

图4-25

很少有人能认出它是一个旋转了90度的非洲轮廓图，即使他们把头逆时针偏过来也很难看出来。一个形状的心理表征——我们的心智如何“描述”它——不仅仅反映了它的欧式几何，也就是当形状旋转时，它的轮廓并不变化，它还反映了相对于我们上-下参考框架的几何。我们的心智认为，非洲是一个“顶上”有些扁平，“底端”有些偏瘦的东西。顶上和底端如果改变的话，它就不再是非洲了，即使不变动地图上任何一寸海岸线的形状，我们还是认不出它就是非洲。

心理学家埃尔文·罗克（Irvin Rock）找到了许多其他的例子，包括图4-26所示的这个简单的图形。

图4-26

人们将这两幅图看作是两个不同的形状，一个正方形，一个菱形。但对一个几何学者而言，它们是相同的形状。它们是符合相同小洞口的木栓；每个角度和线段都是相同的。唯一的差别是，它们如何相对于观看者的上-下参考框架而进行校准，而这个差异就足以使它们在英语语言中获得不同的词汇。正方形顶部是平的，菱形顶部是尖的；我们没法回避“顶部”的问题，甚至很难看出这个菱形是由几个直角组成的。

最后，物体自身可以得出参考框架（见图4-27）。

图4-27

图4-27顶端右边的图形在看上去像一个正方形和看上去像一个菱形之间跳转，这依赖于你在心理上是将它与左边3个图形归为一组，还是与下面8个图形归为一组。与图形排列相校准的想象直线成为笛卡儿参考框架——一个框架与视网膜上-下框架校准，另一个呈对角线倾斜——一个图形的心理描述是在一个框架中还是在另一个框架中，会导致它看起来有所不同。

如果你仍然对所有这些覆盖整个视域的、无色无味的参考框架心存怀疑，我给你一个心理学家弗雷德·阿滕尼夫（Fred Attneave）做过的巧妙和简单的展示。图4-28中左边的三角形怎么了？

图4-28

如果你盯它们的时间足够长，它们会从一种样子迅速转变成另一种样子。它们没有移动，也没有在深度上翻转，但有些东西变了。人们将这种变化称之为“它们指向哪个方向”。跃上纸面的不是三角形本身，而是覆盖这些三角形的一个心理参考框架。这个框架不是来自视网膜、头、身体、房间、书页或重力，而是来自这些三角形的一个对称轴。这些三角形有3个这样的对称轴，它们依次发挥主导作用。每条轴都有一个等价于南北极的东西，它赋予了人们对三角形指向的感觉。这些三角形一同跳转，好像是在一个合唱团里一样；大脑希望它的参考框架会包含整个周边的图形。图4-28右边的三角形变化更为急剧，它们在6种印象之间急速变换。它们可以被解释为平躺在书面上的钝角三角形，或是在深度上直立的直角三角形，每种情况都有一个参考框架，它可以用3种形式来放置。

形状是识别物体的重要线索

物体将参考框架引向自己的能力有助于解决视觉中的一个重大问题，也就是我们由基本的视网膜成像向上探索到抽象思考的过程里，必须面对的下一个问题——人们如何识别形状。一个普通成年人知道大约一万个物品的名字，其中绝大多数是凭借形状来区分的。甚至一个6岁的小孩也能叫出几千个物品的名字，学习效率为每几个小时就学会一个（从0～6岁）。当然，物体可以用许多线索来识别。有些可以用声音和味道来识别。而另一些，比如篮子里的衬衫，则只能根据它们的颜色和质地来识别。但大多数物体能够根据它们的形状来识别。我们在识别物体形状时，我们就像是一个纯粹的几何学家，研究空间中物质的分布并找到记忆中最接近的匹配。心理几何学家一定足够精明，因为一个3岁的孩子就能够仔细检查一盒动物饼干或是一堆鲜艳的塑料片，并根据它们的外形轮廓滔滔不绝地念叨出这些奇异动物的名称。

图1-6说明了为什么这是一个难度很高的问题。当物体或观看者移动时，二维半草图中的轮廓就变化了。如果你对形状的记忆——比如说箱子——是你最初看时的那个二维半草图的拷贝，那么移动后的版本就不再匹配了。你对箱子的记忆是“一个长方形的厚板和一个处于12点钟方向的水平把手”，但你现在看的把手不是水平的，也不在12点钟方向。你会目光茫然，不知道它是什么（见图4-29）。

图4-29

但假定你的记忆文件没有使用视网膜参考框架，而使用的是与物体本身校准的一个框架。你对箱子的记忆会是“一个长方形的厚板，有一个与厚板边缘平行且在厚板顶端的把手”。“厚板顶端的”部分意味着你记着那部分相对于物体本身的位置，而不是相对于视域的位置。然后，当你看到一个不认识的物体时，你的视觉系统会自动在上面校准一个三维参考框架，就像在阿滕尼夫的正方形和三角形合唱团式排列中所做的一样。现在当你看到的与你所记得的匹配一致时，这两个就符合了，无论箱子的方向如何。你认出了你的箱子（见图4-30）。

图4-30

简而言之，这是马尔如何解释形状识别的。他的核心想法是，形状记忆不是一个二维半草图的拷贝，而是以一种与之有两方面不同的格式加以储存的。首先，坐标系统以物体为中心——而不是像在二维半草图中一样，以观看者为中心。要识别一个物体，大脑要根据它的延长线和对称轴校准一个参考框架，并测量在这个参考框架中那部分的位置和角度。只有那时，视觉和记忆才得以匹配。第二处不同是，匹配者并不是将视觉和记忆一个像素一个像素地比较，就好像将一个拼图片放到一个缝隙中一样。如果那样的话，本该匹配的形状仍旧可能匹配不上。真正的物体有凹痕和摆动，而且有着不同的风格和模式。任何两个箱子的大小都不会完全相同，有的是圆角，有的是扁平把手或细长把手。所以要匹配的形状表征不应当是死板地记录下物体表面的每一个起伏。它应当归于较宽大的类别如“厚板”和“U形的东西”。附属件也不能确切到毫米，而应当允许一些和稀泥的情况：不同杯子的把手都在“侧面”，但可能有的杯子把手高些，有的低些。

心理学家埃尔夫·比耶德曼（Irv Biederman）将马尔的两个观点形象化为一些简单的几何部件，他称其为“几何离子”，类比组成原子的质子和电子。图4-31展示了5个几何离子和它们的一些组合。

图4-31　几何离子

比耶德曼一共列出了24个几何离子，包括一个圆锥、一个喇叭筒、一个橄榄球、一根管子、一个立方体和一段通心粉状弯件。从技术上讲，它们都是不同种类的锥体。如果一个冰激凌锥体是由一个其中心沿着一条直线移动的扩展圆扫出的平面，那几何离子就是由其他二维形状在沿着直线或曲线移动时，扩展或收缩而扫出的平面。几何离子用几个附加的关系如“上面”“旁边”“端对端”“端到偏离中心”以及“平行”就可以组合成物体。这些关系由以物体为中心的参考框架来界定（当然不是视域）；“上面”意为“主要几何离子的上面”，而不是“凹槽的上面”。所以当物体或观看者移动时，关系仍保持不变。

几何离子是组合的，就像语法一样。显然我们并不是用语言来向自己描述形状的，但几何离子组合是一种内部语言，是一种心理语言的方言。一些固定词汇的元素组合在一起构成了更大的结构，就像单词构成了词组和句子。句子不是单词的累加，而是要根据它们的句法进行组合；人咬狗不等同于狗咬人。与之类似，物体也不是它的几何离子的累加，而是要依赖于它的空间布局；一个圆筒边上有个弯手就是茶杯，一个圆筒顶上有个弯手就是提桶。就像少量的单词和规则组合成的句子数量是个天文数字一样，少量的几何离子和附件也组合成具有天文数字数量的物体。根据比耶德曼的说法，每24个几何离子分别有着15种大小和构造（有扁平的，有细长的），有81种方式组合它们。这就使得两个几何离子可以构成10497600种物体，3个几何离子可以构成3060亿种物体。从理论上讲，这足以超过我们所知道的几万种形状了。在实践中，仅用3个，甚至常常是两个几何离子，就很容易建成可以即刻识别出的日常物体的模型。

语言与复杂形状看起来更像是大脑中的邻居。左半脑不仅负责语言功能，还具有识别和想象由布置各部件而界定形状的能力。一位左半脑中风的神经系统患病者报告说：“当我试着想象一棵植物、一种动物或一个物体时，我只能回忆起一部分。我的内部视觉短暂且支离破碎；如果让我想象一头牛的头，我知道它有耳朵和角，但却想象不出它们的具体位置。”相对而言，右半脑负责测量整个形状；它能够轻易判断出一个长方形的高是否比宽更长，或者一个点在一个物体的一厘米之外还是之内。

几何离子理论的一个优点是，它对二维半草图的要求不是不合理的。将物体雕刻成部件、给部件贴上几何离子的标签，以及确定它们的布置，这些并不是不可克服的问题，而且视觉研究者已开发出了大脑如何来解决这些问题的模型。它的另一个优点是，对物体结构的描述有助于心智来考虑物体，而不仅是为了脱口叫出它们的名字。人们通过分析物体部件的形状和排列方式，从而理解物体运行的方式以及它们的作用。

几何离子理论认为，心智在最高水平的知觉，是将物体和部件“看”作理想化的几何固体。这就解释了人类视觉审美中一个长期被注意到的、令人好奇的事实。任何曾经参加过人体绘画班或去过裸体海滩的人都会迅速明白，真实的人体不像我们想象中的那样甜美。我们绝大多数人穿上衣服会更好看些。艺术史学家奎恩廷（Quentin Bell）在他的时尚史课程中给出的解释可能就是源自于几何离子理论：

如果我们将一个物体包在某种纸袋中，这样凭借眼睛推断而非看到封存其中的物体，这个推断或想象的形式很可能比它被拆封后显现的样子更加完美。因此，一个用棕色纸盖着的方盒子可能会被想象成一个完美的正方形。除非心智得到了一些非常有力的线索，否则它不会想象到小洞、凹陷、裂纹或是其他一些特殊的质地。同样，如果我们将一块绸缎搭在大腿、腿部、胳膊或乳房上，它会被想象成具有完美的形态；一般不会想象到我们根据经验应当估计出的不规则形状和不完美之处。

我们知道，根据经验身体大概会是什么样子，但我们愿意搁置我们的怀疑，而倾向于人类的服装所虚构的想象。我认为，我们确实在自我欺骗的行为上付出了更多的心力。当我们套上我们最好的夹克，看到我们乏善可陈的肩膀被很艺术化地放大并具有了理想的形状时，我们的确，至少在短时间内提升了自己的自尊。

几何离子也不是万灵丹。许多自然的物体，比如山和树，有着复杂的不规则分形形状，但几何离子将它们变作金字塔和棒棒糖。还有，尽管几何离子能够被构建为一个还凑合的普通人脸，像个雪人，但它几乎不可能构建一张特定脸的模型——约翰的脸，你奶奶的脸——这张脸有充分的不同，也不至于和其他脸混淆，但无论是微笑还是皱眉，发福还是衰老，这张脸都足够稳定，使得这个人总可以被认出来。许多心理学家认为，面部识别是特殊的。在我们这样的社会性物种中，面部非常重要，因而自然选择赋予了我们一个处理器，可以来记录所需的各种几何轮廓和比例，从而将之区分开来。婴儿在仅仅刚出生30分钟后，就会被脸部模样的模式所吸引，但对其他复杂和对称的布置安排却没什么兴趣，他们还迅速学会了认出母亲，大概早在生命的第二天就能做到了。

面部识别甚至可能使用大脑的专门部件。失去识别面部的能力被称为面容失认症。这和奥利弗·萨克斯（Oliver Sacks）著名的“错把老婆当帽子”的病例还不同：面容失认症患者能够将帽子和脸部区分开来；他们只是说不出它是谁的脸。但他们中的许多人都能认出帽子和几乎其他任何东西。例如，患者LH由心理学家南希·埃特科夫（Nancy Etcoff）和凯勒·凯夫（Kyle Cave）及神经病学家罗伊·弗里曼（Roy Freeman）进行测试。LH是一个聪明、知识渊博的人，他在测试前20年发生的一次车祸中头部遭到创伤。自那次事故后，他就完全认不出人脸了。他认不出他的妻子和孩子（除非通过声音、气味或者步态），他也认不出镜子中他自己的脸，或是照片中的明星（除非他们有个像爱因斯坦、希特勒和披头士乐队在其全盛时期那样的标志性视觉特征）。他并不是辨别不出面部细节；他能够将他们的特征与整个面容对上号，即使在朦胧的侧光下也能做到，他还可以判断他们的年龄、性别和美丽程度。他实际上可以正常地认出不是脸的复杂物体，包括单词、衣服、发型、车辆、工具、蔬菜、乐器、办公座椅、眼镜、光点图形和像电视天线一样的形状。只有两种形状对他来说有些困难。他感到很尴尬，他不能叫出他孩子的动物饼干的名称；与之类似，在实验室中，他识别动物图画的水平也位居下游。他还在识别诸如皱眉、讥笑、恐惧神情等面部表情时感到困难。但无论是动物还是面部表情，对他来说，都不像识别脸那样困难，脸对于他来说完全是空白的。

脸对于我们的大脑来说并不是识别起来最困难的东西，以至于大脑一旦出现故障，脸部识别会最先受损。心理学家玛兰妮·伯赫曼（Marlene Behrmann）、莫里斯·莫斯克布维奇（Morris Moscovitch）和戈登·维纳克（Gordon Winocur）研究了一个头部被一辆经过卡车的后视镜击中的年轻人。他识别日常事物有困难，但识别脸却没问题，即使脸上有眼镜、假发、胡须做遮盖也可以被他认出。他的症状与面容失认症刚好相反，这说明脸部识别只是与物体识别有所不同，而非更加困难。

那么面容失认症是因为面部识别模块受损了吗？一些心理学家注意到，LH和其他面容失认症患者在识别其他一些形状时有些困难，所以他们认为，面容失认症患者处理一些对于识别面部很关键的几何特征有困难，而这些几何特征对于识别某些其他形状也有作用。我觉得，区分识别面部和识别具有面部几何特征的物体是没有意义的。从大脑的角度来说，没有什么东西是一张脸，直到它被识别出来时它才是一张脸。有关一个知觉模块唯一特殊的东西是它要注意的几何特征，比如对称的两团泡泡的距离，或是撑在一个三维支架上的、里面塞着下层软垫和连接管的、两维弹性表面的弯曲模式。如果除了脸之外的其他物体（动物、面部表情甚至汽车）也具有一些这种特征，这个模块就只能分析它们了，即使它们对于脸是最有用的。将一个模块称为脸部识别器，并不是说它只能够处理脸部；而是说它是根据区分脸的几何特征而优化设计的，因为这个器官在演化历史中被选择具有了识别它们的能力。

几何离子理论很有意思，但它是事实吗？当然不可能是以它最纯粹的形式所阐述的：每个物体都有一个三维几何的描述，不受观察点推测的影响。大多数物体是模糊的，一些表面遮盖了另外一些。这使得几乎不可能从每个观察点得到对物体相同的描述。例如，当你站在房子前面时，你不可能知道房子的后面是什么样的。马尔回避了这个问题，他忽略了所有的表面而去分析动物的形状，就好像这些形状都是用水管建造的一样。比耶德曼的解释承认了这个问题，他在心理形状目录中为每个物体分配了几个几何离子模型，每个模型反映所有表面所需的视角。

但这个观点打开了通往形状识别的全然不同方式的那扇门。为什么不直接给每个形状许多内存文件，一个文件表示一个观察点呢？那样就不需要一个以物体为中心的参考框架了；它们可以用二维半草图中免费提供的视网膜坐标，只要有足够的文件涵盖所有的观看角度就可以。许多年来，科学家一直没有考虑这个想法。如果观看角度的连续体被切割成每隔一度的差异，每个物体就需要4万个文件来包括所有观看角度（这还只是为了包括观看角度；它们没有包含物体不是正中间的观看位置或不同的观看距离）。不能只列出一些视域就敷衍了事，就像建筑师的方案和立视图一样，因为从原则上讲，任何视域都有可能是关键的。这里有一个简单的证明：设想一个中空的球，里面用胶水粘着一个玩具，球对面钻了一个小孔。只有通过小孔看这个玩具，才能看到它的整个形状。但最近这个观点又卷土重来。通过审慎地选择视域，并在视域之间插入一个模式关联器神经网络，当一个物体与现场看到的不匹配时，一个人可以只储存可数的易于管理的视域，至多40个。

但这好像依旧不大可能，人们只是从40个不同的角度看一个物体才能认出它来，不过我们还有另外一个窍门。还记得人们是依赖于上下方向来分析形状的吧：正方形不是菱形，横着的非洲就认不出来。这引出了纯粹几何离子理论的另一个延伸：像“在……上面”和“在……顶部”的关系一定来自视网膜（根据重力做一些调整），而不是来自物体。这个让步可能是无法避免的，因为往往在认出一个物体之前，没办法指出这个物体的“顶部”。但真正的问题是，人们如何处理最初不认识的横着的物体。如果你告诉人们，一个形状被转到横的方向，他们立刻就认出来了，就像我告诉你非洲那幅画是侧着放的一样。人们能够在心里把一个形状旋转到直立的位置，然后认出旋转后的图像。有一个心理意象旋转器可供使用，以物体为中心的几何离子理论框架就变得不那么必要了。人们能够储存从几个标准观察点看的一些二维半视域，就像警方查找嫌疑犯图片，如果他们前面的物体不符合其中一个图片，他们会在心理上旋转它，直到匹配为止。多重视域的一些组合和一个心理旋转器会使得以物体为中心的参考框架中的几何离子模型不太必要。

形状识别有这么多备选方法，我们怎么能弄清楚心智实际上究竟是怎么做的呢？唯一的方法是研究真正的人类在实验室中是如何识别形状的。一组著名的实验指向心理旋转是一个关键。心理学家林·库珀（Lynn Cooper）和罗杰·夏珀德（Roger Shepard）给人们看不同方向的字母——直立的、倾斜45°的、横向的、倾斜135°的，还有颠倒的。库珀和夏珀德没有让人们脱口说出字母的名称，因为他们担心有捷径：像圆圈或尾巴一样扭曲的独特笔迹无论是什么方向，可能都会被认出来。所以他们要求被试分析每个字母的整个几何特征，给被试看字母或字母在镜子中的影像，如果字母是正常的，就让被试按一个键；如果字母是在镜中的影像，就按另一个键。

当库珀和夏珀德测量人们需要花多长时间按下按钮时，他们观察到，心理旋转的一个清晰符号。字母与它直立的形状偏离的方向越远，人们就需要花越长的时间。这正是如果人们逐渐将一个字母图像转回直立形状时可能发生的：它需要转得越多，转的时间就越长。那么或许人们识别形状就是依靠在心理上旋转它才做到的。

但也许不是。人们不只是在识别形状；他们在将这些形状与其镜中影像区分开来。镜中影像是特殊的。《爱丽丝漫游仙境》的续集叫作《爱丽丝魔镜之旅》，这是很合适的。形状与其镜中影像的关系在许多科学分支中引发了热议、甚至是悖论。马丁·加德纳、迈克尔·科波利斯和伊万·比勒所著的书对此都有精彩的深入探讨。想想服装模型上安装的左手和右手。从一种意义上讲，它们都是相同的：每只手上都有四根指头和一根拇指附在手掌上和一个手腕上。从另一种意义上讲，它们则完全不同：一个不能叠加到另一个上。差异仅在于其部件是如何相对于一个参考框架而校准的，这个参考框架中3条轴标有3个方向：上下、前后、左右。当右手指头向上、手掌向前时（就像“停止”的手势），它的拇指是指向左边的；当左手指头向上、手掌向前时，它的拇指是指向右边的。这是唯一的差别，但却是真正的差别。生命的分子有对左手或右手的习惯倾向；它们的镜中影像往往在自然中并不存在，它们也没办法在我们的身体里正常地运作。

20世纪物理学的一个重要发现是，宇宙也有一个左右的习惯倾向性。乍一听这很荒谬。对茫茫宇宙中的任何物体和事件而言，你都没办法知道自己是看到了实际的事件，还是看到了它在镜中的映像。你可能会抗议说，有机分子和人造物体就是个特例，如字母表中的字母。标准版本随处可见而且人们都很熟悉；镜像则很少见，但会很容易被认出来。然而，对一个物理学家来说，那些都不算数，因为它们的左右倾向性是一个历史巧合，而不是被物理法则排除在外的东西。在另一个星球上，或者在这个星球上，如果我们能使演化的时光倒流，让它再重新来一次，它们很可能沿着另一条路径走下去。物理学家过去常认为，这对宇宙万物均是如此。沃尔夫冈·保利写道：“我不相信上帝是个虚弱的左撇子。”理查德·菲耶恩曼与一个人赌50美元（对方不愿意赌100美元），他认为没有任何实验会揭示出一条自然法则，证明自然定律在镜子里会表现出不一样的效果。但是最后他还是输了。钴60原子核据说会逆时针旋转，如果你从它的北极向下看的话就会看到。但这个说法本身就是循环论证，因为“北极”就是我们对那个旋转看起来像逆时针的轴端点的称谓。如果另有一些东西将所谓的“北极”与所谓的“南极”区分开来，这个逻辑圈就会破碎。这就是另外一些东西：当原子衰变时，电子更可能会被抛向我们称之为“南”的那一端。“北”对“南”和“顺时针”对“逆时针”就不再是任意的标签，而是可以相对于电子喷射而区分开来的。这种衰变，以及宇宙，会在镜中看起来有所不同。上帝毕竟不是左右手同样灵巧的。

因此，右手版和左手版的东西，从亚原子粒子到生命原始物质再到地球的旋转，都是从根本上不同的。但心智通常把它们当作是相同的，且同等对待：

小熊看了看它的两个爪子。它知道其中一个是右爪，它还知道当你确定哪一只是右爪时，另一只就是左爪了，但它永远也记不得该如何开始。

我们都不善于记住如何开始。左右鞋看上去非常相似，所以必须得教给孩子们区分它们的窍门，比如将鞋子并排放好并估算间隔。一美分硬币上林肯面朝哪个方向？你答对的概率只有50%，这和你抛硬币赌运气的概率一样。惠斯勒的著名油画如何呢？我指的是那幅《黑与灰的协奏曲：画的母亲肖像》。甚至英语对于左右也常常描述不清：beside和next to表示并排的，而没有明确说明谁在左边，但没有像behove或是aneath这样的词表示上和下，而不说明谁在顶上的。我们对左-右的不在意与我们对上-下以及前-后的超级敏感形成了鲜明的对比。很显然，人类心智没有一个预设标签供它以物体为中心参考框架的第三个维度来使用。当它看一只手时，它可以用“下-上”来校准手腕-指尖的轴向，用“后-前”校准手背-手掌的轴向，但小指-拇指的轴向还空缺着。心智称其为“拇指朝向”，左右手在心理上成为同义语。我们对左右的不确定性需要一个解释，因为几何学家会说，它们从上还是下或从前还是后没有什么不同。

这个解释是，镜像困惑对于一个双边对称的动物来说很自然就形成了。从逻辑上讲，一个完全对称的生物是不能区分左右的（除非它能对钴60的衰变做出反应）。自然选择对于构建不对称的动物没什么激励因素，以至于它们能够在心理上表征与其映像不同的形状。事实上，这个可以反向推理为：自然选择的每个激励都是为了构建对称的动物，这样它们就不会表征与其映像不同的形状了。在一个动物生存的中观世界里（比亚原子粒子和有机分子要大，比天气云团要小），左和右没什么不同。从蒲公英到大山这样的物体，它们的顶端都与其底部明显不同；而绝大多数移动的东西，其前面也与后面有显著不同。但没有任何自然的物体，其左边会与右边有非随机性的差异，从而使其镜像版有所不同。如果一个猎食者第一次从右边来，下一次它可能会从左边过来。对于动物们来说，它们在第一次学习到的所有经验，都应该要自动地被归纳到与原来情境互为镜像的环境中才是。另一个表述的方式是，你拿来一张任意自然景致的摄影幻灯片，如果有人把它上下颠倒了，这会很明显；但如果有人把它左右翻转一下，你就不会注意到，除非这个景致中包含了一个人造的物体，比如汽车或文件。

这又将我们带回字母和心理旋转。在几项人类活动中，如驾驶和书写，左和右确实有差别，我们学会了区分它们。怎样做到的呢？人脑和身体都略微有些不对称。一只手是主导的，这要归功于大脑的不对称，我们也能够感受到这种差异。早期的字典中曾经将“右”定义为身体具有更强壮的手的那一侧，这是基于人们都是右利手的假设。晚近些的字典，可能是出于对被压迫的少数人群的尊敬，使用了一个不同的非对称物体——地球，将“右”定义为你面朝北时处于东边的那一侧。人们区分物体及其镜像的通常方式是，将它的面转向上方和前方，来看看有区别的那部分正指向他们身体的哪一侧——主导手的那一侧还是非主导手的那一侧。人的身体被用来作为非对称的参考框架，使得形状与其镜像之间的区分在逻辑上成为可能。现在，库珀和夏珀德的被试几乎就是在做相同的事情，他们是在心理上旋转形状而不是在世界中旋转。为了确定他们是看到了一个正常的R还是一个反转的R，他们在心理上旋转了这个图像，直到它直立起来，然后再判断那个想象的圆圈是在他们的右侧还是在左侧。

所以库珀和夏珀德证明了心智能够旋转物体，他们还证明了物体内在形状的一个特点——它的惯用手倾向性——不是储存在一个三维几何离子模型中的。尽管有这个奇妙之处，惯用手倾向性仍是宇宙的一个特殊性质，因此我们还不能根据心理旋转的实验就对一般意义上的形状识别过多下结论。从我们目前所知的证据来看，人类的心智在观察一个物体的时候，可能是把一个三维空间的参考坐标系统覆盖在物体之上（以便进行对几何离子的查找工作），然后找出所有有关该物体的特征——但是这却不包括该物体在左右坐标轴上所呈现出的方向性。正如库珀和夏珀德所说，还需要更多的研究。

心理学家迈克尔·塔尔（Michael Tarr）和我做了更进一步的研究。我们创造了我们自己的形状小世界，并刻意地控制着人们对这些形状的接触程度，目的是为了对3个假设做出清晰的验证（见图4-32）。

图4-32

这些形状非常类似，人们无法利用像弯曲线那样的捷径。没有一个形状是其他任何一个的镜像，所以我们不会因镜子中世界的奇形怪状而被干扰。每个形状都有一个独特的小脚，这样人们在寻找顶端和底部的时候就不会有问题。我们让每个人学习3个形状，然后请他们识别：每当电脑屏幕上闪现一个形状时，就按3个按钮中的一个。每个形状以不同的方向不断出现。例如，形状3显现的形状可能有几百次是顶部处于四点钟方向的位置，而顶部处于七点钟方向的位置也可能出现几百次。所有的形状和倾斜度都是以随机的顺序打乱混在一起的。因而人们有机会在观看几次后会知道每个形状看起来像什么。最后，我们呈现给他们一些新实验：每个形状都以均匀直立的方向显现出来（同样随机排序）。我们想要看看，人们如何处理处于新方向上的旧形状。每个按钮时间被设定为1/1000秒。

根据多重视域理论，人们通常应当为物体呈现的每个朝向的情况分别创建一个记忆文件。例如，他们会建立一个文件，显示形状3右侧朝上时看起来像什么（这就是他们如何习得的），然后再创建一个文件，显示其在四点钟方向的位置时会是什么样的，以及创建显示在七点钟方向位置时的样子的文件。人们应当不久后能很快认出这些方向下的形状3。但是当我们再用一些新方向下的相同形状让他们看时，他们应该要花长得多的时间才能认出，因为他们得在熟悉的形状之间插入新的物体并对之做出适应。所有新的方向都应当会花费更长的一段时间。

根据心理旋转理论，人们应当迅速认出直立的形状，越偏离方向的形状，识别的时间就越慢。颠倒的形状会花费最长的时间，因为它需要一个180°的旋转；四点钟方向的位置的形状应该会快一些，因为它只需要旋转120°，以此类推。

根据几何离子理论，朝向不会有任何影响。人们将学会这个物体，在心理上描述以这个物体为中心的坐标系统中的各个枝干和交叉。然后，当一个测试形状闪现在屏幕上时，无论它是横向的、倾斜的还是颠倒的，应当都没有什么不同。人们应该都能以快速且万无一失的方式将一个坐标系统覆盖在物件的身上，而他们由相对于该坐标系统所得到的物件的描述，也应该总是能够与他们记忆中的物件模型相匹配才是。

快给我信封。最终优胜者是……

所有的候选者。人们一定储存了几个视域：当形状以一种习惯的朝向显现时，人们很快就认了出来。

人们也一定在心理上对形状做了旋转。当形状以一种新的、不熟悉的朝向出现时，把这个形状旋转到与过去常见方向相同的样子所需要的角度愈大，人们就需要花费越多的时间才能认出。

至少对于一些形状，人们使用一种以物体为中心的参考框架，就像几何离子理论中论述的一样。塔尔和我做了一个稍微有些变化的实验，其中的形状有着更为简单的几何特征（见图4-33）。

图4-33

这些形状是对称的或几乎对称的，或是在每一侧都总有同种的褶边，这样人们就不需要在相同参考框架中描述这些部件的上-下和一侧-另一侧的布局了。有了这些形状，无论它们是朝哪个方向的，人们就都会迅速认出它们；颠倒的并不比右侧朝上的认得更慢。

这样看来，人们的确会用上所有可能的技巧来辨认形状。如果形状的两侧差异不大，他们就把它储存为以物体自身轴为中心的三维几何离子模型。如果形状更复杂些，他们就把看到的每个方向下的形状的样子都储存一个副本。当形状以一种不熟悉的朝向出现时，他们在心理上把它旋转到最接近的熟悉的形状。或许我们不应当感到奇怪，形状识别是个非常困难的问题，单一通用目标的算法不可能适合于每种观看条件下的每个形状。

作为实验者，让我在最快乐的时刻结束这个故事。你可能还对心理旋转心存怀疑。所有我们所知道的只是倾斜的形状认起来更慢。在前面，我只是随随便便地写到人们能在脑中旋转图像，但也许事实上，倾斜的形状更难分析或许有其他原因。有任何证据能表明人们事实上是在一度度地实时模拟实物旋转吗？他们的行为显示了一些旋转的几何特征，从而让我们确信他们是在脑中播放着一个有关这种过程的电影吗？

塔尔和我对我们的一项研究结果颇为困惑。在一项实验中，我们对人们的测试涉及在各种朝向下人们所研究的形状以及它们的镜像（见图4-34）。

图4-34

这不是一个镜像测试，与库珀和夏珀德的实验不同：人们被告知要把两种版本视为相同的，就像他们叫左手手套和右手手套都用同样的单词“手套”一样。这当然只是人们的自然倾向。但不知为何，我们的被试在对待它们时却有些不同。对于标准版（上面一行），他们会在倾斜程度较大的形状上花上较长的时间来完成辨识的工作：上面那行的每幅图片都比前一张花更长一点的时间。但对于镜像版（下面一行），倾斜则没有什么差异：每个朝向都花相同的时间。看上去似乎是人们在心理上旋转标准形状，而不是它们的镜像。塔尔和我心不甘情不愿地写出一篇文章，请求读者相信，人们使用不同的策略来识别镜像。在心理学中，使用“策略”来解释奇怪的数据是无能的最后庇护。但就在我们为最后的版本修改润色准备出版时，一个想法冒了出来。

我们记起一个关于几何运动的定律：一个二维形状总是可以通过旋转不超过180°而与其镜像相校准，只要这个旋转可以是在第三维度里围绕着一根特定的假想轴进行的。从原则上讲，任何我们在镜中逆向的形状都能够在深度上翻转以匹配标准直立的形状，而这种翻转将花费同样长的时间。0°的镜像就像一扇回转的门一样，围绕着一根纵轴来回旋转。横向的形状会绕着一根横轴来旋转，就像这样：看看你的右手手背，指尖朝上；现在再看你的手掌，指尖朝左。不同的倾斜轴可以发挥为其他不同朝向形状的铰链作用；在每种情况下，旋转都是刚好180°。它会完美地符合数据：人们可以在心理上旋转所有的形状，但使用的是最适合的旋转器，它在图片平面上旋转标准的形状，并围绕着最佳枢轴在深度上翻转镜中逆向的形状。

我们几乎不能相信它。人们能在知道形状之前就找到最适宜的轴吗？我们知道，这在数学上是可能的：对于特定形状的正常影像和镜像来说，我们只要在每个影像中给定三个不落在同一直线上的定点，人们就可以计算两个形状相互校准的旋转轴。但人们真的可以做这种计算吗？我们用计算机动画让自己信服了。罗杰·夏珀德曾展示，如果人们看到一个形状与一个倾斜的副本在不断交替，他们看到的是，它在来回摆动。所以我们给自己看的是标准的直立形状与它的一个镜像之间不断交替，每秒钟来回一次。大脑对翻转的知觉特别明显，我们都不必再去费事征召志愿者来确认了。当形状与它的直立映像来回交替时，它旋转起来就好像是洗衣机的搅拌器一样。当它与其颠倒映像来回交替时，它像在做后空翻。当它与其横向映像来回交替时，它围绕着一根水平轴来回迅速翻腾，诸如此类。大脑在每次的试验里总是能够找出最佳的旋转轴，实验里的被试比我们自己更加聪明。

塔尔在毕业论文中给出了定论。他用三维形状及其镜像复制了我们的实验，在图片平面上和深度上进行旋转（见图4-35）。

图4-35

除了人们对镜像的处理，所有情况都与二维形状中的一样。正如一个朝向错误的二维形状可以通过在二维图片平面上加以旋转而与标准朝向匹配一样，它的镜像可以通过在第三维做180°的翻转而旋转到标准的朝向，一个朝向错误的三维形状（上面一行）也可以在三维空间中旋转到标准的朝向，而它的镜像（下面一行）也可以在第四维做180°翻转而旋转到标准位置。在H.G.威尔斯所著的《普拉特纳的故事》一书中，一次爆炸将英雄吹到了四维空间。当他回来时，他的心脏位于身体右侧，他的书写习惯也变为用左手由右向左倒着进行。唯一的差别是，真正的凡人应当不能在心理上在第四维旋转形状，我们的心理空间是严格的三维空间。所有的版本应当显示出一种倾斜效果，不像我们在二维形状中发现的镜像那样并不倾斜。情况就是如此。二维和三维物体之间的微妙差异解释了这个情况：大脑在三个维度中围绕一个最佳枢轴旋转形状，但不超过三个维度。心理旋转很显然是我们识别物体背后的一个技巧。

心理旋转是我们天才视觉系统的又一禀赋。它不只分析来自世界的外形轮廓，还以鬼魅般移动的图像形式创造了一些自己的轮廓。这将我们带到了视觉心理学中的最后一个主题。

心理意象，空间想象的引擎

猎犬的耳朵是什么形状的？你的客厅有几扇窗户？圣诞树和冻豆子，哪个颜色更暗些？豚鼠和沙鼠，哪个体型更大？龙虾有嘴吗？一个人笔直站立时，他肚脐高度是比手腕的高度还高吗？如果字母D被翻转过来放到字母J的顶部，这个组合会让你想起什么？

绝大多数人说他们使用“心理意象”来回答这些问题。他们将形状视觉化，感觉上就像想象一幅图像以供心智之目检测。这种感觉与回答抽象问题的体验大不相同，比如：“你母亲的家族姓氏是什么？”或者：“公民自由和较低的犯罪率，哪个更重要些？”

心理意象是驱动我们思考空间中物体的引擎。要往车上装箱子或重新布置家具，我们在尝试之前要想象不同的空间布置。人类学家拿破仑·夏格侬（Napoleon Chagnon）描述了亚马孙雨林的雅诺马马印第安人对心理意象的巧妙运用。他们将烟向下吹进犰狳洞的开口处令其窒息，然后再弄清楚在哪里挖掘，把它从坑道里刨出来，但这有可能会深达地下数十米。一个雅诺马马人琢磨出的想法是，搓出一根长藤，在顶端系个结，然后顺着洞口伸进去直到最远处。其余的人把他们的耳朵都伏在地面上，倾听藤结碰到洞穴侧面的声音，这样他们就能获得一种方向感，了解洞穴往哪个方向延伸。第一个人扯断长藤并拉出来，将藤沿着地面放好，然后开始挖掘长藤末端放置的地方。在几米之下，他们就抓到了犰狳。如果没有想象坑道、长藤和里面犰狳的能力，人们就不会连接这一系列的搓捻、倾听、猛拉、弄断、测量和挖掘行动，来试图找到一具动物尸体。在我们小时候常讲的一个笑话中，两个木匠在向房子侧面钉钉子，一个人问另一个人，为什么他从盒子里取出钉子时要检查一番并扔掉其中的一半，另一个木匠回答：“它们有缺陷。”说着拿起一根说：“尖的那一端的朝向错了。”“你这个傻瓜！”第一个木匠大声说，“那些是用在房子另一侧的钉子！”

但人们并不只是用想象来重新布置家具或是挖出犰狳。著名心理学家D.O.赫布（D.O.Hebb）曾写道：“在心理学中，你很难转个身而不碰到图像。”如果让人们记住一组名词，他们会将这些词与怪异的图像相联系。给他们支离破碎的问题，比如：“跳蚤有嘴吗？”他们会想象跳蚤并“寻找”它的嘴。当然，给他们一个朝向不熟悉的复杂形状，他们会将其映像旋转成一个熟悉的图像。

许多有创造力的人自称在图像中“看到”了问题解决的方法。法拉第和麦克斯韦将电磁场想象为充满液体的小管子。凯库勒看苯环时幻想成蛇在咬自己的尾巴。沃森和克里克的心理旋转的模型后来成了双螺旋。爱因斯坦想象乘坐一束光或是将一枚硬币掉进正在迅速跌落的电梯中会怎样。他曾这样写道：“我特别的能力不在于数学计算，而是在于对效果、可能性和结果的想象。”画家和雕塑家在脑海中尝试其想法，甚至小说家动笔之前也在心中想象场景和情节。

想象不但驱动着情绪，也驱动着智力。海明威写道：“怯懦与惶恐不同，它几乎总是因为对幻想缺乏遏制的能力造成的。”野心、焦虑、性唤起以及忌恨全都可以由图像所引发。在一个实验中，实验人员将志愿者连上电极，然后请他们想象自己配偶的不忠诚。实验人员报告说：“被试的皮肤导电度增加了1.5微西门子，他们眉头的皱眉肌显示出7.75微伏单位的收缩，他们的心律每分钟加速了5次，相当于坐在那儿喝了3杯咖啡。”当然，想象这种行为会让人在同一时间内重温诸多体验（包括非视觉方面的），但是心理意象特别能够将心智运作的模拟过程，转变得栩栩如生。

想象是一个产业。关于如何改善你的记忆力的课程教授一些古老的窍门，比如想象你家房间的物什，然后在心理上进行巡察，或者在一个人的名字中找到一个视觉暗示并将其连接到他的脸部（如果把你介绍给我，你会想象我穿着一件淡红色的休闲服装）。恐惧症的治疗常用一种心理上的巴甫洛夫式条件反射法，其中图像替代了铃铛。患者深度放松，然后想象蛇或蜘蛛，直到这个图像及其延伸的实物与放松建立关联。收入颇丰的“运动心理学家”让运动员在舒服的椅子上放松，并想象自己在运动中发挥出最佳状态的情形。许多技巧有效，尽管有一些极为怪诞。我对癌症治疗中患者想象他们的抗体奋力咀嚼肿瘤的作用心存怀疑。一位女士曾来电询问我，是否认为通过互联网这样做仍然有效。

那么，什么是心理意象呢？许多有行为主义者倾向的哲学家认为，这整个想法就是一个天大的错误。图像应该是大脑中的图片，但那样你就需要一个脑中小人。事实上，心智计算理论将这个概念阐述得非常明了了。我们已经知道，视觉系统使用的二维半草图在几个方面都像图片。它是一个镶嵌图，其中各元素代表视域中的点。元素是在二维中安排的，这样排列中的邻近元素代表着视域中的邻接点。形状的表征是通过以与形状投映轮廓相匹配的模式来填入一些元素而实现的。形状分析机制——不是脑中小人——通过加入参考框架、找到几何离子等来处理草图上的信息。一个心理意象只不过是二维半草图中的一个模式，它是从长期记忆中读取的，而非来自眼睛。一些推理空间的人工智能程序正是以这种方式设计的。

像二维半草图这样的描述与像几何离子模型、语义网络、英语句子或心语等提法有着鲜明的对比。在“一个对称三角形在一个圆的上边”这样的提法中，单词不代表视域中的点。像“对称”和“在……上面”这样的词无法对应视域中的任何部分，它们表示的是填入部分的复杂关系。

人们甚至可以训练有素地猜测心理意象的解剖结构。神经元中二维半草图的化身被称为地形上有组织的皮质图：一片皮质中，每个神经元对应于视域中的一部分轮廓，邻近神经元对应邻近的部分。灵长目动物的大脑至少有15张这样的图，从非常实际的意义上说，它们是大脑中的图片。神经学家可以在猴子盯着一个靶心的时候，给它注射放射性葡萄糖同位素。葡萄糖被活跃的神经元所吸收，这样人们实际上可以显影猴子的脑，就好像它是一幅胶卷一样。它源自于一个在视觉皮层上摊着个扭曲靶心的暗室。当然，没有任何东西从上面“看”这个皮层；连接性是唯一重要的，而活动模式是由插入每幅皮层图的神经元网络来解释的。大概世界上的空间是由皮层中的空间所代表的，因为神经元与它们的邻近部分相连接，而将世界附近的一些东西一同来分析是很便利的事情。例如，边缘并不像大米一样散布在视域中，而是沿着一条线弯曲延伸，绝大多数表面并不是散落的群岛，而是连续的物质。在皮质图中，线和表面可以由相互紧密连接的神经元来处理。

大脑还准备好了应付想象系统的第二个计算要求，信息从记忆中流下来而不是从眼睛中流上来。通往脑视觉区域的光纤通道是双向的。它们从更高级、概念性的层面向下所携带的信息，与从更低级、感官性的层面向上所携带的信息一样多。没有人知道为什么这些上-下连接会这样，但它们可能是为了将记忆图像下载到视觉地图中。

一些心理意象可能是大脑里的图片。是吗？有两种方式可以找出答案。一种方法是，是看看用图像来思考是否适用于大脑的视觉部分。另一种方法是，看看用图像来思考是更像用图形来计算，还是更像用一个命题数据库来计算。

在《理查二世》的第一幕中，被流放的博林布鲁克渴望回到他的祖国英格兰。朋友建议他幻想自己处于田园诗般的环境中，但他没有从中得到安慰：

哦，谁能只需想想严寒的高加索，

手中便握有火炬？

或是，仅仅想象一顿盛宴，

便填满辘辘饥肠？

又或，幻想着夏日的酷热，

即可赤身在腊月的雪中翻滚？

很显然，图像与真实事物体验是不同的。威廉·詹姆斯说，图像“缺乏辛辣和气味”。但在1910年的博士毕业论文中，心理学家谢弗斯·珀奇（Cheves W.Perky）试图证明，图像非常像微弱的体验。她请她的被试在一面空墙上形成一幅心理意象，比如一根香蕉。这面墙实际上是一个后部投影屏幕，珀奇偷偷地将一个真正的但却比较朦胧的幻灯片投映在上面。任何来到房间那个位置的人都看到了幻灯片，但没有一个被试注意到它。珀奇称，他们已经将这幅幻灯片融入了他们的心理意象中，确实，被试报告他们图像的细节时，有些只能来自于那张幻灯片，比如香蕉头朝下立着。从现代标准来看，这并不是一个很棒的实验，但最新的方法证实了这个发现的要点，现在它被称为珀奇效应：保持一个与看到微弱的具体视觉细节相互干扰的心理意象。

想象也能够以显著的方式影响知觉。当人们回答关于源自记忆的形状的问题时，比如在大写字母中挑出直角，他们的视觉-运动协调会颇觉费力。自从学习了这些实验后，我驾车时尽量不去专心收听冰球比赛的广播。有关线条的心理意象会像真正的线条一样影响知觉：它们使得判断校准更为容易，甚至可以导致视觉幻象产生。当人们看到一些形状并想象其他形状时，他们之后有时会很难记起哪个是哪个。

所以想象和视觉在大脑中共用空间吗？神经心理学家爱德华多·比夏克（Edoardo Bisiach）和克劳迪奥·卢扎蒂（Claudio Luzzatti）研究了两个右顶叶受损的米兰病人，他们罹患视觉忽略症状。他们的眼睛记录了整个视域，但他们只注意到右半部分：他们忽略了盘子左边的餐具，画一张脸没有左眼或左鼻孔，描述一个房间时，忽略了左面的细节——比如放有一架钢琴。比夏克和卢扎蒂请患者想象自己站在米兰大教堂广场上，面对大教堂，让他们叫出广场上建筑的名字。病人们只能叫出右侧能看到的建筑——却忽略了左半边想象空间！然后研究人员要求病人们心想着步行穿过广场，站在大教堂的台阶上，面对广场，描述广场上的景物。这次病人们提到了最初遗漏的那些建筑，却遗漏了他们提到过的建筑。每个心理意象都描述了从一个观察点看到的景致，患者不平衡的注意之窗对图像的检验就像他检验真的视觉输入一样。

这些发现暗指视觉脑就是想象的温床，近来对此有了一个正面鉴定。心理学家斯蒂芬·考斯林（Stephen Kosslyn）及其同事使用正电子发射断层成像技术（PET），观察当人们有心理意象时，哪部分脑最为活跃。每个被试在头上箍一圈监测器，闭上眼睛，回答关于字母表中大写字母的问题，比如字母B是否有曲线。枕叶或视觉皮层，即处理视觉输入的基本灰质亮了起来。视觉皮层根据高低形状绘制了出来——你可以说，它形成了图片。在一些测试中，被试们想象到了大字母，另一些时候，想象到小字母。默想大字母激活了表征视域周围区域的皮层部分；默想小字母激活了表征凹陷的部分。图像真的好像被放置在皮层表面一样。

激活会是大脑其他部分活动（在那里进行着真正的计算）的溢出效应吗？心理学家马莎·法拉（Martha Farah）证明并非如此。她测试了一位妇女在做手术摘除一个脑半球的视觉皮层后，术前和术后形成心理意象的能力。手术后，病人的心理意象萎缩至通常心理意象宽度的一半。心理意象存活在视觉皮层；确实，部分图像占据了部分皮层，就像部分景致占据了部分图片一样。

诚然，图像还不是一种即刻重放。它缺少辛辣和气味，尽管这不是因为它被漂白或冲淡：想象红色并不像是看到粉色。而且令人好奇的是，在PET研究中，心理意象有时比实际显示导致了更多的视觉皮层激活。视觉图像尽管与知觉共用大脑区域，但它们还是有些不同，或许这并不令人惊讶。唐纳德·西蒙斯注意到，重新激活视觉体验会有更多好处，但它也有成本，即将想象与现实混淆的风险。我们一从睡梦中醒来，就很快忘掉了对梦中情节的记忆，大概就是为了避免怪诞虚构对自传体记忆的影响吧。类似地，我们自发、清醒时的心理意象可能会诱使自传体记忆成为幻觉或错误记忆。

知道心理意象在哪里，对了解它们是什么或它们如何工作无甚帮助。心理意象真的是二维半草图中的像素模式吗（或是皮层图中的活跃神经元模式）？如果是的话，我们如何用它们来思考呢，又是什么令想象与其他形式的思维有所不同呢？

让我们来对排列或草图与其作为想象模型的另一方案——心语的符号性命题（类似于几何离子模型和语义网络）做个比较。图4-36的左边是排列或草图，右边是命题模型。图4-36将许多命题，如“熊有个脑袋”和“这个熊的尺寸是XL号”综合到了一个网络里。

图4-36

这个安排简单明了。每个像素代表一小片表面或者边界；任何更为综合或抽象的东西在填满像素的模式中只是隐含的。命题式表征则大不相同。第一，它是纲要式的，充满了像“附着于”这样定性的关系，而且不是所有的几何细节特征都得到表征。第二，空间特征被分开并清晰地列明。形状（物体各部分或几何离子的布置安排）、大小、位置和朝向都有它们自己的符号，查询每个符号都与其他符号独立。第三，这些命题会将有关空间的信息——如组件及其相对位置——与概念性信息——如是否属于熊这个物种，以及是否为食肉动物等——混合了起来。

在这两种数据结构中，图像排列最好地抓住了想象的特征。首先，图像是极其具体的。想想这个要求：想象一个柠檬和一根香蕉彼此挨着，但不要想象柠檬在左边或右边，只想着它挨着香蕉。你会抗议说，这个要求是不可能实现的；如果柠檬和香蕉在一幅图像中彼此挨着的话，其中一个只能在另一个的左边。命题式和排列式的对比是很严格的。命题式可以表征没有咧嘴笑的猫、咧嘴笑而没有猫或者其他任何不具形体的抽象概念：没有特定大小的广场，没有特定形状的对称，没有特定位置的附着物等。这就是命题式的好处：它是对某个抽象事实的严格陈述，不杂带无关细节。空间排列式因为只包括填充和非填充的小片，所以它们的数据结构是事物在空间上的具体安排。心理意象也是如此：形成一个“对称”的图像，而不想象其中相互对称的东西，是无法做到的。

心理意象的具体性令它们能够像一台便利的模拟计算机一样得以指派。艾米比阿比盖尔有钱；阿丽西亚没有阿比盖尔有钱；谁是最有钱的？许多人解决这种三段论是通过在一幅心理意象中，将人物从没钱到有钱进行排列。为什么这样会有用呢？想象背后的媒介中在每个位置都分配单元，并固定为二维的布置。这种排列方式，能够为我们在思考的过程中免费提供许多几何上的现象加以应用。例如，空间中从左到右的布置是可传递的：如果A在B的左边，B在C的左边，那么A就在C的左边。任何在排列中找到形状位置的查询机制都会自动注意到可传递性；媒介的架构使其别无选择。

假设大脑的推理中心能够作用于将形状放在排列中的机制，这个机制还可以从中读取它们的位置。那些推理守护程序可以利用排列的几何特征作为孵化室，来记住某些逻辑约束。财富就像线上的位置一样，是可以传递的：如果A比B有钱，B比C有钱，那么A比C有钱。通过用图像中的位置来将财富符号化，思考者利用了排列中位置可传递性的优势，而不必将其放入推导的连续步骤中。问题转变成放置和查找的过程。这是一个很好的例子，说明心理表征的形式如何确定什么思考起来比较简单或比较困难。

心理意象与排列式的类似之处还在于将大小、形状、位置和朝向糅合为一个轮廓模式，而不是清晰地将它们分解为分隔的论断。心理旋转是一个很好的例子。在评估物体的形状时，不能忽视它的朝向——假如这项信息能够被分离出来，并且明确地被标注在一个属于自己的陈述里的话，那么这会是一件简单的事情。相反，人们必须慢慢地轻移朝向，并观察形状的变化。朝向并不像数字电脑中的矩阵连乘一样需要重新计算；形状转得越远，所需转的时间就越长。排列上一定覆盖着一个旋转器网络，将单元内容围绕其中心转换几度。大一些的旋转需要反复旋转器，类似救火时救火的人排成一队传递水桶。关于人们如何解决空间问题的实验，打开了储备颇佳的图像操作心理工具箱，比如变焦、收缩、淘筛、扫描、跟踪和着色，判断两个物体是否位于同一条线，或两团不同大小的东西是否有同样的形状，这样的视觉思考将这些操作串到了心理动画序列。

最后，图像抓住的是物体的几何特征，而不是它的含义。让人们体验想象的可靠方法就是问他们一个物体形状或着色的模糊细节——猎犬的耳朵、B的曲线或冻豆子的阴影。当存在一个值得注意的特点时——猫有爪子，蜜蜂有刺针——我们将它单列出来作为我们概念数据库中的显性陈述，以供日后即刻查询。但如果该特点不值得注意，我们就唤起对物体表象的记忆，并运行我们对图像的形状分析器。检查缺失物体先前未注意到的几何特性是想象的一个主要功能。考斯林还证明了，这个心理过程不同于捞取明显的事实。当我们问人们有关反复讲述事实的问题时，比如猫有没有爪子或龙虾有没有尾巴，回答的速度会依赖于物体与其部分在记忆中关联的强度。人们必须从心理数据库中提取答案。但当问题不太寻常时，比如猫是否有脑袋或龙虾是否有嘴，人们会寻求一个心理意象，回答速度依赖于该部分的大小；小的部分验证起来更慢些。由于大小和形状在图像中被混在一起，小形状的细节就更加难以分解。

十几年来，哲学家们一直认为，对“心理意象是描绘还是叙述的最佳测试”就是人们能否重新解读模糊图像，比如鸭-兔图（见图4-37）。

图4-37

如果心智只储存描述，那么将鸭-兔图看成兔子的人应当只收藏了“兔子”的标签。他的标签中没有任何东西涉及有关鸭子的内容，所以之后，当被问及这个形状中是否潜伏着其他动物时，只看到兔子的人应当会感到困惑；因为模糊的几何信息已经被抛弃了。但如果心智中储存着图像，几何信息就还存在，人们应当能够回忆起图像来，并检查是否有新的解释。鸭-兔图本身其实是一个困难的情况，因为人们储存的形状有一个附加的前-后参考框架，要重新解释鸭-兔图需要翻转这个框架。但只要略微有一些外力（比如鼓励人们将注意集中于脑袋后的曲线），许多人确实在兔子的图像中看到了鸭子，相反亦然。几乎每个人都能翻转简单一些的模糊图像。心理学家罗纳德·芬克（Ronald Finke）、玛莎·法拉和我让人们仅凭口头语言描述就重新解读图像，也就是在他们闭着眼的时候，我们大声读出来。在下面每个描述中，你“看到”了什么物体？

想象字母D，向右旋转90°。在上面放上数字4。现在将这个4的水平线段移动至垂直线的右侧。

想象字母B，向左旋转90°。将一个三角形直接放在它的下面，其宽度相同、尖角朝下。移除水平线。

想象字母K，将一个正方形挨着放在它的左侧。在正方形中放一个圆，再向左旋转90°。

大多数人没什么困难就能说出，隐含在这些啰嗦的语言里的信息分别是帆船、爱心和电视机。

想象是一种美妙的能力，但我们一定不要因为脑袋里有图像，就忘乎所以。

第一，人们不能重构一幅整个视域的图像。图像是残缺的，不连续的。我们回想起模糊的部分，将它们安置在一个心理场景中，然后做一些修复的工作，在每个部分消退时进行恢复。更糟的是，每个模糊部分只记录了从一个观察点能看到的表面，而这是被视角所扭曲的。铁轨悖论就是一个简单的展示——大多数人不只在真实生活中看到轨道交汇，而且在心理意象中也看到了交汇。如果要记住一个物体，我们需要把它翻转过来或者绕着它走一圈，这意味着我们对它的记忆是一组从不同视角观看的照片集。整个物体的图像是一个幻灯片展示，或是东拼西凑的大杂烩。

这就解释了为什么在艺术中花了那么长的时间才发明出透视画法，每个人都以不同的视角看东西。没有文艺复兴式技艺的绘画看上去是不现实的，但不是因为它们完全缺乏透视角度。即使是克罗马农人的洞穴绘画也有对准确角度的度量。在通常情况下，远处的物体更小，不透明的物体将背景掩盖住，并遮住了背后的物体，而许多倾斜的表面则将透视缩短。问题是，绘画中不同的部分看上去像是从不同的观察点看时显现出的样子，而不是像从达·芬奇之窗后面的固定视觉标线所看到的样子。人类知觉者注定一次只能看一个地方，没有人能够体验到同时从几个观察点看一个景物，所以绘画并不完全符合人所看到的任何东西。当然，想象并不局限于一次一个地方，没有真实视角的绘画或许是对我们心理意象引人回味的再现，这倒有些奇怪。立体画派和超现实主义的画家们是心理学的狂热消费者，他们刻意在一幅绘画中运用多重视角，这或许唤起了厌倦摄影的观看者和幻灭的心智之目。

第二，图像是记忆组织的奴隶。我们对于世界的认识不可能符合一张大图片或地图。这好比将太多的层级（从高山到跳蚤）塞进一个固定米粒大小的载体里。而我们的视觉记忆也不是一个能够很好填塞照片的鞋盒。因为那样你会无法找到你所需要的东西，除非你逐个检查认出里面究竟是什么。照片和视频档案也具有类似的问题。记忆图像必须贴上标签并在一个命题式超级结构中加以组织，或许有点儿像在超媒体中的那样，在超媒体中图形文件被连接到一个大文本或数据库中的附属点上。

视觉思考在由我们用来组织图像的概念性知识所驱动时，往往比由图像本身的内容所驱动更为有力。国际象棋大师们以其对棋盘上棋子的出色记忆而闻名于世，但不是有着图像记忆的人都会成为国际象棋大师。大师们在记忆一盘随意布局的棋子方面并不比初学者更好。他们的记忆是抓住了棋子之间有意义的联系，比如棋子间的进攻和防卫，而不仅仅是棋子在空间上的分布。

另一个例子来自心理学家雷蒙德·尼克尔森（Raymond Nickerson）和玛丽莲·亚当斯（Marilyn Adams）所做的一次绝妙而低技术含量的实验。他们请人们根据记忆画出一美分的正反两面，这是每个人都看过几千遍的，都应有深刻的记忆。实验结果却发人深省。一美分硬币有8个特征：一面是林肯的头像、“我们信仰上帝”、年份和“自由”，另一面是林肯纪念堂、“美利坚合众国”、“合众为一”和“一分”。只有5%的被试把8个特征全部都画对了。特征被记住的中数是3，而一半特征都被画错了。被胡乱塞进画中的有“一美分”、桂冠、麦束、华盛顿纪念碑，还有坐在椅子上的林肯。当被要求从一个清单中勾划选择一美分的特征时，人们的表现好了一些。但当展示给他们15种可能的一美分绘图时，只有不到一半的人选择出了正确的那个。很显然，视觉记忆不是记住了整个物体的准确图像。

如果你确实画出了正确的一美分，再来试试下面这个测试。下面5个陈述中，哪些是正确的呢？

马德里比华盛顿特区更靠北。

西雅图比蒙特利尔更靠北。

俄勒冈州的波特兰比多伦多更靠北。

里诺比圣迭戈更靠西。

巴拿马运河的大西洋入口比它的太平洋入口更靠西。

这些陈述都是对的。但几乎每个人都答错了，他们的逻辑方式是这样的：内华达在加州的东边；圣迭戈在加州；里诺在内华达州，所以里诺在圣迭戈的东边。当然，这种推论式是无效的，无论什么时候各地区域都不会组成一个棋盘。我们的地理知识不是一个巨大的心理地图，而是一组小地图，根据它们如何关联的陈述而组织起来。

第三，图像既不能作为我们的概念，也不能作为心理字典中词汇的含义。经验主义哲学和心理学的悠久传统试图主张，图像能够履行这种职能，因为它符合这样的原则：思想中没有什么不是来源于先前的感觉的。图像应当是退化或附加的视觉感受拷贝、打磨锋利的边缘和混在一起的颜色，这样它们就能够代表整个类别，而不是仅代表单个物体。只要你没有太努力思考这些复合图像看上去如何，这个观点就有一些可取之处。但那样的话，人该如何表征抽象的想法呢，即使是像三角形概念这样简单的东西？三角形是任何有三条边的多边形。但三角形的任何图像必须是等腰的、不等边的或者等边的。约翰·洛克神秘地宣称，我们对一个三角形的图像是“同时既全是又全不是这样”。柏克莱质疑这一点，他要求读者形成一个三角形的心理意象，这个三角形同时既是等腰的、不等边的和等边的，又都不是上述任何一种。但柏克莱没有抛弃“抽象观点是图像”这个理论，而是下结论说，我们没有抽象的想法！

20世纪早期，美国最早的一位实验心理学家爱德华·铁钦纳（Edward Titchener）对此提出了挑战。通过仔细地内省他自己的图像，他认为它们可以表征任何想法，无论这个想法有多抽象：

我完全可以得到洛克的图片，也就是一个不和任何三角形相同、却在同时又和所有三角形相同的三角形。它是一个昙花一现的东西，转瞬即逝；它提示了两个或三个红角，用红线在黑线基础上加深，并用暗绿色作为背景。我还不能断定是否是这些角联合起来形成了这个图形，甚至也不知道是否所有这三个必要的角都是给定的。

对我来说，马是一个双曲线和直立姿势，并有着可触摸的鬃毛；奶牛是一个略长的长方形，有着某种面部表情——一种夸张的噘嘴。

我这辈子都在思考意义。不仅是意义，还有内涵。一般的意义在我意识中是由另一个印象主义图画表征的。我把内涵看作是一种铲子的蓝-灰尖端，上面有一点儿黄（大概是把手的一部分），它刚刚挖到一种似乎是塑料的深色物质。我是接受古典式教育的；可以看出，这幅图画是对反复训诫要“挖掘出”一些古希腊或拉丁章节“内涵”的回音。

确实是夸张的噘嘴！铁钦纳的柴郡奶牛，他带着的甚至没有连在一起的红角的三角形，还有他的内涵铲子，都不可能是他思想背后的基础概念。他当然不相信奶牛是长方形的或三角形的，没有其中一个角也可以。他脑袋中的其他一些不是图像的东西，一定包含在那个知识之中。

这就是其他认为“所有思想都是图像”的说法的问题所在。假设我试图用一个原型人的图像来表示概念“男人”——比方说，弗雷德·麦克穆雷（Fred Mac Murray）。问题是，什么使得这个图像会履行概念“男人”的作用，而不是概念“弗雷德·麦克穆雷”的作用？或是概念“高个男人”“成年人”“人”“美国人”或是“扮演一位受巴巴拉-斯坦威克诱惑而去杀人的保险推销员的男演员”？你区分某个人、一般意义上的人、一般意义上的美国人等都没有困难，所以你脑袋里一定有比一幅原型人图片更多的东西。

另外，一个具体的图像怎么能表示一个抽象的概念，比如“自由”？自由女神像已经被用了；大概它可以表示“自由女神像”的概念。你用什么来表示否定的概念，比如“不是长颈鹿”？长颈鹿的图像上画个红叉吗？那又用什么来表示“有一个红叉穿过的长颈鹿”的概念？选择性的概念（比如“猫或鸟”）或命题（比如“所有人终有一死”）又该如何表示呢？

图片是模糊的，而根据定义，思想是不会模糊的。你的常识所做的区分是图片自身做不到的；因此你的常识不仅是图片组成的集合。如果心理图片被用来表示一个思想，它需要伴有文字说明，即一组关于如何解读这幅图片的指示说明——要注意什么和忽略什么。指示说明本身不能是图片，否则我们又会兜回原点。当视觉褪去、思想开始时，我们是无法不去使用一些抽象的符号和命题，来将特定物件的部分信息提供给心智使用，以便让它能够对该物件进行操控。

顺便说一句，图片的模糊性已经在图形化计算机界面和其他图标镶嵌的消费产品的设计者的设计中消失了。我的计算机屏幕是由一些小卡通装饰的，它们只需鼠标点击选择就可以做各种事情。在我的生命中，我记不起小双筒望远镜、滴管和银盘子是用来做什么的了。一图抵千言，但这并不总是件好事情。在凝视和思考之间的某一点，图像应该让位于思想。