[物体识别中的视点问题] 物体识别

　　摘要视点问题是物体识别研究中的热点问题。文章回顾了两个主要的物体识别理论：结构描述模型和基于图像的模型，前者认为物体识别是视点独立的（viewpoint-invariant），后者认为物体识别是视点依赖的（viewpoint-dependent）。在介绍了物体识别领域的一些最新研究进展和分析了当前研究存在的问题之后，文章进一步探讨解决视点争论的可能的途径: 完善现存的物体心理表征模型。
　　关键词物体识别，视点，表征。
　　分类号 B842
　　
　　1 引言
　　物体识别是人类日常生活中必需的一种能力。人类的适应性活动如寻找食物、绕过障碍物等等，都要有物体识别的参与才能正常进行。外部世界的三维物体投射到观察者视网膜上形成二维图像，由视觉系统对其进行加工得到物体映像，并将物体映像与记忆中该物体的心理表征进行匹配。当物体映像能与其心理表征相匹配时，物体识别就得以实现。
　　物体识别过程中存在着物体恒常（object constancy）现象[1]：即当观察者的视点（viewpoint）发生变化时，虽然落在视网膜上的物体的几何形状和表面特征会发生相应的变化，但观察者仍然能够识别出物体。视觉系统如何适应这种视点的变化而实现物体恒常？这就是所谓的“视点问题”。
　　视点问题处于物体识别这个功能体系中的核心位置，它的解决，既有助于揭示物体的识别过程和学习过程（即在人类识别时，陌生物体逐渐变为熟悉物体的过程，物体心理表征变化的过程），又有助于解释类别识别现象（即物体识别是分类别水平的，人类可以从多个类别水平对物体进行识别。这是物体识别的又一大热点问题）。
　　解决视点问题的关键在于确定物体的心理表征，研究者们对其具体形式一直进行着激烈争论[2~9]。研究初期，争论的焦点集中于物体识别的坐标系[10]。Marr认为在物体识别的初期，视觉加工形成的物体映像是建立在以观察者为中心的坐标系中的；但在物体识别的最后阶段，物体映像的坐标系要转换为以物体为中心的坐标系。最后形成的对物体的描述与视点无关[11]。而Ullman认为，物体映像是建立在以观察者为中心的坐标系中的[12]。由于用实验的方法研究坐标系问题比较困难，后来争论的焦点转移到物体识别是视点独立的还是视点依赖的问题上[10]。Biederman和Gerhardstein认为物体识别是视点独立的，视点变化不会影响识别绩效[2]。而Hayward和Tarr认为物体识别是视点依赖的，视点变化会影响识别绩效，不同视点的识别绩效是不同的[9]。
　　2 物体识别模型及它们对视点问题的看法
　　视点问题产生争论的根本原因是研究者对物体的心理表征有不同的看法。当前两个主要的物体识别模型是视点独立的结构描述模型（structural description model）和视点依赖的基于图像的模型（image-based model）。
　　2.1结构描述模型
　　结构描述模型认为物体识别的任务是从二维图像中重建三维物体描述。
　　Marr的视觉计算理论[11,13]是结构描述模型的基础。视觉计算理论认为，物体识别是一个从简单的局部特征描述到复杂的三维物体描述的层次加工过程。物体识别开始于投射在视网膜上的二维图像。视觉系统对图像中强度不连续点的强度变化进行加工，得到零交叉片断（zero-crossing segment），进而逐步构建出线段、轮廓、表面（2D）。Marr假设从2D到3D的加工过程中，存在一个二维半（2.5D）的阶段，在这个阶段中形成了由物体可见部分的表面加上局部朝向和深度构成的一个表征，建立在以观察者为中心的坐标系中。视觉系统加工这个表征，得到三维物体描述。三维物体描述是由三维基元构成的分层次的描述，建立在以物体为中心的坐标系中，且在二维图像变化时相对稳定[11,13]。
　　Biederman在Marr视觉计算理论的基础上，提出了部件认知理论（Recognition-by-Components，简称为“RBC”），认为物体由三维部件组成[14]。物体识别从二维图像中物体边界提取开始，之后同时检测图像边界的基本特征（nonaccidental properties）和从凹状区域分割图像。由被分割区域的基本特征确定部件，这种组成物体的部件被称为几何离子（“geometrical ion”，简称为“geon”）。视觉系统根据几何离子和它们之间的关系对三维物体进行描述。决定物体部件的五个基本特征（弯曲、共线、对称、平行、连接）在视点变化的情况下保持不变，保证了新异视点下的物体识别也能正常进行[14]。
　　Biederman和Gerhardstein进一步的研究提出了几何离子结构描述模型（geon structural description，简称为“GSD”），认为视觉系统是通过描述几何离子和它们之间的关系来表征三维物体的[2]。根据GSD模型，如果满足以下三个条件，则物体识别与视点无关：
　　（1）物体可以分解成几何离子，以便用GSD进行描述；
　　（2）每个物体的GSD是独特的，不同物体的GSD是不同的；
　　（3）从同一物体的两个图像可以得到相同的GSD[2]。
　　Biederman和Gerhardstein进行了熟悉物体的命名启动实验、几何离子的系列匹配实验和新异物体的异同判断实验[2]。实验结果支持了视点独立的三个条件。同时他们认为，识别的视点依赖现象其实是非识别系统（nonrecognition systems）产生的[2]。这里的非识别系统指的是视觉系统的背侧通路系统（dorsal systems）[2]。
　　2.2 基于图像的模型
　　Tarr和Vuong提出，输入图像需先经过标准化（normalize）加工，然后再与心理表征进行匹配，标准化机制可以分为四类[15]：Ullman的校正模型（ alignment model）[12]、Tarr和Pinker的心理转换模型（mental transformation model）[5]、Bülthoff和Edelman的视图插值模型（view-interpolation model）[8]以及Perrett等人的证据累积模型（evidence accumulation model）[16]。校正模型认为可以把输入图像校正为记忆中的单一典型（canonical）图像进行识别[12]。Tarr认为识别绩效随输入图像与典型图像的差距变化而变化[6]。因为单一图像不能充分描述三维物体，Tarr和Pinker提出多视图模型（multiple-views-plus-transformation），认为物体可以用一系列熟悉视点的图像（“views”，称为“视图”）进行表征，每个视图描述了不同的特殊视点的物体表征[5]。输入图像可以直接与这些视图进行匹配；当输入图像在记忆中没有对应的视图时，通过心理转换机制（mental transformation），与最接近的熟悉视图进行匹配[5]。视图插值模型认为通过视图插值的方法可以更好地完成输入图像与多视图表征的匹配[8]。Perrett等人认为，基于图像的表征由一些特定视点下的局部图像特征（颜色、形状、纹理等）构成，物体深度旋转和照明方向等条件的改变会影响局部特征值而产生不同的图像描述[16]。物体识别速度取决于视觉系统神经元活动的累计率（the rate of accumulation）：不熟悉视图激活的神经元数量少，需要更长的时间以提供充分的视觉输入。当神经活动超过一个特定的阈限时，识别就可以实现，不需要比较视图间的相似程度，也不需要心理转换机制的参与[16]。
　　上面四种基于图像的物体识别模型中，Tarr和Pinker的多视图模型是占主导地位的，并在与Biederman等人的结构描述模型的争论中得到了发展。
　　Tarr和Bülthoff认为[7] Biederman和Gerhardstein提出的视点独立的识别机制[2]缺乏普遍性，只能在有限的视点情况下起作用，不能完整地解释物体识别现象；且视点依赖的识别现象，也不能用非识别系统进行解释。他们解释了视点依赖的识别绩效：当输入图像与记忆中存储的视图不能匹配时，需要转换到最接近的熟悉视点的视图，识别时间和正确率随着心理转换的程度变化而变化；而当输入图像与熟悉视点的视图可以匹配时，物体识别绩效没有差别，与视点无关。他们还提到，1981年Palmer等人证明大多数普通物体都有一个典型视图（“canonical” view），识别绩效在物体处于典型视图时最高，并随着和典型视图的差距增加而下降。Tarr和Bülthoff认为典型视图现象和多视图模型是一致的[7]。Tarr的四个实验研究[6]支持了上述观点。
　　Hayward和Tarr进一步的研究[9]，在命名实验和异同判断实验中采用类似Biederman和Gerhardstein研究中的实验材料[2]（几何离子状单组分物体和多组分物体），通过操纵几何离子的两种视点变化――剧烈的质的变化（qualitative）和平缓的量的变化（quantitative），发现质的变化的识别绩效比量的变化下降得更快，在符合Biederman和Gerhardstein提出的视点独立三个条件的情况下，物体识别仍然表现出视点依赖性。他们认为，识别绩效不仅跟视点变化的角度有关，而且与图像几何特征的变化有关；实验中物体识别受到影响，是质的变化改变了图像中的特征造成的，而不是GSD变化造成的[9]。
　　
　　3 物体识别理论的最新发展
　　对于视点问题，研究者一直争论不休，他们的模型也不断得到完善发展，如Wong和Hayward对视图整合（view combination）进行了研究[17]，Ullman和Bart认为可以利用延伸性特征实现视点独立的物体识别[18]。但他们的模型都不能独立完整地解释物体识别现象。当前主要的两个模型（结构描述模型和基于图像的模型）有融合的趋势。
　　Tarr和Bülthoff认为结构描述模型和基于图像的模型各有长处，但都存在问题，未来的识别模型应该是两者的整合。未来的模型必须满足以下条件：第一，在视点依赖性的问题上，必须能同时解释视点独立和视点依赖的识别现象；第二，能说明物体心理表征是如何支持多类别水平识别的；第三，必须充分灵活，以适应不同的物体类别经验；第四，识别任务的绩效是以下因素交互影响的结果：刺激类别的同质性（homogeneity of the stimulus class）、分类水平（categorical level）和经验水平（level of expertise），研究必须同时考虑这些因素[19]。
　　基于整合两个物体识别模型的考虑，研究者们进行了多方面的研究。
　　结构描述模型使用了物体的3D结构信息，基于图像的模型使用了特殊视点下的物体表面信息（视图信息）。多个研究表明，结构信息和视图信息在物体识别中都起作用[20,21]。Foster和Gilson提出的模型整合了结构信息和视图信息。他们采用一个整合了结构信息和视图信息的实验材料，进行同时匹配实验，发现结构信息和视图信息的加工是相互独立的。他们认为视觉系统通过整合这两种信息完成物体识别[22]。
　　Newell等人提出物体部件的形状信息和位置信息在物体识别中起重要作用，认为视觉物体加工存在一个“what＋where”表征阶段，在这个阶段中物体部件的形状（what）和位置（where）被联合表征[23]。
　　Tanaka等人研究了颜色在高级视觉中的作用，提出颜色与形状一样，对物体识别有重要作用，并提出形状加表面（Shape＋Surface）的识别模型[24]。Rossion和Pourtois的研究[25]也支持了这个模型。
　　生理机制方面的研究也支持了两个识别模型整合的构想。Vuilleumier等人通过事件相关功能磁共振成像技术（event-related fMRI）研究了人类物体识别的视觉神经机制，他们认为在腹侧视觉皮层（ventral visual cortex）中同时存在着视点依赖和视点独立的物体表征[26]。
　　4 视点问题研究的不足和前景展望
　　正如前面提到的，多年来，研究者们在物体识别领域做了大量卓有成效的工作，他们提出的模型已经建构了物体识别的整体框架，并能合理说明许多物体识别现象。但在物体识别的很多方面，他们的模型都存在异议，且不能完整说明物体识别现象。尤其是其中的视点问题，他们的研究结果存在很大差异，有些甚至是完全相反的。
　　引起视点问题争论可能有以下几个原因：
　　首先，他们的研究存在差异和争论的最大原因，可能是提出的识别模型本身是片面的，不能完整反映物体识别过程。多个研究已表明，结构信息和视图信息对物体识别都起作用，结构描述模型很好地描述了3D结构信息，基于图像的模型更多地表现了物体视图信息[20~22]。它们都没有全面表现物体信息。已经有研究者注意到这个问题，并提出了修正模型。Tarr提出，因为实验任务和具体情景的不同，物体识别不能由单一的识别机制进行解释，应该有两个或更多的识别机制同时存在[6]。物体识别机制被假想为一个连续体，在连续体的两端分别是视点依赖机制和视点独立机制（如“GSD模型”）。物体识别根据不同的任务和情景，在连续体中选择不同的识别机制[6]。Tarr的连续体模型对物体识别研究的发展提出了新的思路。但对于两个机制对物体识别起作用的具体情况，没有进行详细说明；对于两个机制共存时物体的心理表征形式，也没有明确说明。基于对模型本身的考虑，我们认为，从物体心理表征角度进行研究，也许可以更好地说明物体识别现象。视点问题之争，就是因为争论双方对物体心理表征有不同看法，导致了他们提出的识别模型的不同。所以只有提出一个合理完善的心理表征，才能建立一个完整的识别模型，从而对物体识别的心理机制做出合理解释。Stankiewicz也认为视点问题研究遇到困难的原因是，没有弄清楚物体的心理表征[27]。
　　其次，实验材料的选取不当，会对物体识别研究产生影响。研究中经常会用到熟悉物和新异物。所谓熟悉物，就是人们日常生活中可以见到的物体；所谓新异物，就是日常生活中没有的物体，大多是实验者重新构造出来的。当使用熟悉物时，不同被试对不同物体的熟悉程度是不同的。Biederman和Gerhardstein在1993年的关键文章中[2]，采用了熟悉物作为实验材料。物体的熟悉程度受被试的日常经验影响，具有个体差异；而且它是一个模糊的，不易精确测量的概念。熟悉程度会影响实验绩效，但在研究中没有被精确控制，所以实验效度必然会受到影响。他们以此结果来说明熟悉物体的识别过程是不够严谨的。当使用新异物时，又可以分为两种情况，一种是由我们日常熟悉的几何体组合成的新异物（如Biederman和Gerhardstein的1993年文章中实验3和实验5的情况[2]），一种是人造的变形虫状的物体（amoeba-like）[28]。第一种新异物虽然日常生活中没有，但对其组成部分人们是熟悉的；第二种新异物是完全不熟悉的。这两种物体的识别情况应该是有差别的，不能混为一谈来说明新异物的识别。在今后的实验研究中，必须明确分清物体的熟悉情况，并有效操控它，才能准确说明物体识别心理机制。
　　再次，实验操控问题也会引起争论。视点研究常用的实验范式是异同判断，即首先呈现一幅物体图像，然后是掩蔽，再呈现一幅物体图像，最后还是掩蔽，要求被试判断先后呈现的两副图像中的物体是否是同一物体，后面呈现的图像中的物体通常是前一幅图像中的物体在深度上旋转一定的角度所产生的。随着深度上旋转，物体图像会发生或多或少的变化，旋转角度与图像的变化并没有直接联系。识别绩效最终是与图像的变化程度有关的。所以，完善的实验研究应该分析图像变化与识别绩效间的关系，而不是只停留在旋转角度与识别绩效的关系上；且应该全面分析因为深度旋转而使物体图像产生的变化趋势，以及这些变化导致的物体识别绩效的变化。要探讨物体识别机制，仅依靠局部的变化情况是不够的。Biederman和Gerhardstein的1993年文章[2]中实验4验证了单个几何离子的识别是视点独立的。Hayward和Tarr[9] 1997年采用了类似Biederman和Gerhardstein研究中的实验材料――几何离子[2]，将几何离子的视点变化分为质的变化和量的变化进行研究。质的变化指物体图像发生剧烈的变化，量的变化指物体图像发生平缓的变化。实验结果表明单个几何离子的识别是视点依赖的。他们的实验结果出现差异的原因是：Hayward和Tarr的实验操控结果与Biederman和Gerhardstein的实验操控结果不同，所以被试看到的图像变化是不同的，会得出不同的实验绩效。Hayward和Tarr根据他们的实验结果对Biederman和Gerhardstein的研究[2]提出质疑，是不妥当的。
　　最后，被试的日常经验难以控制，也会对实验研究造成很大影响。被试的日常经验受多个因素影响：家庭环境、所受教育、社会背景等等，难以进行有效的控制。被试对物体的熟悉程度可以分为两方面描述：熟悉物的不同描述维度和各维度的熟悉程度。研究者通常将实验材料分为熟悉物和新异物，新异物又可分两种情况：完全新异[28]和部分新异[2]（即整体是新异的，但组成部分是熟悉的）。但这种分类并没有解决熟悉性问题。因为即使进行了实验材料的分类，类别内还是有熟悉性差异的。如部分新异的情况：虽然整体是新异的，但各组成部分是熟悉的；因为被试对各组成部分的熟悉程度是不同的，所以实验绩效也会不同，以致不能根据这样的实验结果得出正确结论。因此，在以后的研究中，对被试的日常经验必须严格控制或平衡，才能保证实验结果的有效性。
　　综上所述，如果能注重对识别模型的完善，并选取合适的实验材料、实验范式和被试，就可以增强研究的有效性，并使视点问题的研究向正确方向发展。
　　
　　参考文献
　　[1] Tarr M J. Vision: object recognition. In: L Nadel (ed.), R Goldstone (Section ed.). Encyclopedia of cognitive science. London, UK: Nature Publishing Group/Macmillan Publishers Limited, 2002. 490~494
　　[2] Biederman I, Gerhardstein P C. Recognizing depth-rotated objects: evidence and conditions for three-dimensional viewpoint invariance. Journal of Experimental Psychology: Human Perception and Performance, 1993, 19(6): 1162~1182
　　[3] Biederman I, Gerhardstein P C. Viewpoint-dependent mechanisms in visual object recognition: reply to Tarr and Bülthoff (1995). Journal of Experimental Psychology: Human Perception and Performance, 1995, 21(6): 1506~1514
　　[4] Biederman I, Bar M. One-shot viewpoint invariance in matching novel objects. Vision Research, 1999, 39: 2885~2899
　　[5] Tarr M J, Pinker S. Mental rotation and orientation-dependence in shape recognition. Cognitive Psychology, 1989, 21(2): 233~282
　　[6] Tarr M J. Rotating objects to recognition them: a case study of the role of viewpoint dependency in the recognition of three-dimensional objects. Psychonomic Bulletin & Review, 1995, 2(1): 55~82
　　[7] Tarr M J, Bülthoff H H. Is human object recognition better described by geon-structural-descriptions or by multiple- views? comment on Biederman and Gerhardstein (1993). Journal of Experimental Psychology: Human Perception and Performance, 1995, 21(6): 1494~1505
　　[8] Bülthoff H H, Edelman S. Psychophysical support for a two-dimensional view interpolation theory of object recognition. Proceedings of the National Academy of Science of the United States of America, 1992, 89: 60~64
　　[9] Hayward W G, Tarr M J. Testing conditions for viewpoint invariance in object recognition. Journal of Experimental Psychology: Human Perception and Performance, 1997, 23(5): 1511~1521
　　[10] Bar M. Viewpoint dependency in visual object recognition does not necessarily imply view-centered representation. Journal of Cognitive Neuroscience, 2001, 13(6): 793~799
　　[11] Marr D. 视觉计算理论. 姚国正等译. 北京: 科学出版社, 1988. 282~345
　　[12] Ullman S. An approach to object recognition: aligning pictorial descriptions. A.I. Memo 931, The Artificial Intelligence Lab., M.I.T., 1986. 1~57
　　[13] Marr D, Nishihara H K. Representation and recognition of the spatial organization of three dimensional shapes. A.I. Memo 416, The Artificial Intelligence Lab., M.I.T., 1977. 1~33
　　[14] Biederman I. Recognition-by-Components: a theory of human image understanding. Psychological Review, 1987, 94(2): 115~147
　　[15] Tarr M J, Vuong Q C. Visual object recognition. In: H Pashler (Series ed.), S Yantis (ed.). Stevens’ handbook of experimental psychology: Vol. １. sensation and perception (3rd ed., Vol.１). New York, NY: John Wiley & Sons, Inc., 2002. 287~314
　　[16] Perrett D I, Oram M W, Ashbridge E．Evidence accumulation in cell populations responsive to faces: an account of generalisation of recognition without mental transformations. Cognition, 1998, 67(1, 2): 111~145
　　[17] Wong A C-N, Hayward W G. Constraints on view combination: effects of self-occlusion and differences among familiar and novel views. Journal of Experimental Psychology: Human Perception and Performance, 2005, 31(1): 110~121
　　[18] Ullman S, Bart E. Recognition invariance obtained by extended and invariant features. Neural Networks, 2004, 17: 833~848
　　[19] Tarr M J, Bülthoff H H. Image-based object recognition in man, monkey and machine. Cognition, 1998, 67: 1~20
　　[20] Stankiewicz B J. Empirical evidence for independent dimensions in the visual representation of three-dimensional shape. Journal of Experimental Psychology: Human Perception and Performance, 2002, 28: 913~932
　　[21] Wilson K D, Farah M J. When does the visual system use viewpoint-invariant representations during recognition? Cognitive Brain Research, 2003, 16: 399~415
　　[22] Foster D H, Gilson S J. Recognizing novel three-dimensional objects by summing signals from parts and views. Proceedings of the Royal Society of London, B, 2002, 269: 1939~1947
　　[23] Newell F N, Sheppard D M, Edelman S, et al. The interaction of shape- and location-based priming in object categorization: evidence for a hybrid “what + where” representation stage. Vision Research, 2005, 45: 2065~2080
　　[24] Tanaka J, Weiskopf D, Williams P. The role of color in high-level vision. Trends in Cognitive Sciences, 2001, 5(5): 211~215
　　[25] Rossion B, Pourtois G. Revisiting Snodgrass and Vanderwart’s object pictorial set: the role surface detail in basic-level object recognition. Perception, 2004, 33: 217~236
　　[26] Vuilleumier P, Henson R N, Driver J, et al. Multiple levels of visual object constancy revealed by event-related fMRI of repetition priming. Nature Neuroscience, 2002, 5(5): 491~499
　　[27] Stankiewicz B J. Just another view. Trends in Cognitive Sciences, 2003, 7(12): 526
　　[28] Edelman S, Bülthoff H H. Orientation dependence in the recognition of familiar and novel views of three-dimensional objects. Vision Research, 1992, 32(12): 2385~2400
　　
　　
　　The Viewpoint Debates in Object Recognition
　　Chen Peng, Fu Dejiang
　　(Department of Psychology Behavioral Sciences, Zhejiang University, Hangzhou 310028, China)
　　Abstract: The viewpoint has been the focus of the debates in many recent object recognition studies. Two major theories about the viewpoint, structural description model and image-based model, and some recent research are reviewed. The shortcomings of the current research are pointed out, and the solution to the debate, which is that improving the object representation model, is discussed in this article.
　　Key words: object recognition, viewpoint, representation.
　　
　　收稿日期：2005-04-28
　　通讯作者：符德江，E-mail: fdj@mail.hz.省略