【计算机自动化项目生成概述】 电气工程及其自动化自考

  摘要:近年来,计算机自动化项目生成作为应对测验项目曝光问题的很具前景的一项技术,逐渐得到越来越多研究者的重视。这种技术是以认知心理学和心理测量学为基础,在测试过程中借助计算机自动生成目标难度水平的项目。该文首先简要介绍了这种技术的理论基础和两种具体方法,然后以项目设计系统法为例说明自动化项目生成研究的具体步骤与优点,最后评述了这种技术的局限性及未来的发展趋势。
  关键词:计算机自动化项目生成,认知设计系统法,项目模型法,构念效度。
  分类号:B841
  
  随着心理测验在招聘选拔情境中的应用越来越普遍,测验项目的曝光问题也逐渐引起人们的重视。测验项目的曝光不仅会影响测验的公平性,也可能会影响测验的心理测量学属性。计算机自动化项目生成被许多研究者认为是应对测验项目曝光问题的很具前景的一项技术。自动化项目生成是指在测验过程中,计算机根据项目编制者或者自适应施测程序的要求,在项目生成算法的指导下,即时自动生成符合指定项目参数的项目。尽管这个项目先前并不存在,也没有经过试测,但项目参数可以通过基于项目刺激特征与项目属性之间关系的心理测量学模型进行预测。因而自动化项目生成可以看作是认知心理学、心理测量学以及计算机技术三者有机结合的产物,是对传统项目编制方法的革新。这种技术已经被应用到能力和成就测验领域,还被用于对复杂技能的评估,如问题解决、临床诊断和教学技能,因项目编制效率高、结构效度好而受到欢迎。
  
  1 理论基础
  
  尽管早在20世纪70年代已经有研究者提出项目生成的思想,但真正利用项目生成方法编制测验的实践则是从80年代中期才开始的。其间Embretson对构念效度的重新阐述对促进自动化项目生成的发展起着关键作用。Cronbach和Meehl提出的构念效度已经指导能力测验几十年了,但Embretson认为他们的提法混淆了构念本身的含义以及与其他类似构念的关联。由于相关数据的累积只能通过测验编制完成之后的施测获取,因此传统的构念效度概念只能用来描述测验当前的构念,却不能为测验设计提供指导。
  为了将测验设计结合进构念效度概念,Embretson提出一个两部分分离的构念效度:构念表征(construct representation)和规则广度(nomothetic span)。构念表征涉及鉴别任务表现潜在的认知成分,而规则广度则关注测验分数与其他构念之间的详细关系。Embretson认为传统构念效度的方法只包含后者,通过和其他测量相关联给测验分数赋予意义(规则广度):而认知心理学的新进展表明测量的意义也可以直接获得,即通过对在单个项目的问题解决行为中所涉及的过程、策略和知识的理解来确立(构念表征)。构念表征的研究范式包含运用认知心理学的方法为测量任务建立心理加工模型,如操纵测量任务的刺激特征,从而改变对假定认知过程的影响。
  这种两部分分离的构念效度对测验编制来说有很大优势。最重要的是可以用认知理论指导测验编制。因为测验分数的意义在构念表征阶段已经确立,因此可以设计测验项目来反映特定的认知结构,进而根据那些已经得到实证性支持的影响目标过程、策略和知识结构的刺激特征来选择项目;同时,规则广度也受目标认知过程与重要外部变量之间关系的影响,对问题解决过程的认知分析可有助于它的提高。
  
  2 具体方法
  
  根据认知理论在项目生成中的影响过程和作用,Embretson等认为可将目前主要的自动化项目生成方法分成两种:认知设计系统法和项目模型法。这两种方法分别对应于Bejar等所提出的强理论(strong theory)和弱理论(weak theory)。强理论通过问题解决过程中隐含的心理学原理来精细地控制组成测验的模型或生成模型的实例的难度,如Embretson的矩阵完成测验和Beiar的心理旋转测验;弱理论以一组内容和难度上有广泛代表性的校准好的测验项目为起点,依据最佳实践原则(best-practice guideline)而非心理学原理生成模型,如GRE数学测验。这种分类方法对项目自动生成具有实践指导意义,因此下面将对两种方法的基本思想、步骤以及应用条件进行详细介绍。
  
  2.1 认知设计系统法
  认知设计系统法的基本思想是通过实验研究,发现项目刺激特征中的基本成分和随机成分。基本成分或控制成分(radicals or controlling elements)是指对项目心理测量学特性(如难度)有显著影响的项目刺激特征;随机成分或非控制成分(incidentals or non-controlling elements)被定义为对项目的心理测量学特性(如难度)没有显著影响的项目刺激特征。一般认为,基本成分主要有以下两类:第一类与工作记忆操作有关,如矩阵推理测验项目中规则的数量,阅读理解测验中的单词转换等;第二类与知识操作有关,如阅读理解测验中的词频等。随机成分都是些表层特征,如数学题目中涉及人物或物品的名称等。
  
  2.2 项目模型法
  项目模型法,也称模版法(template),是指以具有良好心理测量学指标的项目为基准(原型或框架),通过替换那些被认为与问题解决过程无关的特征,如物体名称、具体数字等,形成多个新项目。虽然这些新项目看起来与原来的项目不同,但实质却是类似的。实际上项目模型法也可看作是生成同构异形题多个实例的过程,这些项目在实质内容和心理测量学属性上都相一致。如果正如假设的那样,新项目继承了项目模板的特性,在心理测量学特性上与原先模板的特性非常接近,则可以直接通过这些新项目估计测试者的能力,而不需要进行试测。
  
  2.3 两种方法的比较
  这两种方法的根本差别在于对认知心理学研究成果的倚重程度,认知设计系统法对认知心理学的依赖程度更高些。
  对项目模型法来说,认知心理学的影响主要体现在两个方面:(1)必须要限定那些与测量构念相关的变量允许替换的范围,以免在很大程度上改变认知加工过程。如替代的速度和距离需要更复杂的计算,以改变问题的难度。(2)利用语义网络来确定什么样的替代变量的组合是有意义的。比如在交通方式及其相应的动词上,飞机对应飞行,汽车对应行驶。项目模型法是期望通过最小限度地替换现存项目中的部分成分,去生成与原模板特性类似的大量项目。项目模型法因应用范围广、花费比较适中等优点,受到ETS等考试服务机构的青睐,如用于GRE中的数学测验、数量推理测验的项目生成。然而这样的项目因变动较小,重复曝光,容易被测试者记住,进而导致心理测量学属性的显著差异。
  对认知设计系统法来说,认知心理学的研究起重要作用,它直接影响项目类型的认知加工分析和 解决过程中认知模型的建立。这个模型对项目解决过程、刺激特征对过程的影响以及过程对成绩的影响进行了详细说明。因此,基于认知设计系统法建构的项目,允许替换所有项目表层特征,只是基本成分的隐蔽性要求更好些。通过这种比较,我们可以看出对于那些有坚固认知研究基础的项目类型来说,认知设计系统法显然是更合理的选择。目前这种方法已经被用于非言语能力倾向测验,如矩阵推理项目、图形类推、空间折叠以及空间物品排列;正试图应用于其他类型的项目,如言语类推、言语分类、字母序列、段落理解以及数学问题解决。
  
  3 具体步骤
  
  下面介绍认知设计系统法的具体步骤。其实在具体实施中,项目模型法也秉承类似的做法,只是对实验控制和认知心理学实验的倚重程度上有所不同。根据Embretson等的做法,认知设计系统法指导下的自动化项目生成主要包括以下4个阶段:
  
  3.1 为现存项目建立认知模型
  在项目生成研究的最初阶段,认知设计系统法需要为现存的能力测验项目建立认知模型,目的是从整体上了解项目变异的来源。首先从文献综述出发,考察潜在的认知加工过程以及影响项目变异的刺激特征,即哪些刺激特征可能会对项目的难度、区分度等属性产生影响。一般而言,实验室研究中使用的任务通常会比真正的能力测验上的项目更简单,因此需要假设一个更复杂的模型来充分表征能力问题解决中的认知加工过程。然后采用多种研究手段(如眼动、计算机模拟)对所识别出的、可能影响项目属性的刺激特征进行实验验证,求这些刺激特征与项目属性之间的相关,或者比较操纵这些刺激特征引起项目属性的变化来确定它们的影响。尽管一般而言,项目难度是研究者最关注的项目属性,但反应时数据对认知加工模型的支持也很必要。
  
  3.2 根据规则生成项目并修正认知模型
  在项目生成研究的第二阶段,认知设计系统法主要关注项目编制和测验设计的问题,即项目刺激特征能否被单独操纵来影响加工难度,这些项目刺激特征是基于上一步建立的认知模型中的变量。为操纵项目刺激特征,根据认知模型变量建构一套项目编制说明(项目生成算法),然后在据此手工编制一批新项目进行试测,确定项目刺激特征是否影响项目难度以及被试在这些项目上的表现。虽然通过试测可以估计项目和被试参数,但这一阶段的主要关注点仍是项目刺激特征。对于认知模型来说,项目刺激特征应当能充分预测项目难度、反应时以及其他一些心理测量学指标。另外,从实证的角度来说,具有相同刺激特征组合的项目在心理测量学指标上应该高度接近。
  
  3.3 计算机自动化生成项目
  在项目生成研究的第三阶段,需要编制计算机程序实现项目自动化生成,即计算机自动化项目生成器。尽管编制出项目生成和呈现机制方面的程序很重要,然而为特定项目类型发展出项目结构则是成功的关键。项目结构基于第二阶段修正的认知模型,是对所有影响项目认知复杂性的各种项目刺激特征特定组合的详细说明。这样,具有相同项目结构的项目携带有相同来源和水平的认知复杂性,并相应地具有相同的心理测量学指标。其他一些未纳入认知模型的刺激特征,对项目认知复杂性不造成显著的影响,是可以变动的。需要注意的是,不同项目类型(如测量空间能力与测量推理能力的项目)在项目结构上可能存在质的差异。
  
  3.4 实证性地检验自动生成的项目
  在这最后阶段,还需要收集些实证数据来评估项目生成器的稳定性以及自动生成项目的质量。项目生成器的稳定性主要是检视自动化生成的项目外观上是否符合预期的设定。自动化生成项目的质量通过比较项目生成算法预测出的参数与项目的实际参数进行评估,若两者非常接近,则表明设立的认知模型以及项目生成算法是有效的。
  
  4 相关IRT模型
  
  正如前面所提及的,自动化项目生成需要合适的心理测量模型以及实质性研究(认知基础)。实质性研究很大程度上依赖于认知心理学,从而通过预测取代估计项目参数,而心理测量学模型则依赖于项目反应理论的发展。随着测量模型和认知心理学理论的发展,研究者提出多种能将认知心理学理论和测量模型连接起来的拓展项目反应理论模型,如线性逻辑斯蒂模型(LLTM,Linear Logistic TestModel)、约束两参数逻辑斯蒂模型(2PL-constrainedmodel)和项目结构的多层次IRT模型(HierarchicalIRT model for item structure)。其中前两种模型特别适用于认知设计系统法,最后一种特别适合于项目模型法。这些模型的共同特征是将影响项目认知复杂性的变量进行量化,纳入到测量模型,从而为项目自动化生成的参数预测奠定基础。
  
  5 优缺点评述
  
  Embretson对自动化项目生成的优缺点进行了总结。她认为,与传统项目编制方法相比,自动化项目生成有如下几点优势:(1)编制新的项目更容易,从而更好满足自适应测验对大量项目的需求;(2)生成指定难度水平与合适心理测量学特性的项目,避免了传统测验编制时有大量项目因试测中品质不合格而被抛弃;(3)如果项目生成算法足够精准,则可不必经过试测而将新生成项目放入题库;(4)结构效度存在于项目水平,即每个项目认知复杂性的具体来源都可以通过给模型变量赋以特定权重来确定;(5)可以重新设计测验来表征项目难度的特定来源,即认知复杂性的某些来源的影响可以直接加以控制。而自动化项目生成的局限性主要体现在:(1)这种方法需要实质心理学的支持,即为特定的项目类型发展出合理的认知模型需要一些实证性研究来支持。然而对某种特定的测验来说是否实际,还得在最初的研究花费与可以生成无限个的新项目的成果之间权衡。(2)尽管这种方法可以应用于新的项目类型,但还是对已经发展出来的项目类型最有效。因为对新项目类型来说,它们结构效度中的规则广度还需要通过从该项目类型获得分数的相关的研究来证实。
  
  6 研究展望
  
  从20世纪80年代中期开始,心理和教育测量领域的一些研究者对很多项目类型进行了认知分析并应用到新项目的编制,探讨如何将认知理论结合到测验编制中。到现在为止,已经在多个方面取得进展,如GRE的数量推理、分析性推理等。对于自动化项目生成,目前国外最新的研究趋势主要集中在以下4个方面:
  
  6.1 原有模型的修正
  尽管先前的研究已经找到影响认知复杂性的一些因素,但随着认知心理学研究的深入,一些研究者认为过去的认知模型不能覆盖所有这些重要的影响因素,因此需要对以往的模型进行修正,以建立解释率更高的认知模型来拟合相关问题解决过程,如Diehl在项目生成算法中纳入干扰项的特性。
  
  6.2控制机制的引入
  对于自动化项目生成,如何在研究者不干预的情形下产生符合要求的测验?Embretson自动化生成的抽象推理测验项目,从知觉角度分析,大约有7%的项目不符合要求。将自动生成的这些项目直接呈现给测试者,这在高利害关系的测验中显然是不允许的。因此有必要引入项目质量控制机制,如Arendasy等人建议加入基于Rasch模型的校准机制。
  
  6.3 内容领域的扩展
  过去计算机自动化项目生成的一些测验主要集中于有坚固认知基础的领域(如心理旋转、隐蔽图形和抽象推理测验),很容易通过操纵相关刺激特征控制加工难度。言语测验的自动化项目生成则涉猎较少。自然语言机制研究的进展,逐渐为言语测验的自动化项目生成提供技术支持,如GRE的分析性推理测验项目的生成。
  
  6.4 测验技术的革新
  计算机自适应测验可以根据对测试者的能力的初步估计,从已知项目参数的题库中选择最佳信息量的项目,从而提高测验的效率。如果将自动化项目生成结合进来,计算机自适应测验不是从题库中抽取项目,而是调用根据对测试者的能力的初步估计即时生成的项目,从而实现自适应项目生成。这将在很大程度上降低题库维护成本,提高测验的安全性。根据Embretson和Yang,尽管一些项目自动化生成以及自适应施测的程序已经存在,但尚没有将这两者结合起来的研究和实践。
  总而言之,正如Swanson所说,自动化项目生成将成为未来测评的主流是不容置疑的,目前讨论的问题主要是如何发展和应用这种技术。计算机自动化项目生成在测验编制中有着巨大的潜力,如效率高、结构效度好等特点,在世界各地的多项测验中已经得到较好的应用(如美国GRE、英国BARB)。在我国这一方面的研究和实践还非常少,如何借鉴其他国家和地区的经验,提高我国教育与心理测验的效率和质量是值得我们思考的问题,如自动化项目生成的原则也可用于指导人工编制项目,对目前正在构建的国家级题库具有实际意义。