您当前的位置:首页 >>教育科研>>重点项目>>教育质量综合评价>>文章内容
学生能力大规模国际测评项目在教育效能研究中的应用(二)
信息时间:2016-01-12     阅读次数:

学生能力大规模国际测评项目在教育效能研究中的应用(二)

作者:埃克哈德•克里默胡咏梅彭湃    

【摘要】学生能力大规模国际测评项目(ILSA)可以为参与国提供持续监测教育系统运行以及评价教育系统有效性的基础数据。基于大规模测评项目数据挖掘而进行的教育效能研究(EER)的基本模型CIPO(背景—投入—过程—产出)是由国际教育成就评价协会(IEA)用于ILSA设计,后被许多学者改进。克里默等人提出了测评EER中最重要的元素——教学质量的三维结构:结构化的课堂教学管理、支持性的班级氛围和富有挑战性的认知激活。这一结构框架的科学性和可行性被不少学者开展的EER经验研究所证实。尽管ILSA数据分析能够有助于增进对学校效能和教育发展政策的理解,但仍存在着因缺乏追踪数据而难以做出因果推断的局限性。因此,纵向研究设计成为大规模教育测评项目的发展趋势。

(续前节)

(三)课堂教学质量测评框架的演变

下面以CIPO模型中最为重要的结构元素——课堂教学质量为例来阐释其背后的理论,并描述其测评框架的演变,同时引介一些典型的基于ILSAEER经验研究。

在早期传统的行为心理学研究中,通常将完成某种学习目标所需时间作为教学有效性的判断标准。在1963年卡罗尔利用学习时间来预测学生成绩的研究出现之后,许多关于学习时间的研究相继出现。与此类似,学习机会(以下简称OTL)对成绩的影响效应研究,也是最早出现在卡罗尔的研究中。在这类研究中,研究者赋予教学质量的操作化定义为:达到某种教学目标而能够减少的学习时间(与标准时间相比)。

学习机会(OTL)已经成为学生能力或成绩国际评估项目中的重要概念,因为许多跨国经验研究表明,它与学生成绩高度相关。史蒂文斯归纳了已有研究中常用到的四类OTL变量:一是内容覆盖度,测量课堂教学内容是否涵盖了某年级课程大纲所要求的内容;二是教学内容呈现,包括各项教学任务的分配时间以及教学内容的深度;三是重点内容范围,教学重点与次重点内容的安排是否合适;四是教学过程质量,这类变量是用于揭示课堂教学活动是

如何影响学生学业成绩的,即教学有效性或教学效能指标。

在某些学者看来,OTL已经成为学生所经历的课堂教学质量的代名词。然而,施密特和迈尔认为,学生在学校学到什么与教师所教直接相关,因而,他们将OTL限定在教学内容呈现变量上。为了解释学生课程成绩差异,教师或学生通常被询问,教学内容是否以及如何呈现的,此外,也咨询课程专家,教师是否按照教学大纲或课本要求来开展教学活动。他们利用这些调查数据,分析判断教师在课堂教学中的内容呈现达标度。

除以上描述OTL的变量外,有学者将课堂教学过程有效性的变量也加入其中,如高度结构化的课堂教学,包括及时监测教学效果,调整教学进度和保持课堂秩序,清晰地呈现教学内容,进行形成性的和鼓励性的口头评价。这些元素有助于创设一种有序的课堂教学氛围,并且有利于提高学生学习效率。不过,学生学习动机和非认知能力的提升关涉教学过程的其他方面,比如班级氛围和师生关系,这些方面能够提升学生的学习自主性、独立性和人际沟通能力。布朗提出,为了促进学生对概念的理解,教学中应当安排一些富有挑战性的学习活动。克里默等人归纳提炼以上学者的观点,形成了教学质量的三个基本结构维度:一是清晰的、高度结构化的课堂教学管理,二是支持性的以学生为中心的班级氛围,三是富有挑战性的认知激活。

(四)EER的经验研究

不少学者开展的EER的经验研究也证实了上述教学质量三维结构框架的科学性和可行性。例如,克里默等人利用TIMSS视频数据进行的一项关于初中数学教学质量评价的研究,鲍默特等人关于初中数学教学有效性的经验研究均为这一教学质量的测评框架提供了经验证据。克里默等人利用PISA项目的国内扩展数据得到了与之相似的结构维度。皮安特和汉莫瑞利用美国小学数据也揭示了这一三维结构。

三、学生能力大规模测评项目在教育有效性研究中的局限性

ILSA项目可以为参与国提供持续监测教育系统以及

评价教育系统有效性的大量数据。多数ILSA项目研究者在进行教育有效性研究时,主要关注一个国家或地区在当前的教育教学条件下学生能力发展所面临的优势与挑战,但政策制定者更倾向于获知学生达到目前的能力水平的原因及条件。

尽管ILSA数据分析能够有助于增进我们对学校有效性和教育发展政策的理解,但我们仍可以发现在此方面研究中存在以下局限性。第一,利用现有的ILSA数据不能对学校教育进行增值性评价。例如,PISA是一项以测评教育产出为重心的国际学生能力项目,测评参与国或地区

15周岁的学生生存和终身发展所必备的识字能力和计算能力。它并不关心初中学生在校期间学习了多少知识或能力提升了多少,这种增值性评估需要测评学生在进入初中学校时的能力水平并将目前的能力水平与之比较。只有测量学生能力水平的差值,才能得到15周岁学生经由其所在学校教育获得的能力或成绩进步的数据。然而,PISA项目设计并没有提供这种基线测量数据。第二,无法估计教师质量及其对学生能力或成绩的影响效应。至少在过去的

十年中,PISA项目设计在此方面研究是不可行的。因为该项目设计学生抽样时,是对所抽选学校15周岁在校生随机抽取的,而不是随机抽取一个完整的班级,因而无法测量班级层面的教学策略、水平及其对学生成绩的影响效应①。第三,尤其困难的是基于ILSA项目采集的学生能力或成绩数据以及调查数据对教育政策或某项教育干预对学生能力或成绩的影响做因果效应推断。正如贝克尔所指出的那样,教育政策制定者通常仅能获得基于ILSA数据的国际教育比较研究的简短的结论,比如不同国家学生能力是否存在显著性差异。尽管计量经济学家也研究教育生产率问题,但其中多数研究仅为描述性的,而未涉及估计因果效应。因为ILSA的数据多为截面数据,而且可以解释学生能力差异的重要变量如文化因素等被遗漏,会造成估计的偏误。例如,PISA2006项目设计的数据分析是不可以做因果推断的,因为对学生成绩影响的潜在重要因素如学生以前的学习成绩在横截面数据中是没有被采集的。因此,无法进行统计控制,既不能纳入所有预测教育产出的重要因素,也不能模型化处理分配过程,如使用倾向得分匹配法。在目前ILSA可得的数据,仅控制了学生家庭背景(如SES等)、人口统计学特征(性别、年龄、语言、是否移民等),是不能充分解释学生学习基础差异性的。因此,已有的研究结果不能告诉政策制定者是否某项政策真的能够产生更高的成绩或能力水平,而不是碰巧抽样的是高学业水平的学校学生。例如,OECD指出:“公布学生成绩的学校将会比不公布的学校学生成绩高出14.7分(在控制学生人口统计学变量和社会经济背景变量后)。”因而,他们得出“提供外部监测标准将会给学校学生学业成绩带来正向影响”的结论。由此,他们建议将公布学生成绩作为学校改进的一项重要策略。然而,这只是政策制定者夸大ILSA数据解释力的众多实例之一。

尽管对基于ILSA的因果推断存在上述悲观观点,但仍然有学者利用独特的研究方法来推导因果关系。如前所述,PISA是建立在教育效能的CIPO理论模型之上的,并且其对于投入和过程的因果推断可能因为截面设计而存在内生性问题,但对于背景则不尽然。例如,韦斯特和沃思曼通过自然实验法,估计了不同国家私立学校的竞争程度对于这些国家PISA成绩的影响。在分析学校(或国家)教育政策或干预效应时,将之作为学校或国家层面的“处理”,引入学校或国家层面的PSM法,从而获得处理因果效应的准确估计。如在估计逃学或缺课效应时,可以采用这种以学校为分析单位的方式。此外,PISA每隔3年对15岁学生测评,现在已经形成了5轮的趋势数据。如果国家教育政策在此期间发生了重大变化,可以对这些政策的影响进行评估研究,而这也属于宏观教育效能研究的范畴。比如菲舍尔和克里默分析了“全日制学校”①政策和学生整体PISA成绩变化之间的联系。最后,斯泰纳等人认为,对于观察研究来说,控制变量的选择比使用何种计量方法更为重要。而我们知道,PISA项目提供了非常丰富的学生背景变量,因此,在因果推断分析中并不一定占劣势。目前,纵向研究设计已经成为大规模教育测评项目的趋势。相对于截面研究设计,纵向研究设计能在建模时控制学生入学时的初始学业水平,这为剥离出“真正的”学校影响创造了条件,也为科学公平地评价学校的效能提供了有效数据。增值学校效能研究就是EER纵向设计的一个具体运用,通过增值法来评价学校效能的优势已经广受认可,其研究结论对于择校、学校或教师问责制、学校改进与发展都有重要的政策含义。针对PISA截面设计的劣势,已有研究者以PISA截面抽样为蓝本,对参加PISA的学生进行后测跟踪研究,以形成追踪时间序列数据,一定程度上改善了这个缺陷。另一种改进可能是,对参加PISA的学生进行回溯追踪研究,即收集他们之前参加的全国性或地区性统考的成绩作为基线测量数据,以开展增值性评价。美国等国家在参加PISA测试,但同时也在国内建立大规模的NAEP等测试体系进行学生学业成就追踪测评。

ILSA因其系统的设计、政策导向和理论框架严谨而受到诸多教育研究者的青睐。即使严格的因果效应推断无法获得,也还是有许多国际学者利用ILSA数据开展了大量的教育效能方面的研究。这是由于ILSA数据能够在EER研究中有实质性作用:一是来自EER研究的假设能够被ISLA数据所检验,二是来自ISLA数据的解释性或相关性的研究结果可以与更稳健设计的结果进行相互验证,三是ISLA可以为EER研究开展跨文化和不同国别的比较研究提供基础数据。遗憾的是,虽然国内许多学者开始研究PISATIMSSPIRLS等学生能力大规模国际测评项目,但主要集中于测评项目对我国教育质量监测与评价的启示、能力测评框架和试题编制以及各国学生能力状况比较等方面,至今国内学者利用ILSA项目数据开展EER研究的文章尚很少见,仅有辛涛等人发表的学校教育资源、学校氛围、学习投入等对学生数学素养、阅读素养或科学素养影响的跨文化比较研究。随着ISLA项目设计日臻完善,相信会有越来越多的国内外学者投入此研究,为提升教育效能以及各国教育政策制定与完善提供科学证据。

 

(资料来源:教育部基础教育质量监测中心)

 
附件下载:

    主办单位:常州市教育学会   苏ICP备05086717号-1
    地址:江苏省常州市紫荆西路6号   电话:0519-86695189   邮编:213016
    技术支持:常州市教育科学研究院、常州万兆网络科技有限公司    访问统计    网站管理


    打开微信扫描二维码
    关注"常州市教育科学研究院"微信订阅号