《深化新时代教育评价改革总体方案》要求着力破除唯分数、唯升学、唯文凭、唯帽子的顽瘴痼疾,建立科学的、符合时代要求的教育评价制度和机制。随着《普通高中语文课程标准(2017年版2020年修订)》和《义务教育语文课程标准(2022年版)》的颁布,语文学业水平考试命题的情境性、实践性、任务性特征逐渐明晰,成为测评学生语文核心素养的有力依托。虽然这种命题指向能够在一定程度上达到测量学生核心素养的目的,但是核心素养的内隐性特征导致单一考试成绩难以真实反映学生的素养发展水平。这无疑给倡导“教—学—评”一体化的教育评价改革设置了障碍。清除障碍的关键举措是变革学业水平考试评分方式,这也是我国教育研究和实践工作者面临的现实问题。
当前对学业水平考试命题的探索给学生提供了各种表现思维方式和问题解决过程的空间,但也带来了如何合理评分的难题。[1]本研究通过梳理既有研究结果,结合学业水平考试评分现实情况,总结适应核心素养背景下语文学业水平考试评分标准变革的关键因素,并尝试设计一套评分模式。
一、遵循系统性原则,评分应同时体现学生的认知水平和非认知类别
学业水平考试的评分标准不仅要“展现学生在语文学习过程中形成的能力、方法”,还要展现“情感态度与价值观的综合发展要求”。[2]前者指向事实判断——对学生认知能力的判断,后者指向价值判断——对学生非认知能力的判断。[3]核心素养背景下的学业水平考试命题重视不同知识、方法或态度在深层意义上的整合与运用,关注学生在复杂的开放性问题情境中的综合表现,反映在评分标准上,就要求兼顾呈现学生的认知能力水平和非认知能力水平。
根据核心素养的基本特征,义务教育语文课程标准评价组曾研制了语文核心素养测评框架,在认知维度层面可将核心素养拆分为十二组行为动词。其中,“文化自信”包括体认与传承、关注与参与、理解与借鉴,“语言运用”包括积累与整合、发现与领悟、应对与交流,“思维能力”包括感知与体味、联想与想象、辨识与推理,“审美创造”包括体验与感悟、欣赏与评价、表现与创造。[4]这些行为动词分别体现了四个核心素养在学业水平考试上的要求,构成了认知维度评分标准的框架。非认知能力主要指非智力因素,包含情感、意志、个性倾向等方面。[5]非认知能力对初中生的学业表现具有显著的正向预测作用。[6]在学业水平考试中,非认知能力的确定要依据学生的具体作答表现和特定题目的作答结果。例如,在考查《西游记》整本书阅读时设计以下两道题:
题1:小恩读到孙悟空“忍气含悲”时,想以孙悟空的口吻给唐僧写一封信,请你根据文本帮助他完成这个任务。
题2:查找资料时小恩发现,人们对《西游记》的评论各有不同:有人称之为“神魔小说”,有人称之为“童心之作”。你赞同哪个观点?结合材料说说你的理由。[7]
题1符合“依据特定题目作答结果判定非认知能力”的特点。社会与情感能力是非认知能力的主要方面,共情能力是社会与情感能力的有机组成部分。题目中“小恩”要以孙悟空的口吻给唐僧写一封信,就需要与孙悟空共情;学生要完成测试任务,就需要与“小恩”共情。题2符合“依据具体作答表现判定非认知能力”的特点。在作答结果中,有学生仅回答“我赞同第一个观点”,也有学生回答“我赞同第一个观点,因为这个观点……”,还有学生回答“我赞同第一个观点,因为第一个观点……与第二个观点相比……”这三种作答结果依次代表了学生完成任务由低到高的态度水平。对学生非认知能力的判定很难通过量化的得分呈现,要对学生作答结果进行编码,以类别的形式判断其非认知能力表现。例如,将第一个学生的作答结果编码为A,代表“漠视态度”;将第二个学生的作答结果编码为B,代表“主动态度”;将第三个学生的作答结果编码为C,代表“热忱态度”。
综上所述,核心素养立意下的语文学业水平考试评分标准要从系统的视角整合呈现学生的认知能力水平和非认知能力类别。二者构成了评分标准的宏观框架。以“语言运用”素养为例,可以建构如表1所示的宏观评分标准框架。
根据上述框架,学生在第1题上的得分可标注为“1-C”,代表该学生在“积累与整合”认知能力上的表现欠佳,但是他的学习态度较为热忱,需要在维持态度的基础上,加强该生的语言文字积累、整合能力。
二、遵循相对性原则,评分标准要反映学生在特定情境任务下的素养表现
“考试命题应以情境为载体,依据学生在真实情境下解决问题的过程和结果评定其素养水平”[8],已经成为学业水平考试命题的共识性原则。在纸笔测试环境下较难呈现复杂多元的情境要素及各要素之间多样化的联系,加大了创设真实情境的难度。[9]有学者提出,PISA(国际学生评估项目)的测试框架整合了情境、学科内容和核心素养三个维度,只需要通过改变情境的结构化程度、要素数量及其关系,就可以创设各种复杂程度的情境任务[10],能有效弥补纸笔测试的不足。这种假设建立在“特定情境任务考查特定水平核心素养”基础上。从评分角度看,就要从分数梯度上呈现学生核心素养发展的相对水平。所谓“相对水平”,是指学生在特定测试难度下核心素养的表现水平。情境任务难度存在差异导致素养水平“天花板”高度不同,在相同赋分的情况下,学生的素养表现就可能不同。具体而言,对学生“思维能力”素养的评分在不同的测试情境下都可以标记为1分,但因测试情境难度存在差异,所以1分的“含金量”是不同的。在相对复杂的测试情境中,1分可能表示学生能够从辩证的角度得出多种结论;在简单的测试情境中,1分可能仅表示学生能够从语言材料中提取有效信息。因此,在设置评分标准时,首先要明确测试情境的难度水平,再根据情境的难度水平确定核心素养的水平梯度。
测试情境的难度水平标定目前尚未有清晰的操作标准。有学者以“文化—历史活动理论模型”为基础,建构了学业水平考试的命题模型,能够提供参考。模型的核心旨趣是探究如何建构真实的测试情境。研究发现,当把活动系统网络作为情境创设的基本单位时,构成总活动系统和子活动系统的关键要素,是构成和分析复杂社会活动的核心;要素之间的复杂关系为学生多角度体认测试情境提供了广阔的思维场域,增强了情境的真实性。[11]一言以蔽之,活动系统数量越多、构成要素越多元,情境就越真实、越复杂。以此为标准,就可以初步判断测试情境的难度,并根据测试情境难度标定核心素养的相对水平。
举例来说,以探究《澄衷蒙学堂字课图说》中对“天”字的解释为测试情境,可以命制指向同一种思维能力的两种题目。题1:“请结合《澄衷蒙学堂字课图说》中的表述,解释‘天’的意思。”题2:“借用以上两则解释‘天’为何物的材料,对《澄衷蒙学堂字课图说》中‘天’的含义作出解释。”这两个题目都是让学生解释“天”的意思,但是题2涉及更多要素——两则解释“天”为何物的材料,创设了比题1更为复杂的测试情境,故虽同样考查学生思维能力中的“辨识与推理”能力,但题2的相对水平要显著高于题1的相对水平。在赋等级分数时,题2的1分“含金量”也自然就要高于题1的1分“含金量”。综上,将相对水平纳入宏观评分标准框架中,即可构成中观评分标准框架(见表2)。
根据上述框架,学生在第1题上的得分可定为“低-1-C-1”。该生在两个情境难度下的相对水平都为1分,说明在“语言运用”素养中的特定认知能力方面表现欠佳,且只能在语料的积累量上增长,而难以建构语料之间的联系,实现认知上质的突破。
三、遵循建构性原则,观照学业成就表现背后的意义建构
教育评价是一种基于证据的推理过程[12],即通过学生在完成测试任务时的表现,判定他们的知识、学习经验、心理特征或水平。前文基于系统性和相对性设计的评分标准框架只能从“点”的角度评定学生的认知能力和非认知类别,但是学科核心素养蕴含的学习观是建构主义,指向的是学科内容的结构性和关联性,学生学习语文也是在个体与情境的互动中创生意义的过程。[13]因此,核心素养立意的学业水平考试评分标准应力图呈现学生素养的建构样态,从动态的“线”上看学生核心素养的表现特征。
动态的“线”包含哪些进阶性的要素,决定了“线”的模样。许多成熟的理论,例如,布鲁姆的教育目标分类理论、SOLO(可观察的学习结果的结构)分类理论等,都可以视作描述“线”的依据,但这类理论往往缺少与情境的联系。心理学家德布洛克将学习概括为四个维度的整合。第一个维度是从学科事实性知识到概念,再到建构知识与概念的关系,最后形成结构化的认识;第二个维度是从学科事实性知识到提炼一般性方法,再到生成特殊的学科方法论,最后形成对学科本质的认识;第三个维度体现在认知深度的发展,强调从知道到理解、应用,最后形成综合运用的能力;第四个维度聚焦运用知识与方法解决现实问题,强调从一般迁移向全面迁移的进阶。纵向看,每个维度内部呈现的是知识与能力的进阶;横向看,第四个维度是前三个维度与具体情境的结合,重视知识与能力在解决问题时的迁移运用。该理论将学生的知识、能力、思维方法、价值观念融合到具体的情境中,学生完成情境任务的过程,就是核心素养水平动态呈现的过程。一言以蔽之,评估学生核心素养的发展水平,需要依托对知识、能力、思维方法、价值观念的考查,测试情境的难度一定程度上代表了知识、能力、思维方法、价值观念的整合程度,情境越难对素养的要求越高。
如前文所述,活动系统数量和要素多元性决定了测试情境的难度。随着测试情境难度的加大,学生掌握知识的丰富性、学科思想方法的熟练性、能力的整合迁移性也随之增强。这样看来,将相同素养在不同难度系数情境下的表现联结起来,就能建构学生核心素养的动态特征。传统考试命题主要以“双向细目表”标注考试内容和掌握水平。这种方式虽方便了评价的实施,但也限制了对学生核心素养发展水平的监测。为了克服传统评价量表设计上的缺陷,可以采用矩阵的方式重新规划评价量表(见表3)。
表3是以核心素养“语言运用”为例设计的评价量表。量表把“语言运用”涉及的三组能力维度定为评价的纵向维度,把试卷中设计的测试情境依据难易程度横向排列作为评价的横向维度,构成了“语言运用”素养3×3矩阵式评价量表。在矩阵内部,可以根据评价维度在不同情境中的表现,判定相对水平。该水平判定构成了表2上“相对水平”的具体描述。描述的纵向结构生成了该情境下“语言运用”素养的考查全貌,对命题有帮助;描述的横向结构生成了学生在该评价维度下的素养发展“线”,动态建构了每个学生在特定核心素养下的表现特征,为个性化评估提供了依据。
四、遵循评价反拨原则,消除预设等级与学生实际水平的差异
学业水平考试的目的不仅在于检查学生完成特定阶段学业后的核心素养发展水平,还要为判断学生核心素养发展过程中的问题及其原因[14],改进教学提供参考[15]。这就需要评价标准能够真实还原学生核心素养发展的实际水平。从课程实施的落差视角看,虽然课程标准要求“严格依据学业质量要求命题,保证命题框架、试题情境、任务难度等符合学业质量要求”[16],但是作为课程主体的学生和教师,对情境的理解、对知识和能力的掌握情况存在个体差异。这种差异就导致难以用预设水平取代学生的实际作答水平。因此,要想准确评定学生能力与素养的发展水平,就需要首先解决预设水平与实际水平之间的差异化问题。[17]
可以借鉴美国心理学家梅斯雷弗(Mislevy R. J.)提出的ECD(以证据为中心的评价设计)模型建构“指向问题解决过程的评分设计思路”。其核心旨趣是建构符合核心素养考查要求的评分机制,与本研究的核心目的切合,可以迁移运用。修改后的框架如图1所示。
评分设计思路既可以用于评定学生认知能力水平和非认知能力水平,也可以用于评定特定难度测试情境下学生核心素养的相对水平。评分设计思路以测试情境为单位,分为自上而下的“先验等级”和自下而上的“实际作答等级”两个部分。前者以课程标准中学业质量标准的相关要求为依据,建立符合学科核心素养和能力发展要求的分数(等级)划分框架;后者以学生在完成特定情境测试任务的具体表现为依据,根据学生的作答情况划定核心素养和能力发展的实际等级。在正式开展学业水平考试评分工作前,评价人员要分别建构两个框架,并互为参照,动态生成既符合学业质量标准要求,又符合学生实际表现的有区分度的评价标准。以此为工具评定的认知能力和非认知能力、核心素养相对水平,能够客观反映学生与学业质量标准的差距,为改进教学提供参考。
开发符合核心素养要求的学业水平考试工具虽然重要,但缺少能够彰显核心素养发展水平的配套评分标准,也难以真正评估学生的核心素养。本研究根据当前基于核心素养的学业水平考试命题特征,从评分框架的内容与结构维度、评价量表设计思路与核心素养考查的适切性维度、评分机制反映学生真实表现维度着手,探究了核心素养立意的学业水平考试评价标准的制定方法与应用模式。此方法和模式还需要在评价实践中进一步检验,期待为准确评定学生核心素养、促进“教—学—评”一体化提供参考。
转自语文建设杂志微信公众号,仅作学习交流,如有侵权,请联系本站删除!