全国高校外语教师研修网

外语教学中的测试与评估 (2016/08/08-08/09)

已结束

内容综述

小测评,大学问

——记“外语教学中的测试与评估”研修班


      2016年8月8至9日,由北京市教育委员会、北京外国语大学中国外语教育研究中心及外语教学与研究出版社共同主办的“外语教学中的测试与评估”研修班在北京大兴外研社国际会议中心成功举办,共有来自27个省、市、自治区210所高校的269位教师参与了本次研修。在北京外国语大学中国外语教育研究中心韩宝成教授、对外经济贸易大学英语学院江进林副教授和北京外国语大学英语学院杨莉芳博士三位测试领域专家的指导下,参班教师对国际语言测试的前沿理念与方法有了系统的了解,并通过阅读、听力、口语、写作等任务的实例讲解与练习进一步熟悉了测试的基本理论与原则,并学习了不同类型能力测试的试题设计方法,为实践以测促学与测试研究进一步理清了思路。


会场全景

 

盲人摸象 思维为先
 

课程伊始,在界定了语言测试的基本定义及行为、样本、信度、效度、构念、常模参照、标准参照等相关概念后,韩宝成教授重点阐释了语言能力的内涵,他指出,对语言能力的理解直接影响测评者考察维度的设计。目前学界对语言能力的界定仍似盲人摸象的过程,传统上仅包括单纯的语言知识,但结合Bachman & Palmer关于语言运用的定义可知,语言能力着重个人运用语言理解和表达意义的能力,这就涉及认知和思维的范畴,而语言运用也需考虑语言知识成分以外的情景和社会因素,是一个动态发展的交际过程,交际过程中的理解、生成、表达均需以思维为基础,因此韩教授引出从思维视角出发的语言能力理论模型,指出测试的重点也应考虑结合内容对语言知识外的交际能力和思维、思辨能力进行考查。
 

韩宝成教授


      此外,韩教授详细介绍了测试使用论证(Assessment Use Argument, AUA)和Bachman & Palmer的语言测试有用性框架,包括信度、构念效度、真实性、交互性、影响力和可行性等诸多因素。最后,韩教授特别强调了以测促学(Assessment for Learning, AFL)的重要性,其中有趣的一点是,assess源自拉丁文“assidere”,意为“to sit with”,即评估本意即为帮助学生而非为测评而测评,因此鼓励教师更多地开展形成性评价与诊断性评价,发现学生的个性化问题并帮其解决,同时韩教授也通过实例为参班教师提供了丰富的测评方法,如思维导图、两星一愿(星为优点愿为改进处)、朗读理解、深入提问、作品互评及展示等等。这些前沿理念与可行性实践都为参班教师熟悉语言测试领域拨开了迷雾。


任务设计 构念主导


      在两日的研修课程中,对外经济贸易大学江进林副教授和北京外国语大学杨莉芳博士就阅读、听力、口语、写作四个领域的测试任务设计进行了系统的讲解。江老师首先介绍了外语测试总体设计流程,一一详述了测试目的、构念、测试规范、任务类型/题型、入库、项目功能差异等重要概念,并就大型标准化测试与一般测试的设计流程作了简单对比,以期更新陈旧测试观念,为科学测试设计提供示范。


      随后,江老师着重比较了雅思、托福、四六级阅读测试的构念,指出试题设计人应在测试目的的引导下界定阅读构念的方式,根据具体的构念(理解、辨别、推断等)设计多样化的题型和试题,同时考虑考生特征(性别、年龄、教育水平、背景知识、语言水平等)和文本特征(体裁、话题、语域、长度、复杂度、修辞等),尽量达到选材合适、题出有因、题型多样、指令清晰、语言简洁、试题独立(试题内容互不提示)、语篇依存等指标,并强调测试设计的实质即是把构念操作化为具体任务和题目(operationalization)。针对听力测试设计,江老师也从听力测试的特点、材料选取、听力测试的构念、题型与试题设计和注意事项五个方面给出了具体有效的建议。基于Buck所提出的能力特征(competence-based)、任务特征(task-based)、能力与任务互动特征(interaction between competence and task)框架界定构念和默认听力构念(a default listening construct),听力题型与试题设计可以单选、判断、图表、填空、简答、匹配等测试方式考察听力内容的字面或推断意义。


江进林副教授


      杨老师则依照考生特征、任务设计和评分三个版块充分讲解了口语与写作的测试设计。无论口语或写作,考生特征方面均需考虑学生的语言水平、使用需要和能力要求。而在任务设计方面,二者侧重略有不同,口语设计侧重交流目的(包括难度不等的事实性和评估性交流),主要考虑言语功用、互动方式、内容难度、测试模式(人考或机考、独立测试或综合测试)等因素。杨老师特别提出,听力测试设计题目应尽量实现这三个原则:1)inspiring enough,激发学生思维活力;2)structured enough,题目指示清晰有效;3)unpredictable enough,避免生拉硬扯模板化。写作测试任务设计在选择主题、体裁的同时还需考虑辅助材料的提供与否、时间分配和指示要求的配合等。针对写作题目应是个人话话题(如恋爱经历)或公共性话题(如民主、环保等),杨老师也和参班教师进行了互动讨论,二者虽各有优劣,但公共性话题写作似乎更易挖掘学生的潜力,培养他们的深度思考能力。最后,杨老师就口语和写作测试评分方面的标准分类、标准编写和评分过程三方面通过实例进行了启发性的介绍。
 

杨莉芳博士
 

群策群力 智慧设计


      古有说“学然后知不足”,到此可说“练然后更知不足”。为了充分理解测试理念和原则,本次研修班的八个小组分别就两篇阅读文本和两篇听力文本进行了试题设计。在亲身实践的过程中,参班教师更加深刻地意识到测试设计考虑因素的复杂和整个测试与评估过程的不易。尽管实操时间不多,八组汇报代表所展现的小组智慧已给专家同仁很大的惊喜,试题类型多样,考察层面充分均为可圈可点处,但其中的不足处也得到了专家的提点。从宏观方面说,测试设计前一定要明确受试对象,没有这一前提其他均无意义;体裁方面的差异也会影响出题角度的考虑,测试固然需要激活部分背景知识,但仍需以文本为主。从微观方面看,阅读测试的篇目有曲折意为佳,观点过于直白的可考性不强;题目选项意义避免重复交叉;题目顺序与其答案需在文章中顺序一致;题目表达需正确无误、清晰易懂等等。这些中肯的实践性指导均可应用在教师教学测评的方方面面,从而为改善测评科学性、提高测评效果和质量提供了有效参考。


小组汇报代表
 

国才考试 测试前沿
 

在研修的最后阶段,韩宝成教授通过“国际人才英语考试” (English Test For International Communication,简称ETIC,以下简称国才考试)的设计理念、流程和评估方式为参班教师今后的测评实践提供了示范。不同与以往水平测试的定位,国才考试以职业为导向,以“真实场景、有效沟通”为核心理念,共分通用、商务、高端、翻译四端以求分类优秀,并以口头沟通和书面沟通的形式重点考查全球经济一体化进程中国际人才应具备的核心素养,包括通晓国际规则与协同协作的能力、跨文化理解与表达能力以及分析问题与解决问题的能力,以此给予相关人才科学、有效、实用的评价与认证。


      两天的研修课程匆匆结束,一位参班教师在反思日志中写道“试题的设计过程其实就是a compromise among competing demands”,确有几分道理,鉴于测试涉及的诸多复杂因素,设计出完美的测试几乎不可能,而两天的课程更无法保证这点,但重要的是,经过两天的学习、研讨和思考,教师可转变对测试的观念,了解测试对于教与学的积极意义,知晓测评背后的理论依据,并在几近科学的流程指导下结合个人教学内容开展测评工作,而每一位教师、每一所学校的科学测评都将助力我国外语人才的培养与选拔,推动我国外语教育的发展与进步。
 

学员反馈


      3-17
通过两位专家耐心细致的讲解,我学到了好多关于语言测试与评估方面的核心理论及关键问题,了解了考试的设计目的、评价及对教学的反拨作用等。

 

4-29
作为一名年轻教师,我从两位老师的讲解中汲取到很多营养。对我个人无论是思维的启发或是视野的拓展,都无疑有着极大的帮助。

 

8-10
正如常言所述,“师傅领进门,修行在个人”。此次学习为我们外语测试教学与研究开启了一扇窗。

 

8-33
上午韩老师的讲座让我对语言测试又有了全新的认识,特别是测试对教师课堂教学,对学生学习的影响。印象最深的是“促学”二字。
下午江老师的讲座对我在阅读教学中的启发也非常大,一直以来,说到阅读课,学生脑海中浮现的总是高中时的题海战术,但听完江老师的讲解我似乎明白了“阅读”不等于“阅读理解”,考查学生阅读能力的方式不只是选择题。