拾语料库之阶 提高语料研究能力(一)
——“语料库在外语教学与研究中的应用高级研修班”拉开帷幕
8月1日,“语料库在外语教学与研究中的应用高级研修班”正式开幕。语料库应用高级班是中国外语教育研究中心与外研社合办的2011年“高等学校外语学科中青年骨干教师高级研修班”的第四期,该系列研修班已被教育部“高等学校青年骨干教师高级研修班项目”正式立项。
语料库应用高级班仍由语料库“三剑客”梁茂成教授、李文中教授和许家金副教授主讲。与基础班相比,高级班更加注重语料库的研究应用。在第一天的研修中,专家主要讲解了语料库语言学基本概念,语料的采集、整理、标注和检索,并分析了如何研究学习者词汇发展状况。
研修班本身就具备语料库研究的模式和特点,突出“problem-driven”的授课方式。我们也将以问答互动的形式,展现三天的研修是如何帮助教师解决研究问题、提高利用语料库从事研究的能力的。
DAY 1
关键词:语料库语言学基本概念,语料库分析基本操作,词汇、短语分析
一、 基于语料库的研究方法和语料库驱动研究方法有何不同?
基于语料库的方法(corpus-based approach)由研究者根据以往的语言研究成果或对语言的认识,首先提出假设,然后到语料库中去验证假设。假设是否成立取决于语料库中的语言实例。基于语料库的研究方法以概率为基础,是统计学和实证研究方法在语料库语言学研究领域的具体运用。
语料库驱动的方法(corpus-driven approach)主张我们在对语料库进行分析之前并无任何假设,通过对语料库中的所有例证进行穷尽性的分析和归类,得出有关语言使用情况的假设乃至结论。其基本程序是“观察—假设—归纳—理论整合”。
二、 什么是主题词分析?主题词分析有何作用?
所谓主题词,就是通过比较两个语料库,在所研究的语料库中频率超常的词语。主题词体现了文本中词语运用的规律性。
主题词分析既是一种文本层面词语运用的统计方法,也是一种通过词语分布概率观察文本的视角。通过统计主题词能够提供语篇层面词语的分布与文本主题的关系以及词语之间的关系。
三、 如何应用语料库进行学习者词汇发展研究?
利用基于基础词表的Range词汇分级分布统计软件,我们可以进行学生词汇能力发展情况的研究。
Range软件常被用作文本难易度的分析工具之一。通过它对学习者不同时段的词汇难易度进行分析和对比,可以研究学习者词汇发展情况。
研修瞬间
梁茂成教授 |
李文中教授 |
许家金副教授 |
探索、实践、提高的课堂 |
语拾语料库之阶 提高语料研究能力(二)
——“语料库在外语教学与研究中的应用高级研修班”第二天
语料库应用高级研修班进入第二天,三位专家紧密结合实际案例为教师讲解了中文语料和汉英双语语料的采集与加工、正则表达式的编写、句法结构分析及基于语料库的话语分析。语料库应用的建库、数据提取、统计和数据分析三个主要阶段正在教师们的头脑中明朗起来。
Day 2
关键词:正则表达式,双语平行语料库,句法结构分析,基于语料库的话语分析
1. 正则表达式功能强大在何处?
正则表达式(Regular expression,简称regex或regexp)是计算机汇编语言中的一种技术,用于匹配文本中的字符串。这种技术简洁而功能强大,可以用为数不多的几个符号来匹配各种存在一定规律的字符串。在语料库语言学应用操作中,利用正则表达式可以极大地提高检索效果,因此正则表达式是语料库检索和文本清洁过程中必备的技术。
2. 双语平行语料库可以应用于何种研究?
A parallel text is a text placed alongside its translation or translations.
A parallel corpus is a corpus of parallel texts.
双语平行语料库可以用作翻译者的辅助工具和机器翻译资源,进行源语—译语对比研究和翻译语言特征研究。
3. 基于语料库的句法结构分析如何进行?
基于语料库分析句法结构,首先要求具备两个(或更多的)可比语料库,并对这些语料库进行词性赋码或句法标注,然后分别在两个语料库中提取相关的句法结构,计算其频数,分析其典型特征,进行对比以揭示观察语料库的语言特征。
4. 基于语料库的话语分析如何进行?有何常见选题?
语料库同话语分析的兼容有内容和方法上的合理性。话语连贯、语境特征和互动性都会通过一定的词汇语法特征体现出来,因而可以通过语料库技术提取和分析相关的词汇语法特征展开话语研究。
话语的典型特征及语料库研究思路可以总结如下:
研修瞬间
上课专注听讲 | 课下练习操作 |
写下一天收获 | 晚间继续学习 |
拾语料库之阶 提高语料研究能力(三)
—“语料库在外语教学与研究中的应用高级研修班”圆满结束
语料库应用高级班第三天,三位专家指导语料库研究方法、讲解语料库分析统计学、介绍语料库研究资源,将语料库研究讲授得生动灵活,带领教师们享受语料库带来的乐趣。
DAY3
关键词:对比分析,语料库相关统计学,语料库选题挖掘
1. 语料库研究中的对比分析如何应用?
语料库研究中的对比分析可以说是语料库主题词分析方法的创新应用。在研究中,可以将文本分割成多个等份,将分割后的文本进行横向合并,之后对其进行比较,就可以发现同类文本的结构特征。
2. 语料库分析中常用的统计方法有哪些?
理论上说,几乎所有的统计方法都可以用于语料库分析,常用的有频数标准化和搭配强度。
通常语料库检索、词表生成结果中都会报告频数(frequency,freq或raw frequency)。频数标准化是指将某词汇在语料库中的出现频数归到一个共同基数之上,通过百分比得到标准化频率。
搭配强度的计算在实际应用中有两种处理方法:以Mike Scott的WordSmith Tools为代表的经典搭配计算法,以及Stefan Evert提出的BNCweb的搭配计算方法。主要算法包括互信息、Z值、T值、Log-log值、卡方值、对数似然比、Dice系数等。
3. 如何挖掘语料库研究相关选题?
进行语料库研究可以从单一本文分析、主题词分析、词块分析、平行语料库和对比分析等几个方面入手,应用研修班所讲授的工具和方法进行。在研究中,可以遵循以下原则:
Bottom-up
– Starting from scratch
– Always beginning with a question
– Starting a task
– Learning by doing
– Making it your own
Top-down learning
– Reading the literature
– Understanding its methodology
– Studying the previous research
– Doing your own
同时,“Enjoy your life. ” 因为,“Important problems should never interfere with having fun. ”
互动研修
汇报演示是教师们汇报学习成果、探讨研究问题、启迪研究思路、学习交流提高的平台,也是研修班的高潮。本期研修班演示的四位教师有备而来,基于语料库学习者语言研究、语料库双语对比和翻译研究,教师们将创新的研究课题与大家分享。三位专家对演示教师给予了细致的点评与指导,教师们也针对其展开了热烈讨论。
华中科技大学 雷蕾老师 | 安徽大学 张萍 |
青岛远洋船员职业学院 高嵩老师 | 淮北师范大学 孟留军老师 |
三天的学习落下了帷幕。在problem-driven的模式下,教师们问道语料库研究的方法,结合案例讨论与操作,从建库、数据提取、统计和数据分析三个主要阶段深入学习,提高了利用语料库从事研究的能力。
更重要的是,在三位专家的指导下,教师们开拓了语料库研究“视野”——掌握了语料库这一新的研究角度,拓展了语言研究的深度和广度;树立了语料库研究“精神”——在探索中发现语料库研究的乐趣,挖掘富有创造性的研究课题。
“语料库在外语教学与研究中的应用研修班”基础班与高级班接近尾声。下课后,教师们将语料库“三剑客”团团围住。又有近600名全国高校英语教师在三位专家的指导下,走进了语料库研究的神奇世界。教师们有问不完的问题、说不尽的感激,专家也有用不完的热情。语料库并非万能,语料库语言学更非只有这些,在未来的职业道路上,只要用心,就一定能在语料库研究领域中收获回报!
研修瞬间
汇报演示启迪思路 | 针对演示进行提问 |
专家点评教师演示 | 语料库带来无限乐趣 |
“字云”
“我是天空里的一片云,偶尔投影在你的波心。”这幅“字云”,正是语料库应用研修班理论与实践相结合、专家奉献与教师投入相辉映的写照。