投稿问答最小化  关闭

万维书刊APP下载

外语教学与研究 | 后经典时代语料库研究方法及其理论启示(文/许家金)

2023/7/20 15:22:07  阅读:41 发布者:

后经典时代语料库研究方法及其理论启示

北京外国语大学 许家金

提要:

语料库研究方法以2000年为界,其前后可粗略分为经典时代和后经典时代。这两个时期对语言的考察,从研究视野上呈现出从点到线、从线到面、从面到体的发展历程。这两个时期的语料库研究,在统计词汇和语法范畴频次的基础上,都注重从词汇语法特征的共选规律上探讨语义。进入后经典时代,语料库研究更加注重从全口径语境因素分析形义匹配机制。综合来看,语料库研究方法立足形义对应,聚焦意义研究。这些应成为语料库语言学理论建构的本体考虑。

关键词:

后经典时代、语料库研究方法、语言学理论建构、概率语境共选

1. 引言

“语料库语言学”这一术语的中心语虽为“语言学”,但多数学者倾向于把语料库语言学当作方法论,而将其视为学科理论体系的学者不过十之一二。本文无意参与语料库语言学是方法论还是学科体系的争辩。实际上,理论、方法与工具密不可分,语料库语言学具有理论和方法的双重特点。语料库语言学方法优势突出,其研究方法中蕴含着诸多理论关切。本文聚焦语料库语言学研究方法,旨在对经典和前沿的研究方法作系统梳理,进一步探讨语料库研究方法的发展对语料库语言学理论构建的反哺作用。

本文将语料库语言学的核心要义概括为3T”,即Texts(文本)、Tools(工具)、Theories(理论)。其中,工具是桥梁,联通文本和理论。语料库研究正是借助分析工具从语言事实(文本)中探求语言规律(理论)。本文试以“概率语境共选观”(许家金20142020)统摄语料库研究中文本收集、工具运用、理论阐释各环节。这一语言观强调语义的传达和识解受制于多重语境因素的协同作用。具体而言,语境中的词汇、语法范畴等的概率分布及其共现可有效区分词语意义、探究句式选用机制、裁定语域类别等。从应用语言学视角来看,通过语境共选分析可以回答词不达意、句不合式、话不中用等语言使用失当问题。

2. 语料库研究方法中的文本

如今百亿词级乃至更大规模的语料库已不鲜见。然而,语言学研究中使用的语料库主体仍是亿级以下,多为千万或百万词级,或更小规模。大规模巨量文本数据主要源自自动爬取的网络语料。这类语料取之不竭,量不封顶。但若不加筛选,泥沙俱下的网络语料难以直接为语言学者所用。一般来说,用于语言学和语言教学目的的语料库对语料的规范性和文本产生的语境变量要求更高。语料库中文本取样的代表性,以及语料产生的时间、地点、说话人职业、性别等因素,是语言研究理论探究的基石,影响理论探索的方向。可以说,语言研究中,语料不可靠,结论必不牢。因此,从文本数据的质量要求来看,人工智能领域的语料库和语言研究领域的语料库是明显不同的。前者以量取胜,后者要求质量兼顾,质优者胜。二者对语料库文本的不同理解主要归因于研究目的的差异。人工智能研究依靠大数据优化算法、辅助决策,因而重“量”;语言研究者通过大数据考察词汇、语法等形式特征与说话人观点和立场之间的对应关系,“质”“量”缺一不可。除了两者存在的差异,我们还要注意到当前人工智能研究进展对语料库语言学“真实文本”质量的影响。例如人工智能生成文本(AIGC)是否算作真实发生的自然语言?尽管这些问题涉及人工智能与人类智能的边界争议,但对语料库研究中的文本概念和文本选择势必会产生一定影响。

在语言教研实践中,我们一般会选用规模较大的权威语料库,如当代美国英语语料库(Corpus of Contemporary American EnglishCOCA)和英国国家语料库(British National CorpusBNC)。很多情况下,我们也提倡研究者自建,或运用百万词级规模的小而精的语料库,即取样广泛多元、包含丰富文本语境和社会文化语境信息的语料库。在语料库建设之时,研究者就应将文本产生的关键语境因素尽力记录在案。例如,BNC中记录了多达几十项的语境因素,包括作者和说话人的性别、年龄、社会阶层,等等。总之,文本是语料库研究的重要载体,它的量与质同等重要。在两者的统筹兼顾中,较为关键的是注重文本使用的社会、文化、情景等相关参数以及语音、体势、语气等多模态变量。这是文本意义研究和多因素、多变量分析的基础。

3. 语料库研究方法中的分析方法

本节介绍有关语料库工具的基本认识。本文所谓“工具”,主要指语料分析方法以及语料库研究设计。从语料库研究方法的发展历程来看,可粗略以2000年为界,将其前后分为语料库研究方法的“经典时代”和“后经典时代”(详见表1)。这两个时期并非截然分开,而是呈交叠之势:“后经典方法”在21世纪初逐渐兴起,经典时代的研究方法仍然在相当长时间内继续使用。

本文所谓经典与后经典时代的区分,主要是为方便梳理几十年间语料库研究方法的发展历程,但这并不意味着经典的方法已弃而不用。从流行时间和功能定位两个维度来看,表1中“局部语法”“搭配构式”“多维分析”三种研究方法出现于经典时代向后经典时代的过渡时期,很难划归到哪个时代。另外,很多如今流行的统计方法,也并非最近一二十年才出现。这些统计方法只是近期逐渐进入语料库研究领域,并发挥出积极作用。例如,Thurstone1931)提出多元因子分析法,但这一方法成为语料库研究的关键分析方法,主要还是Biber1988)的功劳。近年多变量统计在实证语言研究中受到重视,更激活了因子分析一类统计方法在语料库研究中的应用。

3.1 经典时代研究方法简述

经典时代的语料库研究方法包括词频表、词丛、索引分析、搭配分析、主题词分析和多维分析等。其中手工编制词频表和索引分析的历史相当悠久。20世纪中叶,随着电子化语料库的产生,利用计算机手段获取词频表并建立索引成为最早采用的文本分析手段。这两种功能可以进一步归结为“检索”或“查询”,是经典时代语料库方法的基础。经典分析方法立足于在大量文本中查询特定字词或短语结构的用法,并给出相应的使用频率。在无特定检索目标的情况下,语料库软件可对所有文本进行穷尽式检索,枚举文本中所有词汇,附上频次信息。如有确定的检索目标,研究者可针对检索词,观察其在语料库中的上下文语境、社会文本情境,从而全面了解其用法。

在词频表和索引分析功能的基础上,词丛、主题词分析方法、词语搭配分析法逐渐发展起来。词丛虽有词块、词簇、N元组等不同称谓,但其实质是多词词频表。主题词分析方法则是将两个编制好的单词词表或多词词表中的词或短语进行逐个比对,其中统计学上存在显著差异的词汇或短语即为主题词或主题词丛,由此得到的词或短语列表往往能揭示文本的主题内容,“主题词分析法”也因而得名。搭配分析基于索引分析的检索结果,分析检索词与语境共现词之间的依存关系,进而理解短语意义。

在语料库研究方法的经典时代,词丛分析和搭配分析是所谓“短语学”(phraseology)(Sinclair 19912004)研究的重要技术手段。主题词也可以理解为是语料库文本中的高频词语共现(Scott1997),可以用于建构话语主题(McEnery 2006)。经典时代操作流程上最为复杂的研究方法当属Biber1988)提出的多维分析法。该方法主要是建立在词汇、语法特征检索的基础上,通过因子分析法将几十乃至上百个语言特征自动归结为几个共现特性大类(即多个维度),从而支撑对某类特定文本语域的识别。

(未完)

本文发表于《外语教学与研究》2023年第3

转自:“北外学术期刊”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com