投稿问答最小化  关闭

万维书刊APP下载

​​​​​​​​​让英文论文写作不再词穷,你一定要收藏的语料库资源!

2023/8/11 14:31:33  阅读:55 发布者:

作为科研工作者,离不开英文论文写作,对于英语非母语的我们来说,英文论文写作过程中,难免需要使用在线词典、翻译软件以及参考已发表的期刊论文表达。

词典可以解释单词含义和语法规则;翻译软件能够概略地将段落的结构及关键语汇翻译呈现出来;学术期刊资料库能够通过标题、摘要或全文给出英文专业术语及其用法示例。在此基础上,如果配合使用英文在线语料库,则可轻易地获取某个词项或句式出现的频率、语境及搭配,方便逐字逐句地对论文细节进行修订,可以有效的帮助我们完成英文论文写作。

语料库(corpus,复数corpora)是指经过科学取样而形成的电子文本库,存放实际使用中真实出现过的语言材料。语料库存放了现实生活中出现过的语言材料,以数位系统为载体,将真实语料经过分析和处理后成为可检索的资源。

在英语学术写作方面,本期利刃君为大家推荐几个具有海量资料及学术代表性的英语语料库,包括:英国国家语料库(BNC)、美国当代英语语料库(COCA)、密歇根大学学术口语语料库(MICASE)、密西根高阶学生论文语料库(MICUSP)以及结合大数据分析的台湾清大自然语言处理语料库(Linggle)。

1

英国国家语料库

网站地址:

http://www.natcorp.ox.ac.uk/

英国国家语料库(British National Corpus,简称BNC)是目前世界上非常有代表性的当代英语语料库之一,它是由英国牛津出版社、朗文出版公司、牛津大学计算机服务中心、兰卡斯特大学英语计算机中心以及大英图书馆等联合开发建立的大型语料库。英国国家语料库收集了来自各种资源的1亿字的书面和口头语言样本,旨在代表20世纪晚期英国英语,包括口语和书面语。书面语占90%,口语占10%。最新的版本是2007年发布的BNC XML版本。

BNC的书面部分包括地区和全国性报纸、不同年龄和兴趣的专业期刊和杂志、学术书籍和通俗小说、已出版和未出版的信件和备忘录、大学论文以及许多其他种类的文本的摘录。口语部分包括从正式商务、政府会议、电台节目和电话会议等不同场合收集的口语(由从不同年龄、地区和社会阶层中选出的志愿者以人口统计平衡的方式收集)。在应用方面,该语料库既可用其配套的新型SAIRA检索软件,也可支持多种通用检索软件。

如果我们没有语料库分析软件可供BNC使用,大英图书馆可以提供免费的简单搜索服务,可以搜索语料库,查看单词/短语出现的频率,网站地址如下:

http://www.natcorp.ox.ac.uk/using/index.xml?ID=simple

如我们对词组great attention”进行检索,检索结果给出了词组对应的例句和来源,点击标题链接可以直接跳转至来源;

也可进行高级检索;

2

美国当代英语语料库

网站地址:

https://www.english-corpora.org/

美国当代英语语料库(Corpus of Contemporary American English,简称COCA)是目前最大的免费英语语料库,也是第一个大型的语料平衡的美国英语语料库,由包含10亿词的文本构成(1990-2019年每年2500多万词),这些文本来自八种类型:口语、小说、流行杂志、报纸、学术文章以及(20203月更新)电视和电影字幕、博客和其他网页。美国当代英语语料库被认为是用来观察美国英语当前发展变化的最合适的英语语料库。除了在语料上拥有其他语料库无法比拟的优势外,美国当代英语语料库还将语料和检索软件结合起来,帮助语言研究者方便、快捷地分析和研究语料。

由于篇幅有限,这里利刃君为大家简单介绍在网上如何使用美国当代英语语料库。

首先需要注册账号,注册的步骤十分简单,填写邮箱、国家地区等信息,在邮箱中会很快地收到验证信息;

复制邮箱中提供的链接在浏览器中打开,输入验证码提交即可完成注册,注册完成后登陆自己的账号即可;

在网站首页上,点击Corpus of Contemporary American English COCA) ”链接,使用COCA语料库;

在检索框中进行检索即可,右侧还会对该语料库以及使用方法进行介绍;

如我们对单词significance”进行检索,在“WORD”选项卡中可以了解到该词在不同语境下使用的频率、相关的单词以及一些搭配等等。

可在CONTEXT”选项卡中看到词语出现的语境,直观地看到单词所在的整个句子,并且会显示其所在篇章前后句,点进去还可以查看文章节选,这么一来我们想对某个词组/单词进行深度学习时,利用COCA可以达到很好的效果。浏览词条,可以获得一些词语搭配,如“statistical significance”、“renewed significance”、“historical significance”等。

3

密歇根大学学术口语语料库

网站地址:

https://quod.lib.umich.edu/m/micase/

密歇根大学学术口语语料库(Michigan Corpus of Academic Spoken English,简称MICASE)是由密歇根大学英语语言研究所(ELI)的研究人员和学生创建的。该语料库收集了近180万个来自密歇根大学的转录演讲词(大约200小时的录音)。MICASE包含了来自大学各种演讲活动(包括讲座、课堂讨论、实验室部分、研讨会和咨询会议)和地点的数据,语料库由152份文字记录组成,这些文字记录来自各个学科学术领域,提供各种学术场合的英语口语。因此,该语料库对于研究学术英语口语尤其有用。

MICASE语料库中,学术用语被定义为在学术环境中发生的言语行为。MICASE研究人员煞费苦心地记录了各种各样的学术演讲活动。大多数演讲活动从头到尾都有完整的记录。

MICASE语料库中语言事件类型的单词计数

MICASE的使用也与其它语料库的使用方法基本类似,在检索框中可直接进行检索,这里不再赘述。

有关MICASE语料库的更为详尽的使用方法,可以在官网下载PDF格式的手册查看,也可点击“online tutorials”进行在线浏览。

4

密歇根高级学生论文语料库

网站地址:

https://micusp.elicorpora.info/

密歇根高级学生论文语料库全称为Michigan Corpus of Upper-Level Student Papers,简称MICUSPMICUSP是密歇根大学学术口语语料库MICASE的姊妹项目,同样是由密歇根大学英语语言研究所开发的一个书面英语语料库。语料库共有260万个单词,由本科四年级学生和研究生跨16个学科的829A级论文组成。它可以通过各种类别进行搜索,如主题、类型和学科。因此,该语料库对ESL/EFL作者学习撰写学术论文是非常有用的。

5

Linggle

网站地址:

https://linggle.com/

Linggle是由台湾国立清华大学开发的一款强大的语言搜索引擎,可以帮助学习者快速准确地检索英文惯用语和搭配词。Linggle和我们之前推文介绍的Ludwig:摆脱“Chinglish”,为英文论文写作量身定做的辅助神器有些类似,大家可以参考。Linggle网站的界面非常简洁,可以通过点击检索框中的“?”来获取网站的使用方法。

如我们可以用词性做搜索分析,来获取一些完整的句子。例如使用v. an/a adj. role”进行检索,可以获得“play an important role”、“plays an important role”、“play a key role”等表达,同时直观地看到这些词组的使用频率。

点击词组,还能获得应用这些词组的完整句子,可以说很有用了。

当然,Linggle的用法远不止于此,还可替换同义词、寻找搭配、比较哪个说法更好等,大家可以自行探索。总而言之,Linggle可以帮我们解决一切语言搭配的问题,是我们英文论文写作的得力助手。更值得一提的是,Linggle无需科学上网即可使用,非常友好!

转自:“投必得学术”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com