2 语料库建设中的宏观问题及发展建议
我国语料库研究起始于20世纪80年代,并在过去20多年中得到了迅猛的发展。国内语料库建设既包括通用语料库建设,也包括专用语料库建设,主要集中在三个方面:母语语料库、中介语语料库和双语语料库,这些语料库主要服务于语言研究、语言教学、语言翻译和自然语言处理等。尽管我国已经建成了一批面向公众开放的语料库,规模从百万字级到百亿字级不等,但目前仍存在不少问题。
2.1 语料库建设质量问题
我国大多数语料库质量不高,主要表现在四个方面:代表性不足、加工深度较浅、软件开发不足、规范性不够。
2.1.1 代表性不足
由于口语语料采集难度高,转写工作量大,通用语料库中口语语料往往占比较少。多模态语料库加工工作量大,标注难度高,规模常常受到限制(黄立鹤 2015)。而双语语料库的译文存在错误和不够地道的问题。这些都削弱了语料库的代表性。专用语料库建设也存在类似的问题,比如,我国的学习者语料库建设规模远远小于国外大型语料库,语料采集大多以容易收集或能够获得为准,但代表性和平衡性不一定合理或不足以支持研究(郑艳群 2013)。我国也还未建成较为系统、完善的手语语料库,尽管手语有地域特色,但受研究人员数量和经费的限制,很难在全国范围密集采样,往往按地域或就近取样,因此所收录语料范围较窄(张晓梅 2014),采样密度也较低。
2.1.2 加工深度较浅
大多数语料库加工到词性标注层面,加工深度较浅,大规模深加工的语料库,如句法树库,语义标注语料库数量少、规模小。造成这一现象的主要原因是,深加工语料库需要更多专业标注人员,更多的经费和时间投入,质量控制难度大。
2.1.3 软件开发不足
缺乏成熟的语料库软件支持也是加工深度较浅的重要原因之一。语料库的深加工需要高准确率的加工软件,但现在对语料加工技术及软件的研究还不能满足现实的需要。特别是在多模态语料库建设方面,我国的研究才刚刚起步,其标注工具的数据集成和检索功能有限,标注方案尚不够成熟,缺乏业界共识。
2.1.4 规范性不够
我国的语料库建设规范性不足,由于语言资源描述缺少共识,导致投入大量资金和人力建成的众多语料库结构上存在很大差异,缺乏模块性,难以重组使用。何婷婷、沈辉宇(2005)总结了元数据的采集和标注中存在的问题:一是元数据详略不一;二是没有统一的元数据命名标准;三是缺少统一的机读格式。此外,语料描述信息不够完整,标注规范与国际标准不一致,对于数据存储管理的信息缺少明确、规范的说明(傅爱平、宋培彦 2005)也是常见问题。专用语料库往往因为建设经验有限,难以形成建库的共识和标准,从而存在更多的规范性问题。少数较为依赖语料库研究的领域形成了国家标准,如术语研究领域。更多的领域则还没有统一标准的指导,如国际汉语教学领域。不同的中介语语料库在语料收集的原则与类型、规模和方式,背景信息的项目与内容,语料标注的范围、项目、方法与附码的设置,语料及相关背景信息检索与呈现的内容、方式等诸多方面存在不一致,造成质量与功能上的不足,难以满足用户的科研和应用需求。
2.2语料库发展不平衡问题
语料库发展不平衡体现在五个方面:一是书面语语料库占绝大多数,口语语料库数量很少;二是单语语料库占大多数,双语语料库数量少;三是文本语料库占绝大多数,多模态语料库很少;四是方言语料库建设薄弱,远远落后于普通话语料库;五是少数民族语料库的数量和质量都远远落后于汉语语料库。
专门用途语料库发展不均衡还表现在学科领域方面,集中在新闻、法律等传统领域,而新兴领域分布很少(董爱华 2013)。此外,相比于通用语料库,专门用途的双语语料库不仅数量少,而且用途单一,主要是面向翻译研究的平行语料库。具体到国内学习者语料库,发展不平衡的问题还包括:口语语料库建设落后于书面语语料库;多为共时语料库,追踪学习者语言动态发展的历时语料库匮乏;基本取材自语言等级水平测试作文,日常语言输出材料少(徐秀玲、许家金 2017);以亚洲国家留学生语料为主。
语料库发展不平衡有两个方面的原因。一是人力、物力和技术方面的限制使得建造特定的语料库较为困难,如口语语料库、方言语料库的采集和转写难度较大,因而建造难度大;二是我们的认识和行动还没有及时跟上现实需求,如随着专门用途英语需求快速增长,对专门用途语料库的需求增加,但相关的语料库建设尚不能满足现实需要。对多模态语料库而言,两种因素都存在:一方面,多模态语料库对未来自然语言处理和人工智能的研究具有重大意义,应用前景广泛, 产业界已经开始相关研究,但在学界尚未引起足够的认识和重视;另一方面,多模态语料库的标准建设、加工技术难度很高,人才储备不足。
2.3语料库建设的规范和评价
制定建设规范是语料库建设的重要任务。何婷婷(2003)指出,规范化是实现语料库共享、集成,开展语料库之间比较研究的基础,也是减少语料库重复开发的关键。
语料库建设的规范可以分为编码规范和内容标注规范。编码规范由行业惯例和国际标准主导,国内语料库研究领域的语料标注多使用行业惯例,而较少使用国际标准,这在一定程度上不利于语言资源的共享。因此,为了实现语料库的共享,方便数据交换,实现网络环境下的语料库集成,必须在国际标准和行业认同的基础上,建立统一的语料库编码规范标准。其中,元数据规范化是语料库标注规范中最有条件、最容易实行的规范(何婷婷、沈辉宇 2005),但国内目前仍然缺乏广泛认同的标准或行业规范。在内容标注规范方面,尽管国家出台了《信息处理用现代汉语分词规范》《信息处理用现代汉语词类标记规范》等文本语料库标注标准,但作为推荐性标准,行业采用率并不是很高,还在此基础上形成了多种难以沟通的修订方案,造成了语料库之间的异构性,资源之间难以相互转换导致重复建设。此外, 多模态语料库无论在元数据还是内容标注方面都未能建立广为接受的规范标准。
专用语料库的标准建设更是迫在眉睫。目前仅有术语研究等少数领域建立了国家标准或行业标准,大多数领域标准和规范阙如,制约了相关的语料库建设和使用。例如,建设标准的缺位影响了汉语学习者语料库的建设水平,但长期的建库实践也奠定了标准研究的基础,当前标准研究的时机已经成熟,亟需开展专项研究(张宝林、崔希亮 2015)。
与语料库规范相关的是语料库评价问题。何婷婷(2003)提出要重视对语料库质量和代表性的科学评价,研究实用的语料库评价体系。但目前对语料库评价问题的关注仍然不够,研究进展有限。
2018年,中国翻译协会发布了由学界和产业界联合起草的《语料库通用技术规范》,描述并规定了语料库的建设与加工、管理与维护、交易与共享等的基本框架,但通用的元数据标注、内容标注和语料库评价的具体规范仍需进一步探讨和细化。
无论是语料库建设标准还是评价体系的制定、推广和使用,凝聚共识是必不可少的。共识不仅是学术思想的共鸣,也是参与其中的心血。目前语料库建设的标准基本是推荐性的,在缺乏强制性的前提下,只有在高水平研究机构的主导下,通过广泛的社会协商,建立起良好的生态,才能更好地发挥这些标准的作用,推动其迭代更新。如果仅仅依赖少数机构制定标准,而缺乏共识和共同行动,容易导致研究单位各自为政,制定不同的语料库建设方案,致力于扩张自身影响力。这也是我国的语料库建设缺乏一致性的重要原因。
2.4 语料库的共享与版权问题
随着国家对于语料库建设的重视,语料库建设项目增多,也出现了重复投资、缺乏共享、资源利用率不高的问题。肖忠华(2015)指出,大多数政府资助的语料库项目在建成后仅供内部使用,导致资源利用率低,进而引起重复投资。其中,低层次语料库的重复建设是常见的问题。
语料库共享是语料库价值的体现,也是学科发展的趋势。语料库的共享需要加强共享平台和制度的建设。
一些学者对语料库共享的方式进行了研究。胡凤国(2004)认为Web检索是推动语料库共享进程的较好思路。刘日升、杨振力(2012)提出建设由图书馆主导的语料库资源共享平台的设想。目前看来,语料库的Web检索已成为语言学研究领域的主要共享方式,但对于语言信息处理研究而言,往往需要语料库全文或子库,却常常难以获得。正如谭晓平(2014)所言,如何最大范围地实现资源共享,让语料库的受益群体最大化,仍然是值得研究的课题。
另一些学者主张改进学术管理制度,加强项目管理,促进语料库共享。肖忠华(2015)建议有关部门出台规定,国家和省部级纵向课题必须在结题后一定时间内向公众开放所建语料库。张宝林、崔希亮(2015)则提出将数据共享作为公开资助的前提和项目的考核指标,并纳入国家科研管理部门的明文规定。进一步研究和落实这些措施,将极大地提升语料库的资源利用率,同时也有助于保障语料库项目的研究质量。
事实上,语料库共享困难除了管理制度原因外,常常还有版权原因。语料库的版权保护问题涉及两个方面:语料库制作者的知识产权和语料作者的知识产权。
一方面,保护语料库制作者的知识产权是促进语料库共享的基础。一些版权问题是因为语料库设计不合理造成的,比如因收录大量全文而引起的版权问题,限制了语料库的对外开放(肖忠华 2015),因此合理设计语料库,与版权方加强沟通,是解决此类问题的关键。另一些版权问题与版权保护制度有关。程亚丽、王海萍(2012)认为我国版权保护制度不完善,制约了语料库的应用,不仅要利用《著作权法》对语料库实施版权保护,也要借用《反不正当竞争法》,参照欧盟及美国的数据库特殊保护措施制定适合中国的语料库特殊保护法规。
另一方面,保护语料作者的知识产权常常对语料库建设和共享造成限制。程亚丽、王海萍(2012)和甘莹(2015)认为,不经过原出版者和原作者同意将语料收入语料库违反了《著作权法》,而要取得同意、支付报酬,因知识产权所有人数量庞大,语料库制作者也难以完成。因此,语料库保护立法既要坚持版权保护的基本原则,也要正视无法逐一获得授权的现实。这样的观点值得进一步讨论。
此外,隐私保护也是影响语料库共享的因素之一。张宝林、崔希亮(2015:133)指出,要保护“语料产出者的个人隐私”,包括姓名和人物图像。但这只是问题的一部分,其他如时间、地点、事件信息及其组合信息也可能泄露个人隐私。因此,如何既能保护语料产出者的隐私,也能保障语料库共享,是亟需研究解决的问题。
2.5 学科建设问题
学科间沟通合作不足限制了语料库的发展。语料库建设涉及语言学、计算机科学等多个学科的专业知识,加强合作有助于提高语料库质量。语言学专家能为语料库标注提供新的理论体系,计算机专家能够提高语料处理的效率,并带来最新的产业应用需求。但在我国,由于研究目标不同,两个领域的语料库专家很少进行合作研究(肖忠华 2015),使得语料库建设不仅不能借鉴两者的优势,反而造成语言学界和产业界(特别是自然语言处理领域)的脱节,束缚了语料库建设的发展。
语料库建设领域还存在人才培养不足的问题。除了要增强学科合作,语料库建设还需要跨学科的人才。跨学科人才系统地接受语言学、语料库和自然语言处理领域的教育,通晓相关的知识技能,能够指导语料库的建设,也能更好地沟通语言学和计算机科学的专家。目前,跨学科人才的培养严重不足,语言学研究者往往缺乏自然语言处理的知识技能,计算机研究者缺乏语言学理论素养,是语料库建设高质量发展的瓶颈之一。
2.6 语料库的发展建议
针对语料库建设的不足,以及发展过程中遇到的问题,在前人研究的基础上,我们认为,需要从项目规划、管理与支持、规范与标准建设、版权研究、团队合作与人才培养等角度入手,进一步促进我国语料库建设的发展。具体包括以下七项措施。
第一,加强纵向项目数据管理。语料库建设应以国家统筹规划为主,通过纵向项目立项,建立语言资源立项审查机制,减少重复立项,大力支持现有语料库资源的整合研究。纵向项目数据管理可以通过多种方式鼓励语料库共享,例如,建设语料库共享资源平台,提供有偿的网络查询服务,将语料库共享作为项目考核目标,提供API接口访问。目前中国语言资源联盟网建设了一个语料库共享资源平台,提供购买服务,但语料库种类较为有限。少数语料库项目提供了免费的有限查询服务,但有偿的网络查询服务还未曾见到。总的来说,加强纵向项目数据管理有利于增进语料库建设者的共享意愿,但不能解决语料版权和隐私问题。
第二,面向未来研究和应用需求,通过国家项目形式进一步加强语料库建设,主要支持研究和应用需求多、建设难度大、数量少的语料库,重点支持对未来学科发展有重大意义的语料库建设。在母语语料库方面,重点支持研制大规模汉语口语语料库、句法树库(特别是依存树库)、语义和语用标注语料库、深加工的汉语多模态语料库、汉语历时发展语料库,以及汉语方言语料库。在多语语料库方面,研制比较语料库和平行语料库,特别是针对机器翻译问题,重点建设一个国家级的高质量双语语料库,解决高校研究机构训练用高质量大数据问题(孙茂松、周建设 2016)。在专门用途语料库方面,加快专门用途口语语料库建设,深入开展专门用途平行语料库建设(董爱华 2013)。在学习者语料库方面,开发教学用语料库资源,加强国际合作,积极参与或主动发起国际学习者语料库项目(徐秀玲、许家金 2017)。在多模态语料库方面,加强面向人工智能、自然语言处理和语言教学的多模态语料库建设,研究其建设标准、标注规范和检索技术。此外,还要加强少数民族语言语料库建设。
第三,通过社科项目支持研究高效的语料分析方法,开发系统化的语料库加工软件,提高语料库加工深度。语料库加工工具的开发往往依赖于语料库的内容加工规范(标记系统),两者相辅相成。针对不同的标记系统,从词语切分、词性标注、句法标注、语义标注和语用标注等层面开发系统化和高效率的语料库加工工具,有助于深化语料库加工层次,提高深加工语料库的质量、规模,提升语料库的可用性。
第四,建设和完善语料库的标准规范,提高语料库建设的规范性。由高水平研究机构主导,动员各学术机构广泛参与,在行业共识的基础上通过广泛的社会协商制定规范,在规范的基础上分领域和分类制作国家标准,并定期进行修订。通过产业界和学术界的联合行动研究规范标准,并通过配套软件工具的开发和推广使用,建设规范标准的行业认同和生态环境。如在《语料库通用技术规范》(中国翻译协会 2018)的基础上,支持学术界和产业界联合研究语料库的元数据规范和内容标注规范,以及数据沟通方案,开发配套的数据转换工具,重点支持多模态语料库的内容标注规范研究。支持学术界和产业界联合研究语料库的评价规范,并开发配套的评价工具。
第五,研究语料库的版权问题,促进语料库共享。省部级和国家级项目支持的语料库应要求在规划阶段考虑语料库的共享问题,提出语料库的共享方案,并作为立项和结项的考核依据。支持由语料库、计算机、法律等领域的专家组成的团队进行跨学科研究,研究语料和语料库的版权保护,以及语料内容的隐私保护问题,解决现实中知识产权、隐私保护和语料库共享的矛盾问题。
第六,加强学科之间的合作,进行跨学科研究。语言学家能为语料库建设提供语言学理论支持,提高语料库的代表性;计算机专家能使语料库建设效率更高、更加智能化。但加强学科合作不仅仅是鼓励研究者的自发合作,关键是要以资金和项目支持的形式,促进不同学科的专家共同研究课题,同时探索好的合作模式。
第七,加强研究梯队建设和跨学科人才培养。在全国范围内支持优秀的语料库研究学术共同体,资助青年学者,鼓励语言学专业在本科和研究生阶段开展语料库课程,有计划分层次地培养青年研究人才,形成语料库研究梯队,为我国语料库资源建设积蓄后备力量,同时,在语言学科内部加强计算语言学专业建设,鼓励与计算机学科联合研究及培养跨学科人才。