投稿问答最小化  关闭

万维书刊APP下载

语言智能技术发展与语言数据治理技术模式构建

2022/11/11 9:23:40  阅读:126 发布者:

来源:《中国社会科学文摘》2022年第10P17P18

作者:张凯   薛嗣媛   周建设     

作者单位:首都师范大学中国语言智能研究中心,摘自《语言战略研究》20224期,崔晋摘

当前人类社会正处于从信息时代到智能时代的过渡期,智能技术给人类生活带来了深远影响和美好前景。在人类不断探索智能技术的过程中,数据资源的重要性日益凸显,数据“管理”也逐渐走向数据“治理”。这意味着以语言符号体系为基础构成的各种数据将在开放的视野中被重新审视。语言智能、语言数据治理均以语言符号为起点。分别向机器数字空间和社会文化领域展开探索,智能技术为关注社会群体空间和网络虚拟空间的语言数据研究提供了信息化条件下的治理手段,使治理的智能化发展成为可能。语言教学、新媒体及自媒体等现实场景,对智能技术和数据治理提出了更高的标准和要求。

语言数据是以语言符号体系为基础构成的各种数据,按数据功能简单概括为:语言学科数据、话语数据、语言衍生数据、人工语言数据和语言代码数据。语言数据治理对于确保语言数据的准确、适度分享和保护是至关重要的。关注语言数据质量,保障语言数据稳定性、准确性,将语言数据从混乱治理成为有序,已逐渐成为国内外研究热点。语言数据治理是将语言数据作为治理对象的数据治理,目标是为国家或组织发展提供基础性和战略性语言资源,促进语言数据资产的价值创造,提升语言服务和语言治理能力。语言数据治理涉及元数据构建、语言数据标准制定、语言数据安全建设、语言数据存储及语言智能服务等多方面。实现全流程的语言数据治理是个极其复杂、系统和长期的工程,本文重点关注语言数据治理中数据到知识的治理环节,未涉及安全、经济、控制与管理等内容。

语言智能的核心目标是研究人类语言与机器语言之间的同构关系,当前语言数据已赋能多种语言智能技术的应用场景。每次技术革新都带来专利申请曲线的波动,随后为社会带来更优质的语言智能服务,下面围绕机器翻译、智能客服、网络舆情、多语言资源建设等4个语言数据服务展开技术发展的趋势分析。

20世纪90年代前,机器翻译技术利用词典匹配技术实现,1968年出现申请峰值。而后是词典结合语言学知识的规则翻译,1995年出现申请峰值。基于语料库的统计机器翻译取得较大进步,2005年出现了申请峰值。随着运算能力提高和多语资源的增长,神经网络文本翻译取得了明显成效,2016年出现了申请峰值。但实时语音翻译或自动同声传译还面临很大挑战,语篇如论文、小说等文体翻译时,术语一致性问题对模型可理解性提出了更高要求。

智能客服技术起步较晚但呈现申请量快速增长趋势。其应用形式上有聊天、问答、任务式对话等,涉及语音识别、语义理解、对话状态追踪、语言生成、对话心理等技术,因对话生成缺乏源语言语义约束,涉及问题的复杂程度没有任何限制。闲聊对话和以领域性知识图谱为中心的跨领域、跨交互形式的知性会话系统成为当前热点。

网络舆情监测相较其他语言服务专利申请规模更大,体现出各国对这方面的高度重视。早期监测策略通常由“关键词”搭配基本逻辑符号进行语言数据检索,往往需要辅以大量的人工,对语言数据进行二次处理。语言智能技术则让舆情监测从信息检索走向内容多维度识别,并通过情感分析获取明确情感、立场、观点、态度、意图等敏感信息,提高了语言数据背后隐含意图和倾向信息理解的准确性。网络舆情监测正在通过事理图谱、热点聚类、文本分类等方法,向舆情事件延展、事件特征、风险等级等智能分析阶段发展。

2000年前的资源构建中多以语言本体数据为对象,构建各语种知识本体、叙词本体词网等,之后围绕民族语言资源、话题发现和舆论导向等方面的研究成为一种趋势。2015年后,围绕语义标注、资源保护、语言模型和智能评测等技术研发成为新方向。近年来,以古文字为对象的专利开始出现,如多特征融合技术的拓片资源保护、古籍汉字可视化识别、文本挖掘的古籍数字化、古籍汉字图像质量提升、古籍词语发现和古籍知识库构建。

科学合理构建语言数据治理模式,对语言数据资源和智能技术的发展均有裨益。其一,语言数据作为重要的生产要素,开展治理研究对于确保数据准确(解决语言符号的知识表达问题)、知识发现(解决语言符号的知识计算问题)、适度分享和保护(解决语言符号的知识传播与保护问题)至关重要。其二,清晰、有效的语言数据治理需求和场景,可推动语言智能技术良性发展,不断积累的语言数据治理经验要求技术模式的规范化和标准化。

有效的语言数据治理框架会通过优化模式、缩减计算成本、降低舆情风险和提高安全合规等方式,将语言数据(知识)价值优质、高效回馈于应用,最终服务于语言文字事业发展。我们在语文智能技术的背景下,以经典数据挖掘模式为基础,就现有语言数据治理模式组织归纳,提出点状聚合模式、线性组合模式和多层事态等语言模式。三类语言数据治理的模式对应不同的场景或语言数据任务,分别围绕语言数据不同层次展开技术构建。

点状聚合模式(单点)以语言符号中的词性(如名词)为关注点,围绕实体词,以属性为桥梁,通过实体点聚合,构建一个空间知识体系,目标是构成结构化的语义知识库。计算机数据结构上对应的是有向图结构,呈现<实体,关系,实体>的点状聚合特点,其中实体由<属性,值>构成,实体间通过属性关系进行关联。该模式围绕实体点构成语言符号的知识结构,存储于图数据库中。点状聚合模式的知识结构是对现有语义网的扩充,对语言数据做行业细分,以单个术语为实体,在经典数据挖掘模式基础上,结合语言资源特点可以构建出细分行业语义库。该模式体现出语言数据“基因”的存储性和规律的蕴含性特征。

线性组合模式(交互)以语言符号中事件关系为关注点(如谓词逻辑),目标是构建出结构化的事件组合场景,该模式的中心点持续围绕谓词变化而转移,通过场景切换形成具有一定概率的事件组合库。计算机数据结构上对应的是具有概率属性的有向图结构,呈现出<事件,关系,事件>的线性组合特点,其中事件由<属性,概率>构成,事件间通过事件关系进行关联。该模式围绕事件序列构成语言符号的知识结构并存储于图数据库中,模式的发展通过事件转移矩阵确定趋势方向。该模式体现出语言数据的趋势预测性。

多层事态模式(事态)以语言符号整体为着眼点,化形于现实世界,通过追踪语言符号的事态变化,形成具有特定场景的、具有语义完备性的多层事态模式,该模式的目标是形成个体化语义场景描述的数据结构。计算机数据结构上对应复杂网络结构,形成<实体,知识图谱,事态,事件,事理图谱>结构的多层形态,其中事态即事件的状态,指表示事件发生与否、出现与否、存在与否。事态与动态两者着眼点不同,动态关注的是谓词所表示的动作变化,通过时态或状态体现,事态关注的是句子所表示的事件状态,由事态语气或时间状态体现。多层事态模式体现出语言数据的时序和空间的延展性。

结合经典数据挖掘模式,我们对点状聚合、线性组合和多层事态治理模式的各自特点分别进行多维度对照分析。在具体的语言数据治理任务中,可根据不同的治理目标采取某种或几种模式。在语言数据安全和共享标准支持下,结合语言数据资源构建流程,本文设计的三种语言模式,可以共同为语言资源和服务建设提供支撑。智能化条件下语言数据治理的核心思想是语言数据间的关联融合,所有模式均需要进行“人—机”结合的多次模型训练,以期达到最佳的治理效果。虽然语言数据由于自身蕴含特征规律的表现形式不同,造成语言数据治理模式的差异化,但建立在治理模式上的语言数据应用服务却容易形成相对稳定的结构。随着上述模式结构的复杂性增加,对语言数据治理的基础技术能力要求也逐渐提高。

转自:“中国学派”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com