投稿问答最小化  关闭

万维书刊APP下载

海量多源异构基础地理实体数据组织管理研究

2023/8/4 9:31:20  阅读:70 发布者:

海量多源异构基础地理实体数据组织管理研究

车一鸣1,史长斌1,李强1,樊迪2 ,苏赛2

1.宁夏回族自治区测绘地理信息院,宁夏 750002

2.吉奥时空信息技术股份有限公司,武汉 430223

摘要:

针对传统基础测绘成果中海量多源异构数据形态各异、编码不同、割裂存储、无法关联应用的问题,本文设计了一种在时间、空间、语义等方面一体化表达的基础地理实体数据模型,创新“一码多态”的数据组织管理模式,可以满足不同应用场景下基于基础地理实体二维、三维、影像、专题等多维数据的科学组织和快速检索,实现“一库多能、按需组装”。基于国家新型基础测绘建设宁夏试点的实践结果表明:本文提出的基础地理实体数据组织管理模式,可以应用于新型基础测绘与实景三维中国建设中基础地理实体数据的建库、组织。

0 引言

《新型基础测绘体系建设试点技术大纲》指出,新型基础测绘建设的中长期推广目标为:在试点目标完成的基础上,面向全国开展新型基础测绘体系建设推广,经过510年的共同努力,建成以地理实体为核心、“一库多能、按需组装”的国家基础地理实体数据库,经数据提取、适配组装、融合表达,构建实景三维中国[1]。然而传统地理信息数据建库大多按照数据类型、数据格式的不同分别存储与管理,导致同一基础地理实体的不同维度数据无法关联使用,无法满足新时期各行业对于地理信息的应用需求,因此亟需研究一种基于唯一标识码关联组织海量多源异构基础地理实体数据的组织管理新模式。本文从一体化表达的基础地理实体数据模型设计入手,建立“一码多态”的数据组织管理模式,以基础地理实体唯一标识码为核心关联组织多维空间信息、属性信息、专题信息等,并采用图数据库存储基础地理实体间关系信息,实现不同应用场景对基础地理实体多维度数据的不同需求,实现“一库多能、按需组装”[2-5]

1 基础地理实体数据组织管理模型

1.1 数据内容及特点

基础地理实体数据内容包含标识信息、空间信息、属性信息、时间信息以及关系信息。标识信息指基础地理实体的身份标识码;空间信息指描述基础地理实体空间特征的点、线、面、体、栅格等多种数据;属性信息指基础地理实体区别个体差异的内在本质特征;时间信息指描述基础地理实体产生、消亡等时间;关系信息描述基础地理实体间空间、非空间关系[6-10]

基础地理实体数据存在多形态、多时态、多状态的特点[11-12]

1)多形态。同一个基础地理实体,在不同的行业领域应用中,往往抽象表达的数据是不一样的。如城市道路实体,数据库中既要存储其中心线数据,也要存储范围面数据,也有遥感影像数据。

2)多时态。基础地理实体在发展过程中是不断变化的,因此基础地理实体抽象表达的数据存在多时态特点。如城市道路实体,在拓宽前和拓宽后,数据库中要存储不同时期的空间数据。

3)多状态。基础地理实体在发展过程中的状态也是会产生变化的,如院门实体是否封闭的状态、房屋是否建成的状态等。状态信息体现在基础地理实体的属性数据中,因此数据库中也要存储不同时期基础地理实体的属性数据。

1.2 一体化表达的数据模型

基于基础地理实体数据内容及特点,采用一体化表达的基础地理实体数据模型,将基础地理实体标识信息、空间信息、属性信息、时间信息和关系信息有机组织在一起。

1)实体表达模型

实体表达模型是针对真实世界的地理对象,基于统一的空间坐标系统,运用多类实体表达建模方法,进行抽象和全空间表达,实现客观事物在计算机中的数字化模拟。实体可抽象表达为点、线、面、体和栅格数据,其中点、线、面均可抽象表达为二维数据或者三维数据。

2)时空演变模型

时空演变模型是通过扩展实体时间标签,用于表征实体的形态、拓扑和属性随时间流逝而变化或维持原状的过程,具备支持现实世界中实体对象的连续变化或离散变化的能力,实现实体全生命周期跟踪管理。

3)地球空间网格模型

地球空间网格模型是基于北斗网格位置码剖分,将实体占据的立体空间统一剖分成不同尺度的网格单元,建立实体与网格关系,创建实体全球统一空间编码。通过空间编码,实现实体空间快速定位,地上地下立体关联信息查询、分析。地球空间网格模型可根据应用需求选择构建。

4)业务关系模型

业务关系模型用于描述实体间的业务逻辑关联关系,便于快速搭建不同的业务场景所需的数据集和业务规则,提升数据快速应用、精准服务的价值。

面向业务应用场景,基于地理实体语义信息,如地理实体名称、地址、身份码、权属信息等,根据业务逻辑与规则,构建地理实体与业务数据间的关联关系。根据应用需要,业务关系模型可进行相应的扩展。

1.3逻辑结构设计

针对基础地理实体多形态、多时态、多状态的特点,采用“一码多态”的数据组织结构实现海量多源异构数据的融合存储管理。在数据存储方面,设计实体表、实体空间表(矢量数据表、影像数据表、模型数据表)、实体属性表和专题信息表,如图 2所示,实现基础地理实体数据存储。采用图数据库三元组的形式存储实体与实体间关系,如图 3所示。

1)实体表:记录基础地理实体的标识信息、时间信息和基本属性信息,包括实体身份码、实体名称、实体分类编码等,用于关联实体空间表、实体属性表和专题信息表等,也便于对基础地理实体进行高效检索。

2)实体空间表(矢量数据表):记录矢量数据相关信息,包括OID、实体身份码、矢量数据、图形说明和测取时间。通过实体身份码和实体表进行关联;通过图形说明记录矢量图形的类别,如定位点、中心线、范围面等;通过测取时间体现不同时期的矢量数据。

3)实体空间表(影像数据表):记录影像数据相关信息,包括OID、实体身份码、影像数据和生产时间。通过实体身份码和实体表进行关联;通过生产时间体现不同时期的影像数据。

4)实体空间表(模型数据表):记录模型数据相关信息,包括OID、实体身份码、影像数据和生产时间。通过实体身份码和实体表进行关联;通过生产时间体现不同时期的模型数据。

5)实体属性表:记录基础地理实体的属性信息,包括OID、实体身份码、扩展属性和存续时间。扩展属性存储除基本属性以外的基础地理实体区别个体的本质特征;通过实体身份码和实体表进行关联;通过存续时间体现不同时期的属性信息。

6)专题信息表:记录基础地理实体关联的专题信息,包括OID、实体身份码和专题信息。专题信息为其他各政务部门中针对基础地理实体的专题信息,如不动产登记部门对于房屋实体存储的不动产登记号等信息。

7)实体关系图:采用<实体A,实体关系,实体B>的三元组形式进行实体关系记录,方便数据查询、分析使用。

1.4 物理存储设计

为了满足海量多源异构基础地理实体数据组织管理,针对各类基础地理实体数据结构的特点,采用关系型数据库、分布式文件存储、高性能索引库、图数据库等多种形式混合存储模式,采用物理分布、逻辑统一的方式实现“一码多态”的基础地理实体数据存储与管理。各类数据物理存储设计如表1所示。

1 基础地理实体数据物理存储设计

1)结构化数据,如基础地理实体矢量数据、矢量切片数据以及元数据等,采用关系型数据库存储,易于数据维护、使用方便。

2)半结构化和非结构化数据,如基础地理实体影像数据、基础地理实体模型数据、音视频、物联感知数据等,采用分布式文件存储,方便数据备份与扩展,保障数据安全可用。

3)基础地理实体关系数据,采用图数据库进行存储。一方面三元组的数据模型灵活便于扩展,基础地理实体间关系类型繁多,呈现一对多、多对多等特点,图数据库比关系型数据库更易扩展关系类型;二是检索高效,开展基础地理实体间关系多维度检索时比关系型数据库更高效。

4)地理实体融合数据集,采用分布式搜索引擎进行存储,存储的是基础地理实体表,实现在应用过程中对海量基础地理实体的高效检索。

2 技术难点及解决方案

开展海量多源异构基础地理实体数据组织管理涉及多方面的技术难点,采用本文提出的数据组织管理模型,可以较好的解决这些问题。

2.1 多源异构数据关联应用问题

基础地理实体数据存在多形态的特点,因此同一个基础地理实体在数据库中会存在矢量数据、影像数据、三维模型数据等不同数据来源、不同数据结构的空间数据。如何将多源异构的数据关联组织起来,并且在应用过程中可以通过基础地理实体高效检索出不同的数据形态,满足不同场景的应用是数据组织管理的技术难点之一。

1)设计唯一标识码解决基础地理实体唯一性问题。

基础地理实体是具有唯一性的,但目前传统的数据组织管理方式,导致不同业务部门使用同一个基础地理实体时、或同一部门使用基础地理实体存储的不同形态数据时,无法识别出是同一个基础地理实体。本文提出的基础地理实体数据模型采用唯一标识码来解决唯一性问题,即赋予每一个基础地理实体唯一标识码,通过此标识码保证不同部门间使用不同来源的同一实体、同一部门使用不同形态的同一实体时都能识别为同一基础地理实体。

2)采用唯一标识码作为数据关联的桥梁。

基础地理实体的不同形态数据存储在不同的数据库中,如矢量数据存储在关系型数据库中、影像数据和模型数据存储在分布式文件数据库中,如何将这些数据关联起来,才能方便应用。本文提出的数据组织模型采用唯一标识码作为数据关联的桥梁,实现多源异构数据的关联,便于检索应用。同时通过唯一标识码将基础地理实体数据与各行业的专题数据关联起来,实现业务数据关联融合,能更好的支撑各行业应用,发挥基础测绘数据统一空间地理底板作用。

3)采用分布式搜索引擎实现高效检索

基础地理实体数据是海量多源异构的,为了实现数据的高效检索,本文提出的数据组织管理模型中采用分布式搜索引擎建立基础地理实体数据的索引,提升数据检索的效率。

2.2 基础地理实体时序化表达的问题

基础地理实体具有多时态的特点,包括产生时间、消亡时间等重要的时间点信息,基础地理实体的空间数据也有数据的测取时间与生产时间,如何正确表达基础地理实体的时序以及组织基础地理实体的多时态、多形态的空间数据是数据组织管理的一个技术难点。

本文提出的数据组织管理模型采用基础地理实体基本信息与空间数据分离存储技术解决时序化表达的问题。

1)基础地理实体的时间信息存储在实体表中

实体表存储的是基础地理实体的基本信息,包括产生时间、消亡时间等,通过基本信息的时间记录,实现对基础地理实体的时序化表达。仅通过实体表的检索即可获取基础地理实体的产生时间、是否消亡、消亡时间等信息。

2)空间数据的时间信息存储在各空间数据表中

空间数据的时间信息与基础地理实体的时间信息无关,表达的是空间数据的测取时间、生产时间等,同一基础地理实体的不同形态空间数据的时间信息不一定相同,因此在各空间数据的数据表中存储各自的时间信息。保证基础地理实体未消亡状态下发生更新后,可以检索到不同时期测取的空间数据。

2.3 基础地理实体间关系存储与高效检索问题

基础地理实体间关系类型非常丰富,关系的维度也非常多,初始建库时仅构建最基础的关系类型,在实际应用中根据应用需求仍会不断扩展关系类型与维度,因此基础地理实体间关系的存储应易于扩展。同时由于关系种类的繁多,关系数据量也会是巨大的,因此关系数据检索的效率问题也是关键问题之一。

1)采用图数据库存储关系类型易于扩展

目前国家新型基础测绘试点单位多采用关系型数据库存储基础地理实体间关系,在基础地理实体属性表中增加上级实体属性项,存储上级实体的唯一标识码。这种方式只能存储地理实体间上下级关系,如附属、归属等,但是实体间的连接、邻接、汇入等关系就不能很好的表达。本文提出的数据组织管理模型采用图数据库存储基础地理实体间关系,图数据库的三元组存储方式使得关系类型可以无限扩展,更符合新型基础测绘地理实体的应用需求。

2)采用图数据库存储关系检索更高效

传统关系型数据库,在处理复杂关系运算上,需要涉及很多张表的查询检索,检索效率较差。本文设计的数据组织管理模型采用图数据库存储基础地理实体间关系数据,在处理复杂数据关系运算上,无需查询加载无关数据,检查效率远高于关系型数据库。

3 实例及应用

基于以上数据管理模式,宁夏开展了国家新型基础测绘建设宁夏试点成果组织,包括非城市区域基础地理实体数据93万个、全域水系地理实体185万个、全域23个工业园区地理实体36万个、全域乡村三维框架模型450万个,全域1178平方千米城市及重点工业园区实景三维的组织管理,实现了基础地理实体数据的科学组织和高效检索,有力推动了数据资源管理和应用服务落地。

3.1地理实体唯一标识码

使用地理实体唯一标识码对实体进行区分和识别,实现地理实体与相关社会经济、自然资源信息的挂接。地理实体唯一标识码共有30位数字,分为五段。

2 基础地理实体唯一标识码组成

——第一段由6位数字组成,表示县级以上行政区划代码,执行GB/T 2260中华人民共和国行政区划代码。

——第二段由6位数字组成,表示县级以下行政区域。跨行政区划的地理实体,采用其上级行政区划代码,其余位置用0表示。

——第三段由6位数字组成,表示地理实体分类码。

——第四段由6位数字组成,表示地理实体入库中的时间元素“年月”。

——第五段由6位数字组成,表示附加码,具体代码段为000001-999999,用以区分同一类别并且是同一行政区的地名并进行排序,如果前24位编码可以确定此实体的唯一性,则第五段代码用000000表示。

3.2“一码多态”数据存储实例

打破传统以图形为存储基础的组织模式,将同一基础地理实体的矢量数据、影像数据、模型数据以基础地理实体身份码为基础进行关联组织,构建“一码多态”数据关联融合的基础地理实体数据库。

地理实体数据库包含实体数据、空间数据和属性数据。实体数据存放所有地理实体数据的基本信息,包括已消亡的实体。空间数据存放所有地理实体数据的空间形态,其中空间数据内二维数据数据以二维表的形式直接入库存储到数据库内,地理实体三维数据、点云数据、影像数据则按照“物理分散,逻辑集中“的方式将原始数据存储于共享目录下,采用三维模型数据集的入库方式将数据关系映射在数据库内。属性数据存放实体描述信息,将地理实体数据集中的所有属性信息通过键值对的形式打包存入属性字段。关系图谱数据库记录实体之间的关系,通过唯一标识码与实体数据关联,方便后续快速关联查询。数据库存储于组织如图 4所示。采用实体数据(仅存放实体的基本信息)作为索引,通过唯一标识码关联多种成果数据表现形式,构建“一码关联”的数据存储方式,使地理实体的组装颗粒更小、更灵活,从而满足地理实体的应用需求。

以古遗迹黄河楼房屋实体为例,数据库中存储了黄河楼实体的矢量数据、影像数据、模型数据、点云数据以及属性信息。在数据库中检索到黄河楼实体,可以同时检索到黄河楼实体的各种数据信息,如图 5所示:

5 房屋实体数据组织实例

3.3基础地理实体间关系存储实例

基础地理实体间关系存储采用图数据库三元组的方式进行存储,宁夏试点建立数据关系共计16万条,以唐徕渠实体为例,数据库中记录了唐徕渠与各支渠的流向关系、各支渠与斗(农)渠的流向关系、涵洞与沟渠的附属关系、输水渡槽与沟渠的连接关系等,存储方式示例如下:

<唐徕渠,流向,子午渠>

<唐徕渠,流向,解放渠>

<解放渠,流向,商服渠>

<涵洞,附属,四清渠>

<输水渡槽,连接,雪柳渠>

实体间关系如图 6所示:

构建基础地理实体间关系信息,一方面可以充分挖掘基础地理实体数据价值,使地理底板形成有机整体,提升时空数据的挖掘能力,实现更精准、更智能的数据服务。另一方面知识图谱的属性查询命中效率高于传统空间计算效率,可以提升数据知识服务检索效率。

3.4数据服务应用

基于“一码多态”的数据组织管理及图数据库三元组方式的基础地理实体间关系存储,可实现海量多源异构基础地理实体数据的高效检索与应用,也可实现按时间、按实体分类、按数据模态、按属性信息等的数据按需组装应用。国家新型基础测绘建设宁夏试点按需组装的数据成果应用在各种应用场景下,广泛服务社会经济发展和自然资源管理需要,在水资源管理、工业园区土地节约集约利用评价、农村乱占耕地建房专项整治、黄河滩区治理、乡村规划、耕地保护等方面成功应用,取得了显著的社会经济生态效益。

1)数据高效检索应用

检索基础地理实体时,输入地理实体唯一标识码,可同时检索出基础地理实体的身份信息、基本属性、扩展属性、矢量数据、影像数据、模型数据、实体间关系以及实体关联的各种专题数据。实现基础地理实体的各种信息的一次检索,同时检出,更高效的提供给用户使用。以宁夏和宁化学有限公司为例,检索该企业院落实体,可同时获取到不同维度的空间信息以及属性信息,利用实体间关系图谱可以获取企业包含的房屋、构筑物、场地分布和个数等实体信息,利用关联的专题数据可以获取企业用地强度等专题信息,如图 7所示:

2)按需组装应用场景

不同应用场景对于基础地理实体数据时间、分类、模态的需求是不同的,这就要求新型基础测绘成果必须通过应用场景所需的不同信息自动化组装产品。基于“一码多态”的基础地理实体数据组织管理模式以及图数据库存储的基础地理实体间关系,以地理实体唯一标识码为索引,按应用场景需求快速定位到不同范围、不同时序、不同类别、不同形态、不同属性的基础地理实体数据,通过空间范围进行提取、组装,按照时空进行序化、关联和融合,构建具备实体化、三维化、语义化、结构化、全空间和人机兼容理解特征的组合聚合实体集、地形级实景三维、城市级实景三维和自定义应用场景实景三维产品,实现基础的、规范化的固定测绘成果提供向按需的、针对性强的定制测绘成果提供转变。

4 结束语

基础地理实体数据是新型基础测绘与实景三维中国建设的核心产品,针对海量多源异构数据的组织管理有助于提升数据的科学存储、高效检索和关联应用,本文提出的海量多源异构基础地理实体数据组织管理模式,有效的解决了数据割裂存储、无法关联使用的问题,实现“一库多能、按需组装”。有助于我们准确把握新时期测绘地理信息工作“两支撑、一提升”的根本定位[13-15],推动新型基础测绘产品在自然资源各业务板块和数字政府建设中的应用,为自然资源管理和经济社会发展提供更便捷、高效、精准的数据服务。

【作者简介车一鸣(1988-),男,宁夏盐池人,工程师,硕士,主要从事新型基础测绘和地理信息制图方面的工作。

446824914@qq.com

【引用格式】车一鸣,史长斌,李强,等. 海量多源异构基础地理实体数据组织管理研究 [J]. 测绘科学,2023,48(3)。

转自:“测绘学术资讯”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com