[go: up one dir, main page]

CN118796903B - 一种面向异构数据源的元数据管理系统及方法 - Google Patents

一种面向异构数据源的元数据管理系统及方法 Download PDF

Info

Publication number
CN118796903B
CN118796903B CN202410845883.XA CN202410845883A CN118796903B CN 118796903 B CN118796903 B CN 118796903B CN 202410845883 A CN202410845883 A CN 202410845883A CN 118796903 B CN118796903 B CN 118796903B
Authority
CN
China
Prior art keywords
metadata
data
collection
query
version
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410845883.XA
Other languages
English (en)
Other versions
CN118796903A (zh
Inventor
张向飞
蒋浩
王轶
方海宾
滕天宇
焦宇翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Big Data Center
Original Assignee
Shanghai Big Data Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Big Data Center filed Critical Shanghai Big Data Center
Priority to CN202410845883.XA priority Critical patent/CN118796903B/zh
Publication of CN118796903A publication Critical patent/CN118796903A/zh
Application granted granted Critical
Publication of CN118796903B publication Critical patent/CN118796903B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24573Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向异构数据源的元数据管理系统及方法,属于大数据技术领域。本发明的系统中用户选择适配器,配置被采集工具或产品的版本和连接参数,管理和维护数据源配置信息;使用工作流引擎管理元数据采集任务,配置自动化工作流,支持采集任务的参数配置;采用若干个采集程序并发执行采集任务,支持若干种采集方式和不同类型的数据源,对于模板采集,使用Excel文件格式,维护和导入元数据;将采集到的元数据组织成符合公共仓储模型的结构,存储在关系型数据库中;使用TF‑IDF算法进行查询;构建数据流向图,向前追溯数据来源,向后追溯数据流向;进行环境一致性巡检,支持元数据生命周期管理,提供变更查询和订阅功能。

Description

一种面向异构数据源的元数据管理系统及方法
技术领域
本发明涉及大数据技术领域,具体为一种面向异构数据源的元数据管理系统及方法。
背景技术
随着大数据时代的到来,数据量呈现爆炸性增长,这使得元数据采集变得更加重要,以便于管理和理解海量数据。元数据采集是数据管理和数据分析领域的一个关键环节,它涉及从各种数据源中收集有关数据的描述信息。数据来源多样,包括结构化数据、非结构化数据以及半结构化数据,这要求元数据采集技术能够适应不同类型的数据源。在数据仓库和数据湖等环境中,需要集成来自不同源的数据。元数据采集是实现数据集成和确保数据一致性的基础。有效的数据治理依赖于准确的元数据。元数据采集有助于建立数据目录、监控数据质量、实施数据安全政策等。
许多现有的元数据管理系统仅支持单一类型或少数几种类型的数据源,无法有效应对多种异构数据源的环境。传统的元数据采集方式多采用单一程序串行执行采集任务,效率低下,无法满足大规模数据环境下的实时或准实时需求。由于缺乏统一的元数据标准,不同系统之间的元数据难以互通,导致数据孤岛现象严重,无法实现跨系统、跨平台的数据整合和共享。现有系统的元数据查询和分析功能有限,难以满足用户的多样化需求。
发明内容
本发明的目的在于提供一种面向异构数据源的元数据管理系统及方法,以解决上述背景技术中提出的问题。
为了解决上述技术问题,本发明提供如下技术方案:
一种面向异构数据源的元数据管理方法,所述方法包括以下步骤:
S100、用户选择适配器,配置被采集工具或产品的版本和连接参数,管理和维护数据源配置信息,对数据源配置信息进行增加、修改、删除和授权;
S200、使用工作流引擎管理元数据采集任务,配置自动化工作流,实现定时任务或事件驱动的采集策略;支持新增、修改和删除采集任务,配置任务自动执行的时间、状态和调度间隔;
S300、采用若干个采集程序并发执行采集任务,支持若干种采集方式和不同类型的数据源,对于模板采集,使用Excel文件格式,维护和导入元数据;
S400、将采集到的元数据组织成符合公共仓储模型的结构,存储在关系型数据库中;使用TF-IDF算法进行模糊查询、分类查询和高级查询;构建数据流向图,利用图神经网络对数据流向进行建模和分析,识别数据处理流程中的关键节点和数据依赖关系,向前追溯数据来源,向后追溯数据流向;使用孤立森林算法进行环境一致性巡检,对比不同环境的元数据,生成环境不一致报告;
S500、支持元数据生命周期管理,提供版本查看和版本发布功能;提供变更查询和订阅功能,用户能够查询和订阅元数据变更信息,平台发送变更详情到用户邮箱,用户在平台查看变更详情。
根据步骤S100,根据元数据的来源,用户选择采集适配器,所述适配器类型包括:DB数据字典采集类适配器、模板采集类适配器、数据记录类采集适配器、ETL工具类采集适配器、大数据采集适配器、建模工具类采集适配器、报表工具类采集适配器、日志类采集适配器和脚本类采集适配器;其中,DB数据字典采集类适配器用于采集数据库的数据字典,模板采集类适配器用于通过Excel模板采集数据,数据记录类采集适配器用于采集数据库数据记录,ETL工具类采集适配器支持ETL工具的元数据采集,大数据采集适配器用于采集Hive、Hbase和HDFS的元数据,建模工具类采集适配器支持Powerdesigner和ERWin的元数据采集,报表工具类采集适配器支持Cognos和BI.Office的元数据采集,日志类采集适配器支持对Shell和Perl日志的元数据采集,脚本类采集适配器支持DB数据字典、DDL、SparkSql、Sqoop采集和存储过程的元数据采集;
DB数据字典采集类适配器支持常见数据库如下:Oracle、DB2、MSSQL Server、MySQL、Teradata、HyperSQL、Sybase ASE、SybaseIQ、Informix、DM、Oscar、KingBase、Netezza、PostgreSQL、HighGo、GBase;数据记录类采集适配器支持对DB数据记录采集,如Oracle、DB2、MSSQL Server、MySQL、Teradata、HyperSQL、Sybase ASE、Informix、Netezza;ETL工具类采集适配器支持Datastage、PowerCenter、Kettle、DI、ODI等ETL工具。
用户选择和配置所使用的工具或产品的具体版本信息,使得适配器能够正确识别和采集对应版本的元数据;根据选择的适配器和被采集工具,用户需要提供必要的连接参数,所述必要的连接参数对于数据库包括IP地址、端口、用户名、密码和数据库名称,对于ETL工具包括服务器地址、端口、用户名和密码,对于其他工具和接口,需要根据具体工具的要求,提供相应的连接参数。
根据步骤S200,使用工作流引擎Apache Airflow管理元数据采集任务,工作流引擎提供任务调度和管理功能,能够组织和控制采集任务的执行流程;根据元数据采集的需求,设计自动化工作流,工作流由若干个任务节点组成,每个节点代表一个具体的采集任务,在工作流中定义任务之间的依赖关系,配置工作流的执行策略;设置定时任务的执行时间和频率,支持按照每分、每小时、每天、每周、每月和一次性的频率进行设置。
分布式部署多个采集器,解决跨云元数据采集问题,对同一个元数据采集来源,支持主、备模式采集器方式,实现高可靠性的元数据采集。新增采集器时会与采集端通信,监测采集端心跳是否正常,正常才能新增。新增完成后,与采集端保持心跳状态检查,根据心跳状态判断是否掉线。
根据步骤S300,将采集任务分配给不同的采集程序,确保任务均衡分布,工作流引擎Apache Airflow负责调度和监控并发执行的采集任务;支持若干种采集方式,允许数据库直连,针对支持API接口的数据源和应用程序通过API接口获取元数据,针对生成的日志文件进行解析,提取元数据;支持不同类型的数据源,采集关系型数据库的数据字典和数据记录,采集大数据平台、ETL工具、建模工具、报表工具以及脚本和存储过程的元数据;
模板采集采用Excel文件格式,用户能够通过预定义的Excel模板维护和导入元数据;Excel模板中的每个“类”的元数据对应一个Sheet工作表,元数据之间的组合关系通过路径体现,依赖关系存放在专门的Sheet中;用户能够根据需要定制Excel中的Sheet名称和列与元模型的对应关系;在Excel中增加数据有效性验证,确保数据格式和类型的正确性;提供模板管理功能,支持模板的创建、修改、删除和导入导出操作,技术人员能够通过模板功能自动导入元数据,也能够手动填写模板中的数据,导入到系统中。
根据步骤S400,将不同来源的元数据按照公共仓储模型进行组织,支持各种元数据的统一管理,将数据库表、列、索引的元数据映射到公共仓储模型中的相应类和属性,将业务指标、计算公式、代码段的元数据映射到公共仓储模型的业务层,将ETL过程、数据转换规则、数据流向的元数据映射到公共仓储模型的流程层,将日志文件、脚本、报表的元数据映射到公共仓储模型的对应位置;
将组织后的元数据存储在关系型数据库中,根据公共仓储模型设计关系型数据库的表结构进行存储。
根据步骤S400,使用TF-IDF算法进行模糊查询时,对用户输入的查询语句和元数据描述文本进行预处理,确保查询语句和元数据描述文本在同一语料空间进行匹配;计算用户查询文本的TF-IDF向量得到查询向量,计算所有元数据记录描述文本的TF-IDF向量得到文档向量,使用余弦相似度计算查询向量与每个文档向量之间的相似度,根据相似度得分对元数据记录进行排序,返回相似度最高的若干个元数据记录作为模糊查询结果;
使用TF-IDF算法进行分类查询时,对所有元数据记录的描述文本进行预处理,使用TF-IDF算法计算元数据记录的特征向量,选择决策树算法作为分类算法,使用标记好的训练数据集训练分类模型,模型输入为TF-IDF向量,输出为元数据类别;将新采集的元数据记录描述文本转换为TF-IDF向量,使用训练好的分类模型对新采集的元数据进行分类预测;用户通过选择分类标签进行查询,返回分类模型预测结果中属于所选类别的元数据记录;
使用TF-IDF算法进行高级查询时,用户输入包含若干个条件的查询语句,对查询条件进行解析和预处理,生成各个条件的TF-IDF向量;为每个查询条件设置优先级,根据重要程度进行排序;逐个条件计算与元数据记录的相似度,加权计算若干个条件的相似度得分,得到每个元数据记录的综合相似度;根据综合相似度对元数据记录进行排序,返回符合高级查询条件的元数据记录,提供匹配信息。
根据步骤S400,从元数据中提取数据流向信息,确定数据实体之间的流动关系,所述数据实体包括数据库表和字段、ETL作业节点、业务逻辑代码段、日志文件、脚本、报表工具、非结构化数据和数据字典;构建图结构,每个数据实体作为一个节点,数据从一个实体流向另一个实体的关系作为边;使用邻接矩阵表示图数据结构,以存储节点和边的信息;
对构建的图结构进行预处理,去除孤立节点,确保图的连通性,对图的节点和边进行特征提取,生成初始特征向量;选择Graph Convolutional Network作为图神经网络模型,初始化模型参数,根据图结构和特征向量进行模型构建;使用部分已知的数据流向信息作为训练集,剩余部分作为测试集,通过交叉熵损失优化模型参数,确保模型能够捕捉数据流向中的关键节点和依赖关系;
利用训练好的图神经网络模型,通过节点特征传播和聚合,识别出图中的关键节点,所述关键节点代表数据处理流程中的核心环节;通过图神经网络模型,分析节点之间的依赖关系,构建数据依赖图,展示数据实体之间的依赖关系;从目标节点出发,递归访问所有前驱节点,记录访问路径,生成数据来源路径图,展示数据从源头到目标的流向;从源节点出发,递归访问所有后继节点,记录访问路径,生成数据流向路径图,展示数据从源头经过的所有节点和处理流程;使用图可视化工具Graphviz展示数据流向图,展示关键节点、数据依赖关系和数据流向路径。
根据步骤S400,从开发、测试、运行的不同环境中收集元数据,对收集到的元数据进行特征提取,形成特征向量;将不同环境中的元数据特征向量组合成训练数据集,使用孤立森林算法训练模型,孤立森林通过构建若干棵随机树隔离数据点,识别潜在的异常点;
使用训练好的孤立森林模型对新的元数据特征进行检测,识别出异常点,所述异常点表示在不同环境中存在差异的元数据,对检测到的异常点进行进一步分析,确定差异的具体内容;根据差异分析的结果生成环境不一致报告,报告包含以下信息:差异元数据的标识、差异类型和差异详细描述。
根据步骤S500,提供版本的详细信息展示页面,用户能够查看每个版本的具体内容和变更情况;用户选择特定的元数据进行版本发布,创建新的版本,在发布新版本时,用户能够添加版本描述和发布说明,系统记录版本发布信息;支持版本回滚功能,用户能够将元数据恢复到指定的历史版本,在回滚时,系统提示用户确认操作,并记录回滚操作的详细信息;提供版本对比功能,用户能够选择两个版本进行对比,查看版本之间的差异;
系统自动记录元数据的变更信息,每条变更记录包括操作类型、操作时间、操作人和变更内容,用户能够在平台上查询指定时间段内的元数据变更信息,支持按操作类型、时间段和操作人进行筛选;用户能够订阅特定元数据的变更信息,用户能够设置订阅条件,订阅条件包括订阅的元数据对象、变更类型和通知频率;系统根据用户的订阅条件,实时监控元数据的变更情况,当订阅的元数据发生变更时,系统自动生成变更详情,并通过电子邮件发送给用户,用户能够在平台上查看变更详情,变更详情包括变更记录的列表和具体内容。
一种面向异构数据源的元数据管理系统,包括:
数据源管理模块:包括:版本和连接参数配置单元和数据源配置信息管理单元;其中,版本和连接参数配置单元负责让用户选择适配器,配置被采集工具或产品的版本和连接参数,数据源配置信息管理单元负责管理和维护数据源配置信息,对数据源配置信息进行增加、修改、删除和授权;
采集任务管理模块:包括:工作流引擎配置单元和任务管理单元;其中,工作流引擎配置单元负责使用工作流引擎管理元数据采集任务,配置自动化工作流,实现定时任务或事件驱动的采集策略,任务管理单元支持新增、修改和删除采集任务,配置任务自动执行的时间、状态和调度间隔;
并发采集模块:包括:并发采集单元和模板采集单元;其中,并发采集单元负责采用若干个采集程序并发执行采集任务,支持若干种采集方式和不同类型的数据源,模板采集单元对于模板采集,使用Excel文件格式,维护和导入元数据;
数据存储和分析模块:包括:元数据存储单元、查询单元、数据流向建模单元和环境一致性巡检单元;其中,元数据存储单元负责将采集到的元数据组织成符合公共仓储模型的结构,存储在关系型数据库中,查询单元负责使用TF-IDF算法进行模糊查询、分类查询和高级查询,数据流向建模单元负责构建数据流向图,利用图神经网络对数据流向进行建模和分析,识别数据处理流程中的关键节点和数据依赖关系,向前追溯数据来源,向后追溯数据流向,环境一致性巡检单元负责使用孤立森林算法进行环境一致性巡检,对比不同环境的元数据,生成环境不一致报告;
元数据生命周期管理模块:包括:版本控制单元和变更查询与订阅单元;其中,版本控制单元支持元数据生命周期管理,提供版本查看和版本发布功能,变更查询与订阅单元提供变更查询和订阅功能,用户能够查询和订阅元数据变更信息,平台发送变更详情到用户邮箱,用户在平台查看变更详情。
与现有技术相比,本发明所达到的有益效果是:
本发明支持多种类型的数据源和采集方式,包括数据库直连、接口、日志文件等,能够适应复杂多变的数据环境,通过使用多种采集适配器,覆盖了常见的数据库、ETL工具、建模工具、报表工具等。
本发明利用工作流引擎管理元数据采集任务,支持自动化工作流配置,实现定时任务或事件驱动的采集策略,采用并发执行的方式,显著提高了元数据采集效率,满足大规模数据环境下的实时采集需求。
本发明使用孤立森林算法对不同环境的元数据进行环境一致性巡检,及时发现并报告环境间的元数据不一致问题,保证系统的稳定性和数据质量。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明一种面向异构数据源的元数据管理方法的步骤示意图;
图2是本发明一种面向异构数据源的元数据管理系统的系统结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1和图2,本发明提供技术方案:
根据本发明的一个实施例,如图1一种面向异构数据源的元数据管理方法的步骤示意图所示,一种面向异构数据源的元数据管理方法,所述方法包括以下步骤:
S100、用户选择适配器,配置被采集工具或产品的版本和连接参数,管理和维护数据源配置信息,对数据源配置信息进行增加、修改、删除和授权;
S200、使用工作流引擎管理元数据采集任务,配置自动化工作流,实现定时任务或事件驱动的采集策略;支持新增、修改和删除采集任务,配置任务自动执行的时间、状态和调度间隔;
S300、采用若干个采集程序并发执行采集任务,支持若干种采集方式和不同类型的数据源,对于模板采集,使用Excel文件格式,维护和导入元数据;
S400、将采集到的元数据组织成符合公共仓储模型的结构,存储在关系型数据库中;使用TF-IDF算法进行模糊查询、分类查询和高级查询;构建数据流向图,利用图神经网络对数据流向进行建模和分析,识别数据处理流程中的关键节点和数据依赖关系,向前追溯数据来源,向后追溯数据流向;使用孤立森林算法进行环境一致性巡检,对比不同环境的元数据,生成环境不一致报告;
S500、支持元数据生命周期管理,提供版本查看和版本发布功能;提供变更查询和订阅功能,用户能够查询和订阅元数据变更信息,平台发送变更详情到用户邮箱,用户在平台查看变更详情。
根据步骤S100,根据元数据的来源,用户选择采集适配器,所述适配器类型包括:DB数据字典采集类适配器、模板采集类适配器、数据记录类采集适配器、ETL工具类采集适配器、大数据采集适配器、建模工具类采集适配器、报表工具类采集适配器、日志类采集适配器和脚本类采集适配器;其中,DB数据字典采集类适配器用于采集数据库的数据字典,模板采集类适配器用于通过Excel模板采集数据,数据记录类采集适配器用于采集数据库数据记录,ETL工具类采集适配器支持ETL工具的元数据采集,大数据采集适配器用于采集Hive、Hbase和HDFS的元数据,建模工具类采集适配器支持Powerdesigner和ERWin的元数据采集,报表工具类采集适配器支持Cognos和BI.Office的元数据采集,日志类采集适配器支持对Shell和Perl日志的元数据采集,脚本类采集适配器支持DB数据字典、DDL、SparkSql、Sqoop采集和存储过程的元数据采集;
DB数据字典采集类适配器支持常见数据库如下:Oracle、DB2、MSSQL Server、MySQL、Teradata、HyperSQL、Sybase ASE、SybaseIQ、Informix、DM、Oscar、KingBase、Netezza、PostgreSQL、HighGo、GBase;数据记录类采集适配器支持对DB数据记录采集,如Oracle、DB2、MSSQL Server、MySQL、Teradata、HyperSQL、Sybase ASE、Informix、Netezza;ETL工具类采集适配器支持Datastage、PowerCenter、Kettle、DI、ODI等ETL工具。
在本实施例中,元数据采集使用MetaCube DGS元数据管理、MetaCube Extractor元数据采集器、MetaCube Api元数据接口服务引擎、MetaCube Warehouse元数据仓库。
MetaCube DGS元数据管理是基于WEB方式的元数据管理功能,能够整合游离于企业数据流转各环节的数据资产,通过树形和水平方式展示各类元数据,层级结构清晰,便于用户直观了解元数据基本信息和父、子元数据信息。提供元数据关系的图形化分析功能,有助于用户理解信息与加工过程之间的关系以及它们如何被使用。
MetaCube Extractor元数据采集器是指针对不同的元数据来源,采用相应的采集方式获取元数据的程序集合。MetaCube Extractor支持采集多种元数据来源,包括:关系数据库、Hadoop、建模工具、数据集成工具、BI工具以及客户个性化元数据等。MetaCubeExtractor对采集到的元数据进行统一存储到元数据仓库中,为上层元数据应用提供数据。
MetaCube Api元数据接口服务引擎运用当前流行的REST接口架构,结合Spring统一管理能力对外统一提供HTTP+JSON格式接口。
MetaCube Warehouse元数据仓库是为了存储不同类型的元数据,而设计的一套元数据存储架构。
用户选择和配置所使用的工具或产品的具体版本信息,使得适配器能够正确识别和采集对应版本的元数据;根据选择的适配器和被采集工具,用户需要提供必要的连接参数,所述必要的连接参数对于数据库包括IP地址、端口、用户名、密码和数据库名称,对于ETL工具包括服务器地址、端口、用户名和密码,对于其他工具和接口,需要根据具体工具的要求,提供相应的连接参数。
根据步骤S200,使用工作流引擎Apache Airflow管理元数据采集任务,工作流引擎提供任务调度和管理功能,能够组织和控制采集任务的执行流程;根据元数据采集的需求,设计自动化工作流,工作流由若干个任务节点组成,每个节点代表一个具体的采集任务,在工作流中定义任务之间的依赖关系,配置工作流的执行策略;设置定时任务的执行时间和频率,支持按照每分、每小时、每天、每周、每月和一次性的频率进行设置。
分布式部署多个采集器,解决跨云元数据采集问题,对同一个元数据采集来源,支持主、备模式采集器方式,实现高可靠性的元数据采集。新增采集器时会与采集端通信,监测采集端心跳是否正常,正常才能新增。新增完成后,与采集端保持心跳状态检查,根据心跳状态判断是否掉线。
根据步骤S300,将采集任务分配给不同的采集程序,确保任务均衡分布,工作流引擎Apache Airflow负责调度和监控并发执行的采集任务;支持若干种采集方式,允许数据库直连,针对支持API接口的数据源和应用程序通过API接口获取元数据,针对生成的日志文件进行解析,提取元数据;支持不同类型的数据源,采集关系型数据库的数据字典和数据记录,采集大数据平台、ETL工具、建模工具、报表工具以及脚本和存储过程的元数据;
模板采集采用Excel文件格式,用户能够通过预定义的Excel模板维护和导入元数据;Excel模板中的每个“类”的元数据对应一个Sheet工作表,元数据之间的组合关系通过路径体现,依赖关系存放在专门的Sheet中;用户能够根据需要定制Excel中的Sheet名称和列与元模型的对应关系;在Excel中增加数据有效性验证,确保数据格式和类型的正确性;提供模板管理功能,支持模板的创建、修改、删除和导入导出操作,技术人员能够通过模板功能自动导入元数据,也能够手动填写模板中的数据,导入到系统中。
根据步骤S400,将不同来源的元数据按照公共仓储模型进行组织,支持各种元数据的统一管理,将数据库表、列、索引的元数据映射到公共仓储模型中的相应类和属性,将业务指标、计算公式、代码段的元数据映射到公共仓储模型的业务层,将ETL过程、数据转换规则、数据流向的元数据映射到公共仓储模型的流程层,将日志文件、脚本、报表的元数据映射到公共仓储模型的对应位置;
将组织后的元数据存储在关系型数据库中,根据公共仓储模型设计关系型数据库的表结构进行存储。
根据步骤S400,使用TF-IDF算法进行模糊查询时,对用户输入的查询语句和元数据描述文本进行预处理,确保查询语句和元数据描述文本在同一语料空间进行匹配;计算用户查询文本的TF-IDF向量得到查询向量,计算所有元数据记录描述文本的TF-IDF向量得到文档向量,使用余弦相似度计算查询向量与每个文档向量之间的相似度,根据相似度得分对元数据记录进行排序,返回相似度最高的若干个元数据记录作为模糊查询结果;
使用TF-IDF算法进行分类查询时,对所有元数据记录的描述文本进行预处理,使用TF-IDF算法计算元数据记录的特征向量,选择决策树算法作为分类算法,使用标记好的训练数据集训练分类模型,模型输入为TF-IDF向量,输出为元数据类别;将新采集的元数据记录描述文本转换为TF-IDF向量,使用训练好的分类模型对新采集的元数据进行分类预测;用户通过选择分类标签进行查询,返回分类模型预测结果中属于所选类别的元数据记录;
使用TF-IDF算法进行高级查询时,用户输入包含若干个条件的查询语句,对查询条件进行解析和预处理,生成各个条件的TF-IDF向量;为每个查询条件设置优先级,根据重要程度进行排序;逐个条件计算与元数据记录的相似度,加权计算若干个条件的相似度得分,得到每个元数据记录的综合相似度;根据综合相似度对元数据记录进行排序,返回符合高级查询条件的元数据记录,提供匹配信息。
根据步骤S400,从元数据中提取数据流向信息,确定数据实体之间的流动关系,所述数据实体包括数据库表和字段、ETL作业节点、业务逻辑代码段、日志文件、脚本、报表工具、非结构化数据和数据字典;构建图结构,每个数据实体作为一个节点,数据从一个实体流向另一个实体的关系作为边;使用邻接矩阵表示图数据结构,以存储节点和边的信息;
对构建的图结构进行预处理,去除孤立节点,确保图的连通性,对图的节点和边进行特征提取,生成初始特征向量;选择Graph Convolutional Network作为图神经网络模型,初始化模型参数,根据图结构和特征向量进行模型构建;使用部分已知的数据流向信息作为训练集,剩余部分作为测试集,通过交叉熵损失优化模型参数,确保模型能够捕捉数据流向中的关键节点和依赖关系;
利用训练好的图神经网络模型,通过节点特征传播和聚合,识别出图中的关键节点,所述关键节点代表数据处理流程中的核心环节;通过图神经网络模型,分析节点之间的依赖关系,构建数据依赖图,展示数据实体之间的依赖关系;从目标节点出发,递归访问所有前驱节点,记录访问路径,生成数据来源路径图,展示数据从源头到目标的流向;从源节点出发,递归访问所有后继节点,记录访问路径,生成数据流向路径图,展示数据从源头经过的所有节点和处理流程;使用图可视化工具Graphviz展示数据流向图,展示关键节点、数据依赖关系和数据流向路径。
根据步骤S400,从开发、测试、运行的不同环境中收集元数据,对收集到的元数据进行特征提取,形成特征向量;将不同环境中的元数据特征向量组合成训练数据集,使用孤立森林算法训练模型,孤立森林通过构建若干棵随机树隔离数据点,识别潜在的异常点;
使用训练好的孤立森林模型对新的元数据特征进行检测,识别出异常点,所述异常点表示在不同环境中存在差异的元数据,对检测到的异常点进行进一步分析,确定差异的具体内容;根据差异分析的结果生成环境不一致报告,报告包含以下信息:差异元数据的标识、差异类型和差异详细描述。
根据步骤S500,提供版本的详细信息展示页面,用户能够查看每个版本的具体内容和变更情况;用户选择特定的元数据进行版本发布,创建新的版本,在发布新版本时,用户能够添加版本描述和发布说明,系统记录版本发布信息;支持版本回滚功能,用户能够将元数据恢复到指定的历史版本,在回滚时,系统提示用户确认操作,并记录回滚操作的详细信息;提供版本对比功能,用户能够选择两个版本进行对比,查看版本之间的差异;
系统自动记录元数据的变更信息,每条变更记录包括操作类型、操作时间、操作人和变更内容,用户能够在平台上查询指定时间段内的元数据变更信息,支持按操作类型、时间段和操作人进行筛选;用户能够订阅特定元数据的变更信息,用户能够设置订阅条件,订阅条件包括订阅的元数据对象、变更类型和通知频率;系统根据用户的订阅条件,实时监控元数据的变更情况,当订阅的元数据发生变更时,系统自动生成变更详情,并通过电子邮件发送给用户,用户能够在平台上查看变更详情,变更详情包括变更记录的列表和具体内容。
根据本发明的另一个实施例,如图2一种面向异构数据源的元数据管理系统的系统结构图所示,一种面向异构数据源的元数据管理系统,包括:
数据源管理模块:包括:版本和连接参数配置单元和数据源配置信息管理单元;其中,版本和连接参数配置单元负责让用户选择适配器,配置被采集工具或产品的版本和连接参数,数据源配置信息管理单元负责管理和维护数据源配置信息,对数据源配置信息进行增加、修改、删除和授权;
采集任务管理模块:包括:工作流引擎配置单元和任务管理单元;其中,工作流引擎配置单元负责使用工作流引擎管理元数据采集任务,配置自动化工作流,实现定时任务或事件驱动的采集策略,任务管理单元支持新增、修改和删除采集任务,配置任务自动执行的时间、状态和调度间隔;
并发采集模块:包括:并发采集单元和模板采集单元;其中,并发采集单元负责采用若干个采集程序并发执行采集任务,支持若干种采集方式和不同类型的数据源,模板采集单元对于模板采集,使用Excel文件格式,维护和导入元数据;
数据存储和分析模块:包括:元数据存储单元、查询单元、数据流向建模单元和环境一致性巡检单元;其中,元数据存储单元负责将采集到的元数据组织成符合公共仓储模型的结构,存储在关系型数据库中,查询单元负责使用TF-IDF算法进行模糊查询、分类查询和高级查询,数据流向建模单元负责构建数据流向图,利用图神经网络对数据流向进行建模和分析,识别数据处理流程中的关键节点和数据依赖关系,向前追溯数据来源,向后追溯数据流向,环境一致性巡检单元负责使用孤立森林算法进行环境一致性巡检,对比不同环境的元数据,生成环境不一致报告;
元数据生命周期管理模块:包括:版本控制单元和变更查询与订阅单元;其中,版本控制单元支持元数据生命周期管理,提供版本查看和版本发布功能,变更查询与订阅单元提供变更查询和订阅功能,用户能够查询和订阅元数据变更信息,平台发送变更详情到用户邮箱,用户在平台查看变更详情。
在本实施例中,利用数据源管理模块,能够进行如下操作:查询依据数据源名称,查询当前已经创建的数据源信息;增加一条采集数据源,并填写数据源的连接信息;修改数据源的详细信息;删除一个数据源;为数据源赋予角色,数据源授权通过对角色的权限控制,进而实现对相关人员的采集控制;可选择一个适配器查看采集适配器的详细信息,查看适配的资料:适配器名称、工具/产品的名称与版本、适配器的工作模式、详细参数列表。
利用采集任务管理模块,能够进行如下操作:查询当前已经创建的任务,增加一个采集任务,修改一个采集任务,删除一个采集任务;采集任务通过设置其表达式来控制调度,可以按照多种方式来设置采集触发的周期、时间,在表格中选择需要设置或调整时间的一个任务;配置了任务后,某个时间段内不计划调度采集,可以配置挂起或运行;立即触发一个采集任务执行;对采集器进行增删改查。
利用并发采集模块,能够进行如下操作:通过选择本地服务器文件来源,配置数据源、入库策略、文件来源进行手动元数据采集,采集的入库策略支持以下3种方式:保守的全量:覆盖原有采集的数据,同时保留数据与悬挂结点外数据的依赖关系;激进的全量:覆盖原有采集的数据,完全以最新采集的数据为准;增量:在原有数据的基础上,累积新增的数据;
查询配置名称,展示列表信息;解决通过DB数据记录采集适配器采集元数据,通过DB数据采集配置将DB记录中记录与元模型进行映射;增加和修改数据记录采集模板的配置,删除数据记录采集模板;新增、修改和删除Excel采集模板与元模型的映射,下载Excel采集模板;再进行元数据采集时,为了定位源表和目标表,需要配置数据源映射,将采集工具的数据源连接名与元数据系统的数据字典的悬挂点进行映射匹配。
利用数据存储和分析模块,能够进行如下操作:查询当前有哪些数据需要审核,默认查询采集所有的数据源的待审核元数据,也可以选择指定的数据源来过滤查询;当采集数据源设置为需要入库审核的时候,采集完成后先要通过审核,查看具体的待审核元数据,可以双击待审核的批次,或勾选“详细”按钮,进入元数据审核页面;审核通过后,录入到元数据库,审核不通过,则不会录入到元数据;针对待审核的采集数据,全部通过变更的元数据信息,属性信息及依赖关系,并录入元数据库;针对待审核的采集数据,全部驳回变更的元数据信息,属性信息及依赖关系,不会录入元数据库;确认“全部通过”、“全部驳回”操作是否正确,确认审核结果,并保存生效;采集日志;查询自动采集、手动采集的日志信息;查看具体的日志信息,可以点击采集的“查看日志”链接,或双击该行记录,从而进入日志详细界面;采集任务执行日志删除;可根据任务执行的日期和任务的状态删除日志;取消采集任务的执行;导出当前查看的采集日志;
对元数据进行管理,添加元模型根节点,元模型根节点包含包名称,代码;查询元模型;增加、删除和修改元模型,元模型包括类,类的组合关系,类间的依赖关系;切换元模型树上展示的元模型代码和名称,刷新元模型树。
利用元数据生命周期管理模块,能够进行如下操作:模型变更是对元数据平台中的模型进行变更管理,当模型进行变更后,可以对变更的模型进行查询变更分析、变更详情等操作;提供变更查询功能,可以对某段时间内的元数据查询其变更信息,如新增总数、修改总数、删除总数等;可以自行订阅关注的元数据,当这些元数据发生变更后,平台可以将订阅的变更详情信息发送到邮箱中,同时可以在平台中可以查看变更元数据的详情信息;
标签管理扩展业务的标准采集管理途径,通过在标签管理中维护业务元数据分类、业务术语等业务元数据信息,建立业务元数据与技术元数据关联,实现业务元数据与技术元数据的统一管理;版本维护支持平台元数据的生命周期管理,这些都为了确保元数据质量,保证了后续使用元数据平台的权威性和可靠性;结合版本查看功能,实现版本的全方位管理与应用;通过版本发布,可以对某类型下的元数据进行定版,定版的粒度可以自行选择;系统提供元数据导出能力,对元数据树上需要导出的元数据全部导出为Excel文件。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种面向异构数据源的元数据管理方法,其特征在于,所述方法包括以下步骤:
S100、用户选择适配器,配置被采集工具或产品的版本和连接参数,管理和维护数据源配置信息,对数据源配置信息进行增加、修改、删除和授权;
S200、使用工作流引擎管理元数据采集任务,配置自动化工作流,实现定时任务或事件驱动的采集策略;支持新增、修改和删除采集任务,配置任务自动执行的时间、状态和调度间隔;
S300、采用若干个采集程序并发执行采集任务,支持若干种采集方式和不同类型的数据源,对于模板采集,使用Excel文件格式,维护和导入元数据;
根据步骤S300,将采集任务分配给不同的采集程序,确保任务均衡分布,工作流引擎Apache Airflow负责调度和监控并发执行的采集任务;支持若干种采集方式,允许数据库直连,针对支持API接口的数据源和应用程序通过API接口获取元数据,针对生成的日志文件进行解析,提取元数据;支持不同类型的数据源,采集关系型数据库的数据字典和数据记录,采集大数据平台、ETL工具、建模工具、报表工具以及脚本和存储过程的元数据;
模板采集采用Excel文件格式,用户能够通过预定义的Excel模板维护和导入元数据;Excel模板中的每个“类”的元数据对应一个Sheet工作表,元数据之间的组合关系通过路径体现,依赖关系存放在专门的Sheet中;用户能够根据需要定制Excel中的Sheet名称和列与元模型的对应关系;在Excel中增加数据有效性验证,确保数据格式和类型的正确性;提供模板管理功能,支持模板的创建、修改、删除和导入导出操作,技术人员能够通过模板功能自动导入元数据,也能够手动填写模板中的数据,导入到系统中;
S400、将采集到的元数据组织成符合公共仓储模型的结构,存储在关系型数据库中;使用TF-IDF算法进行模糊查询、分类查询和高级查询;构建数据流向图,利用图神经网络对数据流向进行建模和分析,识别数据处理流程中的关键节点和数据依赖关系,向前追溯数据来源,向后追溯数据流向;使用孤立森林算法进行环境一致性巡检,对比不同环境的元数据,生成环境不一致报告;
S500、支持元数据生命周期管理,提供版本查看和版本发布功能;提供变更查询和订阅功能,用户能够查询和订阅元数据变更信息,平台发送变更详情到用户邮箱,用户在平台查看变更详情。
2.根据权利要求1所述的一种面向异构数据源的元数据管理方法,其特征在于:根据步骤S100,根据元数据的来源,用户选择采集适配器,所述适配器类型包括:DB数据字典采集类适配器、模板采集类适配器、数据记录类采集适配器、ETL工具类采集适配器、大数据采集适配器、建模工具类采集适配器、报表工具类采集适配器、日志类采集适配器和脚本类采集适配器;其中,DB数据字典采集类适配器用于采集数据库的数据字典,模板采集类适配器用于通过Excel模板采集数据,数据记录类采集适配器用于采集数据库数据记录,ETL工具类采集适配器支持ETL工具的元数据采集,大数据采集适配器用于采集Hive、Hbase和HDFS的元数据,建模工具类采集适配器支持Powerdesigner和ERWin的元数据采集,报表工具类采集适配器支持Cognos和BI.Office的元数据采集,日志类采集适配器支持对Shell和Perl日志的元数据采集,脚本类采集适配器支持DB数据字典、DDL、SparkSql、Sqoop采集和存储过程的元数据采集;
用户选择和配置所使用的工具或产品的具体版本信息,使得适配器能够正确识别和采集对应版本的元数据;根据选择的适配器和被采集工具,用户需要提供必要的连接参数,所述必要的连接参数对于数据库包括IP地址、端口、用户名、密码和数据库名称,对于ETL工具包括服务器地址、端口、用户名和密码,对于其他工具和接口,需要根据具体工具的要求,提供相应的连接参数。
3.根据权利要求1所述的一种面向异构数据源的元数据管理方法,其特征在于:根据步骤S200,使用工作流引擎Apache Airflow管理元数据采集任务,工作流引擎提供任务调度和管理功能,能够组织和控制采集任务的执行流程;根据元数据采集的需求,设计自动化工作流,工作流由若干个任务节点组成,每个节点代表一个具体的采集任务,在工作流中定义任务之间的依赖关系,配置工作流的执行策略;设置定时任务的执行时间和频率,支持按照每分、每小时、每天、每周、每月和一次性的频率进行设置。
4.根据权利要求1所述的一种面向异构数据源的元数据管理方法,其特征在于:根据步骤S400,将不同来源的元数据按照公共仓储模型进行组织,支持各种元数据的统一管理,将数据库表、列、索引的元数据映射到公共仓储模型中的相应类和属性,将业务指标、计算公式、代码段的元数据映射到公共仓储模型的业务层,将ETL过程、数据转换规则、数据流向的元数据映射到公共仓储模型的流程层,将日志文件、脚本、报表的元数据映射到公共仓储模型的对应位置;
将组织后的元数据存储在关系型数据库中,根据公共仓储模型设计关系型数据库的表结构进行存储。
5.根据权利要求1所述的一种面向异构数据源的元数据管理方法,其特征在于:根据步骤S400,使用TF-IDF算法进行模糊查询时,对用户输入的查询语句和元数据描述文本进行预处理,确保查询语句和元数据描述文本在同一语料空间进行匹配;计算用户查询文本的TF-IDF向量得到查询向量,计算所有元数据记录描述文本的TF-IDF向量得到文档向量,使用余弦相似度计算查询向量与每个文档向量之间的相似度,根据相似度得分对元数据记录进行排序,返回相似度最高的若干个元数据记录作为模糊查询结果;
使用TF-IDF算法进行分类查询时,对所有元数据记录的描述文本进行预处理,使用TF-IDF算法计算元数据记录的特征向量,选择决策树算法作为分类算法,使用标记好的训练数据集训练分类模型,模型输入为TF-IDF向量,输出为元数据类别;将新采集的元数据记录描述文本转换为TF-IDF向量,使用训练好的分类模型对新采集的元数据进行分类预测;用户通过选择分类标签进行查询,返回分类模型预测结果中属于所选类别的元数据记录;
使用TF-IDF算法进行高级查询时,用户输入包含若干个条件的查询语句,对查询条件进行解析和预处理,生成各个条件的TF-IDF向量;为每个查询条件设置优先级,根据重要程度进行排序;逐个条件计算与元数据记录的相似度,加权计算若干个条件的相似度得分,得到每个元数据记录的综合相似度;根据综合相似度对元数据记录进行排序,返回符合高级查询条件的元数据记录,提供匹配信息。
6.根据权利要求1所述的一种面向异构数据源的元数据管理方法,其特征在于:根据步骤S400,从元数据中提取数据流向信息,确定数据实体之间的流动关系,所述数据实体包括数据库表和字段、ETL作业节点、业务逻辑代码段、日志文件、脚本、报表工具、非结构化数据和数据字典;构建图结构,每个数据实体作为一个节点,数据从一个实体流向另一个实体的关系作为边;使用邻接矩阵表示图数据结构,以存储节点和边的信息;
对构建的图结构进行预处理,去除孤立节点,确保图的连通性,对图的节点和边进行特征提取,生成初始特征向量;选择Graph Convolutional Network作为图神经网络模型,初始化模型参数,根据图结构和特征向量进行模型构建;使用部分已知的数据流向信息作为训练集,剩余部分作为测试集,通过交叉熵损失优化模型参数,确保模型能够捕捉数据流向中的关键节点和依赖关系;
利用训练好的图神经网络模型,通过节点特征传播和聚合,识别出图中的关键节点,所述关键节点代表数据处理流程中的核心环节;通过图神经网络模型,分析节点之间的依赖关系,构建数据依赖图,展示数据实体之间的依赖关系;从目标节点出发,递归访问所有前驱节点,记录访问路径,生成数据来源路径图,展示数据从源头到目标的流向;从源节点出发,递归访问所有后继节点,记录访问路径,生成数据流向路径图,展示数据从源头经过的所有节点和处理流程;使用图可视化工具Graphviz展示数据流向图,展示关键节点、数据依赖关系和数据流向路径。
7.根据权利要求1所述的一种面向异构数据源的元数据管理方法,其特征在于:根据步骤S400,从开发、测试、运行的不同环境中收集元数据,对收集到的元数据进行特征提取,形成特征向量;将不同环境中的元数据特征向量组合成训练数据集,使用孤立森林算法训练模型,孤立森林通过构建若干棵随机树隔离数据点,识别潜在的异常点;
使用训练好的孤立森林模型对新的元数据特征进行检测,识别出异常点,所述异常点表示在不同环境中存在差异的元数据,对检测到的异常点进行进一步分析,确定差异的具体内容;根据差异分析的结果生成环境不一致报告,报告包含以下信息:差异元数据的标识、差异类型和差异详细描述。
8.根据权利要求1所述的一种面向异构数据源的元数据管理方法,其特征在于:根据步骤S500,提供版本的详细信息展示页面,用户能够查看每个版本的具体内容和变更情况;用户选择特定的元数据进行版本发布,创建新的版本,在发布新版本时,用户能够添加版本描述和发布说明,系统记录版本发布信息;支持版本回滚功能,用户能够将元数据恢复到指定的历史版本,在回滚时,系统提示用户确认操作,并记录回滚操作的详细信息;提供版本对比功能,用户能够选择两个版本进行对比,查看版本之间的差异;
系统自动记录元数据的变更信息,每条变更记录包括操作类型、操作时间、操作人和变更内容,用户能够在平台上查询指定时间段内的元数据变更信息,支持按操作类型、时间段和操作人进行筛选;用户能够订阅特定元数据的变更信息,用户能够设置订阅条件,订阅条件包括订阅的元数据对象、变更类型和通知频率;系统根据用户的订阅条件,实时监控元数据的变更情况,当订阅的元数据发生变更时,系统自动生成变更详情,并通过电子邮件发送给用户,用户能够在平台上查看变更详情,变更详情包括变更记录的列表和具体内容。
9.一种面向异构数据源的元数据管理系统,使用权利要求1-8中任一项所述的一种面向异构数据源的元数据管理方法,其特征在于,包括:
数据源管理模块:包括:版本和连接参数配置单元和数据源配置信息管理单元;其中,版本和连接参数配置单元负责让用户选择适配器,配置被采集工具或产品的版本和连接参数,数据源配置信息管理单元负责管理和维护数据源配置信息,对数据源配置信息进行增加、修改、删除和授权;
采集任务管理模块:包括:工作流引擎配置单元和任务管理单元;其中,工作流引擎配置单元负责使用工作流引擎管理元数据采集任务,配置自动化工作流,实现定时任务或事件驱动的采集策略,任务管理单元支持新增、修改和删除采集任务,配置任务自动执行的时间、状态和调度间隔;
并发采集模块:包括:并发采集单元和模板采集单元;其中,并发采集单元负责采用若干个采集程序并发执行采集任务,支持若干种采集方式和不同类型的数据源,模板采集单元对于模板采集,使用Excel文件格式,维护和导入元数据;
数据存储和分析模块:包括:元数据存储单元、查询单元、数据流向建模单元和环境一致性巡检单元;其中,元数据存储单元负责将采集到的元数据组织成符合公共仓储模型的结构,存储在关系型数据库中,查询单元负责使用TF-IDF算法进行模糊查询、分类查询和高级查询,数据流向建模单元负责构建数据流向图,利用图神经网络对数据流向进行建模和分析,识别数据处理流程中的关键节点和数据依赖关系,向前追溯数据来源,向后追溯数据流向,环境一致性巡检单元负责使用孤立森林算法进行环境一致性巡检,对比不同环境的元数据,生成环境不一致报告;
元数据生命周期管理模块:包括:版本控制单元和变更查询与订阅单元;
其中,版本控制单元支持元数据生命周期管理,提供版本查看和版本发布功能,变更查询与订阅单元提供变更查询和订阅功能,用户能够查询和订阅元数据变更信息,平台发送变更详情到用户邮箱,用户在平台查看变更详情。
CN202410845883.XA 2024-06-27 2024-06-27 一种面向异构数据源的元数据管理系统及方法 Active CN118796903B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410845883.XA CN118796903B (zh) 2024-06-27 2024-06-27 一种面向异构数据源的元数据管理系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410845883.XA CN118796903B (zh) 2024-06-27 2024-06-27 一种面向异构数据源的元数据管理系统及方法

Publications (2)

Publication Number Publication Date
CN118796903A CN118796903A (zh) 2024-10-18
CN118796903B true CN118796903B (zh) 2025-02-25

Family

ID=93018996

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410845883.XA Active CN118796903B (zh) 2024-06-27 2024-06-27 一种面向异构数据源的元数据管理系统及方法

Country Status (1)

Country Link
CN (1) CN118796903B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN119003825A (zh) * 2024-10-21 2024-11-22 北京道达天际科技股份有限公司 基于工作流引擎的气象数据自动化存储发布方法及系统
CN119166428B (zh) * 2024-11-21 2025-10-17 北京高阳捷迅信息技术有限公司 基于大数据的关系型数据库备份恢复方法及系统
CN119202055A (zh) * 2024-11-26 2024-12-27 中通服软件科技有限公司 一种多源异构结构化数据的快捷采集方法
CN119691028A (zh) * 2025-02-21 2025-03-25 浪潮通用软件有限公司 一种基于元数据的主数据自动采集方法
CN119806637A (zh) * 2025-03-12 2025-04-11 北京方州科技有限公司 系统平台与异构模型解耦方法、装置、计算机设备及介质
CN120336293B (zh) * 2025-06-19 2025-08-22 苏州恒琪信息科技有限公司 一种用于数据源注册动态切换的系统和方法
CN120950511A (zh) * 2025-10-15 2025-11-14 北京涛思数据科技有限公司 一种工业元数据存储方法及多系统事务一致性保障方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114925054A (zh) * 2022-05-24 2022-08-19 浪潮软件科技有限公司 一种基于元模型的元数据管理系统及方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7693900B2 (en) * 2006-09-27 2010-04-06 The Boeing Company Querying of distributed databases using neutral ontology model for query front end
CN114925045B (zh) * 2022-04-11 2024-05-03 杭州半云科技有限公司 大数据集成和管理的PaaS平台
CN115344582B (zh) * 2022-08-23 2026-01-09 中国民航信息网络股份有限公司 元数据的管理方法、装置、电子设备及计算机存储介质
CN117591988B (zh) * 2024-01-18 2024-04-09 中国矿业大学 煤矿井下安全双重预防管理的风险数据处理方法和系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114925054A (zh) * 2022-05-24 2022-08-19 浪潮软件科技有限公司 一种基于元模型的元数据管理系统及方法

Also Published As

Publication number Publication date
CN118796903A (zh) 2024-10-18

Similar Documents

Publication Publication Date Title
CN118796903B (zh) 一种面向异构数据源的元数据管理系统及方法
US11409764B2 (en) System for data management in a large scale data repository
US10853387B2 (en) Data retrieval apparatus, program and recording medium
EP3513314B1 (en) System for analysing data relationships to support query execution
US8949291B2 (en) Automatic conversion of multidimentional schema entities
CN112199433A (zh) 一种用于城市级数据中台的数据治理系统
EP3513313A1 (en) System for importing data into a data repository
CN111125068A (zh) 一种元数据治理方法和系统
US20160321233A1 (en) Computer Implemented Systems and Methods for Transforming Data
CN114510390B (zh) 一种it运维配置资源管理系统
CN112163017A (zh) 一种知识挖掘系统及方法
US20160321231A1 (en) Computer Implemented Systems and Methods for Automatic Generation of Data Transformations
CN113506098A (zh) 基于多源数据的电厂元数据管理系统及方法
CN114358812A (zh) 一种基于运维大数据的多维度电力营销分析方法及系统
CN117829657B (zh) 航天器体系评估系统及评估方法
CN117610532A (zh) 一种报告生成方法和系统、电子设备及存储介质
CN117632925A (zh) 一种集采集、管理、概览和分析一体的元数据处理系统
Rozsnyai et al. Discovering event correlation rules for semi-structured business processes
KR101829198B1 (ko) 보고서의 중요도를 분석하는 메타 데이터 기반 온라인 분석 프로세싱 시스템
CN118520420A (zh) 能耗数据处理方法、系统、电子设备及存储介质
CN112784129A (zh) 一种泵站设备运维数据监管平台
CN118394750A (zh) 一种面向对地观测数据的数据中台
CN110019109B (zh) 用于处理数据仓库数据的方法及装置
US20140067874A1 (en) Performing predictive analysis
Ahmed et al. Generating data warehouse schema

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant