[go: up one dir, main page]

CN120975397A - 一种基于ai识别的企业数据资产智能分析方法及系统 - Google Patents

一种基于ai识别的企业数据资产智能分析方法及系统

Info

Publication number
CN120975397A
CN120975397A CN202511121774.4A CN202511121774A CN120975397A CN 120975397 A CN120975397 A CN 120975397A CN 202511121774 A CN202511121774 A CN 202511121774A CN 120975397 A CN120975397 A CN 120975397A
Authority
CN
China
Prior art keywords
data
value
risk
map
data asset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202511121774.4A
Other languages
English (en)
Inventor
周宇
周清泉
邓军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wupo Digital Technology Hangzhou Group Co ltd
Original Assignee
Wupo Digital Technology Hangzhou Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wupo Digital Technology Hangzhou Group Co ltd filed Critical Wupo Digital Technology Hangzhou Group Co ltd
Priority to CN202511121774.4A priority Critical patent/CN120975397A/zh
Publication of CN120975397A publication Critical patent/CN120975397A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Business, Economics & Management (AREA)
  • Molecular Biology (AREA)
  • Human Resources & Organizations (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Educational Administration (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于AI识别的企业数据资产智能分析方法及系统,方法包括:接收企业多源异构数据流,利用预训练的多模态融合识别模型进行联合特征提取与语义对齐,生成结构化数据资产识别结果;根据结构化数据资产识别结果,结合实时采集的数据访问轨迹与权限元数据,构建动态企业数据资产图谱;对动态企业数据资产图谱进行时空演化分析,提取潜在数据价值密度特征与风险暴露特征;将数据价值密度特征与风险暴露特征输入自组织映射网络,生成数据资产分级拓扑图;基于数据资产分级拓扑图,通过策略约束强化学习,生成可执行的数据治理动作序列。利用本发明实施例,能够提升企业特殊资产的识别精度与实时分析能力。

Description

一种基于AI识别的企业数据资产智能分析方法及系统
技术领域
本发明属于AI技术领域,特别是一种基于AI识别的企业数据资产智能分析方法及系统。
背景技术
当前,企业特殊资产(如知识产权、商誉、数据资产等)的管理普遍面临多源异构数据整合困难、价值评估主观性强、风险识别滞后等问题。传统方法依赖人工分类与静态规则,难以应对动态业务场景下的资产增值需求。尽管现有技术尝试引入机器学习进行数据分类,但跨模态特征融合不足,且缺乏对资产时空演化规律的量化分析,导致治理策略的实时性与精准度不足。
发明内容
本发明的目的是提供一种基于AI识别的企业数据资产智能分析方法及系统,以解决现有技术中的不足,能够提升企业特殊资产的识别精度与实时分析能力。
本申请的一个实施例提供了一种基于AI识别的企业数据资产智能分析方法,所述方法包括:
接收企业多源异构数据流,利用预训练的多模态融合识别模型进行联合特征提取与语义对齐,生成结构化数据资产识别结果,其中,所述多模态融合识别模型通过跨模态注意力机制同步处理文本、图像、表格及日志数据,识别数据类型、内容主题及敏感信息标签;
根据所述结构化数据资产识别结果,结合实时采集的数据访问轨迹与权限元数据,构建动态企业数据资产图谱,其中,所述图谱的节点表示数据实体,边权重根据数据关联关系、访问频率及权限关联度动态计算生成;
对所述动态企业数据资产图谱进行时空演化分析,提取潜在数据价值密度特征与风险暴露特征,其中,所述时空演化分析通过图神经网络时序预测,量化数据资产的价值衰减曲线与合规风险概率;
将所述数据价值密度特征与风险暴露特征输入自组织映射网络,生成数据资产分级拓扑图,其中,所述自组织映射网络通过无监督竞争学习将高维特征映射到二维网格空间,形成四象限可视化分布,每个象限对应价值-风险的量化分级标签;
基于所述数据资产分级拓扑图,通过策略约束强化学习,生成可执行的数据治理动作序列,其中,所述动作序列包括自动化归档、加密增强、访问权限重构及合规审计触发指令,且动作优先级由分级矩阵象限位置动态分配。
本申请的又一实施例提供了一种基于AI识别的企业数据资产智能分析系统,所述系统包括:
接收模块,用于接收企业多源异构数据流,利用预训练的多模态融合识别模型进行联合特征提取与语义对齐,生成结构化数据资产识别结果,其中,所述多模态融合识别模型通过跨模态注意力机制同步处理文本、图像、表格及日志数据,识别数据类型、内容主题及敏感信息标签;
构建模块,用于根据所述结构化数据资产识别结果,结合实时采集的数据访问轨迹与权限元数据,构建动态企业数据资产图谱,其中,所述图谱的节点表示数据实体,边权重根据数据关联关系、访问频率及权限关联度动态计算生成;
提取模块,用于对所述动态企业数据资产图谱进行时空演化分析,提取潜在数据价值密度特征与风险暴露特征,其中,所述时空演化分析通过图神经网络时序预测,量化数据资产的价值衰减曲线与合规风险概率;
输入模块,用于将所述数据价值密度特征与风险暴露特征输入自组织映射网络,生成数据资产分级拓扑图,其中,所述自组织映射网络通过无监督竞争学习将高维特征映射到二维网格空间,形成四象限可视化分布,每个象限对应价值-风险的量化分级标签;
生成模块,用于基于所述数据资产分级拓扑图,通过策略约束强化学习,生成可执行的数据治理动作序列,其中,所述动作序列包括自动化归档、加密增强、访问权限重构及合规审计触发指令,且动作优先级由分级矩阵象限位置动态分配。
本申请的又一实施例提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项中所述的方法。
本申请的又一实施例提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项中所述的方法。
与现有技术相比,本发明提供的一种基于AI识别的企业数据资产智能分析方法,接收企业多源异构数据流,利用预训练的多模态融合识别模型进行联合特征提取与语义对齐,生成结构化数据资产识别结果;根据结构化数据资产识别结果,结合实时采集的数据访问轨迹与权限元数据,构建动态企业数据资产图谱;对动态企业数据资产图谱进行时空演化分析,提取潜在数据价值密度特征与风险暴露特征;将数据价值密度特征与风险暴露特征输入自组织映射网络,生成数据资产分级拓扑图;基于数据资产分级拓扑图,通过策略约束强化学习,生成可执行的数据治理动作序列,从而能够提升企业特殊资产的识别精度与实时分析能力。
附图说明
图1为本发明实施例提供的一种基于AI识别的企业数据资产智能分析方法的计算机终端的硬件结构框图;
图2为本发明实施例提供的一种基于AI识别的企业数据资产智能分析方法的流程示意图;
图3为本发明实施例提供的一种基于AI识别的企业数据资产智能分析系统的结构示意图。
具体实施方式
下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本发明实施例首先提供了一种基于AI识别的企业数据资产智能分析方法,该方法可以应用于电子设备,如计算机终端,具体如普通电脑等。
下面以运行在计算机终端上为例对其进行详细说明。图1为本发明实施例提供的一种基于AI识别的企业数据资产智能分析方法的计算机终端的硬件结构框图。如图1所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括非易失性存储介质和内存储器。
非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种基于AI识别的企业数据资产智能分析方法。处理器用于提供计算和控制能力,支撑整个计算机设备的运行。内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种基于AI识别的企业数据资产智能分析方法。该网络接口用于进行网络通信,如发送分配的任务等。
参见图2,本发明的实施例提供了一种基于AI识别的企业数据资产智能分析方法,可以包括如下步骤:
S201,接收企业多源异构数据流,利用预训练的多模态融合识别模型进行联合特征提取与语义对齐,生成结构化数据资产识别结果,其中,所述多模态融合识别模型通过跨模态注意力机制同步处理文本、图像、表格及日志数据,识别数据类型、内容主题及敏感信息标签;
具体的,可以接收包含文本、图像、表格及日志的多模态数据流,通过自适应格式解析器将各模态数据统一为张量序列,输出标准化多模态数据张量;
系统通过分布式消息队列(如Kafka,一种高吞吐量分布式流处理平台)接收来自企业不同业务系统的原始数据流。文本数据可能来源于客户服务工单(CSV格式)、合同文档(PDF/Word);图像数据包括产品设计图(PNG/JPG)、扫描票据;表格数据涵盖财务Excel报表、数据库导出CSV;日志数据则来自服务器日志(如Nginx访问日志)、应用操作日志(JSON格式)。自适应格式解析器首先根据数据流的元信息(如HTTP头部的Content-Type字段、文件扩展名)自动识别数据类型(Text/Image/Table/Log)。针对文本数据,解析器调用OCR引擎(光学字符识别,例如Tesseract)处理扫描文档图像,再通过分词工具(如Jieba中文分词)将文本拆分为词元序列;对于图像数据,使用OpenCV库(开源计算机视觉库)进行尺寸归一化(统一调整为224x224像素)和通道标准化(RGB三通道均值归零);表格数据通过Pandas库(Python数据分析工具)解析行列结构,将表头与单元格内容映射为键值对;日志数据则采用正则表达式模板匹配时间戳、操作类型等结构化字段。所有解析后的中间结果均被转换为数值型张量序列(Tensor Sequence,即多维数组序列):文本转为词嵌入索引序列(每个词映射为300维向量索引),图像转为三维像素张量(维度为高度H、宽度W、通道数C),表格转为二维特征矩阵(行=记录数,列=特征数),日志转为时间戳标记的事件向量(维度=事件类型数量)。
为实现模态间可比性,解析器对不同模态的张量进行标准化处理:
维度对齐:文本序列通过填充(Padding)或截断统一长度为512个词元;图像张量保持固定H×W×C维度;表格特征矩阵通过插值或降维统一列数为128;日志事件向量采用独热编码(One-Hot Encoding)扩展为固定长度向量。
数值归一化:所有数值型特征(如图像像素值0-255)缩放到[-1,1]区间(公式:(x- 128)/128),类别型特征(如日志操作类型)转为嵌入向量。
序列化封装:将处理后的单模态张量封装为带模态标签的标准化数据单元(Standardized Data Unit, SDU),包含三个核心属性:
modality_type(模态类型:text/image/table/log);tensor_data(标准化张量数据);metadata(原始数据源信息、时间戳等)。
最终输出按时间窗口(Time Window, TW=5分钟)批处理的标准化多模态数据张量(Standardized Multimodal Data Tensor, SMDT),其数据结构为四维张量(维度1=批大小Batch Size, BS=64;维度2=模态类型数Modality Count, MC=4;维度3=序列长度SeqLength, SL;维度4=特征维度Feature Dim, FD)。
异常处理机制确保鲁棒性:
格式错误:对解析失败的文档(如加密PDF),触发重试机制(Retry Mechanism,RM)或转人工审核队列(Manual Review Queue, MRQ)。
数据缺失:表格空值采用KNN插补(K-Nearest Neighbors Imputation,基于相似记录的均值填充),图像损坏则使用生成对抗网络(Generative Adversarial Network,GAN)生成替代内容。
资源调度:解析器根据实时负载动态调整线程池大小(Thread Pool Size, TPS),通过优先级队列(Priority Queue, PQ)确保高价值数据(如含"合同"关键词的文本)优先处理。处理完成的SMDT写入分布式存储(如HDFS,Hadoop分布式文件系统)供后续模型调用。
将标准化多模态数据张量输入预训练的多模态融合识别模型,采用门控跨模态注意力机制计算文本-图像-表格-日志的交互权重,生成联合特征嵌入向量;
预训练的多模态融合识别模型采用分层编码器架构:
单模态编码层:
文本编码器:BERT模型(Bidirectional Encoder Representations fromTransformers,双向Transformer编码器)提取上下文特征,输出768维向量序列。图像编码器:ResNet-50(残差网络50层)卷积神经网络提取视觉特征,输出2048维特征图。表格编码器:多层感知机(Multilayer Perceptron, MLP)处理结构化数据,输出256维向量。日志编码器:LSTM(Long Short-Term Memory,长短期记忆网络)建模时序依赖,输出128维状态向量。各编码器输出统一投影到512维公共空间(Projection Space, PS),形成模态对齐的中间表示。
门控跨模态注意力机制(Gated Cross-modal Attention, GCA)实现多模态交互:
注意力权重计算:对任意两模态(如文本Text与图像Image),计算Query-Key匹配度:Query向量(Q_text)=文本特征矩阵×权重矩阵W_Q;Key向量(K_image)=图像特征矩阵×权重矩阵W_K;注意力分数(Attn_score = Softmax(Q_text · K_image^T / √d_k)(d_k=64为缩放因子)。
门控机制融合:引入可学习的门控参数(Gating Parameter, GP)控制信息流:
门控值(Gate_value)=σ(W_g·[Q_text; Attn_score] + b_g),其中σ=Sigmoid函数;加权特征(Weighted_feature)=Gate_value×(Attn_score·V_image),其中,V_image=图像Value向量。
跨模态聚合:对文本-图像、文本-表格、图像-日志等所有模态对并行计算注意力,输出聚合后的多模态特征块(Multimodal Feature Block, MFB)。
最终生成联合特征嵌入向量(Joint Feature Embedding Vector, JFEV):
特征拼接:将各模态对的MFB按通道维度(Channel Dimension)拼接,形成高维混合特征(维度=模态对数×512)。
压缩映射:通过全连接层(Fully Connected Layer, FC)降维至1024维,并使用Layer Normalization(层归一化)稳定训练。
非线性激活:应用GeLU函数(Gaussian Error Linear Unit,高斯误差线性单元)增强表达能力。
模型预训练阶段采用Masked Multimodal Modeling(遮蔽多模态建模)任务:随机遮蔽15%输入单元(如文本词元、图像区块),要求模型重建被遮蔽内容,使JFEV蕴含跨模态语义关联。
基于联合特征嵌入向量,通过对比学习强制不同模态的语义空间对齐,消除模态间语义鸿沟,输出对齐后的语义一致特征矩阵;
对比学习框架采用InfoNCE损失(Noise Contrastive Estimation,噪声对比估计):
正负样本构建:
正样本(Positive Pair):同一数据实体的不同模态表示(如"产品A"的文本描述+设计图)。负样本(Negative Pair):随机采样不同实体的模态表示(如"产品A"文本+"产品B"图像)。相似度计算:定义余弦相似度(Cosine Similarity, CS)函数:sim(u,v) = (u ·v) / (||u||·||v||),其中,u、v为两个模态的JFEV向量。
损失函数优化:最小化正样本相似度与负样本相似度的差异:Loss = -log[ exp(sim(u+,v+)/τ ) / Σ_{k=1}^K exp(sim(u-,v-)/τ ),τ=0.07为温度参数,K=256为负样本数量。
语义空间对齐的核心技术:
共享投影头(Shared Projection Head):将1024维JFEV输入两层MLP(隐藏层维度2048,输出层256维),映射到低维对齐空间(Alignment Space, AS)。动量更新编码器(Momentum Encoder):使用主编码器参数的指数移动平均(EMA,Exponential MovingAverage)更新副本编码器增强训练稳定性,公式:θ_m = m·θ_m + (1-m)·θ,m=0.99为动量系数。记忆库缓存(Memory Bank, MB):存储历史样本的AS向量(容量=65536),扩充负样本来源。输出语义一致特征矩阵(Semantic-Consistent Feature Matrix, SCFM):
对齐验证:计算模态对齐度指标(Modality Alignment Score, MAS):MAS = 平均正样本相似度 - 平均负样本相似度;当MAS > 0.85时判定对齐成功。特征重组:将对齐后的256维AS向量按原始批次重组为矩阵(维度=BS×256)。鸿沟消除效果:经对齐处理,不同模态描述同一实体的特征向量欧氏距离(Euclidean Distance)降至原距离的20%以下(如从>5.0降至<1.0),实现跨模态语义统一。
将语义一致特征矩阵输入多层感知机分类头,同步识别数据类型、内容主题及敏感信息标签,并整合为结构化数据资产识别结果。
多层感知机分类头(Multilayer Perceptron Classifier Head, MLP-Head)结构:
输入层:接收256维SCFM向量。隐藏层:两个全连接层(FC1维度128,FC2维度64),使用Dropout=0.3防止过拟合。
并行输出层:数据类型分类器:输出5维Softmax概率(文本/图像/表格/日志/混合型)。内容主题分类器:输出20维Sigmoid概率(如"财务"、"客户"、"研发"等主题标签)。敏感信息检测器:输出3维Sigmoid概率("PII个人身份信息"、"PCI支付卡信息"、"PHI健康信息")。
多任务联合训练策略:
损失函数加权:总损失(Total Loss, TL)=α·Loss_type + β·Loss_topic +γ·Loss_sensitivity,权重系数α=0.3, β=0.5, γ=0.2(根据业务需求调整)。类别不平衡处理:对少数类(如"PHI")采用焦点损失(Focal Loss, FL):FL = -α_t(1-p_t)^γ log(p_t),其中,α_t=0.75为类别权重,γ=2.0为困难样本聚焦参数。在线困难样本挖掘(Online Hard Example Mining, OHEM):每个批次选取损失值Top 30%的样本反向传播。
生成结构化数据资产识别结果(Structured Data Asset IdentificationResult, SDAIR):
标签解码:
数据类型:取Softmax概率最大值对应标签(置信度阈值>0.8)。内容主题:取Sigmoid概率>0.5的所有标签(多标签输出)。敏感信息:若任一敏感类别概率>0.7,触发敏感标记。结果封装:以JSON-LD(关联数据JSON)格式输出结构化记录:
{
"data_id": "DOC-20240501-001",
"data_type": ["text", "table"],
"content_topic": ["财务", "合同"],
"sensitivity_tags": ["PII", "PCI"],
"confidence_scores": [0.92, 0.88, 0.91]
}。
质量监控:通过F1-score(精确率与召回率的调和平均)评估识别准确率,要求全类型F1>0.85。结果写入图数据库Neo4j供下游构建数据资产图谱。
该步骤通过预训练的多模态融合模型对企业内不同格式和来源的数据进行统一处理,利用跨模态注意力机制捕捉文本、图像、表格和日志数据间的隐含关联,将原始数据转化为具有明确语义标签的结构化信息。模型通过对比学习消除不同数据模态间的语义差异,确保提取的特征能准确反映数据资产的本质属性,实现了多源异构数据的标准化理解与整合,解决了传统方法因数据格式差异导致的识别碎片化问题。结构化识别结果为后续分析提供高质量输入,同时敏感信息标签的自动标注为数据安全治理奠定基础。
S202,根据所述结构化数据资产识别结果,结合实时采集的数据访问轨迹与权限元数据,构建动态企业数据资产图谱,其中,所述图谱的节点表示数据实体,边权重根据数据关联关系、访问频率及权限关联度动态计算生成;
具体的,可以解析结构化数据资产识别结果,提取数据实体,并基于实体间内容主题相似度构建初始关系边,输出带权初始关系图;
系统首先接收来自上游的多模态融合识别模块生成的结构化数据资产识别结果。该结果是一个高度组织化的数据集合,其中每条记录明确标注了识别出的数据实体(DataEntity, DE)及其属性,包括数据类型(如客户数据库表、产品设计图纸、服务器日志文件)、内容主题(如“财务报销”、“用户画像”、“设备监控”)以及敏感信息标签(如“PII-个人身份信息”、“PCI-支付卡信息”)。解析过程由专门的图谱构建引擎(Graph ConstructionEngine, GCE)执行。GCE采用基于规则和机器学习结合的实体提取器(Entity Extractor,EE),精准识别并抽取出所有有效的数据实体对象。例如,从识别结果中可能提取出“CRM_Customer_Table”(客户关系管理系统客户表)、“Q3_Sales_Report.pdf”(第三季度销售报告PDF文件)、“App_Server_Error_Log”(应用服务器错误日志)等具体实体。每个实体被分配唯一标识符(Unique Identifier, UID),并携带其内容主题标签(Content TopicLabel, CTL)等元数据。
构建初始关系边(Initial Relationship Edge, IRE)的核心依据是数据实体之间的内容主题相似度(Content Topic Similarity, CTS)。系统采用预训练的主题嵌入模型(Topic Embedding Model, TEM),该模型通常基于诸如BERT或Doc2Vec等算法,能够将每个实体的内容主题标签(CTL)和描述文本转化为高维语义向量(Semantic Vector, SV)。计算实体A与实体B的CTS时,使用余弦相似度(Cosine Similarity, CS)算法度量其对应语义向量SvA与SvB之间的夹角余弦值。例如,两个主题标签分别为“员工绩效评估”和“薪资结构”的实体,其CTS可能计算为0.85(接近1表示高度相似),而“员工绩效评估”与“机房温度监控”的CTS可能仅为0.1(接近0表示不相关)。系统设定一个相似度阈值(SimilarityThreshold, ST,例如0.6),当CTS大于ST时,在对应的两个实体节点间建立一条初始关系边。该边的初始权重(Initial Edge Weight, IEW)直接设置为计算出的CTS值(范围在0到1之间),直观反映主题关联强度。此步骤输出的是一个以数据实体为节点、以主题相似度加权的带权初始关系图(Weighted Initial Relation Graph, WIRG)。
为了提升初始关系图的准确性和效率,系统采用近邻传播聚类(AffinityPropagation Clustering, APC)进行优化。APC算法能自动确定“代表点”(Exemplars),将主题高度相似的数据实体自动聚合成簇(Cluster),同一簇内的实体间自动建立全连接边(权重为簇内平均相似度),不同簇的代表点之间则根据代表点实体的主题相似度建立连接边。这有效避免了在超大图上进行全连接相似度计算的开销,同时保证了强关联实体群的紧密连接。例如,所有与“客户订单”主题高度相关的数据库表、订单处理日志、发货记录等实体被聚为一个簇,它们之间的边权重初始化为高值(如0.9),而该簇的代表点与“供应商管理”簇的代表点之间的边权重则根据两者主题相似度计算(如0.7)。最终输出的WIRG不仅包含实体间的二元关系,还隐含了基于主题的社区结构(Community Structure),为后续动态演化奠定了良好基础。
将实时采集的数据访问轨迹流转化为时间序列访问频率向量,并将时间序列访问频率向量与带权初始关系图融合,通过滑动窗口聚合更新边权重,输出动态访问增强关系图;
系统通过部署在企业各数据访问入口(如API网关、数据库代理、文件服务器)的日志探针(Log Probe, LP),实时捕获数据访问轨迹流(Data Access Trace Stream, DATS)。每条轨迹记录包含关键信息:访问时间戳(Timestamp, TS)、访问主体(如用户ID、服务账号)、访问操作(如SELECT读取、UPDATE更新、DOWNLOAD下载)以及被访问的目标数据实体标识符(Target Data Entity UID, TDE_UID)。这些原始流数据被实时摄入流处理引擎(Stream Processing Engine, SPE,如Apache Flink或Spark Streaming)。SPE的核心任务是按预设的时间窗口(Time Window, TW,例如15分钟、1小时、1天)进行聚合,为每个数据实体生成时间序列访问频率向量(Time-Series Access Frequency Vector, TSAFV)。例如,对于实体“CRM_Customer_Table”,在最近1小时的时间窗口内,可能生成一个向量 [读取次数=120, 更新次数=5, 下载次数=0],反映出该时段的访问热度(Access Heat, AH)和模式。
融合(Fusion)过程是将TSAFV代表的动态访问信息叠加到静态的带权初始关系图(WIRG)上,以更新边权重。系统采用滑动窗口聚合(Sliding Window Aggregation, SWA)策略。对于WIRG中的每一条边(连接实体A和实体B),系统检索在当前滑动窗口(CurrentSliding Window, CSW,例如过去24小时)内,实体A和实体B各自的TSAFV。关键操作是计算一个联合访问强度指标(Joint Access Strength Metric, JASM)。JASM的一个典型计算方式是:JASM = α * CoAccess_Freq + β * (Freq_A * Freq_B)^0.5。其中:
CoAccess_Freq(协同访问频率):统计在CSW内,同一访问主体(或同一会话Session)在邻近时间(如60秒内)先后或同时访问A和B的次数,反映业务关联性。
Freq_A 和 Freq_B:实体A和B在CSW内的总访问次数(或加权和,如读取权重1,更新权重2);α 和 β:调和系数(通常α>β,强调直接协同),例如α=0.7, β=0.3。
JASM值被归一化(Normalized)到0-1范围。该值用于更新(Update)原有的基于主题相似度的边权重(IEW)。一种常见更新规则是:New_Edge_Weight = γ * IEW + (1-γ)* JASM。γ是衰减因子(Decay Factor, DF,例如0.4),用于平衡静态主题关联与动态访问关联的贡献。此过程并行作用于所有边。
系统采用增量计算(Incremental Computation, IC)优化性能。每当新到达一个时间窗口(如又一个15分钟)的TSAFV数据,引擎仅重新计算受新数据影响的边(即那些连接了在此窗口内有访问活动的实体的边)的JASM和New_Edge_Weight,而非全图更新。同时,引擎维护一个热度衰减模型(Heat Decay Model, HDM),为更久远的历史访问数据分配更低的权重(例如,采用指数衰减:Weight_t = e^(-λ* age),其中λ是衰减率,age是数据年龄)。这确保了图谱能敏锐反映最新的访问模式变化。例如,如果市场部突然频繁联合访问“促销活动表”和“客户反馈表”,即使两者初始主题相似度不高,其边权重也会迅速提升。最终输出的动态访问增强关系图(Dynamic Access-Enhanced Relation Graph, DAERG)是一个边权重融合了内容主题静态关联和实时访问动态关联的、持续演化的图谱。
整合权限元数据,计算数据实体间的权限关联度,生成权限关联度矩阵;
系统从企业的身份与访问管理(Identity and Access Management, IAM)系统、权限管理数据库(Permission Management Database, PMDB)或访问控制列表(AccessControl Lists, ACLs)中提取权限元数据(Permission Metadata, PMD)。PMD的核心信息包括:权限主体(Subject, S,如用户、用户组、角色)、权限客体(Object, O,即数据实体)、操作权限(Operation, OP,如读、写、删除)以及可能的权限条件(Conditions, C,如时间限制、IP限制)。系统首先进行权限客体对齐(Permission Object Alignment, POA),确保PMD中的客体(通常用资源标识符Resource ID表示)与图谱中的数据实体UID精确匹配。对于无法自动匹配的客体(如新创建或未注册的实体),触发人工审核或使用基于名称、路径的模糊匹配算法(Fuzzy Matching Algorithm, FMA)进行关联。
计算数据实体间的权限关联度(Permission Association Degree, PAD)是此步骤的核心目标。权限关联度衡量的是两个数据实体在权限配置上的相似性或重叠程度。系统采用基于主体的关联度计算(Subject-Based Association Calculation, SBAC)方法:
为每个数据实体E,生成其权限向量(Permission Vector, PV)。PV的维度是所有可能的权限主体集合(Subject Set, SS)或角色集合(Role Set, RS)。向量元素的值表示该主体/角色对实体E拥有的最高权限等级(如0=无权限,1=读,2=写,3=管理)。
对于任意两个实体A和B,计算其权限向量PVA和PVB的相似度。常用方法包括:
Jaccard相似系数(Jaccard Similarity Coefficient, JSC):关注共同拥有权限(非零元素)的主体比例。JSC = |PVA ∩ PVB| / |PVA ∪ PVB|。余弦相似度(CosineSimilarity, CS):考虑权限等级向量的方向一致性。CS = (PVA · PVB) / (||PVA|| * ||PVB||)。加权欧氏距离倒数(Inverse Weighted Euclidean Distance, IWED):PAD = 1 /(1 + d),其中d是PVA和PVB的加权欧氏距离,权重可赋予高权限等级(如管理员角色)更大重要性。
系统通常结合多种方法,例如取JSC和CS的加权平均作为最终PAD值。
所有实体对的PAD值最终构成一个N×N的对称矩阵(N为实体总数),即权限关联度矩阵(Permission Association Matrix, PAM)。矩阵元素PAM[i][j]表示实体i和实体j之间的权限关联度,值域在[0,1]之间。为优化存储和计算,系统采用稀疏矩阵(SparseMatrix, SM)技术,仅存储非零(或大于某个阈值,如0.2)的PAD值及其对应的实体对索引。此外,系统会识别并标记高权限关联簇(High-Permission Association Cluster, HPAC),即那些相互之间PAD值都很高的实体群组(可通过PAM的社区检测发现)。这通常对应着企业内特定的业务单元或项目组所共享的核心数据集。权限关联度矩阵PAM的生成是静态权限配置与动态访问行为之外的第三个重要维度,它揭示了数据实体在安全管控层面的内在联系。
结合动态访问增强关系图和权限关联度矩阵,使用熵权法动态合成综合边权重,输出归一化权重图谱;
至此,系统拥有了刻画数据实体间关系的三个独立但相关的权重来源:
W1:基于主题相似度的初始边权重(来自DAERG,融合了静态内容关联和动态访问关联)。
W2:基于权限关联度的边权重(来自PAM,即PAD值)。
为了构建一个全面反映数据关联的单一图谱,需要将W1和W2合成(Synthesize)为一个综合边权重(Comprehensive Edge Weight, CEW)。系统采用熵权法(Entropy WeightMethod, EWM)来确定W1和W2各自的客观权重(Objective Weight, OW),避免主观赋值偏差。熵权法的核心思想是:某项指标的信息熵(Entropy)越小,其提供的信息量越大,在综合评价中应赋予更大权重。
熵权法动态合成过程如下:
数据矩阵构建:对于图谱中的每一条边(连接实体i和j),收集其两个权重指标值:Xij1 = W1(ij)(来自DAERG),Xij2 = W2(ij)(来自PAM)。所有边的指标值形成M×2的矩阵(M为边总数)。
标准化:对每列(每个指标)进行标准化(归一化处理)。常用方法如极差法(RangeMethod):Yijk = (Xijk - min(Xk)) / (max(Xk) - min(Xk)),其中k=1或2,表示指标。确保所有Yijk在[0,1]区间。
计算指标比重:对每条边i,计算第k个指标值的比重:Pijk = Yijk / Σ(i=1 toM) Yijk。
计算信息熵:计算第k个指标的信息熵(Information Entropy, IE):IEk = - (1/ ln(M)) * Σ(i=1 to M) (Pijk * ln(Pijk))。如果Pijk=0,则定义该项为0。
计算信息效用值(Information Utility Value, IUV):IUVk = 1 - IEk。IEk越小,IUVk越大,表明该指标提供的信息越有价值。
计算指标权重:第k个指标的熵权Wk = IUVk /Σ(k=1 to 2) IUVk。
计算综合权重CEW:对于每条边ij,其综合权重CEWij = W1 * Yij1 + W2 * Yij2。
例如,计算后可能得到W1(主题访问权重)的熵权为0.65,W2(权限权重)的熵权为0.35。这意味着在当前数据分布下,主题访问关联性提供了更多差异化信息,在综合权重中占主导。
合成后的综合边权重CEWij值域在[0,1]之间。系统执行全局归一化(GlobalNormalization, GN),将所有边的CEW值线性缩放(Linear Scaling),使其总和为1或最大值不超过某个设定值(如100),确保不同时期构建的图谱权重具有可比性。最终输出的是归一化权重图谱(Normalized Weight Graph, NWG)。在NWG中,节点仍是数据实体,每条边的权重是归一化后的综合权重CEW’,它同时蕴含了数据内容主题的关联性、实时访问行为的协同性以及权限配置的相似性。这种综合权重能更全面、客观地揭示企业数据资产间的真实关联强度。
将归一化权重图谱输入增量式图学习引擎,通过社区检测算法优化节点聚类,并嵌入时序触发器响应新数据流,输出动态企业数据资产图谱。
增量式图学习引擎(Incremental Graph Learning Engine, IGLE)是构建动态图谱的核心组件。它接收归一化权重图谱(NWG)作为初始输入。IGLE的核心功能之一是进行社区检测(Community Detection, CD),目标是发现图谱中连接紧密(即边权重高)的节点群组(社区),优化节点聚类结构。系统通常采用高效且适合增量更新的算法,如 Louvain算法(Louvain Algorithm)或其改进版。Louvain算法是一种基于模块度优化(ModularityOptimization, MO)的层次聚类方法。模块度(Modularity, Q)是衡量社区划分质量的标准,值越高表示社区内部连接远强于随机连接。Louvain算法迭代进行两个步骤:
局部优化:遍历每个节点,尝试将其移动到相邻节点所在的社区,计算移动带来的模块度增益ΔQ。若ΔQ>0且最大,则移动。
社区折叠:将属于同一社区的节点折叠为一个新的超级节点(Super Node),新节点间的边权重为原社区间所有边权重之和。
这个过程重复进行,直到模块度不再显著提高。最终输出的社区结构更清晰地反映了数据资产的自然分组(如“客户数据域”、“供应链数据域”、“财务数据域”)。
IGLE的关键特性是增量更新(Incremental Update, IU)。系统并非在每次新数据到达时都重新运行全图社区检测(计算开销巨大),而是嵌入时序触发器(TemporalTrigger, TT)机制。触发器监听两类主要事件:
节点/边增删事件(Node/Edge Addition/Deletion Event):当有新数据实体被识别并加入图谱,或旧实体被标记为失效时;或者当实时访问流或权限更新导致新的边产生或现有边权重显著变化(变化量超过阈值ΔW_threshold)甚至被删除时。
定时事件(Timer Event):例如每1小时或每天触发一次局部优化。
当事件触发时,IGLE启动增量式社区检测算法(Incremental CommunityDetection Algorithm, ICDA)。对于节点/边增删,算法通常只重新计算受影响节点及其局部邻域(Local Neighborhood,如一阶或二阶邻居)的社区归属,并评估其对整体模块度的影响,必要时进行有限范围的节点移动或社区分裂/合并。对于定时触发,则可能对近期权重变化较大的边所连接的节点进行批量局部优化。这大大降低了计算复杂度,保证了图谱更新的实时性。
除了社区结构,IGLE还可能维护和更新其他图属性或嵌入表示(如通过增量式图神经网络训练节点嵌入)。最终输出的动态企业数据资产图谱(Dynamic Enterprise DataAsset Graph, DEDAG)是一个持续演化的知识图谱。其节点代表数据实体,富含属性(类型、主题、敏感标签、访问热度等);边代表综合关联关系,权重动态反映关联强度;节点通过社区检测形成有意义的聚类;图谱结构(节点、边、社区)能够随着新流入的识别结果、访问轨迹、权限元数据而准实时地自动调整和优化。该图谱是企业数据资产全景的实时、结构化、可计算的核心表达,为后续的价值分析、风险评估和治理决策提供坚实基础。
该步骤将静态数据识别结果与动态行为数据融合,通过量化数据实体间的多维关联强度(包括内容相关性、使用热度和权限重叠度),构建反映企业数据生态实时状态的动态图谱。边权重的动态计算机制能捕捉数据资产间关系的时效性变化,动态图谱突破了传统数据目录的静态局限性,直观展现数据资产的网络化关联特征。基于实时行为计算的边权重为企业数据流动和价值传递分析提供量化依据。
S203,对所述动态企业数据资产图谱进行时空演化分析,提取潜在数据价值密度特征与风险暴露特征,其中,所述时空演化分析通过图神经网络时序预测,量化数据资产的价值衰减曲线与合规风险概率;
具体的,可以基于动态企业数据资产图谱,按时间窗口分割为连续图谱快照序列,输出时空演化图谱切片集;
系统以预设的时间窗口长度(Time Window Length, TWL,例如30天)为间隔,对动态企业数据资产图谱进行周期性切片。每个时间窗口结束时,系统会捕获图谱的完整状态快照,包括所有节点(数据实体)、边(关联关系)及实时更新的边权重(Edge Weight, EW,反映数据关联强度、访问频率和权限关联度的综合值)。例如,在金融企业的客户数据治理场景中,时间窗口可设置为一个自然月,每月末生成包含客户信息表、交易记录库、风险评估报告等节点及其关联关系的快照。快照序列按时间戳严格排序,形成时空演化图谱切片集(Spatio-Temporal Evolution Graph Slice Set, STEGSS)。该集合本质上是按时间维度堆叠的图谱版本序列,每个切片标记其有效时间区间(如2023-Q1、2023-Q2)。为实现高效存储与检索,系统采用增量快照技术(Incremental Snapshot Technology, IST),仅记录相邻切片间的差异(如新增节点、权重变化量),大幅降低存储开销。
时间窗口的划分需考虑业务节奏与数据生命周期。例如,零售企业的销售数据可能采用周级窗口(TWL=7天)以适应促销周期,而研发企业的专利数据则采用季度级窗口(TWL=90天)。系统内置动态窗口调整算法(Dynamic Window Adjustment Algorithm,DWAA),依据数据更新频率自动优化TWL:当节点属性(如访问量)的变异系数(Coefficientof Variation, CV)超过阈值(如CV>0.5)时自动缩短窗口,反之则延长。每个图谱切片包含三类核心元数据:
拓扑结构:节点与边的连接关系;动态权重:由熵权法合成的实时边权重(EW);节点属性:如数据体积(Data Volume, DV)、最后访问时间(Last Access Time, LAT)。切片集输出前需通过时序一致性校验(Temporal Consistency Check, TCC),确保相邻切片间节点ID稳定、权重变化连续,避免因数据采集异常导致演化分析失真。
为支持大规模图谱的高效分割,系统采用分布式图谱存储引擎(DistributedGraph Storage Engine, DGSE),如基于Neo4j集群或JanusGraph的分片架构。切片操作由时序切分控制器(Temporal Slicing Controller, TSC)协调执行:TSC监听图谱更新事件流,在达到TWL时触发快照指令,调用图状态序列化器(Graph State Serializer, GSS)将内存中的图谱拓扑与权重矩阵转换为二进制切片文件(Slice File, SF),并注入时间戳元数据。最终输出的STEGSS被存储于时序图谱数据库(Time-Series Graph Database, TSGD)中,为后续时空分析提供输入。
将时空演化图谱切片集输入时空图卷积网络,建模节点和边的时序依赖关系,预测未来状态并量化数据价值衰减曲线,输出价值衰减预测向量;
时空图卷积网络(Spatio-Temporal Graph Convolutional Network, STGCN)由空间卷积层与时间卷积层交替堆叠构成。空间卷积层采用切比雪夫多项式近似(ChebyshevPolynomial Approximation, CPA)处理非欧式图结构,计算每个节点受其邻居影响的程度。例如,在供应链数据图谱中,当“供应商库存表”节点(Node A)与“生产计划表”节点(Node B)的边权重(EW)上升时,空间卷积会增强Node B对Node A特征更新的贡献权重。时间卷积层采用一维因果卷积(1D Causal Convolution, 1D-CC)捕获历史切片序列的时序模式,确保未来预测仅依赖过去信息。STGCN的输入为STEGSS中连续K个切片(如K=12个月),输出为第K+1个切片的预测状态。
价值衰减曲线(Value Decay Curve, VDC)的量化通过多任务预测头(Multi-TaskPrediction Head, MTPH)实现。MTPH包含两个并行分支:
节点状态回归器:预测未来切片中各节点的关键属性值,如预期访问频率(Predicted Access Frequency, PAF)、数据年龄(Data Age, DA);
拓扑演化模拟器:预测边权重的变化趋势(如关联关系弱化概率)。
结合两者,VDC的计算公式为:价值衰减率 = f(PAF下降斜率, DA增长速率, 关联权重熵增)。
例如,某客户画像数据当前月均访问量1000次,预测未来3个月将降至400次,且其与活跃产品的关联边权重衰减60%,则判定其价值衰减率高达70%。最终,每个节点输出一个价值衰减预测向量(Value Decay Prediction Vector, VDPV),包含未来N个时间窗口(如N=4季度)的衰减率序列。
训练STGCN需构建监督学习样本。系统从历史STEGSS中提取切片序列-标签对:以前T个切片为输入,第T+1个切片的真实状态为标签。采用均方误差(Mean Squared Error,MSE)和图结构相似度损失(Graph Structure Similarity Loss, GSSL)联合优化模型。为防止过拟合,引入时空丢弃机制(Spatio-Temporal Dropout, STD),随机屏蔽部分节点或时间步。模型部署后,通过滑动预测窗口(Sliding Prediction Window, SPW)持续更新预测结果,确保VDPV实时反映最新数据演化趋势。
结合价值衰减预测向量和历史合规/违规记录,通过贝叶斯风险模型计算每个数据实体的合规风险概率,输出风险暴露概率分布;
贝叶斯风险模型(Bayesian Risk Model, BRM)以前向预测的价值衰减特征为观测证据,以历史合规事件为先验知识,计算后验风险概率。模型输入包括:
价值衰减预测向量(VDPV):反映数据效用下降趋势;历史合规/违规记录集(Historical Compliance/Violation Records, HCVR):如数据泄露事件次数、权限滥用告警、审计失败记录;环境风险因子(Environmental Risk Factor, ERF):如当前法规严苛度(如GDPR生效状态)、行业监管强度指数。例如,某员工薪酬表若历史上曾因未加密存储导致违规,且当前预测其访问量骤降(暗示可能被遗忘),则触发高风险判定。
BRM的核心是条件概率表(Conditional Probability Table, CPT)的动态构建。CPT定义关键变量间的依赖关系:
先验概率P(R):基于HCVR统计各类数据的基准违规率(如财务数据违规率=0.05);似然度P(VDPV|R):计算当风险等级R发生时,观测到特定VDPV特征的条件概率,通过高斯混合模型(Gaussian Mixture Model, GMM)拟合历史数据分布;后验概率P(R|VDPV):依据贝叶斯定理计算,公式为:P(高风险 | VDPV) = P(VDPV |高风险)×P(高风险) / P(VDPV)。
系统为每个节点输出一个风险暴露概率分布(Risk Exposure ProbabilityDistribution, REPD),包含低风险(0-0.3)、中风险(0.3-0.7)、高风险(0.7-1.0)三档概率值。
模型校准通过期望最大化算法(Expectation-Maximization Algorithm, EMA)迭代优化CPT参数。例如,检测到新发生的合规事件(如某客户数据因权限配置错误被越权访问),系统将自动:回溯事件涉及节点的VDPV特征(如事发前3个月访问量下降40%);更新P(VDPV|高风险)的分布参数;重新计算全图节点的REPD。
输出REPD时,附加风险置信区间(Risk Confidence Interval, RCI),反映预测不确定性。低置信结果(如RCI宽度>0.2)触发人工复核流程。
将价值衰减预测向量和风险暴露概率分布拼接为高维特征,通过主成分分析降维,得到低维的潜在数据价值密度特征和风险暴露特征。
每个数据实体的价值衰减预测向量(VDPV,维度例如=4)与风险暴露概率分布(REPD,维度=3)被拼接为7维原始特征向量(Raw Feature Vector, RFV)。由于维度间存在冗余(如“访问量下降率”与“价值衰减率”强相关),系统采用主成分分析(PrincipalComponent Analysis, PCA)进行特征压缩与去噪。PCA的核心是协方差矩阵(CovarianceMatrix, CM)的特征分解:计算CM的特征值(Eigenvalue, EV)与特征向量(Eigenvector,EVec),按EV从大到小排序选取主成分(Principal Component, PC)。
降维过程分为三步:
标准化:对RFV各维度进行Z-score变换(均值=0,标准差=1),消除量纲影响;主成分提取:保留累计贡献率(Cumulative Contribution Rate, CCR)>85%的主成分(通常前2-3个PC);特征映射:将原始RFV投影至主成分空间,生成低维特征向量(Low-DimensionalFeature Vector, LDFV)。
例如,某RFV=[PAF降幅=0.6, DA增幅=0.8, 高风险概率=0.9, ...]经PCA后得到LDFV=[PC1=1.2, PC2=-0.3],其中PC1代表“价值-风险综合强度”,PC2代表“衰减速度与风险敏感度的平衡”。
最终输出的两个关键特征为:
潜在数据价值密度特征(Potential Data Value Density Feature, PDVDF):对应LDFV中正向载荷最大的PC(如PC1>0表示高价值密度),反映数据当前及未来的效用浓缩程度;
风险暴露特征(Risk Exposure Feature, REF):对应LDFV中与风险概率强相关的PC(如PC1的负值部分或PC2的特殊模式),量化数据面临合规威胁的暴露程度。
系统通过特征解释模块(Feature Interpretation Module, FIM)标注降维后特征的业务含义。例如,PDVDF>1.0且REF<0.5的节点被标记为“核心高价值低风险资产”,直接驱动后续治理策略生成。
该步骤采用时空图神经网络对图谱历史状态进行序列建模,预测数据价值随时间衰减的规律,并结合合规事件记录计算风险概率。通过分析节点和边属性的时序变化模式,提取表征数据长期价值和短期风险的核心特征,实现了数据资产价值的动态评估和风险预警,帮助企业识别高价值待挖掘数据和需紧急处置的高风险数据。时空演化分析为数据生命周期管理提供决策依据。
S204,将所述数据价值密度特征与风险暴露特征输入自组织映射网络,生成数据资产分级拓扑图,其中,所述自组织映射网络通过无监督竞争学习将高维特征映射到二维网格空间,形成四象限可视化分布,每个象限对应价值-风险的量化分级标签;
具体的,可以将数据价值密度特征和风险暴露特征合并为高维特征向量,并进行Z-score标准化,输出标准化特征向量集;
特征向量合并与维度处理
系统接收来自时空演化分析模块的"数据价值密度特征"(Data Value DensityFeature, DVD_F)和"风险暴露特征"(Risk Exposure Feature, RE_F)。DVD_F是表征数据资产潜在经济效用的数值向量(如数据使用频率、业务关联度、衍生收益预测值),RE_F则是量化合规风险的数值向量(如违规概率、敏感字段密度、访问异常指数)。在合并前,需确保两个特征向量的维度一致——若DVD_F包含5个维度指标(如时效性价值、稀缺性权重、复用潜力、业务关键度、衍生价值系数),RE_F包含3个维度指标(如合规偏离度、泄露风险熵、监管敏感度),则通过特征对齐器(Feature Aligner, FA)自动填充或投影至统一维度(如8维)。合并操作采用向量拼接(Vector Concatenation, VC)技术:将DVD_F的N个元素与RE_F的M个元素顺序连接,生成一个高维特征向量(High-Dimensional Feature Vector,HDFV),其维度为N+M(例如8维)。每个HDFV对应一个独立的数据实体(如客户数据库表、生产日志集、设计图纸库)。
Z-score标准化过程
由于原始特征量纲差异显著(如价值密度值范围在0-100,风险概率值在0-1),需进行标准化消除尺度影响。采用Z-score标准化(Z-score Normalization, ZN)算法:
计算均值与标准差:遍历所有数据实体的HDFV集合,对每个特征维度独立计算全局均值(Mean, μ)和标准差(Standard Deviation, σ)。例如对"时效性价值"维度,计算所有实体该特征的
逐维度标准化:对每个实体的HDFV,按维度执行转换:标准化值 = (原始值 - μ)/ σ。例如某实体的"泄露风险熵"原始值为0.85,全局=0.62,=0.18,则标准化值为(0.85-0.62)/0.18≈1.28。
该过程通过分布式统计引擎(Distributed Statistics Engine, DSE)实现:将HDFV集分片至多台计算节点并行处理μ和σ,再广播至所有节点执行标准化。输出结果为标准化特征向量集(Normalized Feature Vector Set, NFVS),其数值分布符合均值为0、标准差为1的高斯分布,确保后续模型训练的稳定性。
异常值处理与边界控制
为防止极端值(如某实体价值密度超常规)扭曲标准化结果,系统增设截断规则(Truncation Rule, TR):若某特征维度的标准化值超出预设范围(如[-3, 3]),则强制截断至边界值。例如某"衍生价值系数"标准化后为4.2,超出+3,则重置为3.0。同时记录截断事件至审计日志(Audit Log, AL),供后续人工复核。最终输出的NFVS作为自组织映射网络的理想输入源。
初始化二维自组织映射网格,将标准化特征向量集输入自组织映射网络,通过无监督竞争学习动态调整网格权重,输出训练后的神经元权重矩阵;
网格初始化与拓扑结构
自组织映射网络(Self-Organizing Map, SOM)采用二维网格结构(GridStructure, GS),其尺寸根据数据实体规模动态设定(如50×50网格处理10万级实体)。每个网格节点称为神经元(Neuron, N),包含一个与输入特征同维度的权重向量(WeightVector, WV)。初始化时,采用主成分分析初始化法(PCA Initialization, PCI):
对NFVS执行主成分分析(Principal Component Analysis, PCA),提取前两个主成分方向(PC1, PC2)。
将网格的横纵坐标轴分别对齐PC1和PC2方向,神经元权重沿主成分方向线性插值生成。例如网格左上角神经元WV取PC1最小值和PC2最大值,右下角取PC1最大值和PC2最小值。该方法加速收敛,避免随机初始化的局部最优陷阱。
无监督竞争学习机制
训练过程基于胜者为王(Winner-Takes-All, WTA)原则:
竞争阶段:输入一个标准化特征向量(如某客户数据实体的NFV),计算其与所有神经元WV的欧氏距离(Euclidean Distance, ED)。选择ED最小的神经元作为优胜神经元(Best Matching Unit, BMU)。例如BMU坐标为(15,32)。
协作阶段:以BMU为中心定义邻域函数(Neighborhood Function, NF),如高斯函数。邻域内神经元权重向输入向量方向调整,调整强度随距离BMU的拓扑距离衰减。邻域半径初期较大(覆盖网格30%区域),随迭代指数收缩至仅BMU自身。
权重更新公式:第i个神经元在t+1时刻的权重更新为:WV_i(t+1)=WV_i(t) +η(t)×NF(i, BMU, t)×[NFV - WV_i(t)]。其中学习率(Learning Rate,η)初始为0.8,随迭代线性降至0.01。
动态训练与收敛控制
训练分为两个阶段:
粗调阶段:前1000次迭代,邻域半径从初始值10降至1,学习率从0.8降至0.2。快速构建全局拓扑结构。微调阶段:后续2000次迭代,邻域半径固定为1(仅BMU自身),学习率从0.2降至0.01。精细调整权重向量。终止条件采用量化误差阈值(Quantization ErrorThreshold, QET):当所有NFV与对应BMU的ED均值连续5次迭代变化小于0.001时停止训练。最终输出神经元权重矩阵(Neuron Weight Matrix, NWM),其维度为网格行数×列数×特征维度(如50×50×8)。
基于神经元权重矩阵,将每个数据实体映射到二维网格坐标,并通过K-means聚类将网格划分为四象限,输出象限标签映射表,其中,所述四象限包括:高价值-低风险、高价值-高风险、低价值-低风险、低价值-高风险;
数据实体网格坐标映射
利用训练完成的NWM,对每个数据实体的标准化特征向量(NFV)执行BMU检索(BMURetrieval, BR):
计算NFV与NWM中所有神经元权重的欧氏距离(ED)。选择ED最小的神经元坐标作为该实体的映射位置(Mapped Coordinates, MC)。例如某销售记录集的NFV与网格(24,17)处神经元的ED最小,则其MC为(24,17)。该过程通过近似最近邻搜索(Approximate NearestNeighbor, ANN)算法优化:将NWM构建为KD树(K-Dimensional Tree, KDT)索引,检索耗时从O(N²)降至O(log N)。所有实体的MC集合形成网格分布点云(Grid Distribution PointCloud, GDPC)。
K-means四象限划分
为定义价值-风险象限,对神经元(非数据实体)执行聚类:
特征提取:每个神经元包含8维权重向量,从中分离出价值相关维度(如DVD_F对应的前5维)和风险相关维度(RE_F对应的后3维)。计算神经元的价值密度得分(ValueDensity Score, VDS)和风险暴露得分(Risk Exposure Score, RES):VDS = 前5维权重向量的加权和(权重由业务专家设定);RES = 后3维权重向量的最大值(突出最显著风险)。
执行K-means聚类:以(VDS, RES)为二维特征,对所有神经元进行K均值聚类(K-means Clustering, KMC),聚类数K=4。初始中心选择最大最小法(Max-MinInitialization, MMI):首个中心选VDS和RES均最大的神经元,后续中心选择距离已有中心最远的神经元。
迭代优化:重复分配神经元至最近中心、重新计算中心位置,直至中心移动距离小于阈值0.01。最终得到4个聚类中心及其覆盖的神经元集合。
象限定义与标签映射
根据聚类中心的(VDS, RES)坐标定义象限:
高价值-低风险(HV-LR):VDS > 总平均值 且 RES < 总平均值;高价值-高风险(HV-HR):VDS > 总平均值 且 RES > 总平均值;低价值-低风险(LV-LR):VDS < 总平均值且 RES < 总平均值;低价值-高风险(LV-HR):VDS < 总平均值 且 RES > 总平均值。生成象限标签映射表(Quadrant Label Mapping Table, QLMT),记录每个神经元所属象限(如神经元(15,32)属于HV-HR)。数据实体的象限由其MC所在神经元的象限决定。
根据象限标签映射表,计算每个象限内数据实体的价值-风险均值,生成包含量化分级标签的标签化分级网格;将标签化分级网格输入渲染引擎,添加热力图层表示价值密度和风险暴露强度,生成带四象限分布的数据资产分级拓扑图。
量化分级标签生成
基于QLMT统计各象限内实体的实际指标:
对HV-LR象限,计算所有实体的平均价值密度(Mean Value Density, MVD)和平均风险暴露(Mean Risk Exposure, MRE)。生成标签如:"高价值-低风险 | 价值均值:85±5| 风险均值:0.15±0.03"。同理处理其他象限,标签包含关键指标均值(Mean)和标准差(Standard Deviation, SD),反映群体稳定性。对特殊实体(如某实体VDS>90且RES<0.1)添加钻石标签(Diamond Label, DL),标识为战略级资产。
标签化分级网格构建
将量化标签与神经元网格融合:
神经元染色:按象限分配基色——HV-LR为绿色(RGB:0,128,0)、HV-HR为黄色(RGB:255,255,0)、LV-LR为蓝色(RGB:0,0,255)、LV-HR为红色(RGB:255,0,0)。标签嵌入:在每个象限中心位置叠加半透明文本框,显示该象限的量化标签。例如在HV-HR区域中央显示"高价值-高风险 | 价值:78±7 | 风险:0.82±0.12"。实体密度可视化:计算每个神经元关联的实体数量,映射为网格点的半径大小(Radius Size, RS)。例如关联100个实体的神经元显示为直径10像素的圆点,关联1个实体的显示为1像素点。
热力图层渲染与输出
通过可视化渲染引擎(Visualization Rendering Engine, VRE)生成最终拓扑图:
价值密度热力图:以神经元VDS值为强度,采用蓝-黄-红渐变色谱(Blue-Yellow-Red Gradient, BYRG),低值蓝色(VDS=0)、中值黄色(VDS=50)、高值红色(VDS=100)。风险暴露热力图:以神经元RES值为强度,采用透明度渐变(Opacity Gradient, OG),低风险不透明(RES=0)、高风险半透明(RES=1),叠加后高风险区域显暗色。交互功能:支持点击神经元查看详情(如关联实体列表、价值/风险分解指标)、拖拽旋转三维视图(若启用2.5D渲染)。输出为矢量格式的数据资产分级拓扑图(Data Asset Grading Topology Map, DAGTM),可直接嵌入企业数据治理平台。
该步骤利用自组织映射网络的降维能力,将复杂的价值-风险特征投影到二维平面,通过竞争学习自动形成具有语义意义的四象限分布。每个象限的边界由数据特征的聚类结果动态确定,并附加量化标签说明价值与风险的强弱组合,将抽象的数据特征转化为直观的可视化分级,使管理人员快速把握全局数据资产分布状况。四象限分类为差异化治理策略的制定提供清晰框架。
S205,基于所述数据资产分级拓扑图,通过策略约束强化学习,生成可执行的数据治理动作序列,其中,所述动作序列包括自动化归档、加密增强、访问权限重构及合规审计触发指令,且动作优先级由分级矩阵象限位置动态分配。
具体的,可以解析数据资产分级拓扑图中的四象限位置和量化分级标签,编码为状态向量,得到分级状态向量;
数据解析与特征提取
当系统接收到数据资产分级拓扑图(Data Asset Classification TopologyMap)后,首先解析其核心元素。该图是一个二维网格结构,横轴代表风险暴露特征(RiskExposure Feature, REF),纵轴代表数据价值密度特征(Value Density Feature, VDF)。网格被划分为四个象限:第一象限(高价值-低风险,HV-LR)、第二象限(高价值-高风险,HV-HR)、第三象限(低价值-低风险,LV-LR)、第四象限(低价值-高风险,LV-HR)。每个象限内的数据实体携带量化分级标签(Quantified Classification Label, QCL),例如:
价值密度标签:以0-100分值表示(Value Score, VS),如95分;
风险暴露标签:以概率值表示(Risk Probability, RP),如0.85(85%风险概率)。
系统遍历拓扑图中每个数据实体的坐标位置(Grid Coordinate, GC)和标签值,提取以下特征:
象限编号(Quadrant ID, QID):1至4的整数;
价值分值(VS)与风险概率(RP)的原始数值;
实体与象限中心点的欧氏距离(Euclidean Distance, ED),用于衡量其在象限内的位置偏离程度。
状态向量编码规则
将上述特征编码为固定维度的分级状态向量(Classification State Vector,CSV)。具体规则如下:
象限特征:采用独热编码(One-Hot Encoding, OHE)将QID转化为4维向量。例如,QID=2(HV-HR)编码为[0,1,0,0]。
数值特征:对VS和RP进行最小-最大归一化(Min-Max Normalization, MMN),缩放到[0,1]区间。例如,VS=95归一化为0.95,RP=0.85保持不变。
空间特征:计算实体在象限内的相对位置强度(Relative Position Intensity,RPI),公式为:RPI = 1 / (1 + ED)。此值越高,表明实体越靠近象限核心。
最终,每个数据实体的CSV由9个维度组成:[OHE_Q1, OHE_Q2, OHE_Q3, OHE_Q4,Norm_VS, Norm_RP, RPI, GC_X, GC_Y]。
其中,GC_X和GC_Y为网格坐标值(如[3,5]),保留原始位置信息以捕捉空间分布模式。
批量处理与向量存储
系统对拓扑图中所有实体执行上述编码,生成分级状态向量集合(CSV Set)。该集合被存储于状态向量数据库(State Vector Database, SVDB)中,供后续强化学习调用。同时,建立实体-向量映射索引(Entity-Vector Mapping Index, EVMI),确保每个数据实体(如“客户交易数据库表”)与其CSV的快速关联。
将分级状态向量输入强化学习框架,定义动作空间和约束规则,输出策略优化框架;
强化学习框架初始化
采用深度强化学习框架(Deep Reinforcement Learning Framework, DRLF),其核心组件包括:智能体(Agent):决策主体,负责选择治理动作;环境(Environment):模拟企业数据系统的状态响应;奖励函数(Reward Function, RF):量化动作的收益与代价。
框架基于马尔可夫决策过程(Markov Decision Process, MDP)建模,每个决策周期输入CSV,输出动作指令。
动作空间定义
动作空间(Action Space, AS)包含四类可执行操作:
自动化归档(Auto-Archiving, AA):将低价值数据迁移至冷存储,动作编码为AA_Level(归档等级,1-3级);加密增强(Encryption Enhancement, EE):提升数据加密强度,动作编码为EE_Type(如AES-256算法);访问权限重构(Access Right Reconstruction,AR):调整用户访问权限,动作编码为AR_Scope(权限范围,如部门级/角色级)。合规审计触发(Compliance Audit Trigger, CA):启动审计流程,动作编码为CA_Urgency(紧急程度,高中低)。
每个动作附带参数,例如EE_Type可选值:1=字段级加密,2=表级加密,3=库级加密。
约束规则设计
约束规则(Constraint Rules, CR)确保动作符合企业政策:安全约束:高风险数据(RP>0.7)禁止降低加密等级;成本约束:归档操作单次触发成本不得超过预算阈值(如$500);依赖约束:权限重构(AR)必须在加密增强(EE)完成后执行;合规约束:金融数据需满足GDPR条款,触发审计(CA)的周期不得少于30天。
规则被编码为规则引擎(Rule Engine, RE),在动作选择前进行预筛选,剔除违规动作选项。
最终输出策略优化框架(Policy Optimization Framework, POF),包含DRLF、AS、CR三者的集成逻辑。
在策略优化框架中,采用双深度Q网络训练智能体,基于训练后的智能体输出候选动作策略集;
双深度Q网络架构
双深度Q网络(Double Deep Q-Network, DDQN)由两个神经网络构成:
主网络(Main Network, MN):实时更新参数,输出动作价值Q值;目标网络(TargetNetwork, TN):定期同步主网络参数,提供稳定Q值估计;网络输入层维度=9(与CSV维度一致),隐藏层为3层全连接(神经元数:128-64-32),输出层维度=12(对应4类动作×3个参数选项)。
训练过程与奖励机制
奖励函数(RF)设计示例:成功降低高风险数据RP值:奖励+10;高价值数据(VS>80)被误归档:惩罚-20;违反成本约束:惩罚-15。
经验回放(Experience Replay, ER):存储状态转移记录(CSV_t, Action,Reward, CSV_t+1),随机抽取批次训练以打破数据相关性。
探索策略:采用ε-贪婪算法(Epsilon-Greedy Algorithm, EGA),初始探索率ε=0.7,每轮训练衰减0.05,直至ε=0.1。
训练持续进行,直至Q值收敛(波动幅度<0.01)或达到最大迭代次数(如10,000次)。
候选动作策略生成
训练完成后,智能体对每个CSV执行以下操作:
前向传播:输入CSV至主网络,获得12个动作的Q值;约束过滤:通过规则引擎(RE)剔除违反CR的动作;策略排序:按Q值降序排列剩余动作,生成候选动作策略集(CandidateAction Policy Set, CAPS)。例如,对某高价值-高风险实体(QID=2),CAPS可能为:[(EE_Type=3, Q=9.2), (CA_Urgency=高, Q=8.5), (AR_Scope=角色级, Q=7.1) ]。
对候选动作策略集进行时序排序,基于动作成本-收益模型生成数据治理动作序列,并嵌入由象限位置动态分配的优先级标签,最终得到可执行的、带优先级的数据治理动作序列。
时序依赖关系建模
动作序列需满足两类时序逻辑:技术依赖:如加密(EE)必须在权限重构(AR)前完成;业务依赖:审计(CA)应在敏感操作(如EE/AR)后触发。
系统构建动作依赖图(Action Dependency Graph, ADG),节点为动作类型,边表示执行顺序约束(如EE→AR)。通过拓扑排序算法(Topological Sorting Algorithm, TSA)对CAPS中的动作进行全局排序。
成本-收益模型优化
成本-收益模型(Cost-Benefit Model, CBM)量化每个动作的经济性:成本项(Cost Items, CI):计算资源消耗(如CPU小时)、存储费用、人工工时;收益项(BenefitItems, BI):风险降低量(ΔRP)、价值留存率(VS维持度)。
定义净收益(Net Benefit, NB)公式:NB = α×ΔRP + β×VS - γ×CI。其中,α、β、γ为权重系数(如α=0.6, β=0.3, γ=0.1),通过企业历史数据拟合确定。
在时序排序基础上,选择CAPS中NB最高的动作组合,生成初始序列。
优先级标签(Priority Label, PL)由象限位置(QID)动态决定:象限1(HV-LR):优先级=3(最低),动作以价值维护为主(如轻量级归档);象限2(HV-HR):优先级=1(最高),强制立即执行加密与审计;象限3(LV-LR):优先级=4,仅需定期归档;象限4(LV-HR):优先级=2,需快速降险(如归档或加密)。最终动作序列按优先级升序排列(PL=1最先执行),相同优先级内按CBM的NB值排序。例如,序列示例:1. [优先级1] 对"客户征信表"执行EE_Type=3(库级AES-256加密);2. [优先级1] 触发CA_Urgency=高(紧急合规审计);3. [优先级2]将"旧版日志备份"归档至AA_Level=3(深度冷存储);4. [优先级3] 为"市场分析报告"设置AR_Scope=部门级(权限重构)。输出结果为可执行指令队列(Executable ActionSequence, EAS),可直接下发至企业数据治理平台。
本发明的又一实施例提供了一种基于AI识别的企业数据资产智能分析系统,参见图3,所述系统可以包括:
接收模块301,用于接收企业多源异构数据流,利用预训练的多模态融合识别模型进行联合特征提取与语义对齐,生成结构化数据资产识别结果,其中,所述多模态融合识别模型通过跨模态注意力机制同步处理文本、图像、表格及日志数据,识别数据类型、内容主题及敏感信息标签;
构建模块302,用于根据所述结构化数据资产识别结果,结合实时采集的数据访问轨迹与权限元数据,构建动态企业数据资产图谱,其中,所述图谱的节点表示数据实体,边权重根据数据关联关系、访问频率及权限关联度动态计算生成;
提取模块303,用于对所述动态企业数据资产图谱进行时空演化分析,提取潜在数据价值密度特征与风险暴露特征,其中,所述时空演化分析通过图神经网络时序预测,量化数据资产的价值衰减曲线与合规风险概率;
输入模块304,用于将所述数据价值密度特征与风险暴露特征输入自组织映射网络,生成数据资产分级拓扑图,其中,所述自组织映射网络通过无监督竞争学习将高维特征映射到二维网格空间,形成四象限可视化分布,每个象限对应价值-风险的量化分级标签;
生成模块305,用于基于所述数据资产分级拓扑图,通过策略约束强化学习,生成可执行的数据治理动作序列,其中,所述动作序列包括自动化归档、加密增强、访问权限重构及合规审计触发指令,且动作优先级由分级矩阵象限位置动态分配。
以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效果,以上所述仅为本发明的较佳实施例,但本发明不以图面所示限定实施范围,凡是依照本发明的构想所作的改变,或修改为等同变化的等效实施例,仍未超出说明书与图示所涵盖的精神时,均应在本发明的保护范围内。

Claims (10)

1.一种基于AI识别的企业数据资产智能分析方法,其特征在于,所述方法包括:
接收企业多源异构数据流,利用预训练的多模态融合识别模型进行联合特征提取与语义对齐,生成结构化数据资产识别结果,其中,所述多模态融合识别模型通过跨模态注意力机制同步处理文本、图像、表格及日志数据,识别数据类型、内容主题及敏感信息标签;
根据所述结构化数据资产识别结果,结合实时采集的数据访问轨迹与权限元数据,构建动态企业数据资产图谱,其中,所述图谱的节点表示数据实体,边权重根据数据关联关系、访问频率及权限关联度动态计算生成;
对所述动态企业数据资产图谱进行时空演化分析,提取潜在数据价值密度特征与风险暴露特征,其中,所述时空演化分析通过图神经网络时序预测,量化数据资产的价值衰减曲线与合规风险概率;
将所述数据价值密度特征与风险暴露特征输入自组织映射网络,生成数据资产分级拓扑图,其中,所述自组织映射网络通过无监督竞争学习将高维特征映射到二维网格空间,形成四象限可视化分布,每个象限对应价值-风险的量化分级标签;
基于所述数据资产分级拓扑图,通过策略约束强化学习,生成可执行的数据治理动作序列,其中,所述动作序列包括自动化归档、加密增强、访问权限重构及合规审计触发指令,且动作优先级由分级矩阵象限位置动态分配。
2.根据权利要求1所述的方法,其特征在于,所述接收企业多源异构数据流,利用预训练的多模态融合识别模型进行联合特征提取与语义对齐,生成结构化数据资产识别结果,其中,所述多模态融合识别模型通过跨模态注意力机制同步处理文本、图像、表格及日志数据,识别数据类型、内容主题及敏感信息标签,包括:
接收包含文本、图像、表格及日志的多模态数据流,通过自适应格式解析器将各模态数据统一为张量序列,输出标准化多模态数据张量;
将标准化多模态数据张量输入预训练的多模态融合识别模型,采用门控跨模态注意力机制计算文本-图像-表格-日志的交互权重,生成联合特征嵌入向量;
基于联合特征嵌入向量,通过对比学习强制不同模态的语义空间对齐,消除模态间语义鸿沟,输出对齐后的语义一致特征矩阵;
将语义一致特征矩阵输入多层感知机分类头,同步识别数据类型、内容主题及敏感信息标签,并整合为结构化数据资产识别结果。
3.根据权利要求2所述的方法,其特征在于,所述根据所述结构化数据资产识别结果,结合实时采集的数据访问轨迹与权限元数据,构建动态企业数据资产图谱,其中,所述图谱的节点表示数据实体,边权重根据数据关联关系、访问频率及权限关联度动态计算生成,包括:
解析结构化数据资产识别结果,提取数据实体,并基于实体间内容主题相似度构建初始关系边,输出带权初始关系图;
将实时采集的数据访问轨迹流转化为时间序列访问频率向量,并将时间序列访问频率向量与带权初始关系图融合,通过滑动窗口聚合更新边权重,输出动态访问增强关系图;
整合权限元数据,计算数据实体间的权限关联度,生成权限关联度矩阵;
结合动态访问增强关系图和权限关联度矩阵,使用熵权法动态合成综合边权重,输出归一化权重图谱;
将归一化权重图谱输入增量式图学习引擎,通过社区检测算法优化节点聚类,并嵌入时序触发器响应新数据流,输出动态企业数据资产图谱。
4.根据权利要求3所述的方法,其特征在于,所述对所述动态企业数据资产图谱进行时空演化分析,提取潜在数据价值密度特征与风险暴露特征,其中,所述时空演化分析通过图神经网络时序预测,量化数据资产的价值衰减曲线与合规风险概率,包括:
基于动态企业数据资产图谱,按时间窗口分割为连续图谱快照序列,输出时空演化图谱切片集;
将时空演化图谱切片集输入时空图卷积网络,建模节点和边的时序依赖关系,预测未来状态并量化数据价值衰减曲线,输出价值衰减预测向量;
结合价值衰减预测向量和历史合规/违规记录,通过贝叶斯风险模型计算每个数据实体的合规风险概率,输出风险暴露概率分布;
将价值衰减预测向量和风险暴露概率分布拼接为高维特征,通过主成分分析降维,得到低维的潜在数据价值密度特征和风险暴露特征。
5.根据权利要求4所述的方法,其特征在于,所述将所述数据价值密度特征与风险暴露特征输入自组织映射网络,生成数据资产分级拓扑图,其中,所述自组织映射网络通过无监督竞争学习将高维特征映射到二维网格空间,形成四象限可视化分布,每个象限对应价值-风险的量化分级标签,包括:
将数据价值密度特征和风险暴露特征合并为高维特征向量,并进行Z-score标准化,输出标准化特征向量集;
初始化二维自组织映射网格,将标准化特征向量集输入自组织映射网络,通过无监督竞争学习动态调整网格权重,输出训练后的神经元权重矩阵;
基于神经元权重矩阵,将每个数据实体映射到二维网格坐标,并通过K-means聚类将网格划分为四象限,输出象限标签映射表,其中,所述四象限包括:高价值-低风险、高价值-高风险、低价值-低风险、低价值-高风险;
根据象限标签映射表,计算每个象限内数据实体的价值-风险均值,生成包含量化分级标签的标签化分级网格;
将标签化分级网格输入渲染引擎,添加热力图层表示价值密度和风险暴露强度,生成带四象限分布的数据资产分级拓扑图。
6.根据权利要求5所述的方法,其特征在于,所述基于所述数据资产分级拓扑图,通过策略约束强化学习,生成可执行的数据治理动作序列,其中,所述动作序列包括自动化归档、加密增强、访问权限重构及合规审计触发指令,且动作优先级由分级矩阵象限位置动态分配,包括:
解析数据资产分级拓扑图中的四象限位置和量化分级标签,编码为状态向量,得到分级状态向量;
将分级状态向量输入强化学习框架,定义动作空间和约束规则,输出策略优化框架;
在策略优化框架中,采用双深度Q网络训练智能体,基于训练后的智能体输出候选动作策略集;
对候选动作策略集进行时序排序,基于动作成本-收益模型生成数据治理动作序列,并嵌入由象限位置动态分配的优先级标签,最终得到可执行的、带优先级的数据治理动作序列。
7.一种基于AI识别的企业数据资产智能分析系统,其特征在于,所述系统包括:
接收模块,用于接收企业多源异构数据流,利用预训练的多模态融合识别模型进行联合特征提取与语义对齐,生成结构化数据资产识别结果,其中,所述多模态融合识别模型通过跨模态注意力机制同步处理文本、图像、表格及日志数据,识别数据类型、内容主题及敏感信息标签;
构建模块,用于根据所述结构化数据资产识别结果,结合实时采集的数据访问轨迹与权限元数据,构建动态企业数据资产图谱,其中,所述图谱的节点表示数据实体,边权重根据数据关联关系、访问频率及权限关联度动态计算生成;
提取模块,用于对所述动态企业数据资产图谱进行时空演化分析,提取潜在数据价值密度特征与风险暴露特征,其中,所述时空演化分析通过图神经网络时序预测,量化数据资产的价值衰减曲线与合规风险概率;
输入模块,用于将所述数据价值密度特征与风险暴露特征输入自组织映射网络,生成数据资产分级拓扑图,其中,所述自组织映射网络通过无监督竞争学习将高维特征映射到二维网格空间,形成四象限可视化分布,每个象限对应价值-风险的量化分级标签;
生成模块,用于基于所述数据资产分级拓扑图,通过策略约束强化学习,生成可执行的数据治理动作序列,其中,所述动作序列包括自动化归档、加密增强、访问权限重构及合规审计触发指令,且动作优先级由分级矩阵象限位置动态分配。
8.根据权利要求7所述的系统,其特征在于,所述接收模块,具体用于:
接收包含文本、图像、表格及日志的多模态数据流,通过自适应格式解析器将各模态数据统一为张量序列,输出标准化多模态数据张量;
将标准化多模态数据张量输入预训练的多模态融合识别模型,采用门控跨模态注意力机制计算文本-图像-表格-日志的交互权重,生成联合特征嵌入向量;
基于联合特征嵌入向量,通过对比学习强制不同模态的语义空间对齐,消除模态间语义鸿沟,输出对齐后的语义一致特征矩阵;
将语义一致特征矩阵输入多层感知机分类头,同步识别数据类型、内容主题及敏感信息标签,并整合为结构化数据资产识别结果。
9.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1-6中任一项所述的方法。
10.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1-6中任一项所述的方法。
CN202511121774.4A 2025-08-12 2025-08-12 一种基于ai识别的企业数据资产智能分析方法及系统 Pending CN120975397A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202511121774.4A CN120975397A (zh) 2025-08-12 2025-08-12 一种基于ai识别的企业数据资产智能分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202511121774.4A CN120975397A (zh) 2025-08-12 2025-08-12 一种基于ai识别的企业数据资产智能分析方法及系统

Publications (1)

Publication Number Publication Date
CN120975397A true CN120975397A (zh) 2025-11-18

Family

ID=97647019

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202511121774.4A Pending CN120975397A (zh) 2025-08-12 2025-08-12 一种基于ai识别的企业数据资产智能分析方法及系统

Country Status (1)

Country Link
CN (1) CN120975397A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN121166040A (zh) * 2025-11-19 2025-12-19 八方智能科技(南京)有限公司 多方协同企业数据ai智能分析存储方法
CN121234068A (zh) * 2025-12-03 2025-12-30 苏州优乐赛共享服务股份有限公司 一种多系统数据统一的物流资产物联网监测处理系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN121166040A (zh) * 2025-11-19 2025-12-19 八方智能科技(南京)有限公司 多方协同企业数据ai智能分析存储方法
CN121234068A (zh) * 2025-12-03 2025-12-30 苏州优乐赛共享服务股份有限公司 一种多系统数据统一的物流资产物联网监测处理系统

Similar Documents

Publication Publication Date Title
CN118469715B (zh) 一种跨境电子商务交易行为的风险管理方法及系统
KR102359090B1 (ko) 실시간 기업정보시스템 이상행위 탐지 서비스를 제공하는 방법과 시스템
CN120975397A (zh) 一种基于ai识别的企业数据资产智能分析方法及系统
Ashraf et al. Disruption detection for a cognitive digital supply chain twin using hybrid deep learning
CN120296158A (zh) 一种基于人工智能的企业大数据挖掘方法及系统
US12250201B1 (en) Systems and methods for monitoring data networks featuring data traffic with using probabilistic graphical models
CN116993504B (zh) 一种钢材交易信息服务平台及交易数据处理方法
CN120807118B (zh) 多模态模型时空序列分析的招投标全要素合规审查方法
CN117422490A (zh) 用户流失预测方法、装置、设备、介质和程序产品
CN117235444A (zh) 一种融合深度学习与专家经验的金融风控方法及系统
CN120448743A (zh) 一种基于人工智能的轨迹画像生成方法及系统
CN120745906A (zh) 一种建筑装饰幕墙施工进度智能监控方法及系统
CN119513922A (zh) 非结构化数据处理方法及系统
KR102851530B1 (ko) 공급망 지식그래프 및 가중치 조정 기반 관계 예측 서버 및 방법
CN120372255B (zh) 一种海量财会数据融合审计特征提取方法、介质及系统
CN120408461A (zh) 基于大数据模型预测的违规行为分析方法、装置及设备
CN119089234B (zh) 跨网信息识别与分类方法及系统
CN113792776A (zh) 面向网络安全异常检测中深度学习模型的解释方法
CN119417229A (zh) 一种基于多风险叠加的电力交易中心风险评估系统及方法
CN120104813B (zh) 一种基于元数据的人工智能模型管理系统
CN120409925B (zh) 生态信用评价模型的构建方法
CN120509667B (zh) 一种结合区域协调发展分析的粮食安全协调优化方法
CN119292795B (zh) 一种云边协同体系下的算力硬件资源自适应调度方法以及系统
CN120355308B (zh) 一种基于大模型的数据考核方法、装置、系统及存储介质
CN120974395A (zh) 一种基于深度学习的异构数据资产价值动态建模方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination