CN118916529A

CN118916529A - 基于语义对齐的媒体信息跨模态检索方法、系统及介质

Info

Publication number: CN118916529A
Application number: CN202411404364.6A
Authority: CN
Inventors: 张健; 张凯; 刘丽芳; 徐泽民; 张宇宜
Original assignee: Communication Brain Technology Zhejiang Co ltd
Current assignee: Communication Brain Technology Zhejiang Co ltd
Priority date: 2024-10-10
Filing date: 2024-10-10
Publication date: 2024-11-08
Anticipated expiration: 2044-10-10
Also published as: CN118916529B

Abstract

本申请实施例提供了一种基于语义对齐的媒体信息跨模态检索方法、系统及介质，该方法包括：获取查询请求，基于查询请求生成用户查询数据，对用户查询数据进行预处理，得到不同模态下的语义对齐的请求数据；从不同模态的用户请求数据中提取不同模态的特征信息；将多模态特征进行特征融合，得到融合信息，基于融合信息生成统一的特征表示；基于特征表示建立不同模态数据之间的语义关联，得到关联信息；基于自然语言处理技术对关联信息分析，生成查询意图，得到跨模态检索和语义理解的结果，将跨模态检索和语义理解的结果进行展示；通过结合文本、图像、音频和视频等多种模态信息，能够更全面地理解和表达媒体内容，从而提供准确的搜索结果。

Description

基于语义对齐的媒体信息跨模态检索方法、系统及介质

技术领域

本申请涉及智能检索技术领域，具体而言，涉及一种基于语义对齐的媒体信息跨模态检索方法、系统及介质。

背景技术

随着互联网和信息技术的快速发展，媒体行业正经历着数字化、网络化和全球化的深刻变革，媒体内容的生产、传播和消费方式正在发生着根本性的转变，大量的文本、图像、音频和视频数据的涌现，为媒体行业带来了前所未有的机遇和挑战，在海量的媒体数据中，如何高效、准确地搜索和获取准确的信息成为了媒体从业者面临的关键问题。

传统文本搜索技术依赖于关键词匹配，主要应用于文本数据的检索。然而，这种方法在处理多媒体内容时存在局限性，因为它无法有效利用图像、音频和视频等非文本数据，单模态图像/视频搜索技术通过图像或视频内容的特征提取和匹配来实现搜索，但通常忽略了与文本或其他模态数据的关联，导致搜索结果的语义理解不足。

基于元数据的检索系统使用图像或视频的元数据（如标题、描述、标签等）进行搜索，但这种方法依赖于高质量的元数据，且在没有足够元数据的情况下效果不佳。

基于内容的音频检索（CBIR）通过分析音频信号的特征来检索相似的音频内容，但同样存在对上下文信息理解不足的问题。

现有技术大多只关注单一模态的数据，无法综合利用多种模态信息，导致搜索结果的丰富性和准确性受限。

语义理解不足，许多现有系统缺乏对媒体内容深层次语义的理解，难以准确捕捉用户的查询意图，尤其是在复杂的查询场景中。

现有检索方法在不同模态之间的信息转换和关联上存在技术障碍，难以实现高效的语义匹配，现有技术在处理大规模数据时面临性能瓶颈，搜索响应时间较长，无法满足实时检索的需求，现有的标注工作往往耗时耗力，且难以覆盖所有可能的查询场景，针对上述问题，目前亟待有效的技术解决方案。

发明内容

本申请实施例的目的在于提供一种基于语义对齐的媒体信息跨模态检索方法、系统及介质，通过结合文本、图像、音频和视频等多种模态信息，能够更全面地理解和表达媒体内容，从而提供更为丰富和准确的搜索结果。

本申请实施例还提供了一种基于语义对齐的媒体信息跨模态检索方法，包括：获取查询请求，基于查询请求生成用户查询数据；

对用户查询数据进行预处理，得到不同模态下的语义对齐的请求数据；

从不同模态的用户请求数据中提取不同模态的特征信息；

将多模态特征进行特征融合，得到融合信息，基于融合信息生成统一的特征表示；

基于特征表示建立不同模态数据之间的语义关联，得到关联信息；

基于自然语言处理技术对关联信息分析，生成查询意图，得到跨模态检索和语义理解的结果，将跨模态检索和语义理解的结果进行展示。

可选地，在本申请实施例所述的基于语义对齐的媒体信息跨模态检索方法中，获取查询请求，基于查询请求生成用户查询数据，对用户查询数据进行预处理，得到不同模态下的语义对齐的请求数据，具体包括：

获取查询请求，得到用户查询数据，分析用户查询数据的噪声数据与异常数据；

对噪声数据清洗，并分析异常数据的异常状态，判断异常状态是否处于设定的异常区间；

若处于异常区间，则对异常数据进行清洗调整；

若不处于异常区间，则将异常数据进行剔除，并对剔除后的数据进行填充，得到用户请求数据。

可选地，在本申请实施例所述的基于语义对齐的媒体信息跨模态检索方法中，从不同模态的用户请求数据中提取不同模态的特征信息，具体包括：

获取不同模态的用户请求数据，提取数据特征，根据数据特征的语义得到请求特征；

将请求特征与设定的特征进行比较，得到特征偏差率；

判断所述特征偏差率是否大于或等于设定的特征偏差率阈值；

若大于或等于，则判定为无效特征，并将无效特征进行剔除；

若小于，则判定为关键特征，基于分类规则将关键特征进行模态分类，得到多模态特征。

可选地，在本申请实施例所述的基于语义对齐的媒体信息跨模态检索方法中，将多模态特征进行特征融合，得到融合信息，基于融合信息生成统一的特征表示，具体包括：

获取多模态的用户请求数据，所述多模态的用户请求数据包括如下至少之一：文本数据、图像数据、音频数据与视频数据；

分别提取不同模态数据的特征，得到多模态特征；

获取不同模态的数据特征，将同一模态的数据特征根据权重值进行权重融合，得到以第一融合信息；

将同一模态的数据特征进行加法融合，得到第二融合信息；

基于第一融合信息与第二融合信息生成最终的融合信息，基于最终的融合信息生成统一的特征表示。

可选地，在本申请实施例所述的基于语义对齐的媒体信息跨模态检索方法中，基于特征表示建立不同模态数据之间的语义关联，得到关联信息，具体包括：

获取不同模态的特征表示，分析特征表示生成不同模态数据的语义信息；

分析不同模态的语义信息之间的关联度，判断所述关联度是否满足设定的关联区间；

若满足，则生成不同模态之间的语义关联，得到关联信息；

若不满足，则判定不同模态之间的语义差异大于设定的差异阈值，则调整融合规则。

可选地，在本申请实施例所述的基于语义对齐的媒体信息跨模态检索方法中，基于自然语言处理技术对关联信息分析，生成查询意图，得到跨模态检索和语义理解的结果，将跨模态检索和语义理解的结果进行展示，具体包括：

获取不同模态数据之间的关联信息，基于自然语言处理模型输出查询意图；

基于查询意图分析查询数据的不同模态的检索结果与语义理解结果；

基于不同模态的检索结果分析跨模态检索过程与对应模态的语义理解匹配度；

基于语义理解匹配度分析跨模态检索的跳跃信息，基于跳跃信息调整跨模态检索的检索方式。

第二方面，本申请实施例提供了一种基于语义对齐的媒体信息跨模态检索系统，该系统包括：存储器及处理器，所述存储器中包括基于语义对齐的媒体信息跨模态检索方法的程序，所述基于语义对齐的媒体信息跨模态检索方法的程序被所述处理器执行时实现以下步骤：

获取查询请求，基于查询请求生成用户查询数据；

从不同模态的用户请求数据中提取不同模态的特征信息；

可选地，在本申请实施例所述的基于语义对齐的媒体信息跨模态检索系统中，获取查询请求，基于查询请求生成用户查询数据，对用户查询数据进行预处理，得到不同模态下的语义对齐的请求数据，具体包括：

若处于异常区间，则对异常数据进行清洗调整；

可选地，在本申请实施例所述的基于语义对齐的媒体信息跨模态检索系统中，从不同模态的用户请求数据中提取不同模态的特征信息，具体包括：

将请求特征与设定的特征进行比较，得到特征偏差率；

第三方面，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中包括基于语义对齐的媒体信息跨模态检索方法程序，所述基于语义对齐的媒体信息跨模态检索方法程序被处理器执行时，实现如上述任一项所述的基于语义对齐的媒体信息跨模态检索方法的步骤。

由上可知，本申请实施例提供的一种基于语义对齐的媒体信息跨模态检索方法、系统及介质，通过获取查询请求，基于查询请求生成用户查询数据，对用户查询数据进行预处理，得到不同模态下的语义对齐的请求数据；从不同模态的用户请求数据中提取不同模态的特征信息；将多模态特征进行特征融合，得到融合信息，基于融合信息生成统一的特征表示；基于特征表示建立不同模态数据之间的语义关联，得到关联信息；基于自然语言处理技术对关联信息分析，生成查询意图，得到跨模态检索和语义理解的结果，将跨模态检索和语义理解的结果进行展示；通过结合文本、图像、音频和视频等多种模态信息，能够更全面地理解和表达媒体内容，从而提供更为丰富和准确的搜索结果。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的基于语义对齐的媒体信息跨模态检索方法的流程图；

图2为本申请实施例提供的基于语义对齐的媒体信息跨模态检索方法的用户查询数据预处理方法流程图；

图3为本申请实施例提供的基于语义对齐的媒体信息跨模态检索方法的多模态特征筛选方法流程图；

图4为本申请实施例提供的基于语义对齐的媒体信息跨模态检索系统的逻辑框图；

图5为本申请实施例提供的基于语义对齐的媒体信息跨模态检索系统的提取不同模态特征信息的流程框图。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到，相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

请参照图1，图1是本申请一些实施例中的一种基于语义对齐的媒体信息跨模态检索方法的流程图。该基于语义对齐的媒体信息跨模态检索方法用于终端设备中，该基于语义对齐的媒体信息跨模态检索方法，包括以下步骤：

S101，获取查询请求，基于查询请求生成用户查询数据；

S102，对用户查询数据进行预处理，得到不同模态下的语义对齐的请求数据；

S103，从不同模态的用户请求数据中提取不同模态的特征信息；

具体的，如图5所示，在提取不同模态特征信息时，采用VIT为基础的多模态对齐与预训练，VIT通过一个可训练的CLS token得到整个图片的表征，并接入全链接层服务于下游的分类任务。当经过大量的数据上预训练，迁移到多个中等或小规模的图像识别基准（ImageNet, CIFAR-100, VTAB 等）时，ViT取得了比CNN系的模型更好的结果，同时在训练时需要的计算资源大大减少。VILT是VIT在图文多模态方向上的工作延续。VILT将文本和视觉Patch的Embedding直接拼接作为Transformer编码器的输入，两种模态有各自可学习的位置编码和模态类型编码。ALBEF通过多任务联合训练将类似CLIP的对比学习和类ViLT的交互融合范式统一到一个训练框架中。

S104，将多模态特征进行特征融合，得到融合信息，基于融合信息生成统一的特征表示；其中统一特征为一维的数组；

S105，基于特征表示建立不同模态数据之间的语义关联，得到关联信息；

具体的，语义关联信息存在于特征表征信息中，通过计算特征表征信息之间的相似度得到，特征表征信息通过向量数据库进行存储，向量数据库采用分布式的方案，并且进行读写分离，支持亿级别量级的数据存储，并可以做到数百个并发下的毫秒级的检索延迟。

S106，基于自然语言处理技术对关联信息分析，生成查询意图，得到跨模态检索和语义理解的结果，将跨模态检索和语义理解的结果进行展示。

具体的，通过智能对话的方式，对跨模态检索的结果进行输出，输出的结果除了显示检索到的不同模态的内容之外，还会显示相对应的与检索内容相对应的语义相似度，同时提供下载。

需要说明的是，通过跨模态检索技术实现不同媒体类型之间的信息转换和语义关联，有效提升搜索结果的语义理解能力，更好地满足用户的查询意图，通过采用高效的特征融合策略和深度学习技术，提高了算法的运行效率，使得系统能够快速响应大规模数据的搜索需求探索自动化标注和语义理解技术，通过自然语言处理、图像识别和语音处理等方法，实现对媒体数据的快速、准确标注，从而提高多模态搜索系统的性能和可用性。

请参照图2，图2是本申请一些实施例中的一种基于语义对齐的媒体信息跨模态检索方法的用户查询数据预处理方法流程图。根据本发明实施例，获取查询请求，基于查询请求生成用户查询数据，对用户查询数据进行预处理，得到不同模态下的语义对齐的请求数据，具体包括：

S201，获取查询请求，得到用户查询数据，分析用户查询数据的噪声数据与异常数据；

S202，对噪声数据清洗，并分析异常数据的异常状态，判断异常状态是否处于设定的异常区间；

S203，若处于异常区间，则对异常数据进行清洗调整；

S204，若不处于异常区间，则将异常数据进行剔除，并对剔除后的数据进行填充，得到用户请求数据。

需要说明的是，通过多模态搜索引擎，媒体管理者可以更加高效地整合和利用媒体资源，减少资源的浪费和重复采集，节约成本并提升资源利用率。

请参照图3，图3是本申请一些实施例中的一种基于语义对齐的媒体信息跨模态检索方法的多模态特征筛选方法流程图。根据本发明实施例，从不同模态的用户请求数据中提取不同模态的特征信息，具体包括：

S301，获取不同模态的用户请求数据，提取数据特征，根据数据特征的语义得到请求特征；

S302，将请求特征与设定的特征进行比较，得到特征偏差率；

S303，判断特征偏差率是否大于或等于设定的特征偏差率阈值；

S304，若大于或等于，则判定为无效特征，并将无效特征进行剔除；

S305，若小于，则判定为关键特征，基于分类规则将关键特征进行模态分类，得到多模态特征。

需要说明的是，通过设定的特征分析用户请求数据内的无效特征与有效特征，将有效特征判定为关键特征，从而提高用户查询数据的意图分析精度。

根据本发明实施例，将多模态特征进行特征融合，得到融合信息，基于融合信息生成统一的特征表示，具体包括：

获取多模态的用户请求数据，多模态的用户请求数据包括如下至少之一：文本数据、图像数据、音频数据与视频数据；

分别提取不同模态数据的特征，得到多模态特征；

将同一模态的数据特征进行加法融合，得到第二融合信息；

需要说明的是，将不同模态数据的特征进行不同方式的融合，将不同方式融合后的数据进行整理，得到最终的融合信息，提高融合效果，保证数据的反映精度。

根据本发明实施例，基于特征表示建立不同模态数据之间的语义关联，得到关联信息，具体包括：

分析不同模态的语义信息之间的关联度，判断关联度是否满足设定的关联区间；

若满足，则生成不同模态之间的语义关联，得到关联信息；

需要说明的是，通过分析不同模态的语义信息之间的关联度，分析关联信息是否满足要求，跨模态检索模块利用融合后的特征表示，建立不同模态数据之间的语义关联，实现基于用户查询的跨模态信息检索。

根据本发明实施例，基于自然语言处理技术对关联信息分析，生成查询意图，得到跨模态检索和语义理解的结果，将跨模态检索和语义理解的结果进行展示，具体包括：

需要说明的是，通过分析跨模态检索的跳跃信息，调整检索方式，跳跃信息可以理解为不同模态之间的相似度进行判断当前模态检索与下一模态检索之间的模态差异，根据模态差异分析跳跃性，得到跳跃信息，保证下一模态数据的检索与当前模态数据检索之间的模态差异较小，降低跳跃度，用户接口模块根据跨模态检索和语义理解的结果，向用户展示相关的多媒体信息，如相关的图像、视频、音频片段或文本内容。

根据本发明实施例，将跨模态检索和语义理解的结果进行展示，包括：

获取跨模态检索与语义理解的结果，得到展示数据；

根据展示数据分类为不同模态之间的检索与语义理解的配对数据，得到当前模态的展示数据；

将不同模态的展示数据建立不同的数据表；

获取显示界面，将显示界面进行区域划分，得到不同的显示区域；

将不同的数据表展示在不同的显示区域内。

需要说明的是，根据模态分类将展示数据进行类别划分，并根据分类后的展示数据将显示界面进行区域划分，从而实现不同模态的数据展示在不同的显示区域内，提高展示效果。

请参照图4，图4是本申请一些实施例中的一种基于语义对齐的媒体信息跨模态检索系统的逻辑框图。第二方面，本申请实施例提供了一种基于语义对齐的媒体信息跨模态检索系统，该系统包括：存储器及处理器，存储器中包括基于语义对齐的媒体信息跨模态检索方法的程序，基于语义对齐的媒体信息跨模态检索方法的程序被处理器执行时实现以下步骤：

获取查询请求，基于查询请求生成用户查询数据；

从不同模态的用户请求数据中提取不同模态的特征信息；

根据本发明实施例，获取查询请求，基于查询请求生成用户查询数据，对用户查询数据进行预处理，得到不同模态下的语义对齐的请求数据，具体包括：

若处于异常区间，则对异常数据进行清洗调整；

根据本发明实施例，从不同模态的用户请求数据中提取不同模态的特征信息，具体包括：

将请求特征与设定的特征进行比较，得到特征偏差率；

判断特征偏差率是否大于或等于设定的特征偏差率阈值；

分别提取不同模态数据的特征，得到多模态特征；

将同一模态的数据特征进行加法融合，得到第二融合信息；

若满足，则生成不同模态之间的语义关联，得到关联信息；

具体的，（1）相似度评估：

首先，需要评估不同模态数据之间的相似度。例如，可以使用余弦相似度、Jaccard相似性指数或其他相似度度量方法来评估文本和图像特征之间的相似性。

（2）跳跃信息量化：

通过测量从一个模态到另一个模态的语义距离来实现量化跨模态检索中的“跳跃”程度。例如，如果从文本到图像的检索结果与原始查询的语义距离较大，这可能表明存在较高的跳跃性。

（3）检索结果反馈循环：

根据检索结果的语义匹配度，收集用户反馈。如果用户对检索结果不满意，系统可以分析原因，是否是因为跳跃性过高导致检索结果偏离了用户的实际需求。

（4）动态调整检索参数：

根据跳跃信息，动态调整检索算法的参数。例如，如果发现图像检索结果与文本查询的语义匹配度不高，可以增加文本特征在检索算法中的权重，或者调整图像特征的提取方法。

（5）模态转换策略：

实施模态转换策略，例如，如果文本到图像的检索跳跃性过高，可以尝试将文本转换为图像的中间表示（如使用文本到图像的生成模型），然后再进行图像检索。

（6）上下文信息利用：

利用查询的上下文信息来调整检索策略。例如，如果用户查询具有特定的上下文（如时间、地点等），系统可以利用这些上下文信息来优化检索结果的相关性。

（7）用户行为分析：

分析用户的历史行为和偏好，根据用户的点击、浏览和反馈行为来调整检索算法，以减少检索结果的跳跃性。

实施例：假设用户输入了一个关于“海滩日落”的查询，系统首先在图像数据库中检索相关图片。如果系统发现检索到的图像与用户查询的语义匹配度不高（例如，大多数图像是日落但不是在海滩上），系统可以采取以下步骤进行调整：

分析“海滩”和“日落”两个概念的语义距离，确定是否存在显著的跳跃性，根据跳跃信息，增加与“海滩”相关的文本特征在图像检索中的权重。

使用模态转换技术，将“海滩”这一文本概念转换为图像特征，然后与日落图像进行融合检索，利用用户反馈，如果用户对海滩日落的图像满意，则记录这种检索模式；如果不满意，则进一步调整检索策略。

获取跨模态检索与语义理解的结果，得到展示数据；

将不同模态的展示数据建立不同的数据表；

将不同的数据表展示在不同的显示区域内。

需要说明的是，根据模态分类将展示数据进行类别划分，并根据分类后的展示数据将显示界面进行区域划分，从而实现不同模态的数据展示在不同的显示区域内，提高展示效果，用户接口模块根据跨模态检索和语义理解的结果，向用户展示相关的多媒体信息，如相关的图像、视频、音频片段或文本内容。

本发明第三方面提供了一种计算机可读存储介质，可读存储介质中包括基于语义对齐的媒体信息跨模态检索方法程序，基于语义对齐的媒体信息跨模态检索方法程序被处理器执行时，实现如上述任一项的基于语义对齐的媒体信息跨模态检索方法的步骤。

本发明公开的一种基于语义对齐的媒体信息跨模态检索方法、系统及介质，通过获取查询请求，基于查询请求生成用户查询数据，对用户查询数据进行预处理，得到不同模态下的语义对齐的请求数据；从不同模态的用户请求数据中提取不同模态的特征信息；将多模态特征进行特征融合，得到融合信息，基于融合信息生成统一的特征表示；基于特征表示建立不同模态数据之间的语义关联，得到关联信息；基于自然语言处理技术对关联信息分析，生成查询意图，得到跨模态检索和语义理解的结果，将跨模态检索和语义理解的结果进行展示；通过结合文本、图像、音频和视频等多种模态信息，能够更全面地理解和表达媒体内容，从而提供更为丰富和准确的搜索结果。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机、服务器、或者网络设备等）执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种基于语义对齐的媒体信息跨模态检索方法，其特征在于，包括：

获取查询请求，基于查询请求生成用户查询数据；

从不同模态的用户请求数据中提取不同模态的特征信息；

2.根据权利要求1所述的基于语义对齐的媒体信息跨模态检索方法，其特征在于，获取查询请求，基于查询请求生成用户查询数据，对用户查询数据进行预处理，得到不同模态下的语义对齐的请求数据，具体包括：

若处于异常区间，则对异常数据进行清洗调整；

3.根据权利要求2所述的基于语义对齐的媒体信息跨模态检索方法，其特征在于，从不同模态的用户请求数据中提取不同模态的特征信息，具体包括：

将请求特征与设定的特征进行比较，得到特征偏差率；

4.根据权利要求3所述的基于语义对齐的媒体信息跨模态检索方法，其特征在于，将多模态特征进行特征融合，得到融合信息，基于融合信息生成统一的特征表示，具体包括：

分别提取不同模态数据的特征，得到多模态特征；

将同一模态的数据特征进行加法融合，得到第二融合信息；

5.根据权利要求4所述的基于语义对齐的媒体信息跨模态检索方法，其特征在于，基于特征表示建立不同模态数据之间的语义关联，得到关联信息，具体包括：

若满足，则生成不同模态之间的语义关联，得到关联信息；

6.根据权利要求5所述的基于语义对齐的媒体信息跨模态检索方法，其特征在于，基于自然语言处理技术对关联信息分析，生成查询意图，得到跨模态检索和语义理解的结果，将跨模态检索和语义理解的结果进行展示，具体包括：

7.一种基于语义对齐的媒体信息跨模态检索系统，其特征在于，该系统包括：存储器及处理器，所述存储器中包括基于语义对齐的媒体信息跨模态检索方法的程序，所述基于语义对齐的媒体信息跨模态检索方法的程序被所述处理器执行时实现以下步骤：

获取查询请求，基于查询请求生成用户查询数据；

从不同模态的用户请求数据中提取不同模态的特征信息；

8.根据权利要求7所述的基于语义对齐的媒体信息跨模态检索系统，其特征在于，获取查询请求，基于查询请求生成用户查询数据，对用户查询数据进行预处理，得到不同模态下的语义对齐的请求数据，具体包括：

若处于异常区间，则对异常数据进行清洗调整；

9.根据权利要求8所述的基于语义对齐的媒体信息跨模态检索系统，其特征在于，从不同模态的用户请求数据中提取不同模态的特征信息，具体包括：

将请求特征与设定的特征进行比较，得到特征偏差率；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括基于语义对齐的媒体信息跨模态检索方法程序，所述基于语义对齐的媒体信息跨模态检索方法程序被处理器执行时，实现如权利要求1至6中任一项所述的基于语义对齐的媒体信息跨模态检索方法的步骤。