[go: up one dir, main page]

CN117591815B - 面向多模态生成数据的综合质量评估方法及装置 - Google Patents

面向多模态生成数据的综合质量评估方法及装置 Download PDF

Info

Publication number
CN117591815B
CN117591815B CN202311426027.2A CN202311426027A CN117591815B CN 117591815 B CN117591815 B CN 117591815B CN 202311426027 A CN202311426027 A CN 202311426027A CN 117591815 B CN117591815 B CN 117591815B
Authority
CN
China
Prior art keywords
index
evaluation
generated data
area
comprehensive quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311426027.2A
Other languages
English (en)
Other versions
CN117591815A (zh
Inventor
孙显
郝凌翔
邓楚博
于泓峰
卢宛萱
刘小煜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aerospace Information Research Institute of CAS
Original Assignee
Aerospace Information Research Institute of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aerospace Information Research Institute of CAS filed Critical Aerospace Information Research Institute of CAS
Priority to CN202311426027.2A priority Critical patent/CN117591815B/zh
Publication of CN117591815A publication Critical patent/CN117591815A/zh
Application granted granted Critical
Publication of CN117591815B publication Critical patent/CN117591815B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • G06F18/15Statistical pre-processing, e.g. techniques for normalisation or restoring missing data
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/62Analysis of geometric attributes of area, perimeter, diameter or volume
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Geometry (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

本发明提供了一种面向多模态生成数据的综合质量评估方法及装置,可以应用于计算机视觉技术领域。该方法包括:确定与生成数据的模态相对应的评估指标,以及与该评估指标相对应的指标值;根据该评估指标和该评估指标相对应的指标值,构建指标维度图,该指标维度图包括第一区域和第二区域,该第一区域包括该第二区域;根据该第一区域和该第二区域的面积,计算生成数据的综合质量评分。可有效降低训练集样本量,减少模型训练成本。

Description

面向多模态生成数据的综合质量评估方法及装置
技术领域
本发明涉及计算机视觉领域,尤其涉及一种面向多模态生成数据的综合质量评估方法及装置。
背景技术
随着计算机视觉等相关技术的发展,其在图片生成、音视频合成等领域体现了越来越多的价值,然而其生成数据质量却往往难以把控。针对此类数据的评价仍然是以主观评估或者单一指标为主,同时生成数据呈现视频、音频、图片等多种模态,且对应的评估指标原理性质各不相同,如何针对不同模态生成数据实现全面有效的质量评估,以及如何筛选用于训练检测模型的数据使训练成本更低,显得尤为重要。
发明内容
鉴于上述问题,本发明提供了一种面向多模态生成数据的综合质量评估方法及装置,通过将不同模态生成数据的多维度评估指标整合,实现综合化、定量化的数据质量评估,为生成数据质量分级和进一步的训练检测模型打下基础。
根据本发明的第一个方面,提供了一种面向多模态生成数据的综合质量评估方法,包括:
确定与生成数据的模态相对应的评估指标,以及与所述评估指标相对应的指标值;
根据所述评估指标和所述评估指标相对应的指标值,构建指标维度图,所述指标维度图包括第一区域和第二区域,所述第一区域包括所述第二区域;
根据所述第一区域和所述第二区域的面积,计算生成数据的综合质量评分;
基于所述生成数据的综合质量评分,筛选用于训练检测模型的训练数据。
可选的,所述生成数据的模态包括图片模态、音频模态和视频模态;
与所述视频模态、图片模态相对应的评估指标包括距离得分FID、结构相似性SSIM、峰值信噪比PSNR、核感知距离KID、图像感知相似度LPIPS、平均意见分数MOS中的至少之一;
与所述音频模态相对应的评估指标包括梅尔倒谱失真MCD、MOS、音频感知质量评估PEAQ中的至少之一。
可选的,所述根据所述评估指标和所述评估指标相对应的指标值,构建指标维度图包括:
从与生成数据的模态相对应的评估指标中选择n项评估指标,n为正整数;
若n=1,则直接计算相关指标值并做归一化处理;
若n=2,则将对应指标归一化处理后,计算平均值;
若n≥3,通过如下方式进行计算:
针对所述n项评估指标,设置中心原点;
以所述中心原点到顶点的向径为1,构建正n边形;
在各所述向径上,根据所述评估指标的指标值绘制指标点,并计算所述指标点坐标;
基于所有所述指标点,围成不规则的n边形。
可选的,所述根据所述评估指标和所述评估指标相对应的指标值,构建指标维度图之前,包括:
对所述指标值进行归一化处理。
可选的,所述对所述指标值进行归一化处理包括:
在所述评估指标包括FID的情况下,将1-FID作为FID对应的指标值进行映射处理;
在所述评估指标包括LPIPS的情况下,将1-LPIPS作为LPIPS对应的指标值进行映射处理;
在所述评估指标包括SSIM的情况下,将(SSIM + 1) / 2作为SSIM对应的指标值进行映射处理;
在所述评估指标包括PSNR的情况下,将作为PSNR对应的指标值进行映射处理,表示PSNR的最大值;
可选的,所述根据所述第一区域和所述第二区域的面积,计算生成数据的综合质量评分包括:
将所述第二区域的面积与所述第一区域的面积的比值乘以预设常数,得到所述生成数据的综合质量评分。
可选的,所述基于所述生成数据的综合质量评分,筛选用于训练深度检测模型的训练数据包括:
筛选综合质量评分在预设范围的生成数据作为所述训练数据。
本发明的第二方面提供了一种面向多模态生成数据的综合质量评估装置,包括:
确定模块,用于确定与生成数据的模态相对应的评估指标,以及与所述评估指标相对应的指标值;
构建模块,用于根据所述评估指标和所述评估指标相对应的指标值,构建指标维度图,所述指标维度图包括第一区域和第二区域,所述第一区域包括所述第二区域;
计算模块,用于根据所述第一区域和所述第二区域的面积,计算生成数据的综合质量评分;
筛选模块,用于基于所述生成数据的综合质量评分,筛选用于训练检测模型的训练数据。
本发明的第三方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得一个或多个处理器执行上述方法。
本发明的第四方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述方法。
根据本发明提供的面向多模态生成数据的综合质量评估方法及装置,一方面,本发明改善了以往生成数据评估以主观、定性为主的现状;另一方面,引入多个维度的数据客观评估指标,开展综合量化评估,质量评估更为全面可靠,并可推广到音频、视频、图片等任一模态;又一方面,基于质量分级后筛选得到的部分高质量数据进行检测模型训练可有效降低训练成本;再一方面,该方法可视化效果好,在软件实现时通过前端界面可较为直观的展现数据的质量,为数据分级等软件插件研发奠定了方法基础。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述内容以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本发明实施例的面向多模态生成数据的综合质量评估方法的流程图;
图2示意性示出了根据本发明实施例的根据音频数据评估指标建立的维度图;
图3示意性示出了根据本发明实施例的根据图片数据评估指标建立的维度图;
图4示意性示出了根据本发明实施例的面向多模态生成数据的综合质量评估装置的结构框图;
图5示意性示出了根据本发明实施例的适于实现面向多模态生成数据的综合质量评估方法的电子设备的方框图。
具体实施方式
以下,将参照附图来描述本发明的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本发明的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本发明实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本发明。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
在本发明的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、发明和应用等处理,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
在本发明的技术方案中,对数据的获取、收集、存储、使用、加工、传输、提供、发明和应用等处理,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
图1示意性示出了根据本发明实施例的面向多模态生成数据的综合质量评估方法的流程图。
如图1所示,该实施例的面向多模态生成数据的综合质量评估方法包括操作S110~操作S140。
在操作S110,确定与生成数据的模态相对应的评估指标,以及与该评估指标相对应的指标值。
在操作S120,根据该评估指标和该评估指标相对应的指标值,构建指标维度图,该指标维度图包括第一区域和第二区域,该第一区域包括该第二区域。
在操作S130,根据该第一区域和该第二区域的面积,计算生成数据的综合质量评分。
在操作S140,基于该生成数据的综合质量评分,筛选用于训练检测模型的训练数据。
首先,对图片、音频、视频三个模态典型的主客观评估指标进行梳理划分,由于视频可视为多帧图片,因此对于视频质量评估来说可以视为图片模态,其中通常会选取视频关键帧的图片进行评估,其评估指标与图片基本相同。
在一实施例中,该生成数据的模态包括图片模态和音频模态;与该图片模态相对应的评估指标包括距离得分FID、结构相似性SSIM、峰值信噪比PSNR、核感知距离KID、图像感知相似度LPIPS、平均意见分数MOS中的至少之一。与该音频模态相对应的评估指标包括梅尔倒谱失真MCD、MOS、音频感知质量评估PEAQ中的至少之一。各模态评估指标如下表1所示。
表1
FID通过Inception v3网络提取目标图片和合成图片的特征向量并计算两个向量之间的Fréchet距离,FID数值越小说明两个图片的分布越接近,生成质量越好。
SSIM是基于人眼感知的图片相似性度量方法,将目标图片与生成图片划分为若干小块,比较每个小块之间的亮度、对比度和结构相似性,最后对所有小块的相似度进行平均,得到整幅图片的相似度值。值越大,两个图片越接近,质量越好,计算公式为
其中x, y分别表示生成图片与目标图片,分别表示x均值、y均值、x标准差、y标准差、x和y的协方差。
PSNR是一种衡量图片或视频质量的指标。它通常用于比较两个图片或视频序列之间的相似度,通过计算两个图片之间的均方误差(MSE)来评估它们之间的相似度,MSE越小表示两个图片之间的相似度越高,其计算公式为
其中,为输入图片的最大值(通常是,n为采样值比特数,对于8位图像,MAX=255),MSE为输入两张图片的均方误差,即逐点计算L2距离的平方取均值,具体计算如下:
KID(Kernel Inception Distance)是一种用于评估生成模型质量的指标,特别用于生成对抗网络(GAN)的生成图像评估。KID是基于Inception模型的特征表示来衡量生成图像与真实图像之间的差异。它利用Inception模型作为特征提取器,提取生成图像和真实图像在高层特征空间中的表示。然后,通过计算生成图像和真实图像特征表示之间的核矩阵的距离,得到KID分数。KID分数越低,表示生成图像和真实图像的特征表示越相似,生成模型的质量越高。相反,较高的KID分数表示生成图像和真实图像之间的特征表示差异较大,生成模型的质量较低。
MOS(Mean Opinion Score)是一种常用的主观评价指标,用于衡量人类对某种感知质量的平均评分。MOS通常用于评估音频、视频、语音通信等领域中的感知质量,包括音质、图像质量、语音清晰度等。MOS评估通过收集一组评审者或受试者的主观评分来进行。评审者或受试者被要求对给定的感知体验进行评分,通常使用一个预定义的评分范围,例如1到5或1到10。每个评审者给出自己对感知体验的评分,这些评分被汇总并计算平均分数,即MOS。
LPIPS是一种基于感知距离的评估指标,其原理与FID相似,通过一个预训练的卷积神经网络(如VGG或AlexNet)提取目标图片和合成图片的特征向量,然后计算这些特征向量之间的欧式距离或余弦相似度,这些距离可被视为两张图片之间的感知距离,LPIPS的取值范围为0到1之间,值越小表示两张图片之间感知距离越小,图片之间的相似度越高。
PEAQ(Perceptual Evaluation of Audio Quality)是一种客观评价音频质量的算法,用于测量音频信号的主观感知质量。它是国际标准ITU-R BS.1387中定义的一种评价方法。PEAQ通过对比原始音频和经过压缩或其他处理的音频之间的差异,计算出音频的主观质量得分。该算法基于人类听觉感知的原理,考虑了一系列的听觉因素,包括音频的时域特征、频域特征、声音编码特征等。PEAQ算法通过将音频信号分为一系列帧,计算每个帧的特征差异,并根据这些差异计算出音频的主观质量得分。得分范围通常从1(最差)到5(最好),表示音频的质量级别。
在音频领域,MCD(Mel Cepstral Distortion)是一种常用的客观评价指标,用于衡量两个音频之间的声谱失真。MCD主要用于语音合成和语音转换任务中,用于评估生成音频与目标音频之间的差异。MCD的计算方法是首先将原始音频和生成音频转换为梅尔倒谱系数(Mel Cepstral Coefficients),然后计算两个音频之间的欧氏距离。MCD越低,表示生成音频与目标音频之间的声谱失真越小,质量越好。
根据生成数据选择合适的指标,以生成的数据为图片数据为例,选取配对的目标图片和生成图片,选择FID、LPIPS、SSIM、PSNR四个评估指标并分别进行计算。经过上述过程可得到相应指标值。
在一实施例中,上述根据该评估指标和该评估指标相对应的指标值,构建指标维度图之前,包括:对该指标值进行归一化处理。使指标值的取值处于[0, 1],其中1代表当前指标最高值,0代表当前指标最低值,对于FID、LPIPS这类指标,其取值本来处于[0, 1]之间,但0表示其最优性能,本发明将1-FID作为FID对应的指标值进行映射处理,将1-LPIPS作为LPIPS对应的指标值进行映射处理,公式如下:
针对SSIM,其取值范围为[-1 ,1],可对相关指标进行映射处理,即将(SSIM + 1)/ 2处理成相关指标结果值,公式如下:
针对PSNR,其取值范围为[0, PSNRmax],同样进行映射处理,公式如下:
在一实施例中,上述根据该评估指标和该评估指标相对应的指标值,构建指标维度图包括:从与生成数据的模态相对应的评估指标中选择n项评估指标,n为正整数;若n=1,则直接计算相关指标值并做归一化处理;若n=2,则将对应指标归一化处理后,计算平均值;
若n≥3,通过如下方式进行计算:针对该n项评估指标,设置中心原点;以该中心原点到顶点的向径为1,构建正n边形,n为正整数;在各该向径上,根据该评估指标的指标值绘制指标点,并计算该指标点坐标;基于所有该指标点,围成不规则的n边形。
图2示意性示出了根据本发明实施例的根据音频数据评估指标建立的维度图。图3示意性示出了根据本发明实施例的根据图片数据评估指标建立的维度图。
如图2和图3所示,你变形围成的面积为第一区域,第一区域为正多边形,阴影部分为第二区域,第二区域为多边形。建立维度图后,进一步计算维度图中显示的数据质量,根据第二区域四个顶点坐标计算第二区域的围成面积,同时计算第一区域的面积。计算不规则多边形面积可采用如下S1-S3:
S1:根据多边形顶点的坐标进行计算的,首先根据各顶点到原点距离求解各顶点坐标(x1, y1)、(x2, y2)…(xn, yn)。
S2:根据各顶点坐标计算第一区域面积和第二区域面积,运行代码如下:
def shoelace_formula(vertices):
n = len(vertices)
area = 0.0
for i in range(n):
x1, y1 = vertices[i]
x2, y2 = vertices[(i+1) % n]
area += (x1 * y2 – x2 * y1)
return abs(area) / 2.0
S3:将该第二区域的面积与该第一区域的面积的比值乘以预设常数(常数A表示设定的最大分值)即得到该生成数据的综合质量评分,综合数据质量评估分数计算如下公式,综合质量评分Qd值越大,表示该数据质量越好,反之则说明数据质量较低。
在一实施例中,上述基于该生成数据的综合质量评分,筛选用于训练检测模型的训练数据包括:筛选综合质量评分在预设范围的生成数据作为该训练数据。根据综合质量评分进行数据分级,在对XceptionNet、EfficientNet等检测模型进行训练时,使用质量较高的数据,可有效降低训练集样本量,减少模型训练成本,达到较好的实际应用效果。
基于上述面向多模态生成数据的综合质量评估方法,本发明还提供了一种面向多模态生成数据的综合质量评估装置。以下将结合图5对该装置进行详细描述。
图4示意性示出了根据本发明实施例的面向多模态生成数据的综合质量评估装置的结构框图。
如图4所示,该实施例的波长路由装置400包括确定模块410、构建模块420、计算模块430和筛选模块440。
确定模块410,用于确定与生成数据的模态相对应的评估指标,以及与该评估指标相对应的指标值。在一实施例中,确定模块410可以用于执行前文描述的操作S110,在此不再赘述。
构建模块420,用于根据该评估指标和该评估指标相对应的指标值,构建指标维度图,该指标维度图包括第一区域和第二区域,该第一区域包括该第二区域。在一实施例中,构建模块420可以用于执行前文描述的操作S120,在此不再赘述。
计算模块430,用于根据该第一区域和该第二区域的面积,计算生成数据的综合质量评分。在一实施例中,计算模块430可以用于执行前文描述的操作S130,在此不再赘述。
筛选模块440,用于基于该生成数据的综合质量评分,筛选用于训练检测模型的训练数据。在一实施例中,筛选模块440可以用于执行前文描述的操作S140,在此不再赘述。
根据本发明的实施例,该生成数据的模态包括图片模态、音频模态和视频模态;
与该视频模态、图片模态相对应的评估指标均包括距离得分FID、结构相似性SSIM、峰值信噪比PSNR、核感知距离KID、图像感知相似度LPIPS、平均意见分数MOS中的至少之一;
与该音频模态相对应的评估指标包括梅尔倒谱失真MCD、MOS、音频感知质量评估PEAQ中的至少之一。
根据本发明的实施例,该根据该评估指标和该评估指标相对应的指标值,构建指标维度图包括:
从与生成数据的模态相对应的评估指标中选择n项评估指标,n为正整数;
若n=1,则直接计算相关指标值并做归一化处理;
若n=2,则将对应指标归一化处理后,计算平均值;
若n≥3,通过如下方式进行计算:
针对该n项评估指标,设置中心原点;
以该中心原点到顶点的向径为1,构建正n边形;
在各该向径上,根据该评估指标的指标值绘制指标点,并计算该指标点坐标;
基于所有该指标点,围成不规则的n边形。
根据本发明的实施例,该根据该评估指标和该评估指标相对应的指标值,构建指标维度图之前,包括:
对该指标值进行归一化处理。
根据本发明的实施例,该对该指标值进行归一化处理包括:
在该评估指标包括FID的情况下,将1-FID作为FID对应的指标值进行映射处理;
在该评估指标包括LPIPS的情况下,将1-LPIPS作为LPIPS对应的指标值进行映射处理;
在该评估指标包括SSIM的情况下,将(SSIM + 1) / 2作为SSIM对应的指标值进行映射处理;
在该评估指标包括PSNR的情况下,将作为PSNR对应的指标值进行映射处理,表示PSNR的最大值;
根据本发明的实施例,该根据该第一区域和该第二区域的面积,计算生成数据的综合质量评分包括:
将该第二区域的面积与该第一区域的面积的比值乘以预设常数,得到该生成数据的综合质量评分。
根据本发明的实施例,该基于该生成数据的综合质量评分,筛选用于训练检测模型的训练数据包括:
筛选综合质量评分在预设范围的生成数据作为该训练数据。
根据本发明的实施例,确定模块410、构建模块420、计算模块430和筛选模块440中的任意多个模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本发明的实施例,确定模块410、构建模块420、计算模块430和筛选模块440中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,确定模块410、构建模块420、计算模块430和筛选模块440中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图5示意性示出了根据本发明实施例的适于实现面向多模态生成数据的综合质量评估方法的电子设备的方框图。
如图5所示,根据本发明实施例的电子设备500包括处理器501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。处理器501例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC))等等。处理器501还可以包括用于缓存用途的板载存储器。处理器501可以包括用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 503中,存储有电子设备500操作所需的各种程序和数据。处理器 501、ROM502以及RAM 503通过总线504彼此相连。处理器501通过执行ROM 502和/或RAM 503中的程序来执行根据本发明实施例的方法流程的各种操作。需要注意,该程序也可以存储在除ROM502和RAM 503以外的一个或多个存储器中。处理器501也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本发明实施例的方法流程的各种操作。
根据本发明的实施例,电子设备500还可以包括输入/输出(I/O)接口505,输入/输出(I/O)接口505也连接至总线504。电子设备500还可以包括连接至I/O接口505的以下部件中的一项或多项:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
本发明还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本发明实施例的方法。
根据本发明的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本发明的实施例,计算机可读存储介质可以包括上文描述的ROM 502和/或RAM 503和/或ROM 502和RAM 503以外的一个或多个存储器。
本发明的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时,该程序代码用于使计算机系统实现本发明实施例所提供的方法。
在该计算机程序被处理器501执行时执行本发明实施例的系统/装置中限定的上述功能。根据本发明的实施例,上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分509被下载和安装,和/或从可拆卸介质511被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被处理器501执行时,执行本发明实施例的系统中限定的上述功能。根据本发明的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
根据本发明的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java,C++,python,“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本发明的各个实施例中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本发明中。特别地,在不脱离本发明精神和教导的情况下,本发明的各个实施例中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本发明的范围。
以上对本发明的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本发明的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。不脱离本发明的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本发明的范围之内。

Claims (7)

1.一种面向多模态生成数据的综合质量评估方法,其特征在于,包括:
确定与生成数据的模态相对应的评估指标,以及与所述评估指标相对应的指标值;
根据所述评估指标和所述评估指标相对应的指标值,构建指标维度图,基于所述指标维度图得到所述生成数据的综合质量评分,所述生成数据的综合质量评分用于筛选用于训练检测模型的训练数据;
其中,所述根据所述评估指标和所述评估指标相对应的指标值,构建指标维度图,包括:
从与生成数据的模态相对应的评估指标中选择n项评估指标,n为大于等于1的正整数;
若n=1,则直接计算相关指标值并做归一化处理;
若n=2,则将对应指标归一化处理后,计算平均值;
若n≥3,针对所述n项评估指标,设置中心原点;以所述中心原点到顶点的向径为1,构建正n边形,形成第一区域;在各所述向径上,根据所述评估指标的指标值绘制指标点,并计算所述指标点坐标;基于所有所述指标点,围成不规则的n边形,形成第二区域;
其中,所述基于所述指标维度图得到所述生成数据的综合质量评分,包括:
若n≥3,将所述第二区域的面积与所述第一区域的面积的比值乘以预设常数,得到所述生成数据的综合质量评分。
2.根据权利要求1所述的面向多模态生成数据的综合质量评估方法,其特征在于,所述生成数据的模态包括图片模态、音频模态和视频模态;
与所述视频模态、图片模态相对应的评估指标均包括距离得分FID、结构相似性SSIM、峰值信噪比PSNR、核感知距离KID、图像感知相似度LPIPS、平均意见分数MOS中的至少之一;
与所述音频模态相对应的评估指标包括梅尔倒谱失真MCD、MOS、音频感知质量评估PEAQ中的至少之一。
3.根据权利要求1所述的面向多模态生成数据的综合质量评估方法,其特征在于,所述根据所述评估指标和所述评估指标相对应的指标值,构建指标维度图之前,包括:
对所述指标值进行归一化处理。
4.根据权利要求3所述的面向多模态生成数据的综合质量评估方法,其特征在于,所述对所述指标值进行归一化处理包括:
在所述评估指标包括FID的情况下,将1-FID作为FID对应的指标值进行映射处理;
在所述评估指标包括LPIPS的情况下,将1-LPIPS作为LPIPS对应的指标值进行映射处理;
在所述评估指标包括SSIM的情况下,将(SSIM + 1) / 2作为SSIM对应的指标值进行映射处理;
在所述评估指标包括PSNR的情况下,将作为PSNR对应的指标值进行映射处理,表示PSNR的最大值。
5.根据权利要求1所述的面向多模态生成数据的综合质量评估方法,其特征在于,所述基于所述生成数据的综合质量评分,筛选用于训练检测模型的训练数据包括:
筛选综合质量评分在预设范围的生成数据作为所述训练数据。
6.一种面向多模态生成数据的综合质量评估装置,其特征在于,包括:
确定模块,用于确定与该生成数据的模态相对应的评估指标,以及与所述评估指标相对应的指标值;
构建模块,用于根据所述评估指标和所述评估指标相对应的指标值,
构建指标维度图,基于所述指标维度图得到所述生成数据的综合质量评分,所述生成数据的综合质量评分用于筛选用于训练检测模型的训练数据;
其中,所述根据所述评估指标和所述评估指标相对应的指标值,构建指标维度图,包括:
从与生成数据的模态相对应的评估指标中选择n项评估指标,n为大于等于1的正整数;
若n=1,则直接计算相关指标值并做归一化处理;
若n=2,则将对应指标归一化处理后,计算平均值;
若n≥3,针对所述n项评估指标,设置中心原点;以所述中心原点到顶点的向径为1,构建正n边形,形成第一区域;在各所述向径上,根据所述评估指标的指标值绘制指标点,并计算所述指标点坐标;基于所有所述指标点,围成不规则的n边形,形成第二区域;
其中,所述基于所述指标维度图得到所述生成数据的综合质量评分,包括:
若n≥3,将所述第二区域的面积与所述第一区域的面积的比值乘以预设常数,得到所述生成数据的综合质量评分;
计算模块,用于将所述第二区域的面积与所述第一区域的面积的比值乘以预设常数,得到所述生成数据的综合质量评分,所述生成数据的综合质量评分用于筛选用于训练检测模型的训练数据。
7.根据权利要求6所述的面向多模态生成数据的综合质量评估装置,其特征在于,所述生成数据的模态包括图片模态、音频模态和视频模态;
与所述视频模态、图片模态相对应的评估指标均包括距离得分FID、结构相似性SSIM、峰值信噪比PSNR、核感知距离KID、图像感知相似度LPIPS、平均意见分数MOS中的至少之一;
与所述音频模态相对应的评估指标包括梅尔倒谱失真MCD、MOS、音频感知质量评估PEAQ中的至少之一。
CN202311426027.2A 2023-10-31 2023-10-31 面向多模态生成数据的综合质量评估方法及装置 Active CN117591815B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311426027.2A CN117591815B (zh) 2023-10-31 2023-10-31 面向多模态生成数据的综合质量评估方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311426027.2A CN117591815B (zh) 2023-10-31 2023-10-31 面向多模态生成数据的综合质量评估方法及装置

Publications (2)

Publication Number Publication Date
CN117591815A CN117591815A (zh) 2024-02-23
CN117591815B true CN117591815B (zh) 2024-09-03

Family

ID=89915746

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311426027.2A Active CN117591815B (zh) 2023-10-31 2023-10-31 面向多模态生成数据的综合质量评估方法及装置

Country Status (1)

Country Link
CN (1) CN117591815B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112102309A (zh) * 2020-09-27 2020-12-18 中国建设银行股份有限公司 一种确定图像质量评估结果的方法、装置及设备
CN112580807A (zh) * 2020-12-29 2021-03-30 中国科学院空天信息创新研究院 一种基于效能评估的神经网络改进需求自动生成方法及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011124787A (ja) * 2009-12-10 2011-06-23 Canon Inc 画像改ざん検知装置および方法
IL245623B (en) * 2016-05-11 2020-03-31 Au10Tix Ltd System and method for detecting forgeries
WO2018071396A1 (en) * 2016-10-10 2018-04-19 Insurance Services Office Inc. Systems and methods for detection and localization of image and document forgery
CN110782130A (zh) * 2019-09-30 2020-02-11 南京工程学院 一种基于多属性决策的区域电压质量综合评估方法
CN111816208B (zh) * 2020-06-17 2023-05-05 厦门快商通科技股份有限公司 一种语音分离质量评估方法、装置及计算机存储介质
KR102801501B1 (ko) * 2020-09-29 2025-04-29 삼성전자주식회사 비디오 품질 평가 방법 및 장치
CN112700158B (zh) * 2021-01-07 2022-06-10 中国科学院空天信息创新研究院 基于多维度模型的算法效能评估方法
CN112766189B (zh) * 2021-01-25 2023-08-08 北京有竹居网络技术有限公司 深度伪造检测方法、装置、存储介质及电子设备
CN115205188A (zh) * 2021-04-13 2022-10-18 腾讯科技(深圳)有限公司 基于逼近值评估图像视频质量的方法和相关装置
CN116561542B (zh) * 2023-07-04 2023-10-20 北京聆心智能科技有限公司 模型的优化训练系统、方法以及相关装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112102309A (zh) * 2020-09-27 2020-12-18 中国建设银行股份有限公司 一种确定图像质量评估结果的方法、装置及设备
CN112580807A (zh) * 2020-12-29 2021-03-30 中国科学院空天信息创新研究院 一种基于效能评估的神经网络改进需求自动生成方法及装置

Also Published As

Publication number Publication date
CN117591815A (zh) 2024-02-23

Similar Documents

Publication Publication Date Title
Gu et al. Blind quality assessment of tone-mapped images via analysis of information, naturalness, and structure
CN102754126B (zh) 使用图像的多级分解确定用于图像的质量计量的方法和系统
US8396303B2 (en) Method, apparatus and computer program product for providing pattern detection with unknown noise levels
JP2017049996A (ja) 画像認識に用いられるニューラルネットワークの訓練方法及び訓練装置
US10592733B1 (en) Computer-implemented systems and methods for evaluating speech dialog system engagement via video
CN114037003A (zh) 问答模型的训练方法、装置及电子设备
Liu et al. Extended RGB2Gray conversion model for efficient contrast preserving decolorization
WO2023185125A1 (zh) 产品资源的数据处理方法及装置、电子设备、存储介质
CN115496769A (zh) 一种基于3D-Ghost网络的多模态MR图像分割方法及装置
CN117591815B (zh) 面向多模态生成数据的综合质量评估方法及装置
CN115100157A (zh) 一种图像处理方法及装置、设备、存储介质
Li et al. Real-time image enhancement with efficient dynamic programming
CN116188897A (zh) 条带噪声检测模型训练方法、条带噪声检测方法及装置
CN119808161B (zh) 多模态大模型驱动的数据脱敏与视频数据保护方法及装置
CN112446777A (zh) 一种信用评估方法、装置、设备及存储介质
CN118691845B (zh) 基于多层级特征提取的图像处理方法、装置、设备及存储介质
CN119850538A (zh) 以文生图质量评测方法、装置以及相关产品
CN110879723B (zh) 基于Pareto最优集的软件服务价值的客观评测方法及装置
Huang et al. A harmonic means pooling strategy for structural similarity index measurement in image quality assessment
US20140140519A1 (en) Sound processing device, sound processing method, and program
CN115620083B (zh) 模型训练方法、人脸图像质量评价方法、设备及介质
CN118038900A (zh) 语音质量评估方法、训练语音质量评估模型的方法及装置
Yang et al. Image quality assessment via multiple features
CN118279230A (zh) 图像质量评价方法、装置、存储介质与电子设备
JP5182523B2 (ja) 画像処理装置及び画像処理プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant