CN115457979A - 一种视频语音分析识别处理方法及系统 - Google Patents
一种视频语音分析识别处理方法及系统 Download PDFInfo
- Publication number
- CN115457979A CN115457979A CN202211158592.0A CN202211158592A CN115457979A CN 115457979 A CN115457979 A CN 115457979A CN 202211158592 A CN202211158592 A CN 202211158592A CN 115457979 A CN115457979 A CN 115457979A
- Authority
- CN
- China
- Prior art keywords
- vector
- user
- data set
- voice
- user intention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 36
- 238000003672 processing method Methods 0.000 title claims abstract description 13
- 239000013598 vector Substances 0.000 claims abstract description 301
- 230000003993 interaction Effects 0.000 claims abstract description 81
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000005457 optimization Methods 0.000 claims description 36
- 230000002159 abnormal effect Effects 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 12
- 238000013473 artificial intelligence Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 2
- 238000004891 communication Methods 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 7
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000006872 improvement Effects 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 239000000463 material Substances 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000028161 membrane depolarization Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 241000579895 Chlorostilbon Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000010976 emerald Substances 0.000 description 1
- 229910052876 emerald Inorganic materials 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000010977 jade Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- ZLIBICFPKPWGIZ-UHFFFAOYSA-N pyrimethanil Chemical compound CC1=CC(C)=NC(NC=2C=CC=CC=2)=N1 ZLIBICFPKPWGIZ-UHFFFAOYSA-N 0.000 description 1
- 239000010979 ruby Substances 0.000 description 1
- 229910001750 ruby Inorganic materials 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供的一种视频语音分析识别处理方法及系统,从第一语音交互数据中确定出若干个第一用户意图数据集,结合各个第一用户意图数据集的干扰变量分析各第一用户意图数据集间的共享特征向量,由于各第一用户意图数据集的第一相似度是基于各个第一用户意图数据集的干扰变量分析所得到的,第一用户意图数据集间的共享特征向量涵盖了第一语音音频数据中的干扰信息,在使用第一相似度对第一用户倾向向量进行调试的过程既相当于基于第一局部音频数据中的干扰信息对各个第一用户意图数据集的第一用户倾向向量进行调试,可以削弱由干扰导致的第一语音音频数据中涵盖的与干扰相关的语音数据,提升了语音分析的精确性,进而提高匹配的准确性和可靠性。
Description
技术领域
本申请涉及数据分析识别处理技术领域,具体而言,涉及一种视频语音分析识别处理方法及系统。
背景技术
随着互联网的不发展,通过互联网进行视频语音是现在很常用的一个技术,在用户进行视频语音时,可能存在网络卡顿后者噪音等问题,从而导致视频语音准确的进行信息传输。因此,需要本申请所提供的技术方案对视频语音进行分析和识别,以确保语音优化结果的准确性。
发明内容
为改善相关技术中存在的技术问题,本申请提供了一种视频语音分析识别处理方法及系统。
第一方面,提供一种视频语音分析识别处理方法,该方法至少包括:获取待处理音频数据中第一语音交互数据的语音向量;结合所获取的语音向量,从所述第一语音交互数据中确定若干个第一用户意图数据集,并筛选各个第一用户意图数据集的第一用户倾向向量;确定所述第一语音交互数据中被干扰的语音异常数据集,并结合所确定的语音异常数据集,分析各个第一用户意图数据集被干扰的第一干扰变量;获取结合分析得到的第一干扰变量确定的各个第一用户意图数据集间的第一相似度;结合所获取第一相似度调试各个第一用户倾向向量,将调试后的第一用户倾向向量与第二用户倾向向量进行比较,得到所述第一语音交互数据的语音优化结果,其中,所述第二用户倾向向量为:结合各个第二相似度对各个第二用户意图数据集的用户倾向向量进行调试所得到的向量,各个第二用户意图数据集为:关键语音数据中在先设定的第二语音交互数据内与各第一用户意图数据集相对应的关联数据集。
在一种独立实施的实施例中,所述将调试后的第一用户倾向向量与第二用户倾向向量进行比较,得到所述第一语音交互数据的语音优化结果,包括:分析各个第一用户意图数据集调试后的第一用户倾向向量与所对应的第二用户倾向向量的共享特征向量,视为各个第一用户意图数据集对应的共享特征向量;基于各个第一用户意图数据集的第一干扰变量,确定各个第一用户意图数据集的第一用户倾向向量针对所述第一语音交互数据的向量的置信度;结合所确定的置信度,对各第一用户意图数据集对应的共享特征向量进行加权处理,得到加权处理结果,视为所述第一语音交互数据与所述第二语音交互数据的共享特征向量;结合所得到的共享特征向量,确定所述第一语音交互数据的语音优化结果。
在一种独立实施的实施例中,所述基于各个第一用户意图数据集的第一干扰变量,确定各个第一用户意图数据集的第一用户倾向向量针对所述第一语音交互数据的向量的置信度,包括:基于各个第一用户意图数据集的第一干扰变量和与所对应的第二用户意图数据集的第二干扰变量,确定各个第一用户意图数据集的第一用户倾向向量针对所述第一语音交互数据的向量的置信度。
在一种独立实施的实施例中,所述将调试后的第一用户倾向向量与第二用户倾向向量进行比较,得到所述第一语音交互数据的语音优化结果,包括:结合各第一用户意图数据集的第一干扰变量,对各第一用户意图数据集的第一用户倾向向量进行向量拼接,得到第一拼接向量,并结合各第二用户意图数据集的第二干扰变量,对各第二用户意图数据集的第二用户倾向向量进行向量拼接,得到第二拼接向量;分析所述第一拼接向量和所述第二拼接向量的共享特征向量;结合分析所得到的共享特征向量,确定所述第一语音交互数据的语音优化结果。
在一种独立实施的实施例中,所述结合所获取第一相似度调试各个第一用户倾向向量,并将调试后的第一用户倾向向量与第二用户倾向向量进行比较,得到所述第一语音交互数据的语音优化结果,包括:将各个第一用户倾向向量、各个第一用户意图数据集间的第一相似度、各个第二用户意图数据集的用户倾向向量、各个第二用户意图数据集间的第二相似度加载至在先配置的人工智能线程,以使得所述人工智能线程基于各个第一相似度对各个第一用户倾向向量进行调试,得到调试后的第一用户倾向向量,并基于各个第二相似度对各个第二用户意图数据集的用户倾向向量进行调试,得到第二用户倾向向量,以及比较所述调试后的第一用户倾向向量与所述第二用户倾向向量进行比较,输出语音优化结果;获取所述人工智能线程输出的所述语音优化结果。
在一种独立实施的实施例中,所述结合所获取的语音向量,从所述第一语音交互数据中确定若干个第一用户意图数据集,包括:结合所获取的语音向量的重要种类,以及在先设定的语音向量种类与第一用户意图数据集的关联数据集种类之间的关联情况,确定各个语音向量所属的关联数据集种类;针对各个关联数据集种类,基于属于该关联数据集种类的语音向量的定位数据,获取属于该关联数据集种类的用户意图数据集的基准定位,并确定属于该关联数据集种类的用户意图数据集的基准定位与相近用户意图数据集的基准定位之间的关联数据集间差异,结合所确定的关联数据集间差异,分析属于该关联数据集种类的用户意图数据集的关联数据集向量;基于所获取的基准定位和分析所得的关联数据集向量,确定各个基准定位所属的第一用户意图数据集。
在一种独立实施的实施例中,所述筛选各个第一用户意图数据集内的语音向量,包括:筛选所述待处理音频数据中第一语音交互数据的全部向量集;基于各个第一用户意图数据集在所述第一语音交互数据中所处的定位,确定所述全部向量集中与各个第一用户意图数据集对应的向量关联数据集;依照在先设定向量集向量,对各个第一用户意图数据集的向量关联数据集进行更新,生成向量为所述在先设定向量集向量的向量集;确定与各个第一用户意图数据集的向量集对应的语音向量,视为各个第一用户意图数据集内的语音向量。
第二方面,提供一种视频语音分析识别处理系统,包括互相之间通信的处理器和存储器,所述处理器用于从所述存储器中读取计算机程序并执行,以实现上述的方法。
本申请实施例所提供的一种视频语音分析识别处理方法及系统,从第一语音交互数据中确定出若干个第一用户意图数据集,进而结合各个第一用户意图数据集的干扰变量分析各第一用户意图数据集间的共享特征向量,由于各第一用户意图数据集的第一相似度是基于各个第一用户意图数据集的干扰变量分析所得到的,因此,第一用户意图数据集间的共享特征向量涵盖了第一语音音频数据中的干扰信息,在使用第一相似度对第一用户倾向向量进行调试的过程既相当于基于第一局部音频数据中的干扰信息对各个第一用户意图数据集的第一用户倾向向量进行调试,从而可以削弱由干扰导致的第一语音音频数据中涵盖的与干扰相关的语音数据,提升了语音分析的精确性,进而提高匹配的准确性和可靠性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例所提供的一种视频语音分析识别处理方法的流程图。
具体实施方式
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本申请技术方案做详细的说明,应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本申请实施例以及实施例中的技术特征可以相互组合。
请参阅图1,示出了一种视频语音分析识别处理方法,该方法可以包括以下步骤S101-S105所描述的技术方案。
S101:获取待处理音频数据中第一语音交互数据的语音向量。
S102:结合所获取的语音向量,从第一语音交互数据中确定若干个第一用户意图数据集,并筛选各个第一用户意图数据集的第一用户倾向向量。
S103:确定第一语音交互数据中被干扰的语音异常数据集,并结合所确定的语音异常数据集,分析各个第一用户意图数据集被干扰的第一干扰变量。
S104:获取结合分析得到的第一干扰变量确定的各个第一用户意图数据集间的第一相似度。
S105:结合所获取第一相似度调试各个第一用户倾向向量,将调试后的第一用户倾向向量与第二用户倾向向量进行比较,得到第一语音交互数据的语音优化结果,其中,第二用户倾向向量为:结合各个第二相似度对各个第二用户意图数据集的用户倾向向量进行调试所得到的向量,各个第二用户意图数据集为:关键语音数据中在先设定的第二语音交互数据内与各第一用户意图数据集相对应的关联数据集。
本公开实施例提供的视频语音分析识别处理方法,从第一语音交互数据中确定出若干个第一用户意图数据集,进而结合各个第一用户意图数据集的干扰变量分析各第一用户意图数据集间的共享特征向量,由于各第一用户意图数据集的第一相似度是基于各个第一用户意图数据集的干扰变量分析所得到的,因此,第一用户意图数据集间的共享特征向量涵盖了第一语音音频数据中的干扰信息,在使用第一相似度对第一用户倾向向量进行调试的过程既相当于基于第一局部音频数据中的干扰信息对各个第一用户意图数据集的第一用户倾向向量进行调试,从而可以削弱由干扰导致的第一语音音频数据中涵盖的与干扰相关的语音数据,提升了语音分析的精确性,进而提高匹配的准确性和可靠性。
示例性的,通过各个第一用户意图数据集的干扰变量确定出各第一用户意图数据集间的共享特征向量,实现了对各第一用户意图数据集之间的关系的获取,进而使用获取到的关联数据集间关系实现语音的优化,进一步的提升了语音分析的精确性,进而提高匹配的准确性和可靠性。
为了清楚地解释本公开实施例的技术方案,下面分步骤解释本公开实施例提供的视频语音分析识别处理方法,具体包括以下步骤。
针对步骤S101,待处理音频数据可以为任务语音信息、视频信息等场景中手机到的到的涵盖待处理语音的音频数据,可选的,本发实施例所指的待处理音频数据可以为对收集到的初始音频数据进行预处理后所得到的音频数据,如初始音频数据中涵盖有若干个语音交互数据,为了更有针对性的进行语音优化,可以在优化出属于语音的关联数据集后,对各个属于语音的关联数据集进行挑选,各个属于语音的关联数据集所属的剪裁音频数据及可以为本公开实施例所指的待处理音频数据。
在本公开的一个实施例中,可以通过对待处理音频数据进行语音向量校验的方式获得待处理音频数据中第一语音交互数据的语音向量,具体的校验方式可以结合实际场景确定,如可以使用配置好的语音向量校验线程型对待处理音频数据进行语音向量的校验。
在本公开的一个实施例中,在校验到初始语音交互数据的语音向量后,基于校验到的语音向量,将初始语音交互数据涵盖的语音的状态调试为在先设定状态。
针对步骤S102,第一用户意图数据集为基于语音向量所确定的,第一用户意图数据集可以涵盖语音向量的部分,也可以不涵盖语音向量,还可以涵盖全局语音向量。
针对步骤S103,第一语音交互数据中被干扰的语音异常数据集为第一语音交互数据中干扰数据所在的关联数据集。
进一步地,可以通过在先配置的干扰校验线程确定出第一语音交互数据中的被干扰的语音异常数据集。
基于第一语音交互数据中已确定的语音异常数据集,可以确定出各个第一用户意图数据集中属于语音异常数据集的一部分,进而可以分析出各个第一用户意图数据集中属于语音异常数据集的一部分在第一用户意图数据集中的比例,其中,分析出的比例既为各个第一用户意图数据集被干扰的第一干扰变量。
针对步骤S104,各个第一用户意图数据集的第一干扰变量可以对应的第一用户意图数据集的第一用户倾向向量中所涵盖的干扰信息的多少,干扰变量越多,表示第一用户意图数据集被干扰的部分越多,对于第一用户意图数据集而言,其被干扰物干扰的部分其不能用于进行语音优化,因此该第一用户意图数据集的第一用户倾向向量中涵盖的干扰信息就越多。
对于随机两个第一用户意图数据集而言,各第一用户意图数据集对另一第一用户意图数据集的第一相似度反映:该第一用户意图数据集的第一向量对另一第一用户意图数据集的第一用户倾向向量的影响程度,也就是说当一个第一用户意图数据集的干扰变量越大,其对另一个第一用户意图数据集的第一相似度越小,并且当另一个第一用户意图数据集的干扰变量越大,其对该第一用户意图数据集的第一相似度也越小。
针对步骤S105,对于语音而言,其各部分之间并不是独立存在的,既各第一用户意图数据集存在一定的相关性,因此,可以基于各第一用户意图数据集之间的相关性对各第一用户意图数据集的第一用户倾向向量进行调试。
可选的,针对一个用户意图数据集而言,对该第一用户意图数据集的第一用户倾向向量进行调试的强度与该第一用户意图数据集同其他第一用户意图数据集间的第一相似度相关,第一相似度越大,其调试的强度也越大。
针对语音优化的各张待处理音频数据而言,为了优化出该待处理在先中的语音交互数据所对应的局部的信息,需使用一个已知局部信息的关键语音数据与其进行比较,判断待处理音频数据中第一语音交互数据与关键语音数据中在先设定的第二语音交互数据所对应的局部是否相同,当相同时,则将已知的局部信息视为待处理音频数据所对应局部的局部信息,完成语音优化。
对于关键语音数据中第二语音交互数据而言,其涵盖的第二用户意图数据集、第二用户意图数据集的用户倾向向量、各第二用户意图数据集间的第二相似度、以及基于第二相似度对用户倾向向量调试所得到的第二用户倾向向量可以为在先确定的。
可选的,依照步骤S101-S104对关键语音数据进行处理,得到关键语音数据中第二语音交互数据的第二用户意图数据集的第二用户倾向向量。
在一种可能实施的实施例中,针对各个第一用户意图数据集,与该第一用户意图数据集相对应的第二用户意图数据集可以为:在第二语音交互数据中所处的定位与该第一用户意图数据集在第一语音交互数据中所处的定位相同的第二用户意图数据集,或者,关联数据集种类与该第一用户意图数据集的关联数据集种类相同的第二用户意图数据集,或者同时符合上述两个条件的第二用户意图数据集。
或者,当第一用户意图数据集的关联数据集种类为左眼关联数据集种类时,与该第一用户意图数据集相对应的第二用户意图数据集可以为:第二语音交互数据内关联数据集种类为左眼关联数据集种类的第二用户意图数据集。
在本公开的一个实施例中,上述步骤S105可以基于在先配置的人工智能线程实现,包括:将各个第一用户倾向向量、各个第一用户意图数据集间的第一相似度、各个第二用户意图数据集的用户倾向向量、各个第二用户意图数据集间的第二相似度加载至在先配置的人工智能线程,以使得人工智能线程基于各个第一相似度对各个第一用户倾向向量进行调试,得到调试后的第一用户倾向向量,并基于各个第二相似度对各个第二用户意图数据集的用户倾向向量进行调试,得到第二用户倾向向量,以及比较调试后的第一用户倾向向量与第二用户倾向向量进行比较,输出语音优化结果;获取人工智能线程输出的语音优化结果。
可选的,将各第一用户意图数据集的第一用户倾向向量、各第二用户意图数据集的用户倾向向量和记录有第一用户意图数据集间第一相似度和第二用户意图数据集间第二相似度视为人工智能线程的计算所得。
语音优化方法的基础上,本公开实施例还提供了一种语音优化方法,实现步骤S105,具体可以包括以下步骤。
S201:分析各个第一用户意图数据集调试后的第一用户倾向向量与所对应的第二用户倾向向量的共享特征向量,视为各个第一用户意图数据集对应的共享特征向量。
本步骤中,调试后的第一用户倾向向量与第二用户倾向向量的共享特征向量可以为结合第一用户倾向向量和第二用户倾向向量所对应的向量列表进行确定,通过分析第一用户倾向向量的所对应的向量列表与第二用户倾向向量所对应的向量列表的正弦共享特征向量,分析调试后的第一用户倾向向量与所对应的第二用户倾向向量的共享特征向量,可选的,正弦共享特征向量越大,共享特征向量越高。
S202:基于各个第一用户意图数据集的第一干扰变量,确定各个第一用户意图数据集的第一用户倾向向量针对第一语音交互数据的向量的置信度。
本步骤中,由前述可知,第一干扰变量越大,第一用户意图数据集的第一用户倾向向量中涵盖的干扰信息越多,第一干扰变量越大的第一用户意图数据集的第一用户倾向向量针对第一语音交互数据的向量的置信度越小。
可选的,在一种可替换的实施例中,可以在先搭建干扰变量和置信度的关联情况,在确定各个第一用户意图数据集的第一干扰变量后,确定各个第一用户意图数据集的第一干扰变量所对于的置信度。
可选的,对于一些可能实施的实施例而言,可以基于各用户意图数据集的第一干扰变量对各用户意图数据集进行评估,并将各用户意图数据集的得分的比较结果,视为各第一用户意图数据集的置信度。
可选的,在又一个实现方式中,还可以基于各个第一用户意图数据集的第一干扰变量和与所对应的第二用户意图数据集的第二干扰变量,确定各个第一用户意图数据集的第一用户倾向向量针对第一语音交互数据的向量的置信度。
S203:结合所确定的置信度,对各第一用户意图数据集对应的共享特征向量进行加权处理,得到加权处理结果,视为第一语音交互数据与第二语音交互数据的共享特征向量。
S204:结合所得到的共享特征向量,确定第一语音交互数据的语音优化结果。
本步骤中,可以配置一共享特征向量判定值,当所得到的共享特征向量大于共享特征向量判定值时,确定第一语音交互数据的语音与第二语音交互数据的语音相同,反之,不同。
语音优化方法的基础上,本公开实施例还提供了一种语音优化方法,实现步骤S105,具体可以包括如下步骤。
S301:结合各第一用户意图数据集的第一干扰变量,对各第一用户意图数据集的第一用户倾向向量进行向量拼接,得到第一拼接向量,并结合各第二用户意图数据集的第二干扰变量,对各第二用户意图数据集的第二用户倾向向量进行向量拼接,得到第二拼接向量。
本步骤中,对各第一用户意图数据集的第一用户倾向向量进行向量拼接可以基于各第一用户意图数据集的第一干扰变量进行,一般而言,第一干扰变量越大的第一用户意图数据集进行拼接时其所比例越小,第一干扰变量越小的第一用户意图数据集进行拼接时其所比例越大。具体的,可以将各第一用户意图数据集的第一向量进行向量上拼接。
对各第二用户意图数据集的第二用户倾向向量进行向量拼接与对各第一用户意图数据集的第一用户倾向向量进行拼接相似,在此不进行一一限定。
S302:分析第一拼接向量和第二拼接向量的共享特征向量。
本步骤中,可以通过第一拼接向量所对应的向量列表和第二拼接向量所对应的向量列表在向量上的差异确定第一拼接向量和第二拼接向量的共享特征向量,当第一拼接向量所对应的向量列表和第二拼接向量所对应的向量列表在向量上差异越小,第一拼接向量和第二拼接向量的共享特征向量越大。
S303:结合分析所得到的共享特征向量,确定第一语音交互数据的语音优化结果。
提供了一种对调试后的第一用户倾向向量与第二用户倾向向量进行比较的技术方案,由于先拼接向量,再对向量进行共享特征向量分析可以简化分析步骤,提高分析准确性。
在上述语音优化方法的基础上,本公开实施例还提供了一种语音优化方法,实现第一用户意图数据集的确定,具体可以包括如下步骤。
S401:结合所获取的语音向量的重要种类,以及在先设定的语音向量种类与第一用户意图数据集的关联数据集种类之间的关联情况,确定各个语音向量所属的关联数据集种类。
在先设定的语音向量种类与第一用户意图数据集的关联数据集种类之间的关联情况可以为一一关联情况。
S402:针对各个关联数据集种类,基于属于该关联数据集种类的语音向量的定位数据,获取属于该关联数据集种类的用户意图数据集的基准定位,并确定属于该关联数据集种类的用户意图数据集的基准定位与相近用户意图数据集的基准定位之间的关联数据集间差异,结合所确定的关联数据集间差异,分析属于该关联数据集种类的用户意图数据集的关联数据集向量。
本步骤中,针对各个关联数据集种类,可以分析属于该关联数据集种类的语音向量的去极化结果,将分析得到的去极化结果所对应的定位视为属于该关联数据集种类的用户意图数据集的基准定位。
确定各个关联数据集种类的用户意图数据集的基准定位后,可以分析相近用户意图数据集的关联数据集间差异,一般而言,关联数据集间差异越大,关联数据集向量也越大。
S403:基于所获取的基准定位和分析所得的关联数据集向量,确定各个基准定位所属的第一用户意图数据集。
本步骤中,第一用户意图数据集可以为矩形,此时,可以基于确定的基准定位和关联数据集向量,确定出第一用户意图数据集的实时定位。
本公开实施例提供的视频语音分析识别处理方法,在语音优化方法的有益效果的基础,可以结合各个语音交互数据实际的状态和形状确定出第一用户意图数据集,使得确定的第一用户意图数据集更加的与实际数据匹配,进一步的提升了语音分析的精确性,进而提高匹配的准确性和可靠性。
在上述语音优化方法的基础上,本公开实施例还提供了一种语音优化方法,实现第一用户倾向向量的筛选,具体可以包括如下步骤。S501:筛选待处理音频数据中第一语音交互数据的全部向量集。
S502:基于各个第一用户意图数据集在第一语音交互数据中所处的定位,确定全部向量集中与各个第一用户意图数据集对应的向量关联数据集。
本步骤中,第一语音交互数据中的各个字符在全部向量集都存在位于与其对应的定位,因此,可以结合第一语音交互数据与全部向量集之间的投影关系,确定各个第一用户意图数据集投影在全部向量集上的向量关联数据集。
S503:依照在先设定向量集向量,对各个第一用户意图数据集的向量关联数据集进行更新,生成向量为在先设定向量集向量的向量集。
S504:确定与各个第一用户意图数据集的向量集对应的语音向量,视为各个第一用户意图数据集内的语音向量。
本步骤中,可以对步骤S503获取的向量集继续进行处理,得到各个第一用户意图数据集内的语音向量。
在上述基础上,提供了一种视频语音分析识别处理装置200,应用于视频语音分析识别处理系统,所述装置包括:
变量确定模块210,用于获取待处理音频数据中第一语音交互数据的语音向量;结合所获取的语音向量,从所述第一语音交互数据中确定若干个第一用户意图数据集,并筛选各个第一用户意图数据集的第一用户倾向向量;确定所述第一语音交互数据中被干扰的语音异常数据集,并结合所确定的语音异常数据集,分析各个第一用户意图数据集被干扰的第一干扰变量;
相似度获得模块220,用于获取结合分析得到的第一干扰变量确定的各个第一用户意图数据集间的第一相似度;
结果优化模块230,用于结合所获取第一相似度调试各个第一用户倾向向量,将调试后的第一用户倾向向量与第二用户倾向向量进行比较,得到所述第一语音交互数据的语音优化结果,其中,所述第二用户倾向向量为:结合各个第二相似度对各个第二用户意图数据集的用户倾向向量进行调试所得到的向量,各个第二用户意图数据集为:关键语音数据中在先设定的第二语音交互数据内与各第一用户意图数据集相对应的关联数据集。
在上述基础上,示出了一种视频语音分析识别处理系统300,包括互相之间通信的处理器310和存储器320,所述处理器310用于从所述存储器320中读取计算机程序并执行,以实现上述的方法。
在上述基础上,还提供了一种计算机可读存储介质,其上存储的计算机程序在运行时实现上述的方法。
综上,基于上述方案,从第一语音交互数据中确定出若干个第一用户意图数据集,进而结合各个第一用户意图数据集的干扰变量分析各第一用户意图数据集间的共享特征向量,由于各第一用户意图数据集的第一相似度是基于各个第一用户意图数据集的干扰变量分析所得到的,因此,第一用户意图数据集间的共享特征向量涵盖了第一语音音频数据中的干扰信息,在使用第一相似度对第一用户倾向向量进行调试的过程既相当于基于第一局部音频数据中的干扰信息对各个第一用户意图数据集的第一用户倾向向量进行调试,从而可以削弱由干扰导致的第一语音音频数据中涵盖的与干扰相关的语音数据,提升了语音分析的精确性,进而提高匹配的准确性和可靠性。
应当理解,上述所示的系统及其模块可以利用各种方式来实现。例如,在一些实施例中,系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中,硬件部分可以利用专用逻辑来实现;软件部分则可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本申请的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用例如由各种类型的处理器所执行的软件实现,还可以由上述硬件电路和软件的结合(例如,固件)来实现。
需要说明的是,不同实施例可能产生的有益效果不同,在不同的实施例里,可能产生的有益效果可以是以上任意一种或几种的组合,也可以是其他任何可能获得的有益效果。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本申请的限定。虽然此处并没有明确说明,本领域技术人员可能会对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议,所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。
同时,本申请使用了特定词语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。
本申请各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写,包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等,常规程序化编程语言如C语言、Visual Basic、Fortran 2003、Perl、COBOL 2002、PHP、ABAP,动态编程语言如Python、Ruby和Groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非权利要求中明确说明,本申请所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设备上安装所描述的系统。
同理,应当注意的是,为了简化本申请披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本申请实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本申请对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有适应性的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本申请一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。
针对本申请引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本申请作为参考。与本申请内容不一致或产生冲突的申请历史文件除外,对本申请权利要求最广范围有限制的文件(当前或之后附加于本申请中的)也除外。需要说明的是,如果本申请附属材料中的描述、定义、和/或术语的使用与本申请所述内容有不一致或冲突的地方,以本申请的描述、定义和/或术语的使用为准。
最后,应当理解的是,本申请中所述实施例仅用以说明本申请实施例的原则。其他的变形也可能属于本申请的范围。因此,作为示例而非限制,本申请实施例的替代配置可视为与本申请的教导一致。相应地,本申请的实施例不仅限于本申请明确介绍和描述的实施例。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (8)
1.一种视频语音分析识别处理方法,其特征在于,该方法至少包括:
获取所述待处理音频数据中第一语音交互数据的语音向量;结合所获取的语音向量,从所述第一语音交互数据中确定若干个第一用户意图数据集,并筛选各个第一用户意图数据集的第一用户倾向向量;确定所述第一语音交互数据中被干扰的语音异常数据集,并结合所确定的语音异常数据集,分析各个第一用户意图数据集被干扰的第一干扰变量;
获取结合分析得到的第一干扰变量确定的各个第一用户意图数据集间的第一相似度;
结合所获取第一相似度调试各个第一用户倾向向量,将调试后的第一用户倾向向量与第二用户倾向向量进行比较,得到所述第一语音交互数据的语音优化结果,其中,所述第二用户倾向向量为:结合各个第二相似度对各个第二用户意图数据集的用户倾向向量进行调试所得到的向量,各个第二用户意图数据集为:关键语音数据中在先设定的第二语音交互数据内与各第一用户意图数据集相对应的关联数据集。
2.根据权利要求1所述的方法,其特征在于,所述将调试后的第一用户倾向向量与第二用户倾向向量进行比较,得到所述第一语音交互数据的语音优化结果,包括:
分析各个第一用户意图数据集调试后的第一用户倾向向量与所对应的第二用户倾向向量的共享特征向量,视为各个第一用户意图数据集对应的共享特征向量;
基于各个第一用户意图数据集的第一干扰变量,确定各个第一用户意图数据集的第一用户倾向向量针对所述第一语音交互数据的向量的置信度;
结合所确定的置信度,对各第一用户意图数据集对应的共享特征向量进行加权处理,得到加权处理结果,视为所述第一语音交互数据与所述第二语音交互数据的共享特征向量;
结合所得到的共享特征向量,确定所述第一语音交互数据的语音优化结果。
3.根据权利要求2所述的方法,其特征在于,所述基于各个第一用户意图数据集的第一干扰变量,确定各个第一用户意图数据集的第一用户倾向向量针对所述第一语音交互数据的向量的置信度,包括:基于各个第一用户意图数据集的第一干扰变量和与所对应的第二用户意图数据集的第二干扰变量,确定各个第一用户意图数据集的第一用户倾向向量针对所述第一语音交互数据的向量的置信度。
4.根据权利要求1所述的方法,其特征在于,所述将调试后的第一用户倾向向量与第二用户倾向向量进行比较,得到所述第一语音交互数据的语音优化结果,包括:
结合各第一用户意图数据集的第一干扰变量,对各第一用户意图数据集的第一用户倾向向量进行向量拼接,得到第一拼接向量,并结合各第二用户意图数据集的第二干扰变量,对各第二用户意图数据集的第二用户倾向向量进行向量拼接,得到第二拼接向量;
分析所述第一拼接向量和所述第二拼接向量的共享特征向量;
结合分析所得到的共享特征向量,确定所述第一语音交互数据的语音优化结果。
5.根据权利要求1所述的方法,其特征在于,所述结合所获取第一相似度调试各个第一用户倾向向量,并将调试后的第一用户倾向向量与第二用户倾向向量进行比较,得到所述第一语音交互数据的语音优化结果,包括:
将各个第一用户倾向向量、各个第一用户意图数据集间的第一相似度、各个第二用户意图数据集的用户倾向向量、各个第二用户意图数据集间的第二相似度加载至在先配置的人工智能线程,以使得所述人工智能线程基于各个第一相似度对各个第一用户倾向向量进行调试,得到调试后的第一用户倾向向量,并基于各个第二相似度对各个第二用户意图数据集的用户倾向向量进行调试,得到第二用户倾向向量,以及比较所述调试后的第一用户倾向向量与所述第二用户倾向向量进行比较,输出语音优化结果;
获取所述人工智能线程输出的所述语音优化结果。
6.根据权利要求5所述的方法,其特征在于,所述结合所获取的语音向量,从所述第一语音交互数据中确定若干个第一用户意图数据集,包括:
结合所获取的语音向量的重要种类,以及在先设定的语音向量种类与第一用户意图数据集的关联数据集种类之间的关联情况,确定各个语音向量所属的关联数据集种类;
针对各个关联数据集种类,基于属于该关联数据集种类的语音向量的定位数据,获取属于该关联数据集种类的用户意图数据集的基准定位,并确定属于该关联数据集种类的用户意图数据集的基准定位与相近用户意图数据集的基准定位之间的关联数据集间差异,结合所确定的关联数据集间差异,分析属于该关联数据集种类的用户意图数据集的关联数据集向量;
基于所获取的基准定位和分析所得的关联数据集向量,确定各个基准定位所属的第一用户意图数据集。
7.根据权利要求5所述的方法,其特征在于,所述筛选各个第一用户意图数据集内的语音向量,包括:
筛选所述待处理音频数据中第一语音交互数据的全部向量集;
基于各个第一用户意图数据集在所述第一语音交互数据中所处的定位,确定所述全部向量集中与各个第一用户意图数据集对应的向量关联数据集;
依照在先设定向量集向量,对各个第一用户意图数据集的向量关联数据集进行更新,生成向量为所述在先设定向量集向量的向量集;确定与各个第一用户意图数据集的向量集对应的语音向量,视为各个第一用户意图数据集内的语音向量。
8.一种视频语音分析识别处理系统,其特征在于,包括互相之间通信的处理器和存储器,所述处理器用于从所述存储器中读取计算机程序并执行,以实现权利要求1-7任一项所述的系统。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202211158592.0A CN115457979A (zh) | 2022-09-22 | 2022-09-22 | 一种视频语音分析识别处理方法及系统 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202211158592.0A CN115457979A (zh) | 2022-09-22 | 2022-09-22 | 一种视频语音分析识别处理方法及系统 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN115457979A true CN115457979A (zh) | 2022-12-09 |
Family
ID=84306176
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202211158592.0A Pending CN115457979A (zh) | 2022-09-22 | 2022-09-22 | 一种视频语音分析识别处理方法及系统 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN115457979A (zh) |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20050192992A1 (en) * | 2004-03-01 | 2005-09-01 | Microsoft Corporation | Systems and methods that determine intent of data and respond to the data based on the intent |
| US20160225370A1 (en) * | 2015-01-30 | 2016-08-04 | Microsoft Technology Licensing, Llc | Updating language understanding classifier models for a digital personal assistant based on crowd-sourcing |
| WO2020233363A1 (zh) * | 2019-05-22 | 2020-11-26 | 深圳壹账通智能科技有限公司 | 语音识别的方法、装置、电子设备和存储介质 |
| KR20210038860A (ko) * | 2020-06-29 | 2021-04-08 | 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 | 의도 추천 방법, 장치, 기기 및 저장매체 |
-
2022
- 2022-09-22 CN CN202211158592.0A patent/CN115457979A/zh active Pending
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20050192992A1 (en) * | 2004-03-01 | 2005-09-01 | Microsoft Corporation | Systems and methods that determine intent of data and respond to the data based on the intent |
| US20160225370A1 (en) * | 2015-01-30 | 2016-08-04 | Microsoft Technology Licensing, Llc | Updating language understanding classifier models for a digital personal assistant based on crowd-sourcing |
| WO2020233363A1 (zh) * | 2019-05-22 | 2020-11-26 | 深圳壹账通智能科技有限公司 | 语音识别的方法、装置、电子设备和存储介质 |
| KR20210038860A (ko) * | 2020-06-29 | 2021-04-08 | 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 | 의도 추천 방법, 장치, 기기 및 저장매체 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7218793B2 (ja) | プログラムの機能を向上するための制御フローシステム、非一時的可読媒体、および方法 | |
| US10761961B2 (en) | Identification of software program fault locations | |
| US20210103514A1 (en) | Reusable test cases for identifiable patterns | |
| US11734160B2 (en) | Vendor assisted customer individualized testing | |
| CN113918937B (zh) | 一种基于大数据的非法事件识别方法及系统 | |
| US20140181835A1 (en) | Hybrid dependency analysis using dynamic and static analyses | |
| CN113903473A (zh) | 基于人工智能的医疗信息智能交互的方法及系统 | |
| Wloka et al. | Smiler: Saliency model implementation library for experimental research | |
| CN116112746B (zh) | 在线教育直播视频压缩方法及系统 | |
| US11768265B2 (en) | Harmonizing diffusion tensor images using machine learning | |
| CN115457979A (zh) | 一种视频语音分析识别处理方法及系统 | |
| US9436587B2 (en) | Test context generation | |
| CN119475045A (zh) | 基于大数据的泥石流孕灾条件分析方法及系统 | |
| CN115514570B (zh) | 一种网络诊断处理方法、系统及云平台 | |
| US12298890B2 (en) | Generation device, method of generation, and computer program product | |
| CN115481197B (zh) | 一种分布式数据处理方法、系统及云平台 | |
| CN118540922A (zh) | 车载影像系统的电磁干扰屏蔽方法及系统 | |
| CN115545749A (zh) | 基于人工智能的电商用户兴趣分析方法及系统 | |
| CN114691830B (zh) | 一种基于大数据的网络安全分析方法及系统 | |
| CN115658958A (zh) | 基于大数据的语音数据挖掘方法及系统 | |
| CN115079882B (zh) | 基于虚拟现实的人机交互处理方法及系统 | |
| CN113613252B (zh) | 基于5g的网络安全的分析方法及系统 | |
| CN115345143B (zh) | 基于数据中心的能耗检测方法及系统 | |
| CN119475430A (zh) | 一种基于区块链的数据安全高效溯源方法及系统 | |
| CN114329209B (zh) | 结合创新资源数据的画像分析方法及系统 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| WD01 | Invention patent application deemed withdrawn after publication | ||
| WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20221209 |