CN108846378A - 手语识别处理方法及装置 - Google Patents
手语识别处理方法及装置 Download PDFInfo
- Publication number
- CN108846378A CN108846378A CN201810719202.XA CN201810719202A CN108846378A CN 108846378 A CN108846378 A CN 108846378A CN 201810719202 A CN201810719202 A CN 201810719202A CN 108846378 A CN108846378 A CN 108846378A
- Authority
- CN
- China
- Prior art keywords
- gesture
- sign language
- semantic information
- semantic
- gesture motion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明提供一种手语识别处理方法及装置,通过摄像头采集手语人士进行手语沟通的视频数据,从视频数据中提取包括手势动作的关键图像帧,采用手势识别模型对关键图像帧中的手势动作进行识别,得到手势动作对应的语义信息,采用AR技术在三维空间中向与手语人士沟通的用户展示语义信息。通过上述手势识别和展示过程,实现无手语基础的用户快速获取手势动作对应的语义信息,提高了沟通效率。
Description
技术领域
本发明实施例涉及手势识别及增强现实技术领域,尤其涉及一种手语识别处理方法及装置。
背景技术
目前聋哑残障人士与无手语基础的人之间只能通过简单比划的方式(例如绘画、文字书写、动作比划)进行一些基础的沟通,或者,在翻译人员在场的情况下,进行现场手语翻译。
上述第一种沟通方式相对简单,但沟通效率低;上述第二种沟通方式需要翻译人员陪同,耗费人力,翻译人员不在场的情况下,聋哑残障人士与无手语基础的人之间沟通困难。
随着图像识别、手势识别技术的发展,使得机器设备识别手势动作成为可能,为了便于聋哑残障人士与无手语基础的人进行无障碍沟通,急需一种能够翻译手语动作并实时进行翻译结果展示的方法及装置。
发明内容
本发明提供的手语识别处理方法及装置,实现无手语基础的用户快速获取手势动作对应的语义信息,提高了沟通效率。
本发明第一方面提供一种手语识别处理方法,包括:
通过摄像头采集手语人士进行手语沟通的视频数据;
从所述视频数据中提取包含手势动作的关键图像帧;
采用手势识别模型对所述关键图像帧中的手势动作进行识别,得到所述手势动作对应的语义信息;
采用AR技术在三维空间中向与所述手语人士沟通的用户展示所述语义信息。
可选的,所述从所述视频数据中提取包含手势动作的关键图像帧,包括:
从所述视频数据的全部图像帧中,剔除不包含手势动作的图像帧,得到第一图像集合;
从所述第一图像集合中剔除图像清晰度低于预设阈值的图像,得到包含所述手势动作的关键图像帧。
可选的,所述采用手势识别模型对所述关键图像帧中的手势动作进行识别,得到所述手势动作对应的语义信息,包括:
采用手势识别模型对至少两个所述关键图像帧中的手势动作进行识别,得到与各个手势动作分别对应的语义信息;
采用语义分析模型以及所述至少两个关键图像帧的帧时序,对全部手势动作的语义信息进行逻辑表达分析,得到语义信息的逻辑表达。
可选的,所述采用AR技术在三维空间中向与所述手语人士沟通的用户展示所述语义信息,包括:
通过摄像头采集所述手语人士的第一视频信息;
在显示界面上显示所述第一视频信息,并采用AR技术将所述语义信息叠加在所述第一视频信息上进行显示。
可选的,所述语义信息的展示形式为文本形式和/或语音形式。
可选的,所述方法还包括:
接收所述用户输入的表达语句;
对所述表达语句进行切词处理,得到至少一个语义信息;
采用标准手势数据库,确定与所述至少一个语义信息对应的手势动作;
采用AR技术在三维空间中向所述手语人士展示所述手势动作。
可选的,所述表达语句的输入形式包括:文本形式或语音形式。
可选的,所述采用标准手势数据库,确定与所述至少一个语义信息对应的手势动作,包括:
采用标准手势数据库,得到与至少两个所述语义信息对应的手势动作;
采用手势分析模型以及所述至少两个语义信息的输入顺序,对全部语义信息进行手语表达分析,得到手势动作的展示顺序。
可选的,所述采用AR技术在三维空间中向所述手语人士展示所述手势动作,包括:
通过摄像头采集所述用户的第二视频信息;
在显示界面上显示所述第二视频信息,并采用AR技术将所述手势动作叠加在所述第二视频信息上进行显示。
本发明第二方面提供一种手语识别处理装置,包括:
采集模块,用于通过摄像头采集手语人士进行手语沟通的视频数据;
提取模块,用于从所述视频数据中提取包含手势动作的关键图像帧;
手势识别模块,用于采用手势识别模型对所述关键图像帧中的手势动作进行识别,得到所述手势动作对应的语义信息;
展示模块,用于采用AR技术在三维空间中向与所述手语人士沟通的用户展示所述语义信息。
可选的,所述提取模块,具体用于从所述视频数据的全部图像帧中,剔除不包含手势动作的图像帧,得到第一图像集合;
从所述第一图像集合中剔除图像清晰度低于预设阈值的图像,得到包含所述手势动作的关键图像帧。
可选的,所述手势识别模块,具体用于采用手势识别模型对至少两个所述关键图像帧中的手势动作进行识别,得到与各个手势动作分别对应的语义信息;
采用语义分析模型以及所述至少两个关键图像帧的帧时序,对全部手势动作的语义信息进行逻辑表达分析,得到语义信息的逻辑表达。
可选的,所述采集模块,还用于采集所述手语人士的第一视频信息;
所述展示模块,具体用于在显示界面上显示所述第一视频信息,并采用AR技术将所述语义信息叠加在所述第一视频信息上进行显示。
可选的,所述语义信息的展示形式为文本形式和/或语音形式。
可选的,所述装置还包括:
接收模块,用于接收所述用户输入的表达语句;
语义处理模块,用于对所述表达语句进行切词处理,得到至少一个语义信息;
语义翻译模块,用于采用手势识别模型,确定与所述至少一个语义信息对应的手势动作;
所述展示模块,还用于采用AR技术在三维空间中向所述手语人士展示所述手势动作。
可选的,所述表达语句的输入形式包括:文本形式或语音形式。
可选的,所述语义翻译模块,具体用于采用标准手势数据库,得到与至少两个所述语义信息对应的手势动作;
采用手势分析模型以及所述至少两个语义信息的输入顺序,对全部语义信息进行手语表达分析,得到手势动作的展示顺序。
可选的,所述采集模块,还用于采集所述用户的第二视频信息;
所述展示模块,具体用于在显示界面上显示所述第二视频信息,并采用AR技术将所述手势动作叠加在所述第二视频信息上进行显示。
本发明第三方面提供一种手语识别处理设备,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如本发明第一方面任一项所述的方法。
本发明第四方面提供一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行以实现如本发明第一方面任一项所述的方法。
本发明实施例提供的手语识别处理方法及装置,通过摄像头采集手语人士进行手语沟通的视频数据,从视频数据中提取包括手势动作的关键图像帧,采用手势识别模型对关键图像帧中的手势动作进行识别,得到手势动作对应的语义信息,采用AR技术在三维空间中向与手语人士沟通的用户展示语义信息。通过上述手势识别和展示过程,实现无手语基础的用户快速获取手势动作对应的语义信息,提高了沟通效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1为本发明一实施例提供的手语识别处理方法的流程图;
图2为本发明另一实施例提供的手语识别处理方法的流程图;
图3为本发明一实施例提供的手语识别处理装置的结构示意图;
图4为本发明另一实施例提供的手语识别处理装置的结构示意图;
图5为本发明一实施例提供的手语识别处理设备的硬件结构图。
通过上述附图,已示出本发明明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
本发明的说明书和权利要求书中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明中的“第一”和“第二”只起标识作用,而不能理解为指示或暗示顺序关系、相对重要性或者隐含指明所指示的技术特征的数量。“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本发明的说明书中通篇提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一实施例中”或“本实施例中”未必一定指相同的实施例。需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
图1为本发明一实施例提供的手语识别处理方法的流程图,如图1所示,本实施例提供的手语识别处理方法包括如下步骤:
S101、通过摄像头采集手语人士进行手语沟通的视频数据;
用户通过AR眼镜或智能终端设备上的摄像头,采集手语人士进行手语沟通的视频数据,其中视频数据包括多张图像帧。
S102、从视频数据中提取包含手势动作的关键图像帧;
从视频数据的多张图像帧中,剔除不包含手势动作的图像帧,得到第一图像集合;从第一图像集合中剔除图像清晰度低于预设图像清晰度阈值的图像帧,得到包含手势动作的关键图像帧。
S103、采用手势识别模型对关键图像帧中的手势动作进行识别,得到手势动作对应的语义信息;
本步骤中,采用手势识别模型对至少两个关键图像帧中的手势动作进行识别,得到与各个手势动作分别对应的语义信息;
具体的,将各关键图像帧依次输入到预先训练好的手势识别模型中,手势识别模型提取关键图像帧中手势动作的特征图,与模型学习过的标准手势动作的特征进行比对,当特征相似度大于预设相似度时,获取标准手势动作对应的语义信息,并将该语义信息作为关键图像帧中的手势动作对应的语义信息输出。
通过手势识别模型的上述分析过程,对至少两个关键图像帧中的手势动作进行识别,得到与各个手势动作对应的语义信息。
本实施例中,手势识别模型是经大量手势样本训练得到的。首先将标准手势样本导入到模型中,对模型进行预训练;再将不同用户的手势样本导入到模型中,进行二次训练,当模型识别的准确率达到预设准确率时,停止训练。
可选的,当出现新的手势动作时,可以将新的手势样本导入到上述训练好的模型中,进行再次训练,实现对手势识别模型的更新。
示例性的,手势识别模型通过特征比对,确定关键图像帧1中的手势动作为标准手势动作A;确定关键图像帧2中的手势动作为标准手势动作B;确定关键图像帧3中的手势动作为标准手势动作C。其中,手势识别模型通过学习可以获知标准手势动作A对应的语义信息为“我”,标准手势动作B对应的语义信息为“你”,标准手势动作C对应的语义信息为“出发”。
进一步的,采用语义分析模型以及至少两个关键图像帧的帧时序,对全部手势动作的语义信息进行逻辑表达分析,得到语义信息的逻辑表达。
其中,语义分析模型用于对各个关键图像帧中手势动作对应的语义信息进行逻辑表达顺序的调整,或者,对相关语义信息进行语义合并,具体执行功能根据具体情况而定,对此本实施例不作具体限定。
结合上述实例,假设关键图像帧的帧时序为图像帧1→图像帧2→图像帧3,根据各关键图像帧中手势动作对应的语义信息以及帧时序,可以确定全部手势动作的语义信息为“我你出发”,采用语义分析模型对全部手势动作的语义信息进行逻辑表达分析,得到符合语言逻辑表达的语义信息“我们出发”。
在上述实例中,手势动作与语义信息是一一对应的关系。
需要指出的是,有时手势识别模型需要通过多个相邻关键图像帧中的手势动作才能确定一条语义信息,也就是说,手势动作与语义信息是多对一的关系,例如连续的手势动作D、E、F对应的语义信息是“把之前的事情丢在脑后”。
对于手势动作与语义信息的对应关系,本实施例不作具体限定,只要手势识别模型能够确定各个关键图像帧中的手势动作对应的语义信息即可。
S104、采用AR技术在三维空间中向与手语人士沟通的用户展示语义信息。
在确定手语人士的语义信息之后,通过摄像头采集手语人士的第一视频信息,并在显示界面上显示第一视频信息,采用AR技术将S103中确定的语义信息叠加在第一视频信息上进行显示。
可选的,语义信息的展示方式为文本形式和/或语音形式。用户通过AR眼镜或者终端设备显示界面上显示的字幕,或者,AR眼镜或终端设备播放的语音信息,理解手语人士表达的语义信息,实现实时手语翻译,提高了沟通效率。
本实施例提供的手语识别处理方法,通过摄像头采集手语人士进行手语沟通的视频数据,从视频数据中提取包括手势动作的关键图像帧,采用手势识别模型对关键图像帧中的手势动作进行识别,得到手势动作对应的语义信息,采用AR技术在三维空间中向与手语人士沟通的用户展示语义信息。通过上述手势识别和展示过程,实现无手语基础的用户快速获取手势动作对应的语义信息,提高了沟通效率。
为了进一步实现无手语基础的人士与聋哑残障人士之间无障碍的沟通,在上述实施例的基础上,本实施例提供的手语识别处理方法,在用户理解手语人士的手势动作之后,用户发出表达语句以响应手语人士,AR眼镜或终端设备根据用户输入的表达语句,确定手势动作并展示给手语人士,实现手语人士快速理解用户的表达。
下面结合具体实施例和附图对本实施例提供的手语识别处理方法做详细说明。
图2为本发明另一实施例提供的手语识别处理方法的流程图,如图3所示,在上述实施例步骤的基础上,本实施例提供的手语识别处理方法还包括如下步骤:
S201、接收用户输入的表达语句;
其中,表达语句的输入形式包括:文本形式或语音形式。
S202、对表达语句进行切词处理,得到至少一个语义信息;
若表达语句的输入形式为文本形式,则直接对表达语句进行切词处理,得到至少一个语义信息;
若表达语句的输入形式为语音形式,则先将语音信息转换文本信息,再对文本信息进行切词处理,得到至少一个语义信息。
示例性的,用户输入的表达语句为“我们明天出发”,通过切词处理后,得到3个语义信息,分别是“我们”、“明天”、“出发”。
S203、采用标准手势数据库,确定与至少一个语义信息对应的手势动作;
本步骤中,采用标准手势数据库,得到与至少两个所述语义信息对应的手势动作;其中,标准手势数据库包括语义信息与标准手势动作的对应关系,同上述实施例,语义信息与标准手势动作的对应关系为一对一,或者,一对多,对此本实施例不作具体限定。
根据S202切词处理后的至少一个语义信息和标准手势数据库,确定各个语义信息对应的标准手势动作。
结合上述实例,根据标准手势数据库,确定语义信息“我们”对应两个标准手势动作A和B,语义信息“明天”对应标准手势动作G,语义信息“出发”对应标准手势动作C。
进一步的,采用手势分析模型以及至少两个语义信息的输入顺序,对全部语义信息进行手语表达分析,得到手势动作的展示顺序。
其中,手势分析模型用于对至少两个语义信息对应的手势动作进行手语表达顺序的调整。
本实施例中,手语表达顺序与语义表达顺序可以相同,也可以不同,对此本实施例不作具体限定。
结合上述实例,按照语义表达顺序确定的标准手势动作的展示顺序为A→B→G→C,采用手语分析模型对上述3个语义信息“我们”、“明天”、“出发”对应的标准手势动作进行手语表达分析,得到符合手语表达顺序的标准手势动作的展示顺序为G→A→B→C,可见,此实例中手语表达顺序与语义表达顺序不完全相同。
S204、采用AR技术在三维空间中向手语人士展示手势动作。
在确定用户输入的表达语句对应的标准手势动作之后,通过摄像头采集用户的第二视频信息;在显示界面上显示第二视频信息,并采用AR技术将S203中确定的标准手势动作叠加在第二视频信息上进行显示。
可选的,本实施例中的标准手势动作可以是静态手势动作,也可以是动态手势动作,对此本实施例不作具体限定。
本实施例提供的手语识别处理方法,通过接收用户输入的表达语句,对表达语句进行切词处理,得到至少一个语义信息,采用标准手势数据库,确定与至少一个语义信息对应的手势动作,采用AR技术在三维空间中向手语人士展示标准手势动作。通过上述处理过程,实现手语人士快速获取用户表达语句中语义信息对应的手势动作,提高了沟通效率。
本发明实施例还提供一种手语识别处理装置,请参见图3所示,本发明实施例仅以图3为例进行说明,并不表示本发明仅限于此。
图3为本发明一实施例提供的手语识别处理装置的结构示意图。如图3所示,本实施例提供的手语识别处理装置30包括:
采集模块301,用于通过摄像头采集手语人士进行手语沟通的视频数据;
提取模块302,用于从所述视频数据中提取包含手势动作的关键图像帧;
手势识别模块303,用于采用手势识别模型对所述关键图像帧中的手势动作进行识别,得到所述手势动作对应的语义信息;
展示模块304,用于采用AR技术在三维空间中向与所述手语人士沟通的用户展示所述语义信息。
本实施例的装置,可以用于执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
可选的,所述提取模块302,具体用于从所述视频数据的全部图像帧中,剔除不包含手势动作的图像帧,得到第一图像集合;
从所述第一图像集合中剔除图像清晰度低于预设阈值的图像,得到包含所述手势动作的关键图像帧。
可选的,所述手势识别模块303,具体用于采用手势识别模型对至少两个所述关键图像帧中的手势动作进行识别,得到与各个手势动作分别对应的语义信息;
采用语义分析模型以及所述至少两个关键图像帧的帧时序,对全部手势动作的语义信息进行逻辑表达分析,得到语义信息的逻辑表达。
可选的,所述采集模块301,还用于采集所述手语人士的第一视频信息;
所述展示模块304,具体用于在显示界面上显示所述第一视频信息,并采用AR技术将所述语义信息叠加在所述第一视频信息上进行显示。
可选的,所述语义信息的展示形式为文本形式和/或语音形式。
图4为本发明另一实施例提供的手语识别处理装置的结构示意图,在图3所示装置的基础上,如图4所示,本实施例提供的手语识别处理装置30,还包括:
接收模块305,用于接收所述用户输入的表达语句;
语义处理模块306,用于对所述表达语句进行切词处理,得到至少一个语义信息;
语义翻译模块307,用于采用手势识别模型,确定与所述至少一个语义信息对应的手势动作;
所述展示模块304,还用于采用AR技术在三维空间中向所述手语人士展示所述手势动作。
可选的,所述表达语句的输入形式包括:文本形式或语音形式。
可选的,所述语义翻译模块307,具体用于采用标准手势数据库,得到与至少两个所述语义信息对应的手势动作;
采用手势分析模型以及所述至少两个语义信息的输入顺序,对全部语义信息进行手语表达分析,得到手势动作的展示顺序。
可选的,所述采集模块301,还用于采集所述用户的第二视频信息;
所述展示模块304,具体用于在显示界面上显示所述第二视频信息,并采用AR技术将所述手势动作叠加在所述第二视频信息上进行显示。
本发明实施例还提供一种手语识别处理设备,请参见图5所示,本发明实施例仅以图5为例进行说明,并不表示本发明仅限于此。
图5为本发明一实施例提供的手语识别处理设备的硬件结构图,如图5所示,本实施例提供的手语识别处理设备50包括:存储器501、处理器502和总线503。其中,总线503用于实现各元件之间的连接。
存储器501中存储有计算机程序,计算机程序被处理器502执行时可以实现上述任一方法实施例提供的手语识别处理方法的技术方案。
其中,存储器501和处理器502之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可以通过一条或者多条通信总线或信号线实现电性连接,如可以通过总线503连接。存储器501中存储有实现手语识别处理方法的技术方案的计算机程序,包括至少一个可以软件或固件的形式存储于存储器501中的软件功能模块,处理器502通过运行存储在存储器501内的软件程序以及模块,从而执行各种功能应用以及数据处理。
存储器501可以是,但不限于,随机存取存储器(Random Access Memory,简称:RAM),只读存储器(Read Only Memory,简称:ROM),可编程只读存储器(ProgrammableRead-Only Memory,简称:PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,简称:EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,简称:EEPROM)等。其中,存储器501用于存储程序,处理器502在接收到执行指令后,执行程序。进一步地,上述存储器501内的软件程序以及模块还可包括操作系统,其可包括各种用于管理系统任务(例如内存管理、存储设备控制、电源管理等)的软件组件和/或驱动,并可与各种硬件或软件组件相互通信,从而提供其他软件组件的运行环境。
处理器502可以是一种集成电路芯片,具有信号的处理能力。上述的处理器502可以是通用处理器,包括中央处理器(Central Processing Unit,简称:CPU)、网络处理器(Network Processor,简称:NP)等。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。可以理解,图5的结构仅为示意,还可以包括比图5中所示更多或者更少的组件,或者具有与图5所示不同的配置。图5中所示的各组件可以采用硬件和/或软件实现。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时可以实现上述任一方法实施例提供的手语识别处理方法。
本实施例中的计算机可读存储介质可以是计算机能够存取的任何可用介质,或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备,可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如SSD)等。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (20)
1.一种手语识别处理方法,其特征在于,包括:
通过摄像头采集手语人士进行手语沟通的视频数据;
从所述视频数据中提取包含手势动作的关键图像帧;
采用手势识别模型对所述关键图像帧中的手势动作进行识别,得到所述手势动作对应的语义信息;
采用AR技术在三维空间中向与所述手语人士沟通的用户展示所述语义信息。
2.根据权利要求1所述的方法,其特征在于,所述从所述视频数据中提取包含手势动作的关键图像帧,包括:
从所述视频数据的全部图像帧中,剔除不包含手势动作的图像帧,得到第一图像集合;
从所述第一图像集合中剔除图像清晰度低于预设阈值的图像,得到包含所述手势动作的关键图像帧。
3.根据权利要求1所述的方法,其特征在于,所述采用手势识别模型对所述关键图像帧中的手势动作进行识别,得到所述手势动作对应的语义信息,包括:
采用手势识别模型对至少两个所述关键图像帧中的手势动作进行识别,得到与各个手势动作分别对应的语义信息;
采用语义分析模型以及所述至少两个关键图像帧的帧时序,对全部手势动作的语义信息进行逻辑表达分析,得到语义信息的逻辑表达。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述采用AR技术在三维空间中向与所述手语人士沟通的用户展示所述语义信息,包括:
通过摄像头采集所述手语人士的第一视频信息;
在显示界面上显示所述第一视频信息,并采用AR技术将所述语义信息叠加在所述第一视频信息上进行显示。
5.根据权利要求4所述的方法,其特征在于,所述语义信息的展示形式为文本形式和/或语音形式。
6.根据权利要求1-3任一项所述的方法,其特征在于,还包括:
接收所述用户输入的表达语句;
对所述表达语句进行切词处理,得到至少一个语义信息;
采用标准手势数据库,确定与所述至少一个语义信息对应的手势动作;
采用AR技术在三维空间中向所述手语人士展示所述手势动作。
7.根据权利要求6所述的方法,其特征在于,所述表达语句的输入形式包括:文本形式或语音形式。
8.根据权利要求6所述的方法,其特征在于,所述采用标准手势数据库,确定与所述至少一个语义信息对应的手势动作,包括:
采用标准手势数据库,得到与至少两个所述语义信息对应的手势动作;
采用手势分析模型以及所述至少两个语义信息的输入顺序,对全部语义信息进行手语表达分析,得到手势动作的展示顺序。
9.根据权利要求6所述的方法,其特征在于,所述采用AR技术在三维空间中向所述手语人士展示所述手势动作,包括:
通过摄像头采集所述用户的第二视频信息;
在显示界面上显示所述第二视频信息,并采用AR技术将所述手势动作叠加在所述第二视频信息上进行显示。
10.一种手语识别处理装置,其特征在于,包括:
采集模块,用于通过摄像头采集手语人士进行手语沟通的视频数据;
提取模块,用于从所述视频数据中提取包含手势动作的关键图像帧;
手势识别模块,用于采用手势识别模型对所述关键图像帧中的手势动作进行识别,得到所述手势动作对应的语义信息;
展示模块,用于采用AR技术在三维空间中向与所述手语人士沟通的用户展示所述语义信息。
11.根据权利要求10所述的装置,其特征在于,
所述提取模块,具体用于从所述视频数据的全部图像帧中,剔除不包含手势动作的图像帧,得到第一图像集合;
从所述第一图像集合中剔除图像清晰度低于预设阈值的图像,得到包含所述手势动作的关键图像帧。
12.根据权利要求11所述的装置,其特征在于,
所述手势识别模块,具体用于采用手势识别模型对至少两个所述关键图像帧中的手势动作进行识别,得到与各个手势动作分别对应的语义信息;
采用语义分析模型以及所述至少两个关键图像帧的帧时序,对全部手势动作的语义信息进行逻辑表达分析,得到语义信息的逻辑表达。
13.根据权利要求10-12任一项所述的装置,其特征在于,
所述采集模块,还用于采集所述手语人士的第一视频信息;
所述展示模块,具体用于在显示界面上显示所述第一视频信息,并采用AR技术将所述语义信息叠加在所述第一视频信息上进行显示。
14.根据权利要求13所述的装置,其特征在于,所述语义信息的展示形式为文本形式和/或语音形式。
15.根据权利要求10-12任一项所述的装置,其特征在于,还包括:
接收模块,用于接收所述用户输入的表达语句;
语义处理模块,用于对所述表达语句进行切词处理,得到至少一个语义信息;
语义翻译模块,用于采用手势识别模型,确定与所述至少一个语义信息对应的手势动作;
所述展示模块,还用于采用AR技术在三维空间中向所述手语人士展示所述手势动作。
16.根据权利要求15所述的装置,其特征在于,所述表达语句的输入形式包括:文本形式或语音形式。
17.根据权利要求15所述的装置,其特征在于,
所述语义翻译模块,具体用于采用标准手势数据库,得到与至少两个所述语义信息对应的手势动作;
采用手势分析模型以及所述至少两个语义信息的输入顺序,对全部语义信息进行手语表达分析,得到手势动作的展示顺序。
18.根据权利要求15所述的装置,其特征在于,
所述采集模块,还用于采集所述用户的第二视频信息;
所述展示模块,具体用于在显示界面上显示所述第二视频信息,并采用AR技术将所述手势动作叠加在所述第二视频信息上进行显示。
19.一种手语识别处理设备,其特征在于,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如权利要求1-9任一项所述的方法。
20.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行以实现如权利要求1-9任一项所述的方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201810719202.XA CN108846378A (zh) | 2018-07-03 | 2018-07-03 | 手语识别处理方法及装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201810719202.XA CN108846378A (zh) | 2018-07-03 | 2018-07-03 | 手语识别处理方法及装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN108846378A true CN108846378A (zh) | 2018-11-20 |
Family
ID=64200277
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201810719202.XA Pending CN108846378A (zh) | 2018-07-03 | 2018-07-03 | 手语识别处理方法及装置 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN108846378A (zh) |
Cited By (15)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109920309A (zh) * | 2019-01-16 | 2019-06-21 | 深圳壹账通智能科技有限公司 | 手语转换方法、装置、存储介质和终端 |
| CN110322760A (zh) * | 2019-07-08 | 2019-10-11 | 北京达佳互联信息技术有限公司 | 语音数据生成方法、装置、终端及存储介质 |
| CN110602516A (zh) * | 2019-09-16 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 基于视频直播的信息交互方法、装置及电子设备 |
| CN110931042A (zh) * | 2019-11-14 | 2020-03-27 | 北京欧珀通信有限公司 | 同声传译方法、装置、电子设备以及存储介质 |
| CN111310530A (zh) * | 2018-12-12 | 2020-06-19 | 百度在线网络技术(北京)有限公司 | 手语与语音转换的方法、装置、存储介质和终端设备 |
| CN112183217A (zh) * | 2020-09-02 | 2021-01-05 | 鹏城实验室 | 手势识别方法、基于手势识别的交互方法与混合现实眼镜 |
| CN112699758A (zh) * | 2020-12-23 | 2021-04-23 | 平安银行股份有限公司 | 基于动态手势识别的手语翻译方法、装置、计算机设备及存储介质 |
| CN112825125A (zh) * | 2019-11-21 | 2021-05-21 | 京东数字科技控股有限公司 | 手语识别方法及装置、计算机存储介质、电子设备 |
| CN113515191A (zh) * | 2021-05-12 | 2021-10-19 | 中国工商银行股份有限公司 | 基于手语识别与合成的信息交互方法和装置 |
| CN114785977A (zh) * | 2021-02-05 | 2022-07-22 | 联想(新加坡)私人有限公司 | 使用计算机视觉控制视频数据内容 |
| CN114898468A (zh) * | 2022-05-26 | 2022-08-12 | 平安普惠企业管理有限公司 | 手语转译的方法、装置、计算机设备及存储介质 |
| CN115079818A (zh) * | 2022-05-07 | 2022-09-20 | 北京聚力维度科技有限公司 | 一种手部捕捉方法和系统 |
| CN115661927A (zh) * | 2022-10-25 | 2023-01-31 | 维沃移动通信有限公司 | 手语识别方法、装置、电子设备及存储介质 |
| CN116071822A (zh) * | 2023-01-03 | 2023-05-05 | 科大讯飞股份有限公司 | 一种手语识别方法及相关装置、设备、存储介质 |
| CN119065502A (zh) * | 2024-08-27 | 2024-12-03 | 上海德天数码展示设备有限公司 | 用于展示设备的人机互动系统及方法 |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN101605399A (zh) * | 2008-06-13 | 2009-12-16 | 英华达(上海)电子有限公司 | 一种实现手语识别的移动终端及方法 |
| CN103116576A (zh) * | 2013-01-29 | 2013-05-22 | 安徽安泰新型包装材料有限公司 | 一种语音手势交互翻译装置及其控制方法 |
| EP2818978A1 (en) * | 2013-06-28 | 2014-12-31 | Orange | System and method for gesture disambiguation |
| CN104331929A (zh) * | 2014-10-29 | 2015-02-04 | 深圳先进技术研究院 | 基于视频地图与增强现实的犯罪现场还原方法 |
| CN107608649A (zh) * | 2017-11-02 | 2018-01-19 | 泉州创景视迅数字科技有限公司 | 一种ar增强现实智能图像识别展示内容系统及使用方法 |
-
2018
- 2018-07-03 CN CN201810719202.XA patent/CN108846378A/zh active Pending
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN101605399A (zh) * | 2008-06-13 | 2009-12-16 | 英华达(上海)电子有限公司 | 一种实现手语识别的移动终端及方法 |
| CN103116576A (zh) * | 2013-01-29 | 2013-05-22 | 安徽安泰新型包装材料有限公司 | 一种语音手势交互翻译装置及其控制方法 |
| EP2818978A1 (en) * | 2013-06-28 | 2014-12-31 | Orange | System and method for gesture disambiguation |
| CN104331929A (zh) * | 2014-10-29 | 2015-02-04 | 深圳先进技术研究院 | 基于视频地图与增强现实的犯罪现场还原方法 |
| CN107608649A (zh) * | 2017-11-02 | 2018-01-19 | 泉州创景视迅数字科技有限公司 | 一种ar增强现实智能图像识别展示内容系统及使用方法 |
Cited By (18)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN111310530A (zh) * | 2018-12-12 | 2020-06-19 | 百度在线网络技术(北京)有限公司 | 手语与语音转换的方法、装置、存储介质和终端设备 |
| CN109920309A (zh) * | 2019-01-16 | 2019-06-21 | 深圳壹账通智能科技有限公司 | 手语转换方法、装置、存储介质和终端 |
| CN110322760A (zh) * | 2019-07-08 | 2019-10-11 | 北京达佳互联信息技术有限公司 | 语音数据生成方法、装置、终端及存储介质 |
| CN110602516A (zh) * | 2019-09-16 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 基于视频直播的信息交互方法、装置及电子设备 |
| CN110931042B (zh) * | 2019-11-14 | 2022-08-16 | 北京欧珀通信有限公司 | 同声传译方法、装置、电子设备以及存储介质 |
| CN110931042A (zh) * | 2019-11-14 | 2020-03-27 | 北京欧珀通信有限公司 | 同声传译方法、装置、电子设备以及存储介质 |
| CN112825125A (zh) * | 2019-11-21 | 2021-05-21 | 京东数字科技控股有限公司 | 手语识别方法及装置、计算机存储介质、电子设备 |
| CN112183217A (zh) * | 2020-09-02 | 2021-01-05 | 鹏城实验室 | 手势识别方法、基于手势识别的交互方法与混合现实眼镜 |
| CN112699758A (zh) * | 2020-12-23 | 2021-04-23 | 平安银行股份有限公司 | 基于动态手势识别的手语翻译方法、装置、计算机设备及存储介质 |
| CN112699758B (zh) * | 2020-12-23 | 2023-11-17 | 平安银行股份有限公司 | 动态手势识别的手语翻译方法、装置、计算机设备及介质 |
| CN114785977A (zh) * | 2021-02-05 | 2022-07-22 | 联想(新加坡)私人有限公司 | 使用计算机视觉控制视频数据内容 |
| CN113515191A (zh) * | 2021-05-12 | 2021-10-19 | 中国工商银行股份有限公司 | 基于手语识别与合成的信息交互方法和装置 |
| CN113515191B (zh) * | 2021-05-12 | 2024-11-22 | 中国工商银行股份有限公司 | 基于手语识别与合成的信息交互方法和装置 |
| CN115079818A (zh) * | 2022-05-07 | 2022-09-20 | 北京聚力维度科技有限公司 | 一种手部捕捉方法和系统 |
| CN114898468A (zh) * | 2022-05-26 | 2022-08-12 | 平安普惠企业管理有限公司 | 手语转译的方法、装置、计算机设备及存储介质 |
| CN115661927A (zh) * | 2022-10-25 | 2023-01-31 | 维沃移动通信有限公司 | 手语识别方法、装置、电子设备及存储介质 |
| CN116071822A (zh) * | 2023-01-03 | 2023-05-05 | 科大讯飞股份有限公司 | 一种手语识别方法及相关装置、设备、存储介质 |
| CN119065502A (zh) * | 2024-08-27 | 2024-12-03 | 上海德天数码展示设备有限公司 | 用于展示设备的人机互动系统及方法 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN108846378A (zh) | 手语识别处理方法及装置 | |
| CN116824278B (zh) | 图像内容分析方法、装置、设备和介质 | |
| CN111626126B (zh) | 一种人脸情绪识别的方法、装置、介质及电子设备 | |
| EP3872652A2 (en) | Method and apparatus for processing video, electronic device, medium and product | |
| CN108052577A (zh) | 一种通用文本内容挖掘方法、装置、服务器及存储介质 | |
| CN115858941B (zh) | 搜索方法、装置、电子设备以及存储介质 | |
| WO2020103899A1 (zh) | 用于生成图文信息的方法和用于生成图像数据库的方法 | |
| CN112100438A (zh) | 一种标签抽取方法、设备及计算机可读存储介质 | |
| CN111696176A (zh) | 图像处理方法、装置、电子设备及计算机可读介质 | |
| CN118172712B (zh) | 视频总结方法、大模型训练方法、装置和电子设备 | |
| Camgöz et al. | Sign language recognition for assisting the deaf in hospitals | |
| CN116662495A (zh) | 问答处理方法、训练问答处理模型的方法及装置 | |
| CN112085120A (zh) | 多媒体数据的处理方法、装置、电子设备及存储介质 | |
| CN114911910A (zh) | 问答系统、方法、电子设备及存储介质 | |
| CN110363206B (zh) | 数据对象的聚类、数据处理及数据识别方法 | |
| CN113301382A (zh) | 视频处理方法、设备、介质及程序产品 | |
| CN119445203A (zh) | 一种图像标签理解方法、装置、电子设备及存储介质 | |
| CN115129928A (zh) | 信息搜索方法、装置、计算机设备、存储介质及程序产品 | |
| CN113516984A (zh) | 一种手语交互方法、系统、设备及存储介质 | |
| CN113011919B (zh) | 识别兴趣对象的方法及装置、推荐方法、介质、电子设备 | |
| CN114372580A (zh) | 模型训练方法、存储介质、电子设备和计算机程序产品 | |
| CN112446214A (zh) | 广告关键词的生成方法、装置、设备及存储介质 | |
| CN116543798A (zh) | 基于多分类器的情感识别方法和装置、电子设备、介质 | |
| CN115171673A (zh) | 一种基于角色画像的交流辅助方法、装置及存储介质 | |
| CN116109979A (zh) | 数据处理方法和装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| RJ01 | Rejection of invention patent application after publication | ||
| RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181120 |