CN108347536A

CN108347536A - 记录系统

Info

Publication number: CN108347536A
Application number: CN201810116792.7A
Authority: CN
Inventors: 赵志文
Original assignee: Beijing Intelligent Housekeeper Technology Co Ltd
Current assignee: Beijing Intelligent Housekeeper Technology Co Ltd
Priority date: 2018-02-06
Filing date: 2018-02-06
Publication date: 2018-07-31

Abstract

本发明实施例公开了一种记录系统。所述系统包括：控制动作获取模块、音频信息获取模块和控制模块，控制模块分别与控制动作获取模块和音频信息获取模块相连；控制动作获取模块用于从获取的图像中确定控制动作，并将与控制动作匹配的操作数据发送至控制模块；控制模块用于接收操作数据，并向音频信息获取模块发送与操作数据匹配的控制数据；音频信息获取模块用于接收控制数据，并执行与控制数据匹配的音频记录操作。本发明实施例的技术方案解决了现有技术中通过语音控制指令对会议系统进行控制，会议系统容易混淆语音控制指令与发言者的语音，导致语音控制指令识别错误的技术缺陷，实现了精准、快速地对正在进行语音记录的会议系统进行控制。

Description

记录系统

技术领域

本发明实施例涉及记录设备技术领域，尤其涉及一种记录系统。

背景技术

随着网络技术以及相关技术的不断发展，近年来电话会议被越来越多的企业所采用，电话会议不但可以提高沟通效率，还可以降低沟通成本。

现有的电话会议系统一般都可以对与会者的发言进行语音记录，同时，与会者还可以通过语音指令对电话会议系统进行控制。当电话会议系统在对与会者的发言进行录音的同时，该与会者或者其他人员对电话会议系统发出语音控制指令，那么，电话会议系统有可能会混淆与会者的发言语音及控制语音，由此导致对语音控制指令的误识别，对电话会议产生影响。

发明内容

有鉴于此，本发明实施例提供了一种记录系统，以解决现有技术中通过语音控制指令对会议系统进行控制时，会议系统容易混淆语音控制指令与发言者的语音，导致语音控制指令识别错误的技术缺陷。

本发明实施例提供了一种记录系统，包括：

控制动作获取模块、音频信息获取模块和控制模块，所述控制模块分别与所述控制动作获取模块和所述音频信息获取模块相连；

所述控制动作获取模块，用于从获取的图像中确定控制动作，并将与所述控制动作匹配的操作数据发送至所述控制模块；

所述控制模块，用于接收所述操作数据，并向所述音频信息获取模块发送与所述操作数据匹配的控制数据；

所述音频信息获取模块，用于接收所述控制数据，并执行与所述控制数据匹配的音频记录操作。

在上述系统中，优选的是，所述控制动作为音频控制动作或图像控制动作；

所述控制动作获取模块，具体用于从获取的图像信息中确定音频控制动作或图像控制动作，并将与所述音频控制动作匹配的音频操作数据，或与所述图像控制动作匹配的图像操作数据发送至所述控制模块；

所述控制模块，具体用于接收所述音频操作数据和所述图像操作数据，并向所述音频信息获取模块发送与所述音频操作数据匹配的音频控制数据，向所述控制动作获取模块发送与所述图像操作数据匹配的图像控制数据；

所述控制动作获取模块，还用于接收所述图像控制数据，并执行与所述图像控制数据匹配的图像控制操作；

所述音频信息获取模块，具体用于接收所述音频控制数据，并执行与所述音频控制数据匹配的音频记录操作。

在上述系统中，优选的是，所述音频控制动作包括：

开始录制音频的控制动作、停止录制音频的控制动作和暂停录制音频的控制动作。

在上述系统中，优选的是，所述图像控制动作包括：

使焦距增加第一设定数值的图像控制动作和使焦距减小第二设定数值的图像控制动作。

在上述系统中，优选的是，所述控制动作获取模块包括：

图像获取单元、图像识别单元和操作数据生成单元，所述图像获取单元、所述图像识别单元和所述操作数据生成单元顺次相连，所述操作数据生成单元与所述控制模块相连；

所述图像获取单元，用于获取所述图像；

所述图像识别单元，用于从所述图像中识别所述控制动作；

所述操作数据生成单元，用于生成与所述控制动作匹配的操作数据，并将所述操作数据发送至所述控制模块。

在上述系统中，优选的是，所述图像获取单元为摄像头。

在上述系统中，优选的是，还包括：

反馈模块，所述反馈模块与所述控制模块相连；

所述音频信息获取模块，还用于在执行完成与所述控制数据匹配的音频记录操作之后，向所述控制模块发送操作完成信息；

所述控制模块，还用于在接收到所述操作完成信息之后，将与所述音频记录操作对应的反馈信息发送至所述反馈模块；

所述反馈模块，用于接收并输出所述反馈信息。

在上述系统中，优选的是，所述反馈模块为显示设备和/或扬声器；

所述反馈模块，具体用于显示所述反馈信息，和/或播放所述反馈信息。

在上述系统中，优选的是，所述音频信息获取模块包括：

音频获取单元和音频存储单元，所述音频获取单元分别与所述音频存储单元和所述控制模块相连；

所述音频获取单元，用于接收所述控制数据并执行与所述控制数据匹配的音频记录操作，如果所述音频记录操作为开始获取音频，则还用于将获取的音频发送至所述音频存储单元；

所述音频存储单元，用于接收并存储所述音频获取单元获取的音频。

在上述系统中，优选的是，所述音频信息获取模块还包括：

文字转化单元，所述文字转化单元分别与所述音频获取单元和所述音频存储单元相连；

所述音频获取单元，还用于将获取的音频发送至所述文字转化单元；

所述文字转化单元，用于接收所述音频获取单元发送的音频，将接收的所述音频转化为文字数据，并将所述文字数据发送至所述音频存储单元；

所述音频存储单元，还用于接收并存储所述文字数据。

本发明实施例提供了一种记录系统，该记录系统通过控制动作获取模块获取图像，并从获取的图像中识别控制动作，并将与控制动作匹配的操作数据发送至控制模块，进而使控制模块根据操作数据对音频信息获取模块进行控制，该记录系统可以通过无声的肢体动作进行控制，因此在该记录系统进行语音记录时，可以通过肢体动作对该记录系统进行准确的控制，解决了现有技术中通过语音控制指令对会议系统进行控制时，会议系统容易混淆语音控制指令与发言者的语音，导致语音控制指令识别错误的技术缺陷，实现了精准、快速、简便地对正在进行语音记录的会议系统进行控制。

附图说明

图1是本发明实施例一提供的一种记录系统的结构图；

图2是本发明实施例二提供的一种记录系统的结构图；

图3是本发明实施例三提供的一种记录系统的结构图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明具体实施例作进一步的详细描述。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。

另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

实施例一

图1为本发明实施例一提供的一种记录系统1的结构图，本实施例的记录系统具体包括：控制动作获取模块11、音频信息获取模块12和控制模块13，控制模块13分别与控制动作获取模块11和音频信息获取模块12相连。

控制动作获取模块11，用于从获取的图像中确定控制动作，并将与控制动作匹配的操作数据发送至控制模块13。

在本实施例中，记录系统1具体是指可以对音频或音视频进行录制并存储的系统，典型的可以是电话会议系统或视频会议系统。

在本实施例中，记录系统1包括有控制动作获取模块11，控制动作获取模块11用于通过图像获取控制动作，以使记录系统1根据获取的控制动作对自身进行控制，也就是说，用户可以通过动作对记录系统1进行控制，当然，记录系统1也可以同时具有语音控制功能。

具体来说，在记录系统1启动之后，控制动作获取模块11会连续地获取图像，并实时地对所获取的图像进行分析，判断图像中是否出现了与预设控制动作相同的动作，如果图像中出现了与预设控制动作相同的动作，则将该动作确定为控制动作，进而将与控制动作匹配的操作数据发送至控制模块13。控制动作获取单元11可以通过神经网络模型从获取的图像中确定控制动作，该方法属于现有技术，在此不再进行详细阐述。

其中，预设控制动作具体可以是存储在记录系统1的设定存取区域中，也可以是存储在设定服务器中，本实施例对此不进行限制。当预设控制动作存储在设定服务器中时，控制动作获取模块11在从获取的图像中确定有控制动作之后，可以通过无线网络或有限网络与设定服务器进行通讯，进而确定该控制动作是否与预存控制动作相同。

进一步地，控制动作模块11在从获取的图像中识别控制动作时，还可以同时对控制动作的实施者进行身份验证，也就是说，记录系统1可以只受特定人员的控制。具体来说，在记录系统1的设定存储区域中，或在设定服务器中预先存储有具有控制权限的人员的身份验证信息(例如人脸图像)，控制动作模块11首先要从获取的图像中确定当前操控人员的身份验证信息是否与预先存储的具有控制权限的人员的身份验证信息相同，如果相同，则继续从获取的图像中确定控制动作，如果不同则不再继续从获取的图像中确定控制动作。

在本实施例中，控制动作具体可以是双手交叉、握拳和左右挥手等。具体而言，可以将双手交叉的含义定义为停止录制音频，将握拳的含义定义为开始录制音频，将左右挥手的含义定义为暂停录制音频。

另外，如果记录系统1为音视频记录系统，那么记录系统1既可以通过控制动作获取模块11在获取控制动作的同时获取所需视频，也可以通过其他模块(例如摄像头)获取所需视频。具体来说，如果当前发言者在发言的同时需要对记录系统1进行控制，那么就可以通过控制动作获取模块11在获取控制动作的同时获取所需视频；如果记录系统1的控制人员与当前发言者不相同，则可以通过控制动作获取模块11获取控制动作，同时通过其他模块获取所需视频。

控制模块13，用于接收操作数据，并向音频信息获取模块12发送与操作数据匹配的控制数据。

在本实施例中，控制模块13具体用于接收操作数据，并根据接收到的操作数据对音频信息获取模块12进行控制，即向音频信息获取模块12发送与操作数据匹配的控制数据。

音频信息获取模块12，用于接收控制数据，并执行与控制数据匹配的音频记录操作。

在本实施例中，音频信息获取模块12受控制模块13的控制，当音频信息获取模块12接收到控制模块13发送的控制数据之后，就会执行与控制数据匹配的音频记录操作。其中，音频记录操作具体可以是开始录制音频、停止录制音频和暂停录制音频等。

进一步地，音频信息获取模块12在录制音频的过程中，还可以同时将音频转化为对应的文字并进行存储，以方便用户使用。

本发明实施例一提供了一种记录系统1，记录系统1通过控制动作获取模块11获取图像，并从获取的图像中识别控制动作，并将与控制动作匹配的操作数据发送至控制模块13，进而使控制模块13根据操作数据对音频信息获取模块12进行控制，记录系统1可以通过无声的肢体动作进行控制，因此在记录系统1进行语音记录时，可以通过肢体动作对记录系统1进行准确的控制，解决了现有技术中通过语音控制指令对会议系统进行控制时，会议系统容易混淆语音控制指令与发言者的语音，导致语音控制指令识别错误的技术缺陷，实现了精准、快速、简便地对正在进行语音记录的会议系统进行控制。

实施例二

图2是本发明实施例二提供的一种数记录系统1的结构图。本实施例以上述实施例为基础进行优化，在本实施例中，将控制动作具体化为音频控制动作或图像控制动作；控制动作获取模块11，具体用于从获取的图像信息中确定音频控制动作或图像控制动作，并将与音频控制动作匹配的音频操作数据，或与图像控制动作匹配的图像操作数据发送至控制模块13；控制模块13，具体用于接收音频操作数据和图像操作数据，并向音频信息获取模块12发送与音频操作数据匹配的音频控制数据，向控制动作获取模块11发送与图像操作数据匹配的图像控制数据；控制动作获取模块11，还用于接收图像控制数据，并执行与图像控制数据匹配的图像控制操作；音频信息获取模块12，具体用于接收音频控制数据，并执行与音频控制数据匹配的音频记录操作。

进一步地，将音频控制动作具体化为：开始录制音频的控制动作、停止录制音频的控制动作和暂停录制音频的控制动作。

进一步地，将图像控制动作具体化为：使焦距增加第一设定数值的图像控制动作和使焦距减小第二设定数值的图像控制动作。

进一步地，将控制动作获取模块11具体化为：图像获取单元111、图像识别单元112和操作数据生成单元113，图像获取单元111、图像识别单元112和操作数据生成单元113顺次相连，操作数据生成单元113与控制模块13相连；图像获取单元111，用于获取图像；图像识别单元112，用于从图像中识别控制动作；操作数据生成单元113，用于生成与控制动作匹配的操作数据，并将操作数据发送至控制模块13。

进一步地，将图像获取单元具体化为：摄像头。

进一步地，具体化为，还包括：反馈模块14，反馈模块14与控制模块13相连；音频信息获取模块12，还用于在执行完成与控制数据匹配的音频记录操作之后，向控制模块13发送操作完成信息；控制模块13，还用于在接收到操作完成信息之后，将与音频记录操作对应的反馈信息发送至反馈模块14；反馈模块14，用于接收并输出反馈信息。

进一步地，将反馈模块14具体化为显示设备和/或扬声器；反馈模块14，具体用于显示反馈信息，和/或播放反馈信息。

在本实施例中，控制动作包括有两种，一种是音频控制动作，另外一种是图像控制动作，音频控制动作用于对音频信息获取模块12进行控制，图像控制动作用于对控制动作获取模块11进行控制。其中，音频控制动作具体可以是开始录制音频的控制动作、停止录制音频的控制动作和暂停录制音频的控制动作。图像控制动作具体可以是使焦距增加第一设定数值的图像控制动作和使焦距减小第二设定数值的图像控制动作，其中，第一设定数值与第二设定数值既可以相同，也可以不同。

示例性的，当控制动作获取模块11在获取控制动作的同时还获取所需视频时，那么，可以通过图像控制动作调整所需获取视频中当前发言人所占的图像比例等。

进一步地，在本实施例中，控制动作获取模块11在从获取的图像信息中确定控制动作的同时还要确定该控制动作是音频控制动作，还是图像控制动作，并将与音频控制动作匹配的音频操作数据，或与图像控制动作匹配的图像操作数据发送至控制模块13。具体来说，控制动作获取模块11在从获取的图像中确定得到控制动作之后，可以根据与该控制动作匹配的预存控制动作的信息确定该控制动作是音频控制动作，还是图像控制动作，也就是说，预存控制动作的信息中包括有该预存控制动作的类别(音频控制动作或图像控制动作)信息。

进一步地，在本实施例中，控制模块13接收的操作数据为两种，一种是音频操作数据，另外一种是图像操作数据，当接收的操作数据为音频操作数据时，控制模块13向音频信息获取模块12发送与音频操作数据匹配的音频控制数据，当接收的操作数据为图像操作数据时，向控制动作获取模块11发送与图像操作数据匹配的图像控制数据。

在本实施例中，音频信息获取模块12接收的控制数据为音频控制数据，并执行与音频控制数据匹配的音频记录操作。

在本实施例中，控制动作获取模块11还用于接收图像控制数据，并执行与图像控制数据匹配的图像控制操作，也就是说，控制模块13还可以对控制动作获取模块11进行控制。

在本实施例中，控制动作获取模块11包括图像获取单元111、图像识别单元112和操作数据生成单元113，图像获取单元111、图像识别单元112和操作数据生成单元113顺次相连，操作数据生成单元113与控制模块13相连。

其中，图像获取单元111用于获取图像，图像获取单元11典型的可以是摄像头等。图像识别单元112用于从图像中识别控制动作，并确定控制动作是音频控制动作，还是图像控制动作。操作数据生成单元113用于生成与控制动作匹配的操作数据，并将操作数据发送至控制模块13。

进一步地，如果图像获取单元是摄像头，那么图像控制动作还可以是调整摄像头角度的图像控制动作。示例性的，将向左挥手定义为图像控制动作，同时将向左挥手的含义设定为将摄像头水平向左转动设定角度；将向右挥手定义为图像控制动作，同时将向右挥手的含义设定为将摄像头水平向右转动设定角度。

在本实施例中，记录系统1还包括反馈模块14，反馈模块14与控制模13块相连，用于向用户反馈记录系统1针对控制动作的完成情况。

进一步地，在本实施例中，音频信息获取模块12在执行完成与音频控制数据匹配的音频记录操作之后，会向控制模块13发送操作完成信息，然后控制模块13在接收到操作完成信息之后，会将与音频记录操作对应的反馈信息发送至反馈模块14，最后反馈模块14接收并输出反馈信息。

当然，控制动作获取模块11在执行完成与图像控制数据匹配的图像控制操作之后，也可以向控制模块13发送图像操作完成信息，然后控制模块13在接收到图像操作完成信息之后，可以将与图像控制操作对应的反馈信息发送至反馈模块14，最后反馈模块14可以接收并输出该反馈信息。图2中没有示出控制动作获取模块11将图像操作完成信息反馈至控制模块13的步骤。

进一步地，反馈模块14具体可以是显示设备或扬声器，当然也可以将显示设备和扬声器共同作为反馈模块。当反馈模块14为显示设备时，可以通过文字或图标表示控制动作的执行结果；当反馈模块14为扬声器时，可以通过播放与控制动作对应的文字内容表示控制动作的执行结果。

进一步地，如果控制模块13在向控制动作获取模块11或音频信息获取模块12发送控制数据之后，在设定时间内没有收到音频记录操作或图像控制操作完成信息，那么，控制模块13也可以通过反馈模块14向用户反馈控制动作执行失败的信息。

本发明实施例二提供了一种记录系统，该系统具体化了控制动作的类型，将控制动作区分为音频控制动作和图像控制动作，具体化了控制动作获取模块11的结构，控制动作获取模块13包括图像获取单元111、图像识别单元112和操作数据生成单元113，还具体增加了反馈单元14。该系统不但可以通过控制动作对音频的获取进行控制，还可以通过控制动作对图像的获取进行控制，增加了记录系统1控制的灵活性、提高了使用的便利性，同时还可以提高用户的使用体验，通过反馈模块14对控制动作的执行情况及时向用户进行反馈，可以让用户实时掌握控制动作的执行情况，以便对记录系统1作出进一步正确地控制操作。

实施例三

图3是本发明实施例三提供的一种记录系统的结构图。本实施例以上述实施例为基础进行优化，在本实施例中，将优音频信息获取模块12具体化为：音频获取单元121和音频存储单元122，音频获取单元121分别与音频存储单元122和控制模块13相连；音频获取单元121，用于接收控制数据并执行与控制数据匹配的音频记录操作，如果音频记录操作为开始获取音频，则还用于将获取的音频发送至音频存储单元122；音频存储单元122，用于接收并存储音频获取单元获取的音频。

进一步地，将音频信息获取模块12具体化为还包括：文字转化单元123，文字转化单元123分别与音频获取单元121和音频存储单元122相连；音频获取单元121，还用于将获取的音频发送至文字转化单元123；文字转化单元123，用于接收音频获取单元121发送的音频，将接收的音频转化为文字数据，并将文字数据发送至音频存储单元122；音频存储单元122，还用于接收并存储文字数据。

在本实施例中，音频信息获取模块12包括音频获取单元121和音频存储单元122，且音频获取单元121与音频存储单元122相连。其中，音频获取单元121用于接收控制数据并执行与控制数据匹配的音频记录操作，如果音频记录操作为开始获取音频，则还用于将获取的音频发送至音频存储单元122。音频获取单元典型的可以是麦克风等。其中，音频存储单元122用于接收并存储音频获取单元获取的音频。

进一步地，在本实施实施例中，音频信息获取模块12还包括文字转化单元123，文字转化单元123分别与音频获取单元121和音频存储单元122相连。

本领域技术人员可以理解的是，在使用电话会议系统或视频会议系统进行会议之后，有时需要将会议中重要人物的发言整理成文稿，因此，在本实施例中，增加了文字转化单元123，以方便用户使用。

在本实施例中，音频获取单元121将获取的音频发送至文字转化单元123，文字转化单元123在接收到音频获取单元121发送的音频之后，将接收的音频转化为文字数据，并将文字数据发送至音频存储单元122，音频存储单元122接收并存储文字数据。

本发明实施例三提供了一种记录系统1，该系统具体化了音频信息获取模块12，音频信息获取模块12包括音频获取单元121、音频存储单元122和文字转化单元123，使得记录系统1不但可以准确获取音频信息，还可以对音频信息及时进行存储，同时将获取的音频信息及时转化为文字信息进行存储，增加了用户使用的便利性，提高了用户使用体验。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种记录系统，其特征在于，包括：

2.根据权利要求1所述的系统，其特征在于，所述控制动作为音频控制动作或图像控制动作；

3.根据权利要求2所述的系统，其特征在于，所述音频控制动作包括：

4.根据权利要求2所述的系统，其特征在于，所述图像控制动作包括：

5.根据权利要求1所述的系统，其特征在于，所述控制动作获取模块包括：

所述图像获取单元，用于获取所述图像；

所述图像识别单元，用于从所述图像中识别所述控制动作；

6.根据权利要求5所述的系统，其特征在于，所述图像获取单元为摄像头。

7.根据权利要求1所述的系统，其特征在于，还包括：

反馈模块，所述反馈模块与所述控制模块相连；

所述反馈模块，用于接收并输出所述反馈信息。

8.根据权利要求7所述的系统，其特征在于，所述反馈模块为显示设备和/或扬声器；

9.根据权利要求1-8所述的系统，其特征在于，所述音频信息获取模块包括：

10.根据权利要求9所述的系统，其特征在于，所述音频信息获取模块还包括：

所述音频存储单元，还用于接收并存储所述文字数据。