CN119148867A - 输入交互方法、电子设备及可读介质 - Google Patents
输入交互方法、电子设备及可读介质 Download PDFInfo
- Publication number
- CN119148867A CN119148867A CN202310713948.0A CN202310713948A CN119148867A CN 119148867 A CN119148867 A CN 119148867A CN 202310713948 A CN202310713948 A CN 202310713948A CN 119148867 A CN119148867 A CN 119148867A
- Authority
- CN
- China
- Prior art keywords
- electronic device
- interface
- user
- text
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/02—Input arrangements using manually operated switches, e.g. using keyboards or dials
- G06F3/023—Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
- G06F3/0233—Character input methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/16—Constructional details or arrangements
- G06F1/1613—Constructional details or arrangements for portable computers
- G06F1/1633—Constructional details or arrangements of portable computers not specific to the type of enclosures covered by groups G06F1/1615 - G06F1/1626
- G06F1/1684—Constructional details or arrangements related to integrated I/O peripherals not covered by groups G06F1/1635 - G06F1/1675
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3206—Monitoring of events, devices or parameters that trigger a change in power modality
- G06F1/3215—Monitoring of peripheral devices
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3206—Monitoring of events, devices or parameters that trigger a change in power modality
- G06F1/3231—Monitoring the presence, absence or movement of users
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/02—Input arrangements using manually operated switches, e.g. using keyboards or dials
- G06F3/023—Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/04842—Selection of displayed objects or displayed text elements
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2203/00—Indexing scheme relating to G06F3/00 - G06F3/048
- G06F2203/038—Indexing scheme relating to G06F3/038
- G06F2203/0381—Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Hardware Design (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请提供了一种输入交互方法、电子设备及可读介质,其中,电子设备显示第一界面的过程中,当用户抬起电子设备放到嘴边说话时开启第一语音转文字功能,电子设备在第一文本输入区域显示用户输入语音对应的文本。用户查看通知、输入文本等应用场景,电子设备显示的界面包括第一文本输入区域,用户可抬起电子设备放到嘴边说话,电子设备开启第一语音转文字功能,无需用户额外操作电子设备的屏幕,电子设备在第一文本输入区域即可显示用户输入的语音对应的文本,简化了用户对屏幕的操作,且给用户带来便利性。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种输入交互方法、电子设备、计算机程序产品及计算机可读存储介质。
背景技术
用户单手握持手机等电子设备,通常由大拇指在显示屏上输入点击等操作,然而大拇指的操作范围很难同时顾及设备顶部和设备底部。
在用户查看通知、输入文本等应用场景中,用户的操作涉及设备顶部和设备底部,若用户采用单手握持设备的姿态使用电子设备,由于大拇指通常无法兼顾设备顶部和设备底部,对用户的操作带来极大不便。
发明内容
本申请提供了一种输入交互方法、电子设备、计算机程序产品及计算机可读存储介质,目的在于简化用户在通知、输入文本等应用场景中对屏幕的操作,给用户带来便利性。
为了实现上述目的,本申请提供了以下技术方案:
第一方面,本申请提供了一种输入交互方法,包括:电子设备显示第一界面,第一界面包括第一文本输入区域;在电子设备显示第一界面的过程中,当用户抬起电子设备放到嘴边说话时开启第一语音转文字功能,电子设备在第一文本输入区域显示用户输入语音对应的文本;响应于用户对第一文本输入区域的操作,电子设备显示第二界面,第二界面包括:语音转文字按钮和第二文本输入区域;在电子设备显示第二界面的过程中,当用户按下语音转文字按钮时开启第二语音转文字功能,在检测到用户输入语音时,在第二文本输入区域显示用户输入语音对应的文本。
由上述内容可以看出:用户查看通知、输入文本等应用场景,电子设备显示的界面包括第一文本输入区域,用户可抬起电子设备放到嘴边说话,电子设备开启第一语音转文字功能,无需用户额外操作电子设备的屏幕,电子设备在第一文本输入区域即可显示用户输入的语音对应的文本,简化了用户对屏幕的操作,且给用户带来便利性。
一些实施例中,第一语音转文字功能为气息唤醒语音转文字功能,第二语音转文字功能为用户按下语音转文字按钮对应的语音转文字功能。第一语音转文字功能相对于第二语音转文字功能的抗噪声能力强,能够较大程度的屏蔽掉用户输入语音过程中的干扰信号。
在一个可能的实施方式中,当用户抬起电子设备放到嘴边说话时,用户未操作电子设备。
在一个可能的实施方式中,第一界面不包括语音转文字按钮,或者,第一界面不包括输入法应用的界面。
在一个可能的实施方式中,第一界面还包括第一应用的界面。
在一个可能的实施方式中,电子设备显示第一界面之前,还包括:电子设备显示第三界面,第三界面包括第一应用的第一横幅通知;其中,电子设备显示第一界面,包括:响应于用户手指对第一横幅通知的点击操作,显示第一界面。
在一个可能的实施方式中,电子设备显示第一界面之前,还包括:电子设备显示第三界面,第三界面包括第一应用的第一横幅通知;电子设备显示第一界面,包括:在电子设备显示第三界面的过程中,响应于用户注视第一横幅通知时,电子设备显示第一界面。
在本可能的实施方式中,电子设备显示第三界面,第三界面包括第一应用的第一横幅通知,用户不用操作电子设备的屏幕而注视第一横幅通知,电子设备则可显示第一界面,进一步方便用户操作。
在一个可能的实施方式中,响应于用户对第一界面的文本输入区域的操作,电子设备显示第二界面,包括:响应于用户对第一文本输入区域的点击操作,电子设备显示第二界面。
在一个可能的实施方式中,还包括:在电子设备显示第四界面或者息屏的过程中,当用户抬起电子设备放到嘴边说话时,电子设备唤起语音助手,其中第四界面不包括文本输入区域。本可能的实施方式中,第四界面可为电子设备区别于第一界面的其他界面,一些实施例中,第四界面不包括输入法应用的界面。电子设备显示第四界面或者电子设备处于息屏状态,用户抬起电子设备放到嘴边说话可唤醒语音助手运行,由语音助手响应用户输入语音对应的指令。一些实施例中,用户抬起电子设备放到嘴边说话,电子设备唤起语音助手可称为气息唤醒语音助手功能。
在一个可能的实施方式中,电子设备设置有第一开关,第一开关为开启状态。本可能的实施方式中,第一开关为第一语音转文字功能对应的开关,该开关为开启状态,用户抬起电子设备放到嘴边说话时第一语音转文字功能被开启,反之则不被开启。
在一个可能的实施方式中,第一开关设置于输入法应用的第一设置项的界面;其中,第一开关被开启,第一设置项的界面显示第一弹窗,第一弹窗用于提示第一开关对应的功能被开启。
在一个可能的实施方式中,电子设备在输入法应用的界面上配置有第一开关的设置项,第一开关的设置项的界面包括第一开关的按钮和引导动画。
在一个可能的实施方式中,第一开关为输入法应用的语音转文字按钮,语音转文字按钮首次被按下的时长大于阈值,电子设备显示第二弹窗,第二弹窗包括第一文字控件,第一文字控件被点击,第一开关对应的功能被开启,且显示第三弹窗,第三弹窗用于提示第一开关对应的功能被开启。
在一个可能的实施方式中,电子设备设置有第一开关,第一开关为关闭状态,方法还包括:在电子设备显示第一界面的过程中,当用户抬起电子设备放到嘴边说话时,电子设备不开启第一语音转文字功能。本可能的实施方式中,第一开关为关闭状态,用户抬起电子设备放到嘴边说话,电子设备不开启第一语音转文字功能,电子设备的第一文本输入区域也不显示文本,如此实现对第一语音转文字功能的关闭。
在一个可能的实施方式中,电子设备设置有第二开关,第二开关为开启状态。本可能的实施方式中,第二开关为气息唤醒语音助手功能的开关,该开关为开启状态,用户抬起电子设备放到嘴边说话时气息唤醒语音助手功能被开启,反之则不被开启。
在一个可能的实施方式中,电子设备设置有第二开关,第二开关为关闭状态,方法还包括:在电子设备显示第四界面或者息屏的过程中,当用户抬起电子设备放到嘴边说话时,电子设备不唤起语音助手。本可能的实施方式中,第二开关为关闭状态,用户抬起电子设备放到嘴边说话,电子设备不开启气息唤醒语音助手功能,语音助手不响应用户输入语音对应的指令,如此实现对气息唤醒语音助手功能的关闭。
第二方面,本申请提供了一种输入交互方法,包括:电子设备显示第一界面,第一界面包括第一文本输入区域和语音转文字按钮;在电子设备显示第一界面的过程中,当用户抬起电子设备放到嘴边说话时,电子设备开启第一语音转文字功能,将语音转文字按钮由第一状态切换为第二状态,并在第一文本输入区域显示用户的语音输入对应的文本,其中,用户抬起电子设备放到嘴边说话时,用户未操作语音转文字按钮。
由上述内容可以看出:用户查看通知、输入文本等应用场景,电子设备显示的界面包括第一文本输入区域和语音转文字按钮,用户可抬起电子设备放到嘴边说话,电子设备开启第一语音转文字功能,无需用户额外操作电子设备的屏幕,电子设备在第一文本输入区域即可显示用户输入的语音对应的文本,简化了用户对屏幕的操作,且给用户带来便利性。
在一个可能的实施方式中,第一状态为关闭状态,第二状态为第一开启状态,方法还包括:在第一开启状态下,电子设备持续接收用户的语音输入,并将语音输入转换成文字显示在第一文本输入区域。本可能的实施方式中,语音转文字按钮切换为第一开启状态,用户抬起电子设备放到嘴边持续输入语音,第一语音转文字功能则持续处于启动状态,电子设备可持续接收用户的语音输入,并将语音输入转换成文字显示在文本输入区域,如此实现电子设备将用户持续输入的语音转换为文字进行显示。
在一个可能的实施方式中,第一状态为第二开启状态,第二状态为第一开启状态,在第二开启状态下,电子设备检测到用户点击语音转文字按钮时,接收用户的语音输入,并将语音输入转换成文字显示在第一文本输入区域;在第一开启状态下,电子设备持续接收用户的语音输入,并将语音输入转换成文字显示在第一文本输入区域。
本可能的实施方式中,语音转文字按钮包括第一开启状态和第二开启状态,第一开启状态下,用户点击语音转文字按钮,电子设备可转换用户输入的语音为文本显示于输入文本区域,第二开启状态下,说明第一语音转文字功能被启动,用户抬起电子设备且持续输入语音,电子设备可将用户输入的语音转换为文字显示于第一文本输入区域。
在一个可能的实施方式中,第一界面的第一文本输入区域还显示有文字。一些实施例中,电子设备显示第一界面过程中,用户抬起电子设备放到嘴边说话时开启第一语音转文字功能,电子设备在第一文本输入区域显示用户输入语音对应的文本,或者用户按下语音转文字按钮时开启第二语音转文字功能,电子设备在第一文本输入区域显示用户输入语音对应文本,如此,电子设备显示的第一界面的第一文本输入区域还显示有文字。并且,用户再抬起电子设备放到嘴边说话时开启第一语音转文字功能,电子设备在第一文本输入区域还可以继续显示用户输入语音对应的文本。
在一个可能的实施方式中,第一界面还包括第一应用的界面。
在一个可能的实施方式中,电子设备显示第一界面之前,还包括:电子设备显示第二界面,第二界面包括第一应用的第一横幅通知;响应于用户对第一横幅通知的点击操作,显示第三界面,第三界面包括第一应用的界面和第二文本输入区域;电子设备显示第一界面包括:响应于用户对第二文本输入区域的点击操作,显示第一界面。
在一个可能的实施方式中,电子设备显示第一界面之前,还包括:电子设备显示第二界面,第二界面包括第一应用的第一横幅通知;响应于用户对第一横幅通知的点击操作,显示第三界面,第三界面包括第二文本输入区域;电子设备显示第一界面包括:电子设备显示第三界面之后自动显示第一界面,电子设备显示第三界面之后且自动显示第一界面过程中,用户未操作第二文本输入区域。
在本可能的实施方式中,电子设备显示第一应用的第一横幅通知,该第一横幅通知通常位于电子设备顶部,用户点击第一横幅通知,电子设备显示第三界面之后,自动显示第一界面,如此用户仅需要操作电子设备顶部,不用操作电子设备底部,给用户单手握持电子设备场景带来极大的便利。
在一个可能的实施方式中,电子设备显示第一界面之前,还包括:电子设备显示第二界面,第二界面包括第一应用的第一横幅通知;电子设备显示第一界面包括:在电子设备显示第二界面的过程中,响应于用户注视第一横幅通知时,电子设备显示第一界面。
在本可能的实施方式中,电子设备显示第一应用的第一横幅通知,用户注视第一横幅通知,电子设备则显示第一界面,无需用户操作电子设备屏幕,简化了用户对屏幕的操作。
在一个可能的实施方式中,用户注视第一横幅通知时,用户未操作电子设备的屏幕。
在一个可能的实施方式中,电子设备显示第一界面之前,还包括:电子设备显示第二界面,第二界面包括第一应用的第一横幅通知;在电子设备显示第二界面的过程中,响应于用户注视第一横幅通知时,显示第三界面,第三界面包括第二文本输入区域;电子设备显示第一界面包括:响应于用户对第二文本输入区域的点击操作,显示第一界面。
在本可能的实施方式中,电子设备显示第一应用的第一横幅通知,该第一横幅通知通常位于电子设备顶部,用户不用对电子设备顶部进行操作,只需注视第一横幅通知,电子设备显示第三界面,第三界面中的第二文本输入区域通常位于电子设备底部,用户对第二文本输入区域进行点击操作,电子设备显示第一界面,如此用户仅需要操作电子设备底部,不用操作电子设备顶部,也给用户单手握持电子设备场景带来极大的便利。
在一个可能的实施方式中,电子设备显示第一界面之前,还包括:电子设备显示第二界面,第二界面包括第一应用的第一横幅通知;在电子设备显示第二界面的过程中,响应于用户注视第一横幅通知时,显示第三界面,第三界面包括第二文本输入区域;电子设备显示第一界面包括:电子设备显示第三界面之后自动显示第一界面,电子设备显示第三界面之后且自动显示第一界面过程中,用户未操作第二文本输入区域。
在本可能的实施方式中,电子设备显示第一应用的第一横幅通知,用户不用对电子设备顶部进行操作,只需注视第一横幅通知,电子设备显示第三界面,电子设备显示第三界面之后自动显示第一界面,如此用户不需要操作电子设备屏幕,操作更加便利。
在一个可能的实施方式中,用户注视第一横幅通知时,用户未操作电子设备的屏幕。
在一个可能的实施方式中,还包括:在电子设备显示第四界面或者息屏的过程中,当用户抬起电子设备放到嘴边说话时,电子设备唤起语音助手,其中第四界面不包括文本输入区域。本可能的实施方式中,第四界面可为电子设备区别于第一界面的其他界面,一些实施例中,第四界面不包括输入法应用的界面。电子设备显示第四界面或者电子设备处于息屏状态,用户抬起电子设备放到嘴边说话可唤醒语音助手运行,由语音助手响应用户输入语音对应的指令。一些实施例中,用户抬起电子设备放到嘴边说话,电子设备唤起语音助手可称为气息唤醒语音助手功能。
在一个可能的实施方式中,电子设备设置有第一开关,第一开关为开启状态。本可能的实施方式中,第一开关为第一语音转文字功能对应的开关,该开关为开启状态,用户抬起电子设备放到嘴边说话时第一语音转文字功能被开启,反之则不被开启。
在一个可能的实施方式中,第一开关设置于输入法应用的第一设置项的界面;其中,第一开关被开启,第一设置项的界面显示第一弹窗,第一弹窗用于提示第一开关对应的功能被开启。
在一个可能的实施方式中,电子设备在输入法应用的界面上配置有第一开关的设置项,第一开关的设置项的界面包括第一开关的按钮和引导动画。
在一个可能的实施方式中,第一开关为输入法应用的语音转文字按钮,语音转文字按钮首次被按下的时长大于阈值,电子设备显示第二弹窗,第二弹窗包括第一文字控件,第一文字控件被点击,第一开关对应的功能被开启,且显示第三弹窗,第三弹窗用于提示第一开关对应的功能被开启。
在一个可能的实施方式中,电子设备设置有第一开关,第一开关为关闭状态,方法还包括:在电子设备显示第一界面的过程中,当用户抬起电子设备放到嘴边说话时,电子设备不开启第一语音转文字功能。本可能的实施方式中,第一开关为关闭状态,用户抬起电子设备放到嘴边说话,电子设备不开启第一语音转文字功能,电子设备的第一文本输入区域也不显示文本,如此实现对第一语音转文字功能的关闭。
在一个可能的实施方式中,电子设备设置有第二开关,第二开关为开启状态。本可能的实施方式中,第二开关为气息唤醒语音助手功能的开关,该开关为开启状态,用户抬起电子设备放到嘴边说话时气息唤醒语音助手功能被开启,反之则不被开启。
第三方面,本申请提供了一种电子设备,包括:一个或多个处理器、存储器以及显示屏;存储器和显示屏与一个或多个处理器耦合,存储器用于存储计算机程序,计算机程序包括计算机指令,当一个或多个处理器执行计算机指令时,电子设备执行如第一方面任意一项提供的输入交互方法,或者第二方面任意一项提供的输入交互方法。
第四方面,本申请提供了一种计算机可读存储介质,用于存储计算机程序,计算机程序被执行时,具体用于实现如第一方面任意一项提供的输入交互方法,或者第二方面任意一项提供的输入交互方法。
第五方面,本申请提供了一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行如第一方面任意一项提供的输入交互方法,或者第二方面任意一项提供的输入交互方法。
附图说明
图1为本申请实施例提供的用户单手握持手机的姿态图;
图2为本申请实施例提供的输入交互方法的应用场景图;
图3A至图3E为本申请实施例提供的使用气息唤醒功能的几种应用场景;
图4至图7为本申请实施例提供的开启气息唤醒语音转文字功能的展示图;
图8为本申请实施例提供的输入法的界面的另一种进入方式的展示图;
图9为本申请实施例提供的电子设备的硬件结构图;
图10为本申请实施例提供的电子设备的软件框架图;
图11为本申请实施例提供的输入法和语音助手注册业务的原理图;
图12为本申请实施例提供的输入交互方法的信令图;
图13为本申请实施例提供的另一种输入交互方法的信令图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。以下实施例中所使用的术语只是为了描述特定实施例的目的,而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样,单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括例如“一个或多个”这种表达形式,除非其上下文中明确地有相反指示。还应当理解,在本申请实施例中,“一个或多个”是指一个、两个或两个以上;“和/或”,描述关联对象的关联关系,表示可以存在三种关系;例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A、B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。
在本说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
本申请实施例涉及的多个,是指大于或等于两个。需要说明的是,在本申请实施例的描述中,“第一”、“第二”等词汇,仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。
在介绍本申请实施例之前,首先对本申请实施例涉及的一些术语或概念进行解释。应理解,本申请对以下术语的命名不作具体限定。以下术语可以有其他命名。重新命名的术语仍满足以下相关的术语解释。
1、气息唤醒:电子设备识别用户靠近麦克风说话时产生的特征,电子设备可通过检测用户是否发起抬起电子设备以及输入语音的操作,进而来确定用户是否靠近麦克风。气息唤醒功能可提供电子设备的多个应用,电子设备的应用可利用气息唤醒功能的运行结果,来执行业务。
2、气息唤醒语音助手:电子设备通过识别上述气息唤醒的特征,从而唤起语音助手响应语音交互指令的业务,替代相关技术中识别到用户呼叫特殊的词汇时唤起语音助手的方式,便于用户使用语音助手。电子设备识别用户靠近麦克风说话时产生的特征之后,电子设备可自动唤起语音助手,由语音助手(如YOYO)与用户进行语音交互。比如说,用户只需抬起电子设备,说出语音交互指令(可以不是唤醒语音助手的专门的指令),电子设备则可响应语音交互指令,不需要用户在说出语音交互指令之前先说出唤醒语音助手的语音指令。
3、气息唤醒语音转文字:电子设备通过识别气息唤醒的特征,唤起输入法的语音转文字业务,在特定的场景下,电子设备识别用户靠近麦克风说话时产生的特征之后,自动唤起输入法的语音转文字功能。比如说,电子设备的输入法被拉起运行的场景中,用户抬起电子设备,并说出语音,电子设备则将用户输入的语音转换成文字显示在输入法的文本输入框中。
4、眼动追踪功能:可以理解为电子设备追踪用户注视点所在位置,并通过追踪注视点的所在位置,确定是否展开横幅通知和/或打开横幅通知对应的应用。
图1展示了用户单手握持手机的姿态。用户如图1中(a)所示,单手握持手机,大拇指的点触范围为区域101。用户单手握持手机的位置向手机顶端靠近,大拇指的点触范围则如图1中(b)所示,为区域102。由此可以看出:用户单手握持手机,大拇指的点触范围很难同时顾及手机顶部和手机底部。
在一个应用场景中,如图2中(a)所示,手机顶部显示即时通信应用的聊天横幅通知201。手机接收到用户针对聊天横幅通知中的任一位置的点击操作,手机如图2中(b)所示,显示聊天横幅通知对应的应用界面。应用界面包括切换按钮202和文本输入框203。用户点击切换按钮202,手机响应于用户的点击操作,可由文本输入切换到语音输入。文本输入框203用于提供于用户输入文本信息。用户如图2中(b)所示,点击文本输入框203,手机响应于用户的点击操作,拉起输入法运行并显示如图2中(c)所示的界面。界面包括输入法的键盘,键盘包括语音转文字按钮204,用户长按语音转文字按钮204,电子设备的输入法进入语音输入转文字的模式,电子设备可采集用户输入的语音并转换为文本,该文本可显示于文本输入框203。文本显示框203可以理解成是输入法应用的文本显示区域。
图2展示的应用场景中,聊天横幅通知201位于手机顶端,切换按钮202和语音转文字按钮204位于手机底部。用户单手握持手机,大拇指点击聊天横幅通知201,则无法顾及点击切换按钮202和语音转文字按钮204,如此对用户的操作带来不便。
基于此,本申请实施例提供一种输入交互方法,可利用气息唤醒自动唤起语音输入转文本的功能,采集用户输入的语音,并将其转换为文本,无需用户通过手动唤起语音输入转文字的功能。
以手机为例,图3A至图3E展示了本申请实施例提供的使用气息唤醒功能的应用场景。
图3A展示了输入法使用气息唤醒实现语音输入转文本的功能的场景,即气息唤醒语音转文字的场景。
如图3A中(a)所示,手机顶部显示即时通信应用的聊天横幅通知201。手机接收到用户针对聊天横幅通知中的任一位置的点击操作,手机如图3A中(b)所示,显示聊天横幅通知对应的应用界面。用户如图3A中(b)所示,点击文本输入框203,手机响应于用户的点击操作,拉起输入法运行并显示如图3A中(c)所示的界面。用户抬起手机,并输入语音,手机的语音转文字功能被启动,手机采集用户输入的语音,将语音转换为对应的文本,并如图3A中(e)所示在文本输入框显示转换得到的文本。
在另一种可能的实现方式中,用户可以不需要点击文本输入框203,在手机显示图3A中(b)所示界面时,用户抬起手机,并输入语音,手机的输入法的语音转文字功能被启动。手机直接显示图3A中(e)所示界面,用户输入的语音转换为文字显示在文本输入框中;或者,手机也可以先显示图3A中(c)所示的界面、再显示图3A中(e)所示界面,用户输入的语音转换为文字显示在文本输入框中。
在另一种可能的实施方式中,用户不点击文本输入框203,可以理解的是,输入法未被拉起运行,在手机显示图3A中(b)所示界面时,用户抬起手机,并输入语音,手机的气息唤醒语音助手功能启动,语音助手被使能运行以响应用户输入语音指示的语音交互指令,并在图3A中(b)所示界面的上层显示文本。示例性的,下述图3E中(b)显示了在一个界面上层显示文本的一种方式。
在另一种可能的实施方式中,用户抬起手机,并输入语音,手机的气息唤醒语音转文字功能被启动,手机采集用户输入的语音,将语音转换为对应的文本,并如图3A中(e)所示在文本输入框显示转换得到的文本之后,用户沉默一段时间,该段时间的时长达到阈值,手机则判断用户不在输入语音,气息唤醒语音转文字功能则结束。并且,用户沉默至少阈值时间之后又输入语音,手机也不会转换用户输入的语音为对应的文本,且不会在文本输入框显示文本。一些实施例中,用户再一次抬起手机,并输入语音,手机的气息唤醒语音转文字功能则被启动,手机采集用户输入的语音,将语音转换为对应的文本并显示于文本输入框。
在另一种可能的实施方式中,手机的气息唤醒语音转文字功能被启动之后,手机采集用户输入的语音,将语音转换为对应的文本的过程中,用户输入关闭输入法应用的操作,示例性的,用户在图3A中(e)上点击即时通信应用的界面,或者,用户在图3A中(e)所示的界面输入退出即时通信应用的操作,或者,用户在图3A中(e)上输入开启其他应用的操作,或者用户通过隔空手势开启其他应用的操作以关闭输入法应用。手机响应于用户的操作,控制输入法应用退出运行,气息唤醒语音转文字功能也则结束。用户抬起手机,并输入语音,手机则不会转换用户输入的语音为对应的文本,且不会在文本输入框显示文本。
图3B展示了气息唤醒语音转文字的另一场景。
在一些应用场景中,用户如图3B中(a)所示,按下语音转文字按钮204,输入语音,手机响应于用户的操作,启动语音转文本功能,由输入法转换用户输入的语音为对应的文本,并显示于文本输入框,示例性的,如图3B中(b)所示。用户采用语音转文字按钮204输入一段文字之后,用户如图3B中(c)所示,抬起手机到嘴边并输入语音,手机启动气息唤醒语音转文字功能,或者,用户如图3B中(b)所示,点击即时通信应用的界面,手机显示如图3B中(e)所示的界面之后,用户再如图3B中(c)所示,抬起手机到嘴边并输入语音,手机启动气息唤醒语音转文字功能。输入法将用户输入的语音转换为对应的文本,并如图3B中(d)所示在文本输入框显示转换得到的文本。
在另一种可能的实施方式中,用户点击图3B中(b)所示的“发送”,手机显示如图3A中(c)所示的界面,当然,该界面显示用户对话的区域还应当显示文本输入框中的“你好”。此时,用户抬起手机,并输入语音,手机的输入法的气息唤醒语音转文字功能被启动。手机显示图3A中(e)所示界面,用户输入的语音转换为文字显示在文本输入框中。
图3C展示了气息唤醒语音转文字的另一场景。
在一些应用场景中,用户较难点击显示屏顶部显示的横幅通知。如此,手机可利用眼动追踪功能实现无需用户执行点击操作,自动打开横幅通知对应的应用。一些实施例中,手机接收到横幅通知,启动眼动追踪功能,并在检测到注视点处于横幅通知所在区域时,打开横幅通知对应的应用,或者手机在检测到注视点处于横幅通知所在区域的时长达到预设时长,打开横幅通知对应的应用。手机在打开横幅通知对应的应用,显示应用界面时直接拉起输入法运行,也就是,手机检测到用户注视点处于横幅通知所在区域的时长达到预设时长,打开横幅通知对应的应用,直接显示图3C中的(c)所示的界面,界面的下半部分显示输入法对应的内容。横幅通知对应的应用的运行过程中,用户抬起手机并输入语音,手机也可通过气息唤醒语音转文字功能将用户输入的语音转成文字并显示于文本输入框。
如图3C中(a)所示,手机顶部显示即时通信应用的聊天横幅通知201,手机的眼动追踪功能开启。聊天横幅通知201包括注视光标701,则可说明用户的注视点位于横幅通知所在区域。手机则自动进入聊天横幅通知201对应的即时通信应用的界面,即如3C中(b)所示,显示即时通信应用的界面。一些实施例中,手机如图3C中(c)所示,还会自动拉起输入法运行。另一实施例中,手机不会自动拉起输入法运行,用户可如图3C中(b)所示,点击文本输入框203,手机响应于用户的点击操作,拉起输入法运行并显示如图3C中(c)所示界面。
手机的输入法被拉起运行,用户抬起手机,并输入语音,如图3C中(d)所示,手机的气息唤醒语音转文字功能被启动运行。手机采集用户输入的语音,将语音转换为对应的文本,并如图3C中(e)所示在文本输入框显示转换得到的文本。
在另一种可能的实现方式中,用户可以不需要点击文本输入框203,在手机显示图3C中(c)所示界面时,用户抬起手机,并输入语音,手机的输入法的气息唤醒语音转文字功能被启动。手机直接显示图3C中(e)所示界面,用户输入的语音转换为文字显示在文本输入框中。
图3C展示的应用场景中,手机自动拉起输入法运行或者用户点击文本输入框拉起输入法运行,手机显示3C中(c)所示的界面之后,用户也可采用图3B展示的方式,采用按下语音转文字按钮204以及启动气息唤醒语音转文字功能,由输入法将用户输入的语音转换为对应的文本,并如图3B中(b)和(d)所示在文本输入框显示转换得到的文本。
需要说明的是,手机顶部显示聊天横幅通知201,聊天横幅通知201包括注视光标701,手机也可如图3D中(a)和(b)所示,直接进入聊天横幅通知201对应的即时通信应用,且同步拉起输入法运行。
一些实施例中,手机监测到横幅通知,启动眼动追踪功能,并在检测到注视点处于横幅通知所在区域时,打开横幅通知对应的应用。横幅通知对应的应用的运行过程中,手机拉起输入法运行,且将用户输入的语音转成文字并显示于输入法的文本输入框,无需用户抬起手机。
还需要说明的是,图3A至图3C展示的场景中,相对于语音转文字按钮对应的语音转文本功能,手机采用气息唤醒语音转文字功能,将用户输入的语音转换为对应的文本,具有抗噪声能力强的效果,能够较大程度的屏蔽掉用户输入语音过程中的干扰信号。
图3E展示了语音助手使用气息唤醒实现响应语音交互指令的场景,即气息唤醒语音助手的场景。
如图3E中(a)所示,手机处于熄屏状态。用户抬起手机,并输入语音交互指令,例如输入查询天气的语音交互指令,手机则可启动语音助手响应语音交互指令,如图3D中(b)所示,点亮显示屏以显示锁屏界面,且在锁屏界面上显示天气信息。
图3A至图3D展示的两种应用场景中的气息唤醒语音转文字功能,可以被用户手动操作以开启或关闭,以下结合图4至图8描述气息唤醒语音转文字功能的几种入口。
一些实施例中,用户首次使用输入法的语音转文字功能输入文本,可提醒用户开启气息唤醒语音转文字功能。电子设备根据用户的操作开启气息唤醒语音转文字功能之后,手机的输入法再次被拉起运行,手机可通过气息唤醒语音转文字功能实现自动启动输入法的语音转文字功能,采集用户输入的语音并将其转换为文字。
示例性的,如图4中(a)所示,用户在即时通信应用的界面,首次长按语音转文字按钮204。手机响应于用户的长按操作,可以显示弹窗205以提醒开启气息唤醒语音转文字功能,弹窗205可显示于实时通信应用的界面的上层,弹窗205可以为toast弹窗。示例性的,如图4中(b)所示,弹窗205包括提示语“确定开启气息唤醒语音转文字功能”、取消按钮和确定按钮。用户可点击取消按钮忽略弹窗205,用户可点击确定按钮开启气息唤醒语音转文字功能。用户点击取消按钮,弹窗205消失,用户可采用手动操作语音转文字按钮204的方式输入语音。
用户如图4中(b)所示,点击确定按钮。手机响应于用户的点击操作,显示提示窗206。提示窗206可显示于即时通信应用的界面的上层,提示窗206可以为toast弹窗。如图4中(c)所示,提示窗206包括气息唤醒语音转文字功能的使用说明,例如“提示:已开启气息唤醒语音转文本。定位光标后,对准设备底部麦克风即可进行语音输入。”。如此,气息唤醒语音转文字功能则被开启。
再示例性的,如图5中(a)所示,用户在笔记的界面,首次长按语音转文字按钮204。手机响应于用户的点击操作,也可以显示弹窗205以提醒开启气息唤醒语音转文字功能,弹窗205可显示于笔记的界面的上层,例如,可以显示在输入法的键盘上,弹窗205也可以为toast弹窗。如图5中(b)所示,弹窗205包括提示语“确定开启气息唤醒语音转文字功能”、取消按钮和确定按钮。
用户如图5中(b)所示,点击确定按钮。手机响应于用户的点击操作,显示提示窗206。提示窗206可显示于笔记的界面的上层,提示窗206可以为toast弹窗。如图5中(c)所示,提示窗206包括气息唤醒语音转文字功能的使用说明,例如“提示:已开启气息唤醒语音转文本。定位光标后,对准设备底部麦克风即可进行语音输入。”。如此,气息唤醒语音转文字功能也可被开启。
前述内容提出的“首次”可以理解成:在以下情况下,第一次长按语音转文字按钮204:1、新的手机包含输入法的气息唤醒语音转文字功能,或者,2、旧手机的软件系统进行了升级,升级后的系统版本包括输入法的气息唤醒语音转文字功能。
另一些实施例中,用户也可在输入法的设置界面开启气息唤醒语音转文字功能。示例性的,输入法的输入设置项或界面设置项可以设置气息唤醒语音转文字功能的开启控件。图6和图7展示了输入法的设置界面展示气息唤醒语音转文字功能的开启控件的实现方式。
图6展示了在输入法的输入设置的界面添加气息唤醒语音转文字功能项。
如图6中(a)所示,手机显示设置应用的系统和更新的界面,系统和更新的界面包括语言和输入法项501。需要说明的是,手机的设置应用的界面可包括系统和更新项,用户可通过点击系统和更新项,显示如图6中(a)所示的系统和更新的界面。
用户在系统和更新的界面上点击语言和输入法项501。手机响应于用户的点击操作,如图6中(b)所示,显示语言和输入法的界面。语言和输入法的界面包括XX输入法项502,用户点击XX输入法项502。手机响应于用户的点击操作,如图6中(c)所示,显示XX输入法的界面。XX输入法的界面包括输入设置项503,用户点击输入设置项503。手机响应于用户的点击操作,如图6中(d)所示,显示输入设置的界面。输入设置的界面包括气息唤醒语音转文本项504。气息唤醒语音转文本项504具有子界面,用户点击气息唤醒语音转文本项504,手机响应于用户的点击操作,如图6中(e)所示,显示气息唤醒语音转文本的子界面。示例性的,该子界面包括气息唤醒语音转文本的引导动画以及按钮505。气息唤醒语音转文本的引导动画可以理解成为小视频,可说明气息唤醒功能的操作说明等。气息唤醒语音转文本的按钮505可提供于用户,用户可通过点击气息唤醒语音转文本的按钮505,开启或关闭气息唤醒语音转文字功能。
图7展示了在输入法的输入设置或界面设置启动气息唤醒语音转文字功能的按钮。
图7中(a)展示了XX输入法的界面,图7中(a)和图6中的(c)可以为同一个界面。XX输入法的界面包括输入设置项503和界面设置项504。如图7中(a)所示,用户点击输入设置项503,手机响应于用户的点击操作,显示输入设置的界面,如图7中(b)所示,输入设置的界面包括气息唤醒语音转文本的按钮507,可提供于用户通过点击该按钮的方式开启或关闭气息唤醒语音转文字功能。
用户如图7中(b)所示,点击气息唤醒语音转文本的按钮507,手机响应于用户的点击操作,开启气息唤醒语音转文字功能。一些实施例中,手机还可显示弹窗以提醒用户气息唤醒功能已开启。示例性的,图7中(b)展示了弹窗508,该弹窗显示于输入设置的界面的上层,包括提醒语“气息唤醒语音转文本已开启”。弹窗508也可为toast弹窗。
或者,如图7中(a)所示,用户点击界面设置项506,手机响应于用户的点击操作,显示界面设置的界面,如图7中(c)所示,界面设置的界面包括气息唤醒语音转文本的按钮509,可提供于用户通过点击该按钮的方式开启或关闭气息唤醒语音转文字功能。
用户如图7中(c)所示,点击气息唤醒语音转文本的按钮509,手机响应于用户的点击操作,开启气息唤醒语音转文字功能。一些实施例中,手机也可显示弹窗以提醒用户气息唤醒语音转文字功能已开启。示例性的,图7中(c)展示了弹窗510,该弹窗显示于界面设置的界面的上层,包括提醒语“气息唤醒语音转文本已开启”。弹窗510也可为toast弹窗。
输入法的设置界面不限于图6展示的进入方式。图8展示了进入输入法的设置界面的另一种方式。输入法被拉起运行之后,输入法的键盘的显示界面包括输入法的设置快启按钮,用户也可通过输入法的设置快启按钮,进入到输入法的设置界面。
示例性的,图8展示了在即时通信应用和笔记应用拉起输入法的设置界面。如图8中(a)所示,即时通信应用的界面包括输入法的设置快启按钮601,用户点击设置快启按钮601,手机响应于用户的点击操作,在即时通信应用的界面显示输入法的多个设置项的按钮,如图8中(b)所示,其中,更多设置按钮602通常为输入法的设置界面的进入按钮。用户点击更多设置按钮602,手机响应于用户的点击操作,显示如图8中(e)所示的XX输入法的设置界面。
同理,如图8中(c)所示,笔记的界面包括输入法的设置快启按钮601,用户点击设置快启按钮601,手机响应于用户的点击操作,在笔记的界面显示输入法的多个设置项的按钮,如图8中(d)所示。用户点击更多设置按钮602,手机响应于用户的点击操作,也可显示如图8中(e)所示的XX输入法的设置界面。
以上内容,以手机为例介绍了气息唤醒语音转文字功能的入口。气息唤醒语音转文字功能开启之后,在手机拉起输入法需要输入文本的应用场景中,手机可执行本申请实施例提供的输入交互方法,采集用户的音频数据并转换为文字进行显示。
当然,本申请实施例提供的输入交互方法还可以适用于平板电脑,个人数字助理(Personal Digital Assistant,PDA),桌面型、膝上型、笔记本电脑,超级移动个人计算机(Ultra-mobile Personal Computer,UMPC),手持计算机,上网本以及可穿戴设备等电子设备。
以手机为例,图9为本申请实施例提供的一种电子设备的组成示例。如图9所示,电子设备100可以包括处理器110、内部存储器120、摄像头130、显示屏140、移动通信模块150、无线通信模块160、音频模块170以及传感器模块180等。
可以理解的是,本实施例示意的结构并不构成对电子设备100的具体限定。在另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,智能传感集线器(sensorhub)和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
内部存储器120可以用于存储计算机可执行程序代码,可执行程序代码包括指令。处理器110通过运行存储在内部存储器120的指令,从而执行电子设备100的各种功能应用以及数据处理。内部存储器120可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。处理器110通过运行存储在内部存储器120的指令,和/或存储在设置于处理器中的存储器的指令,执行电子设备100的各种功能应用以及数据处理。
一些实施例中,内部存储器120存储的是用于执行输入交互方法的指令。处理器110可以通过执行存储在内部存储器120中的指令,实现监测到电子设备满足输入法的气息唤醒语音转文字功能的条件,采集用户的音频数据并转换为文字进行显示。
电子设备通过GPU,显示屏140,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏140和应用处理器。GPU通过执行数学和几何计算,用于图像渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏140用于显示图像,视频界面等。显示屏140包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emitting diode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的,AMOLED),柔性发光二极管(flex light-emitting diode,FLED),Miniled,MicroLed,Micro-oled,量子点发光二极管(quantum dotlight emitting diodes,QLED)等。在一些实施例中,电子设备可以包括1个或N个显示屏140,N为大于1的正整数。
电子设备100的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块110还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块150还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
电子设备可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。电子设备可以通过扬声器170A收听音乐,或收听免提通话。
受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。当电子设备接听电话或语音信息时,可以通过将受话器170B靠近人耳接听语音。
麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风170C发声,将声音信号输入到麦克风170C。电子设备可以设置至少一个麦克风170C。在另一些实施例中,电子设备可以设置两个麦克风170C,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,电子设备还可以设置三个,四个或更多麦克风170C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
一些实施例中,电子设备设置的至少一个麦克风170C位于电子设备的底部,用于采集用户输入的语音信号。
耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口,也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform,OMTP)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the USA,CTIA)标准接口。
传感器模块180中,压力传感器180A用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器180A可以设置于显示屏140。压力传感器180A的种类很多,如电阻式压力传感器,电感式压力传感器,电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A,电极之间的电容改变。电子设备根据电容的变化确定压力的强度。当有触摸操作作用于显示屏140,电子设备根据压力传感器180A检测触摸操作强度。电子设备也可以根据压力传感器180A的检测信号计算触摸的位置。
触摸传感器180B,也称“触控器件”。触摸传感器180B可以设置于显示屏140,由触摸传感器180B与显示屏140组成触摸屏,也称“触控屏”。触摸传感器180B用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏140提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器180B也可以设置于电子设备的表面,与显示屏140所处的位置不同。
加速度传感器180C可检测电子设备在各个方向上(一般为三轴)加速度的大小。当电子设备静止时可检测出重力的大小及方向,还可以用于识别电子设备姿态。
陀螺仪传感器180D可以用于确定电子设备的运动姿态。在一些实施例中,可以通过陀螺仪传感器180D确定电子设备围绕三个轴(即,x,y和z轴)的角速度。
另外,在上述部件之上,电子设备运行有操作系统。例如操作系统,操作系统,操作系统等。在操作系统上可以安装运行应用程序。
图10为本申请实施例提供的电子设备的软件结构示意图。
分层架构将电子设备的操作系统分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中,电子设备的操作系统为Android系统。Android系统可以分为五层,从上至下分别为应用程序(application,APP)层、应用程序框架层(简称为FWK)、系统库、硬件抽象层(Hardware Abstraction Layer,HAL)以及内核层。
应用程序层可以包括一系列应用程序包。如图10所示,应用程序包可以包括即时通信应用、笔记、气息唤醒引擎、输入法、语音助手和感知模块等应用程序。
应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface,API)和编程框架。应用程序框架层包括一些预先定义的函数。
如图10所示,应用程序框架层可以包括窗口管理服务,内容提供器,电话管理器,视图系统,资源管理器,语音识别框架(HwSoundTrigger),多模交互框架以及输入管理器(InputManager)等。
窗口管理服务用于管理窗口程序。窗口管理服务可以实现窗口的添加、删除、显示和隐藏控制等。内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。数据可以包括视频,图像,音频,拨打和接听的电话,浏览历史和书签,电话簿等。电话管理器用于提供电子设备的通信功能。例如通话状态的管理(包括接通,挂断等)。视图系统包括可视控件,例如显示文字的控件,显示图片的控件等。视图系统可用于构建应用程序。资源管理器为应用程序提供各种资源,比如本地化字符串,图标,图片,布局文件,视频文件等等。
语音识别框架可以为下层模块提供气息唤醒引擎发送的指令,还可以向气息唤醒引擎提供下层上报的事件。
多模交互框架可以通过鹰眼模块实现对用户注视点的监测,并在判断出用户的注视点位于横幅通知的所在区域时,打开横幅通知对应的应用界面。在当前打开横幅通知对应的应用界面的场景下,多模交互框架可以拉起输入法运行,在横幅通知对应的应用界面中显示输入法的键盘。
输入管理器可以监测输入法被拉起运行产生的输入法拉起事件。
Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。在本申请一些实施例中,应用冷启动会在Android runtime中运行,Android runtime由此获取到应用的优化文件状态参数,进而Android runtime可以通过优化文件状态参数判断优化文件是否因系统升级而导致过时,并将判断结果返回给应用管控模块。
核心库包含两部分:一部分是java语言需要调用的功能函数,另一部分是安卓的核心库。
应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理,堆栈管理,线程管理,安全和异常的管理,以及垃圾回收等功能。
系统库可以包括多个功能模块。例如:表面管理器(surface manager)、媒体库(Media Libraries)、三维图形处理库(例如:OpenGL ES)以及二维图形引擎(例如:SGL)等。
表面管理器用于对显示子系统进行管理,并且为多个应用程序提供了2D和3D图层的融合。媒体库支持多种常用的音频,视频格式回放和录制,以及静态图像文件等。媒体库可以支持多种音视频编码格式,例如:MPEG4,H.264,MP3,AAC,AMR,JPG,PNG等。三维图形处理库用于实现三维图形绘图,图像渲染、合成和图层处理等。二维图形引擎是2D绘图的绘图引擎。
HAL位于内核层和应用程序框架层之间,起着承上启下的作用。一些实施例中,HAL层包括语音识别hal(soundtrigger hal)和鹰眼模块,语音识别hal用于开启或关闭气息唤醒算法模块,以及向语音识别框架上报气息唤醒事件。鹰眼模块用于监测用户的注视点。
内核层是硬件和软件之间的层。内核层至少包含显示驱动,传感器驱动,音频驱动以及气息唤醒算法模块等。一些实施例中,显示驱动用于控制显示屏显示图像。传感器驱动用于控制多个传感器运行,如控制加速度传感器,陀螺仪传感器,压力传感器和触摸传感器运行。音频驱动用于缓存用户输入的音频数据,气息唤醒算法模块用于监测用户是否握持手机抬手以及输入音频数据。
在上述五层架构之下,电子设备还设置有硬件层,硬件层可包括前述提出的电子设备硬件部件,如加速度传感器,陀螺仪传感器,压力传感器和触摸传感器等。示例性的,图10展示了显示屏和摄像头。
需要说明的是,本申请实施例虽然以系统为例进行说明,但是其基本原理同样适用于基于等操作系统的电子设备。
下述实施例中所涉及的技术方案均可以在具有上述硬件架构和软件架构的电子设备中实现。
如前述气息唤醒的术语解释内容,气息唤醒功能可提供于语音助手或输入法,即电子设备可使用气息唤醒实现气息唤醒语音助手功能,也可使用气息唤醒实现气息唤醒语音转文字。但,在一个时刻气息唤醒功能不能同时提供于语音助手和输入法,因此,电子设备需要根据具体的业务场景需求,确定气息唤醒功能唤起的具体语音输入服务,比如根据业务场景唤起语音助手或输入法的语音转文字功能。
一些实施例中,电子设备可配置气息唤醒功能的多个开关按钮,语音助手和输入法分别对应一个开关按钮。当然,其他开关按钮也可对应电子设备的其他应用,为其他应用提供气息唤醒功能。气息唤醒功能的多个开关按钮在一个时刻仅一个开关按钮可处于选中状态,比如,未选中的开关按钮置灰,不可操作,处于选中状态的开关按钮对应的对应可使用气息唤醒功能。如此,用户可通过选中一个开关按钮自主选择气息唤醒功能所提供的应用,操作简单方便。
另一些实施例中,电子设备针对语音助手和输入法分别配置使用气息唤醒功能的开关,语音助手配置气息唤醒语音助手功能的开关,输入法配置气息唤醒语音转文字功能的开关,用户可通过操作开关自主选择气息唤醒功能所提供的应用。图4至图7展示了输入法配置气息唤醒语音转文字功能的开关的方式。语音助手配置气息唤醒语音助手功能的开关的方式,也可采用图6的方式,对此本实施例不做详细说明。
用户打开气息唤醒语音转文字功能的开关的按钮,实现输入法的气息唤醒语音转文字功能的启动。电子设备在判断输入法被拉起运行时,电子设备同步执行气息唤醒功能,向输入法提供气息唤醒功能的运行结果,如果检测到用户抬起动作和语音输入,由输入法将用户输入的语音转换成文字显示在输入法的文本输入框中。用户关闭气息唤醒语音转文字功能的开关的按钮,输入法的气息唤醒语音转文字功能则被关闭,电子设备不会执行气息唤醒语音转文字的功能,且输入法也不会转换用户输入的语音。示例性的,图3A和图3B展示了用户打开气息唤醒语音转文字功能的开关的按钮,输入法在运行过程中,利用气息唤醒功能的运行结果,将用户输入的语音转换成文字显示在输入法的文本输入框中。
同理,用户打开气息唤醒语音助手功能的开关的按钮,实现语音助手的气息唤醒语音助手功能的启动。电子设备执行气息唤醒功能,向语音助手提供气息唤醒功能的运行结果,由语音助手响应用户输入的语音交互指令。用户关闭气息唤醒语音助手功能的开关的按钮,实现语音助手的气息唤醒语音助手功能的关闭,电子设备不会执行气息唤醒语音助手功能,且语音助手也不会响应用户输入的语音交互指令。示例性的,图3D展示了用户打开气息唤醒语音助手功能的开关的按钮,语音助手利用气息唤醒功能的运行结果,响应用户输入的查询天气的语音交互指令,在显示屏上显示天气信息。
需要说明的是,输入法配置的气息唤醒语音转文字功能的开关,与语音助手配置的气息唤醒语音助手功能的开关属于互斥开关,在一个时刻,气息唤醒语音转文字功能的开关和气息唤醒语音助手功能的开关中仅一个开关处于打开状态。在一些实施例中,输入法配置的气息唤醒语音转文字功能的开关处于关闭状态,语音助手配置的气息唤醒语音助手功能的开关可被用户开启;输入法配置的气息唤醒语音转文字功能的开关被开启,语音助手配置的气息唤醒语音助手功能的开关则被同步关闭。
另一些实施例中,电子设备针对语音助手和输入法分别配置使用气息唤醒功能的开关,语音助手配置气息唤醒语音助手功能的开关,输入法配置气息唤醒语音转文字功能的开关。输入法配置气息唤醒语音转文字功能的开关的方式也可如图4至图7所示,语音助手配置气息唤醒语音助手功能的开关的方式,也可采用图6的方式。
气息唤醒语音助手功能的开关和气息唤醒语音转文字功能的开关被用户打开,则语音助手和输入法可向气息唤醒引擎注册业务。气息唤醒引擎可根据注册的业务,启动气息唤醒功能,还可根据语音助手和输入法的业务需求,向语音助手或输入法提供气息唤醒功能的运行结果。如此,可实现简化用户操作,智能的根据输入法和语音助手的业务需求执行气息唤醒功能。
图11展示了输入法和语音助手注册业务的原理图。
如图11所示,气息唤醒引擎可包括开关状态管理模块和场景感知决策模块,开关状态管理模块用于对应用的注册业务进行管理,场景感知决策模块用于确定当前的应用场景。输入法的气息唤醒语音转文字功能的开关被用户打开,输入法响应于用户的操作,向气息唤醒引擎的开关状态管理模块注册业务;同理,语音助手的气息唤醒语音助手功能的开关被用户打开,语音助手响应于用户的操作,向开关状态管理模块注册业务。
其中:输入法或者语音助手业务向气息唤醒引擎的开关状态管理模块注册业务可以理解成输入法或者语音助手业务注册使用气息唤醒功能。输入法的气息唤醒语音转文字功能的开关被用户开启,包括:用户如图4至图7提供的任一方式开启输入法的气息唤醒语音转文字功能。
开关状态管理模块确定存在一个注册业务的场景下,打开气息唤醒通路。当然,开关状态管理模块确定不存在注册业务,则关闭气息唤醒通路。
气息唤醒通路被打开,气息唤醒算法模块则同步被使能运行,对用户握持手机的抬手动作和用户是否输入音频数据进行检测。一些实施例中,气息唤醒算法模块可通过加速度传感器和/或陀螺仪传感器采集的运动数据,对用户握持手机的抬手动作进行检测,可通过麦克风采集用户的音频数据。气息唤醒算法模块检测到用户的抬手动作且采集到音频数据,则生成气息唤醒事件,且通过语音识别hal和语音识别框架向场景感知决策模块上报气息唤醒事件,气息唤醒事件用于指示用户在靠近麦克风说话。
场景感知决策模块根据注册业务,进行场景查询,即查询注册业务对应的应用所处的状态。进一步的,场景感知决策模块按照应用的业务优先级要求向应用分发气息唤醒事件。应用的业务优先级指应用使用气息唤醒功能执行业务的优先级。一些实施例中,输入法的业务优先级比语音助手业务的优先级高,场景感知决策模块查询到输入法被拉起运行,则向输入法分发气息唤醒事件,唤醒输入法的语音转文字功能,反之向语音助手分发气息唤醒事件。
以下结合图12,对输入法采用图11展示的原理图完成业务注册之后,输入法执行输入交互方法进行介绍。
如图12所示,输入交互方法,包括:
S101、输入管理器向气息唤醒引擎的场景感知决策模块上报输入法拉起事件。
输入法被拉起运行,可以理解成图3A中(c)展示的键盘被拉起,且光标处于文本输入框内。一些实施例中,如图10所示,应用程序框架层的输入管理器可感知到输入法被拉起运行,生成输入法拉起事件,输入管理器向气息唤醒引擎的场景感知决策模块上报输入法拉起事件。
S102、传感器采集运动数据。
本步骤中的传感器可指代加速度传感器和/或陀螺仪传感器。
一些实施例中,如前述图11的内容,输入法向开关状态管理模块注册业务,开关状态管理模块开启气息唤醒通路,且气息唤醒算法模块被使能运行。气息唤醒算法模块可通过加速度传感器和/或陀螺仪传感器采集的运动数据,对用户握持手机的抬手动作进行检测。基于此,加速度传感器和/或陀螺仪传感器被启动运行以采集运动数据。
另一些实施例中,用户采用打开气息唤醒语音转文字功能的开关的方式启动气息唤醒语音转文字功能,气息唤醒语音转文字功能的开关被用户打开,气息唤醒通路也被气息唤醒引擎开启,气息唤醒算法模块被使能运行。气息唤醒算法模块也可通过加速度传感器和/或陀螺仪传感器采集的运动数据,对用户握持手机的抬手动作进行检测。
S103、音频驱动缓存音频数据。
如前述步骤S102的内容,气息唤醒算法模块被使能运行,气息唤醒算法模块还可通过麦克风采集用户的音频数据,电子设备的音频驱动缓存用户的音频数据。
电子设备的音频驱动可以对当前时间之前预设时长内采集的用户输入的音频数据进行缓存,缓存的音频数据可以周期性刷新,刷新的周期比预设时长短。示例性的,预设时长可为6秒,刷新的周期可以为1秒。举例来说,假设当前时间为00:15:13,音频驱动缓存了00:15:08至00:15:13的音频数据,到00:15:14,音频驱动删掉00:15:08-00:15:09的音频数据,并存储00:15:13-00:15:14的音频数据,也就是音频驱动缓存了00:15:09至00:15:14的音频数据。音频驱动缓存的音频数据可用于执行音频转文本。
以上缓存音频数据的方式仅仅是本申请实施例的一个示例,本申请不限于此。
需要说明的是,步骤S102和步骤S103的执行顺序并无具体限制,也可理解成为同步进行。
S104、音频驱动向气息唤醒算法模块发送音频数据。
音频驱动可将缓存的音频数据向气息唤醒算法模块发送。
S105、传感器向气息算唤醒法模块发送运动数据。
传感器采集到运动数据,可向气息算唤醒法模块发送。当然,本步骤中的传感器也可指代加速度传感器和/或陀螺仪传感器。
需要说明的是,步骤S104和步骤S105的执行顺序也并无具体限制。
S106、气息唤醒算法模块生成气息唤醒事件。
如图3A中(c)和(d),或图3B中(c)和(d)所示,在输入法被拉起运行的应用场景中,用户抬起手机且输入音频数据。气息唤醒算法模块通过音频驱动发送的音频数据以及传感器发送的运动数据,检测到用户抬起手机且输入音频数据,气息唤醒算法模块生成气息唤醒事件。一些实施例中,气息唤醒算法模块生成的气息唤醒事件可包括:会话标识(SessionID),该会话标识用于获取音频数据。
S107、气息唤醒算法模块向语音识别hal上报气息唤醒事件。
因气息唤醒通路被打开,气息唤醒算法模块生成气息唤醒事件之后,可向语音识别hal上报气息唤醒事件。
S108、语音识别hal向语音识别框架上报气息唤醒事件。
语音识别hal接收到气息唤醒算法模块上报的气息唤醒事件,向语音识别框架上报气息唤醒事件。
S109、语音识别框架向场景感知决策模块上报气息唤醒事件。
语音识别框架接收到语音识别hal上报的气息唤醒事件,向场景感知决策模块上报气息唤醒事件。
S110、场景感知决策模块检测到输入法被拉起。
场景感知决策模块查询注册业务对应的应用所处的状态。如步骤S101的内容,场景感知决策模块接收到输入管理器上报的输入法拉起事件,场景感知决策模块则查询到输入法被拉起运行,则需向输入法分发气息唤醒事件,启动输入法的语音转文字功能。
在其他场景下,如图3E所示的场景,场景感知决策模块检测到输入法未被拉起,如未接收到输入管理器上报的输入法拉起事件,场景感知决策模块向语音助手发送气息唤醒事件,语音助手被使能运行获取用户输入的音频数据,并响应该音频数据指示的语音交互指令。
需要说明的是,图12展示了步骤S109和步骤S110的一种执行顺序。可知的,步骤S109和步骤S110不限于图12展示的执行顺序,可并行执行,或先执行步骤S110后执行步骤S109。
S111、场景感知决策模块向输入法发送气息唤醒事件。
场景感知决策模块检测到输入法被拉起运行,则向输入法发送气息唤醒事件。
一些实施例中,用户采用打开气息唤醒语音转文字功能的开关的方式启动气息唤醒语音转文字功能,步骤S109至步骤S111可不执行,气息唤醒引擎接收语音识别框架上报的气息唤醒事件,并向输入法发送气息唤醒事件。
S112、输入法启动语音转文字功能,并通过音频驱动获取缓存的音频数据。
输入法需要将用户输入的音频数据转换为文本,因此,输入法需要通过音频驱动获取缓存的音频数据。一些实施例中,输入法接收到气息唤醒事件,获取气息唤醒事件携带的Session ID,指定该Session ID与音频驱动的通路做匹配,并获取音频驱动缓存的音频数据。
S113、输入法转换音频数据为对应的文本。
一些实施例中,输入法可利用语音处理模型,将获取的音频数据进行文本转换,得到对应的文本。本实施例不对转换音频数据为文本的具体实现过程进行介绍。
S114、输入法控制显示文本。
输入法得到音频数据对应的文本之后,可控制显示该文本。一些实施例中,输入法控制文本显示于文本输入框,可如图3A中(e)所示。
本实施例中,气息唤醒算法模块检测到用户握持手机抬手以及采集到用户输入音频数据,可生成气息唤醒事件。场景感知决策模块接收到气息唤醒事件,且检测到输入法被拉起,可预测出用户需要输入文本,如此,场景感知模块向输入法发送气息唤醒事件,触发输入法获取用户输入的音频数据,并将其转换为文本显示,可实现用户无需手动操作显示屏的按钮,仅通过输入语音的方式向手机输入文本,操作简单方便。
即时通信应用在运行过程中会调用输入法,因此即时通信应用可以理解成为输入法的关联应用。由图3B和图3C展示的内容可以看出:诸如即时通信应用这类输入法的关联应用,若生成横幅通知,且该横幅通知对应的应用的界面可显示输入法的键盘,则手机利用眼动追踪功能检测到注视点处于横幅通知所在区域之后,手机自动打开横幅通知对应的应用,且拉起输入法运行。并且,输入法的气息唤醒语音转文字功能启动运行。手机通过气息唤醒语音转文字功能采集用户输入的语音,将语音转换为对应的文本。
以下结合图13,对输入法和眼动注视功能的功能模块配合完成输入交互方法进行介绍。当然,一些实施例中,输入法执行图13展示的方案之前,也可采用图11展示的原理图完成了业务注册。
如图13所示,输入交互方法,包括:
S201、多模交互框架向感知模块注册场景围栏。
多模交互框架可以理解成为眼动注视功能的一个功能模块,位于应用程序框架层。眼动注视功能被开启之后,多模交互框架向感知模块注册场景围栏。一些实施例中,注册场景围栏可以理解成是注册监测是否生成横幅通知。
感知模块可以理解成是应用程序层中的应用模块,用于监测手机等电子设备的状态,如监测电子设备是否生成横幅通知等。
S202、感知模块向多模交互框架发送通知消息通知满足场景围栏条件。
多模交互框架向感知模块注册场景围栏之后,感知模块可监测电子设备是否满足场景围栏条件,如前述步骤,注册场景围栏为注册监测是否生成横幅通知,因此,场景围栏条件可以理解成是电子设备生成横幅通知并显示横幅通知。
感知模块监测到电子设备生成横幅通知并显示横幅通知,则向多模交互框架发送通知消息,以通知多模交互框架,电子设备满足场景围栏条件。
S203、多模交互框架控制鹰眼模块运行。
多模交互框架接收到通知消息,则向鹰眼模块发送控制指令,以控制鹰眼模块运行。
鹰眼模块也可以理解成是眼动注视功能的一个功能模块,位于硬件抽象层。
S204、鹰眼模块检测眼动注视横幅通知。
鹰眼模块运行,则检测用户的注视点是否处于显示屏的特定区域。该特定区域可以理解成显示横幅通知的区域。若鹰眼模块检测到用户的注视点处于显示屏的特定区域,则说明眼动注视横幅通知,反之则未注视横幅通知。
鹰眼模块检测到眼动注视横幅通知,则可控制多模交互框架执行步骤S205;反之可退出本流程。一些实施例中,鹰眼模块检测到眼动注视横幅通知,则可向多模交互框架发送通知消息,以告知多模交互框架的检测结果。
S205、多模交互框架拉起输入法。
多模交互框架拉起输入法可以理解成多模交互框架拉起输入法运行,即图3A中(c)展示的键盘被拉起,且光标处于文本输入框内。
进一步的,多模交互框架还会拉起横幅通知对应的应用运行,当然,横幅通知对应的应用的界面也会显示在显示屏。
一些实施例中,多模交互框架在执行本步骤之前,可确定用户手持电子设备抬手,且输入音频数据,如此,多模交互框架可获知用户存在输入语音的意图,可拉起输入法运行。且在横幅通知对应的应用的界面显示输入法的界面。示例性的,如图3B中(c)所示。
S206、输入管理器向气息唤醒引擎的场景感知决策模块上报输入法拉起事件。
如前述步骤S101,输入法被拉起运行,应用程序框架层的输入管理器可感知到输入法被拉起运行,生成输入法拉起事件,输入管理器向气息唤醒引擎的场景感知决策模块上报输入法拉起事件,以告知场景感知决策模块输入法处于运行状态。
S207、传感器采集运动数据。
步骤S207的内容,可参见前述步骤S102的内容,此处不再赘述。
S208、音频驱动缓存音频数据。
步骤S208的内容,可参见前述步骤S103的内容,此处不再赘述。
步骤S207和步骤S208的执行顺序并无具体限制,也可理解成为同步进行。
S209、音频驱动向气息唤醒算法模块发送音频数据。
步骤S209的内容,可参见前述步骤S104的内容,此处不再赘述。
S210、传感器向气息算唤醒法模块发送运动数据。
步骤S210的内容,可参见前述步骤S105的内容,此处不再赘述。
需要说明的是,步骤S209和步骤S210的执行顺序也并无具体限制。
S211、气息唤醒算法模块生成气息唤醒事件。
步骤S211的内容,可参见前述步骤S106的内容,此处不再赘述。
S212、气息唤醒算法模块通过语音识别hal和语音识别框架向场景感知决策模块上报气息唤醒事件。
一些实施例中,气息唤醒算法向语音识别hal上报气息唤醒事件,语音识别hal接收到气息唤醒事件,向语音识别框架上报气息唤醒事件,语音识别框架接收到气息唤醒事件,则向场景感知决策模块上报气息唤醒事件。
S212、场景感知决策模块检测到输入法被拉起。
步骤S212的内容,可参见前述步骤S110的内容,此处不再赘述。
S213、场景感知决策模块向输入法发送气息唤醒事件。
步骤S213的内容,可参见前述步骤S111的内容,此处不再赘述。
S214、输入法启动语音转文字功能,并通过音频驱动获取缓存的音频数据。
步骤S214的内容,可参见前述步骤S112的内容,此处不再赘述。
S215、输入法转换音频数据为对应的文本。
步骤S215的内容,可参见前述步骤S113的内容,此处不再赘述。
S216、输入法控制显示文本。
步骤S216的内容,可参见前述步骤S114的内容,此处不再赘述。
本实施例中,感知模块监测到电子设备生成并显示横幅通知,则通过多模交互框架控制鹰眼模块对用户的注视点进行检测。在检测到用户的注视点位于横幅通知的区域,则说明用户在注视显示屏显示的横幅通知,有打开横幅通知的应用的需求,且也可能存在与横幅通知的手动交互障碍。进一步的,用户手持电子设备抬手,且输入语音数据,多模交互框架拉起输入法运行,简化用户操作。再进一步的,场景感知模块向输入法发送气息唤醒事件,触发输入法获取用户输入的音频数据,并将其转换为文本显示,可实现用户无需手动操作显示屏的按钮,仅通过输入语音的方式向手机输入文本,操作简单方便。
本申请另一实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机或处理器上运行时,使得计算机或处理器执行上述任一个方法中的一个或多个步骤。
计算机可读存储介质可以是非临时性计算机可读存储介质,例如,非临时性计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本申请另一实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机或处理器上运行时,使得计算机或处理器执行上述任一个方法中的一个或多个步骤。
Claims (30)
1.一种输入交互方法,其特征在于,包括:
电子设备显示第一界面,所述第一界面包括第一文本输入区域;
在所述电子设备显示所述第一界面的过程中,当用户抬起所述电子设备放到嘴边说话时开启第一语音转文字功能,所述电子设备在所述第一文本输入区域显示用户输入语音对应的文本;
响应于用户对所述第一文本输入区域的操作,所述电子设备显示第二界面,所述第二界面包括:语音转文字按钮和第二文本输入区域;
在所述电子设备显示所述第二界面的过程中,当用户按下所述语音转文字按钮时开启第二语音转文字功能,在检测到用户输入语音时,在所述第二文本输入区域显示所述用户输入语音对应的文本。
2.根据权利要求1所述的输入交互方法,其特征在于,当用户抬起所述电子设备放到嘴边说话时,用户未操作所述电子设备。
3.根据权利要求1所述的输入交互方法,其特征在于,所述第一界面不包括语音转文字按钮,或者,所述第一界面不包括输入法应用的界面。
4.根据权利要求1-3任意一项所述的输入交互方法,其特征在于,所述第一界面还包括第一应用的界面。
5.根据权利要求4所述的输入交互方法,其特征在于,所述电子设备显示第一界面之前,还包括:
所述电子设备显示第三界面,所述第三界面包括所述第一应用的第一横幅通知;
其中,所述电子设备显示第一界面,包括:响应于用户手指对所述第一横幅通知的点击操作,显示所述第一界面。
6.根据权利要求4所述的输入交互方法,其特征在于,所述电子设备显示第一界面之前,还包括:
所述电子设备显示第三界面,所述第三界面包括所述第一应用的第一横幅通知;
所述电子设备显示第一界面,包括:在所述电子设备显示所述第三界面的过程中,响应于用户注视所述第一横幅通知时,所述电子设备显示所述第一界面。
7.根据权利要求1-6任意一项所述的输入交互方法,其特征在于,所述响应于用户对所述第一界面的文本输入区域的操作,所述电子设备显示第二界面,包括:
响应于用户对所述第一文本输入区域的点击操作,所述电子设备显示所述第二界面。
8.根据权利要求1所述的输入交互方法,其特征在于,还包括:
在所述电子设备显示第四界面或者息屏的过程中,当用户抬起所述电子设备放到嘴边说话时,所述电子设备唤起语音助手,其中,所述第四界面不包括文本输入区域。
9.根据权利要求1至8中任意一项所述的输入交互方法,其特征在于,所述电子设备设置有第一开关,所述第一开关为开启状态。
10.根据权利要求1至8中任意一项所述的输入交互方法,其特征在于,所述电子设备设置有第一开关,所述第一开关为关闭状态,所述方法还包括:
在所述电子设备显示所述第一界面的过程中,当用户抬起所述电子设备放到嘴边说话时,所述电子设备不开启所述第一语音转文字功能。
11.根据权利要求8所述的输入交互方法,其特征在于,所述电子设备设置有第二开关,所述第二开关为开启状态。
12.根据权利要求8所述的输入交互方法,其特征在于,所述电子设备设置有第二开关,所述第二开关为关闭状态,所述方法还包括:
在所述电子设备显示所述第四界面或者息屏的过程中,当用户抬起所述电子设备放到嘴边说话时,所述电子设备不唤起所述语音助手。
13.一种输入交互方法,其特征在于,包括:
电子设备显示第一界面,所述第一界面包括第一文本输入区域和语音转文字按钮;
在所述电子设备显示所述第一界面的过程中,当用户抬起所述电子设备放到嘴边说话时,所述电子设备开启第一语音转文字功能,将所述语音转文字按钮由第一状态切换为第二状态,并在所述第一文本输入区域显示用户的语音输入对应的文本,其中,所述用户抬起所述电子设备放到嘴边说话时,所述用户未操作所述语音转文字按钮。
14.根据权利要求13所述的输入交互方法,其特征在于,所述第一状态为关闭状态,所述第二状态为第一开启状态,
在所述第一开启状态下,所述电子设备持续接收用户的语音输入,并将所述语音输入转换成文字显示在所述第一文本输入区域。
15.根据权利要求13所述的输入交互方法,其特征在于,所述第一状态为第二开启状态,所述第二状态为第一开启状态,
在所述第二开启状态下,所述电子设备检测到用户点击所述语音转文字按钮时,接收用户的语音输入,并将所述语音输入转换成文字显示在所述第一文本输入区域;
在所述第一开启状态下,所述电子设备持续接收用户的语音输入,并将所述语音输入转换成文字显示在所述第一文本输入区域。
16.根据权利要求13所述的输入交互方法,其特征在于,所述第一界面的第一文本输入区域还显示有文字。
17.根据权利要求13所述的输入交互方法,其特征在于,所述第一界面还包括第一应用的界面。
18.根据权利要求17所述的输入交互方法,其特征在于,所述电子设备显示第一界面之前,还包括:
所述电子设备显示第二界面,所述第二界面包括所述第一应用的第一横幅通知;
响应于用户对所述第一横幅通知的点击操作,显示所述第三界面,所述第三界面包括所述第一应用的界面和第二文本输入区域;
所述电子设备显示第一界面包括:响应于用户对所述第二文本输入区域的点击操作,显示所述第一界面。
19.根据权利要求17所述的输入交互方法,其特征在于,所述电子设备显示第一界面之前,还包括:
所述电子设备显示第二界面,所述第二界面包括所述第一应用的第一横幅通知;
响应于用户对所述第一横幅通知的点击操作,显示所述第三界面,所述第三界面包括第二文本输入区域;
所述电子设备显示第一界面包括:所述电子设备显示所述第三界面之后自动显示所述第一界面,所述电子设备显示所述第三界面之后且自动显示所述第一界面过程中,用户未操作所述第二文本输入区域。
20.根据权利要求17所述的输入交互方法,其特征在于,所述电子设备显示第一界面之前,还包括:
所述电子设备显示第二界面,所述第二界面包括所述第一应用的第一横幅通知;
所述电子设备显示第一界面包括:在所述电子设备显示所述第二界面的过程中,响应于用户注视所述第一横幅通知时,所述电子设备显示所述第一界面。
21.根据权利要求20所述的输入交互方法,其特征在于,用户注视所述第一横幅通知时,用户未操作所述电子设备的屏幕。
22.根据权利要求17所述的输入交互方法,其特征在于,所述电子设备显示第一界面之前,还包括:
所述电子设备显示第二界面,所述第二界面包括所述第一应用的第一横幅通知;
在所述电子设备显示所述第二界面的过程中,响应于用户注视所述第一横幅通知时,显示所述第三界面,所述第三界面包括第二文本输入区域;
所述电子设备显示第一界面包括:响应于用户对所述第二文本输入区域的点击操作,显示所述第一界面。
23.根据权利要求17所述的输入交互方法,其特征在于,所述电子设备显示第一界面之前,还包括:
所述电子设备显示第二界面,所述第二界面包括所述第一应用的第一横幅通知;
在所述电子设备显示所述第二界面的过程中,响应于用户注视所述第一横幅通知时,显示所述第三界面,所述第三界面包括第二文本输入区域;
所述电子设备显示第一界面包括:所述电子设备显示所述第三界面之后自动显示所述第一界面,所述电子设备显示所述第三界面之后且自动显示所述第一界面过程中,用户未操作所述第二文本输入区域。
24.根据权利要求23所述的输入交互方法,其特征在于,用户注视所述第一横幅通知时,用户未操作所述电子设备的屏幕。
25.根据权利要求13所述的输入交互方法,其特征在于,还包括:
在所述电子设备显示第四界面或者息屏的过程中,当用户抬起所述电子设备放到嘴边说话时,所述电子设备唤起语音助手,其中所述第四界面不包括文本输入区域。
26.根据权利要求13至25中任意一项所述的输入交互方法,其特征在于,所述电子设备设置有第一开关,所述第一开关为开启状态。
27.根据权利要求13至25中任意一项所述的输入交互方法,其特征在于,所述电子设备设置有第一开关,所述第一开关为关闭状态,所述方法还包括:
在所述电子设备显示所述第一界面的过程中,当用户抬起所述电子设备放到嘴边说话时,所述电子设备不开启所述第一语音转文字功能。
28.根据权利要求25所述的输入交互方法,其特征在于,所述电子设备设置有第二开关,所述第二开关为开启状态。
29.一种电子设备,其特征在于,包括:
一个或多个处理器、存储器、以及显示屏;
所述存储器和所述显示屏与所述一个或多个所述处理器耦合,所述存储器用于存储计算机程序,所述计算机程序包括计算机指令,当所述一个或多个处理器执行所述计算机指令时,所述电子设备执行如权利要求1至12任意一项所述的输入交互方法,或者如权利要求13至28任意一项所述的输入交互方法。
30.一种计算机可读存储介质,其特征在于,用于存储计算机程序,所述计算机程序被执行时,具体用于实现如权利要求1至12任意一项所述的输入交互方法,或者如权利要求13至28任意一项所述的输入交互方法。
Priority Applications (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202310713948.0A CN119148867A (zh) | 2023-06-15 | 2023-06-15 | 输入交互方法、电子设备及可读介质 |
| PCT/CN2024/079526 WO2024255326A1 (zh) | 2023-06-15 | 2024-03-01 | 输入交互方法、电子设备及可读介质 |
| EP24822284.6A EP4671931A1 (en) | 2023-06-15 | 2024-03-01 | INPUT INTERACTION METHOD, ELECTRONIC DEVICE AND READABLE MEDIA |
| US19/328,833 US20260010344A1 (en) | 2023-06-15 | 2025-09-15 | Input interaction method, electronic device, and readable medium |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202310713948.0A CN119148867A (zh) | 2023-06-15 | 2023-06-15 | 输入交互方法、电子设备及可读介质 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN119148867A true CN119148867A (zh) | 2024-12-17 |
Family
ID=93814357
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202310713948.0A Pending CN119148867A (zh) | 2023-06-15 | 2023-06-15 | 输入交互方法、电子设备及可读介质 |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US20260010344A1 (zh) |
| EP (1) | EP4671931A1 (zh) |
| CN (1) | CN119148867A (zh) |
| WO (1) | WO2024255326A1 (zh) |
Family Cites Families (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN104657105B (zh) * | 2015-01-30 | 2016-10-26 | 腾讯科技(深圳)有限公司 | 一种开启终端的语音输入功能的方法和装置 |
| CN107193914A (zh) * | 2017-05-15 | 2017-09-22 | 广东艾檬电子科技有限公司 | 一种语音输入方法及移动终端 |
| CN107608514A (zh) * | 2017-09-20 | 2018-01-19 | 维沃移动通信有限公司 | 信息处理方法及移动终端 |
| CN115414025A (zh) * | 2021-05-31 | 2022-12-02 | 华为技术有限公司 | 筛查方法、设备、存储介质及程序产品 |
| CN114415846B (zh) * | 2021-12-30 | 2025-11-28 | 北京百度网讯科技有限公司 | 控制输入方法、装置、电子设备、存储介质及程序产品 |
-
2023
- 2023-06-15 CN CN202310713948.0A patent/CN119148867A/zh active Pending
-
2024
- 2024-03-01 WO PCT/CN2024/079526 patent/WO2024255326A1/zh active Pending
- 2024-03-01 EP EP24822284.6A patent/EP4671931A1/en active Pending
-
2025
- 2025-09-15 US US19/328,833 patent/US20260010344A1/en active Pending
Also Published As
| Publication number | Publication date |
|---|---|
| WO2024255326A1 (zh) | 2024-12-19 |
| US20260010344A1 (en) | 2026-01-08 |
| EP4671931A1 (en) | 2025-12-31 |
| WO2024255326A9 (zh) | 2025-02-13 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN112567457B (zh) | 语音检测方法、预测模型的训练方法、装置、设备及介质 | |
| CN103677261B (zh) | 用户装置的情景感知服务提供方法和设备 | |
| EP3576014A1 (en) | Fingerprint recognition method, electronic device, and storage medium | |
| KR20210092795A (ko) | 음성 제어 방법 및 전자 장치 | |
| WO2019154181A1 (zh) | 显示控制方法及移动终端 | |
| CN108874357B (zh) | 一种提示方法及移动终端 | |
| CN115881118B (zh) | 一种语音交互方法及相关电子设备 | |
| WO2022242217A1 (zh) | 线性马达的控制方法、装置、设备及可读存储介质 | |
| WO2019154182A1 (zh) | 应用程序的音量设置方法及移动终端 | |
| WO2023207149A1 (zh) | 一种语音识别方法和电子设备 | |
| CN108989558A (zh) | 终端通话的方法及装置 | |
| CN111444441A (zh) | 信息提示方法、电子设备及存储介质 | |
| WO2020259514A1 (zh) | 一种调用服务的方法及装置 | |
| WO2023130931A1 (zh) | 服务异常提醒方法、电子设备及存储介质 | |
| WO2023184825A1 (zh) | 电子设备的录像控制方法、电子设备及可读介质 | |
| WO2023061054A1 (zh) | 非接触式手势控制方法和电子设备 | |
| CN114115512A (zh) | 信息显示方法、终端设备及计算机可读存储介质 | |
| CN117111727B (zh) | 手方向的检测方法、电子设备及可读介质 | |
| CN119148867A (zh) | 输入交互方法、电子设备及可读介质 | |
| CN111897916B (zh) | 语音指令识别方法、装置、终端设备及存储介质 | |
| CN211089903U (zh) | 一种无线耳机及电子设备 | |
| CN112102848B (zh) | 一种用于识别音乐的方法、芯片和终端 | |
| CN119232838A (zh) | 语音控制方法、设备及存储介质 | |
| CN113506571A (zh) | 控制方法、移动终端及存储介质 | |
| CN118051289B (zh) | 页面播报模式的切换方法、电子设备及可读介质 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| CB02 | Change of applicant information |
Country or region after: China Address after: Unit 3401, unit a, building 6, Shenye Zhongcheng, No. 8089, Hongli West Road, Donghai community, Xiangmihu street, Futian District, Shenzhen, Guangdong 518040 Applicant after: Honor Terminal Co.,Ltd. Address before: 3401, unit a, building 6, Shenye Zhongcheng, No. 8089, Hongli West Road, Donghai community, Xiangmihu street, Futian District, Shenzhen, Guangdong Applicant before: Honor Device Co.,Ltd. Country or region before: China |
|
| CB02 | Change of applicant information |