[go: up one dir, main page]

CN108806669A - 用于提供语音识别服务的电子装置及其方法 - Google Patents

用于提供语音识别服务的电子装置及其方法 Download PDF

Info

Publication number
CN108806669A
CN108806669A CN201810400219.9A CN201810400219A CN108806669A CN 108806669 A CN108806669 A CN 108806669A CN 201810400219 A CN201810400219 A CN 201810400219A CN 108806669 A CN108806669 A CN 108806669A
Authority
CN
China
Prior art keywords
electronic device
display
text
user
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810400219.9A
Other languages
English (en)
Other versions
CN108806669B (zh
Inventor
吴�荣
吴荣一
李垠京
崔正贤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN108806669A publication Critical patent/CN108806669A/zh
Application granted granted Critical
Publication of CN108806669B publication Critical patent/CN108806669B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

提供了一种电子装置。电子装置包含麦克风、显示器、存储器以及电连接到该麦克风、显示器和存储器的处理器。处理器配置为执行语音识别功能,以通过麦克风从用户获得第一话语,将基于第一话语产生的文本显示在显示器中,并且将至少一个项目显示在显示器中,该项目对应于文本中被识别为专有名词的部分并且基于第一话语和用户的个性化数据库被确定。

Description

用于提供语音识别服务的电子装置及其方法
相关申请的交叉引用
本申请基于并要求于2017年4月28日在韩国知识产权局提交的韩国专利申请第10-2017-0055640号的优先权,其公开内容通过引用整体并入本文。
技术领域
本公开涉及在电子装置中提供语音识别服务的技术。
背景技术
为了用户的方便,电子装置使用语音识别技术提供话音输入功能。电子装置可以对用户的话语进行自然语言处理。电子装置通过自然语言处理来掌握用户的意图,并提供与用户意图匹配的结果。
此外,电子装置提供基于人工智能的语音秘书服务。用户可以通过话语输入命令,并且电子装置可以进行与话语相对应的命令以充当用户的秘书。此时,电子装置需要进行与用户意图匹配的操作。
同时,人工智能系统是实现人级智能的计算机系统。人工智能系统可以自己学习和判断,并且随着人工智能系统被使用,识别率可以改善。
人工智能技术(例如,机器学习技术或深度学习技术)可以包含元件技术,该元件技术通过使用自己分类或学习多段输入数据的特性的算法来模拟人脑的功能(例如,识别或决定)。
例如,元件技术可以包含识别人的语言或字符的语言理解技术、识别物体(像人)的视觉理解技术、确定信息以逻辑上推断和预测所确定的信息的推断或预测技术、将人类经验信息处理为知识数据的知识表达技术,以及控制车辆的自动驾驶和机器人的运动的操作控制技术中的至少一种。
可以理解的是,语言学理解技术是识别和应用/处理人类的语言/字符的技术。语言学理解技术包含自然语言处理、机器翻译、对话系统、查询响应、语音识别/合成等。
以上信息仅作为背景信息呈现,以帮助理解本公开。至于以上所述的任何是否可以应用为关于本公开的现有技术,没有做出决定,也没有做出断言。
发明内容
在电子装置提供的语音秘书服务中,用户可以通过话语输入控制电子装置的命令。在这种情况下,可以使用词典中没有列出的术语(以下,称为“具有高错误概率的术语”),诸如专有名词、用户创建的创造词等。
在语音识别服务中,由于术语以及与该术语相关联的用户自己的发音/音频指纹,可能在语音识别结果中出现错误。在发生错误的情况下,由于进行了错误的控制命令,因此可以提供与用户意图不匹配的结果。
本公开的各方面至少解决上述问题和/或缺点并提供至少下述优点。因此,本公开的一方面在于提供一种电子装置,其在语音识别中解决由于具有高错误概率术语、与该术语相关联的用户发音等引起的故障。
根据本公开的一个方面,提供了一种电子装置。电子装置包含麦克风、显示器、存储器以及电连接到该麦克风、显示器和存储器的处理器。处理器配置为执行语音识别功能以通过麦克风从用户获得第一话语,将基于第一话语产生的文本显示在显示器中,并且将至少一个项目(item)显示在显示器中,该项目对应于文本中被识别为专有名词的部分并且基于第一话语和用户的个性化数据库被确定。
根据本公开的另一方面,提供了一种由电子装置进行的方法。该方法包含执行语音识别功能以通过麦克风从用户获得第一话语,将基于第一话语产生的文本显示在显示器中,并且将至少一个项目显示在显示器中,该项目对应于所产生的文本中被识别为专有名词的文本的部分并且基于第一话语和用户的个性化数据库被确定。
根据本公开的各种实施例,电子装置在进行语音识别的操作中可以识别具有高错误概率的术语,并且可以进行包含该术语的命令。
根据本公开的各种实施例,电子装置可以关于具有高错误概率的术语训练具体用户的具体发音和音频指纹。
而且,可以提供通过本公开直接或间接理解的各种效果。
根据以下结合附图公开了本公开的各种实施例的详细描述,本公开的其他方面、优点和显着特征对于本领域技术人员将变得显而易见。
附图说明
根据以下结合附图的描述,本公开的某些实施例的以上和其他方面、特征和优点将变得更加明显,其中:
图1图示了根据本公开的实施例的进行语音输入的环境;
图2是图示根据本公开的实施例的电子装置的配置的框图;
图3图示了根据本公开的实施例的提供语音秘书服务的过程;
图4图示了根据本公开的实施例的提供语音秘书服务的过程;
图5图示了根据本公开的实施例的当提供语音秘书服务时修订专有名词的过程;
图6A和6B图示了根据本公开的实施例的用户界面;
图7图示了根据本公开的实施例的当提供语音秘书服务时训练专有名词的过程;
图8A、8B、9A和9B图示了根据本公开的实施例的用于关于专有名词的训练的引导屏幕;
图10图示了根据本公开的各种实施例的网络环境中的电子装置;
图11是图示根据本公开的各种实施例的集成智能系统的视图;
图12是图示根据本公开的实施例的集成智能系统的用户终端的框图;以及
图13是图示根据本公开的实施例的执行用户终端的智能应用的视图。
在整个附图中,应该注意的是,同样的附图标记用于描绘相同或类似的元件、特征和结构。
具体实施方式
提供以下参考附图的描述以帮助全面理解由权利要求及其等同物限定的本公开的各种实施例。它包括各种具体细节以帮助理解,但这些仅被视为示例性的。因此,本领域的普通技术人员将认识到,在不脱离本公开的范围和精神的情况下,可以对本文所描述的各种实施例进行各种改变和修改。另外,为了清楚和简洁,可以省略对公知功能和结构的描述。
在以下的描述和权利要求中使用的术语和词语不限于书面含义,而是仅被发明人用来使得能够清楚和一致地理解本公开。因此,本领域技术人员应该清楚,提供本公开的各种实施例的以下描述仅用于说明的目的,而不是为了限制由所附权利要求及其等同物限定的本公开的目的。
应该理解,除非上下文另有明确地指示,否则单数形式“一”、“一个”和“该”包含复数个指示物。因此,例如,提及“组件表面”包含提及这样的表面的一个或多个。
图1图示了根据本公开的实施例的进行语音输入的环境。
参照图1,电子装置100可以从用户50获得话语。电子装置100可以执行语音识别功能并且可以获得基于该话语产生的文本。所产生的文本可对应于用户50想要的与电子装置100相关联的控制命令。
在本说明书中,语音识别功能可以意指将从用户50获得的话语转换成与用户50的意图相匹配的文本的功能。电子装置100可以通过提供语音识别功能的外部装置30(例如,外部服务器)执行语音识别功能。例如,外部装置30可以通过网络连接到电子装置100。替代地,电子装置100可以通过电子装置100中的自动语音识别(ASR)模块来执行语音识别功能。
在前一种情况下,电子装置100可以将获得的话语发送给提供语音识别功能的外部装置30,并且可以基于话语接收所产生的文本。在后一种情况下,电子装置100可以通过使用ASR模块来产生从用户50的话语转换的文本。
在进行与所产生的文本相对应的命令之前,电子装置100可以在电子装置100的显示器中显示所产生的文本,以确定所产生的文本是否与用户50的意图相匹配。
电子装置100可以识别产生的文本中具有高错误概率的术语。电子装置100可以高亮显示包含识别的术语的具体部分(例如,高亮标记等)。用户50可以验证具有高错误概率的被显示的术语;在术语被错误识别的情况下,用户50可以将该术语修订为正确的(预期的)术语。
具有高错误概率的术语可以包含专有名词、创造词和新造词,这些词在词典中未列出。当提供语音识别功能时,该术语可以不包含在通用数据库中。因此,该术语可能被错误地识别。
以下,描述了具有高错误概率的术语中的专有名词的示例。然而,本公开的实施例不限于专有名词,并且根据本公开的实施例的装置和方法可以应用于具有高错误概率的所有术语。
电子装置100可以向用户50提供与被识别为专有名词的部分相对应的推荐项目。可以基于用户50输入的话语和用户50的个性化数据库来选择推荐项目。个性化数据库可以包含与由用户50通过一个或多个程序使用的专有名词相关联的数据。电子装置100可从个性化数据库中搜索与被识别为专有名词的部分相同或类似的项目,并且可以提供至少一个项目作为推荐项目。
图2是图示根据本公开的实施例的电子装置的配置的框图。
参照图2,电子装置100可以包含处理器110、输入装置120、显示器130和存储器140。在实施例中,电子装置100可以包含麦克风120a、键盘120b、用于执行语音识别功能的物理按钮120c等作为输入装置120。另外,电子装置100还可以包含与外部装置30等通信的通信电路150。
处理器110可以电连接到麦克风120a、显示器130和存储器140,以便彼此交换信号。
麦克风120a可以从用户50获得话语。麦克风120a可以为了掌握用户50的意图而进行噪声消除功能。此外,麦克风120a可以将模拟信号转换为数字信号。信号的转换可以由处理器110进行。转换的数字信号可以用作诸如ASR、自然语言处理等的过程中的输入。
显示器130可以基于话语显示产生的文本。另外,显示器130可以显示对应于文本中被识别为专有名词的部分并且基于话语和用户50的个性化数据库被确定的至少一个项目。
个性化数据库可以与至少一个应用相关联。例如,个性化数据库可以包括由用户50在任何应用中输入的文本或通过任何应用收集或使用的文本。
电子装置100可以显示从个性化数据库中找到的至少一个项目作为推荐项目,并且因此电子装置100可以提供具体用户频繁使用的专有名词作为推荐项目。
在一个实施例中,个性化数据库可以储存在通过网络连接到电子装置100的外部装置30中。例如,外部装置30可以是提供语音识别功能的服务器。此时,个性化数据库可以被映射到用户50的具体实例并且可以被管理。对于另一个示例,外部装置30可以是储存器服务器。
在个性化数据库被储存在外部装置30中的情况下,外部装置30可以分割由所有用户可访问的通用数据库和仅由具体用户可访问的个性化数据库,并且可以储存和管理通用数据库和个性化数据库。
在另一个实施例中,个性化数据库可以储存在电子装置100的储存器空间(例如,存储器140)中的被设置为安全区域的空间中。在个性化数据库储存在电子装置100的储存器空间中的情况下,通用数据库可以储存在电子装置100的任何储存器空间中,并且个性化数据库可以储存在分开的安全区域中。
个性化数据库可以包含个人信息。当通过认证进程进行对另一用户的语音识别时,电子装置100可以防止使用个性化数据库。例如,当访问个性化数据库时,电子装置100可以使用先前输入的用户信息。用户信息可以包含由用户50输入的诸如指纹、虹膜等的生物信息,密码等。替代地,用户信息可以是通过从用户50获得的话语分析的用户的发音或音频指纹。
在实施例中,电子装置100还可以包含键盘120b作为输入装置。电子装置100可以通过键盘120b获得用于帮助语音识别的键盘输入。
在实施例中,电子装置100还可以包含用于执行语音识别功能的物理按钮120c。当与物理按钮120c相关联的输入发生时,处理器110可以配置为执行语音识别功能。用户50可以通过物理按钮120c迅速执行语音识别功能。
在实施例中,电子装置100还可以包含通信电路150。通信电路150可以进行将数据发送到外部装置30并从外部装置30接收数据的功能。例如,当将从用户50获得的话语发送到外部装置并且当接收到基于话语产生的文本时,电子装置100可以使用通信电路150。
图3图示了根据本公开的实施例的提供语音秘书服务的过程。图3的过程的可以由图2所示的电子装置100进行。
参照图3,在操作300中,电子装置(例如,图1的电子装置100)的处理器(例如,图2的处理器110)可以执行语音识别功能,并且可以通过麦克风(例如,图2的麦克风120a)从用户获得第一话语。
在实施例中,第一话语可以对应于指示用户期望通过电子装置100进行的操作的控制命令。为了控制电子装置100,用户可以通过使用话音来说出控制命令。
在操作310中,电子装置100的处理器110可以在显示器(例如,图2的显示器130)中显示基于第一话语产生的文本。用户可以通过在显示器130中显示的文本来确定第一话语是否被输入为与用户的意图匹配。
在操作320中,电子装置100的处理器110可以将文本中对应于被识别为专有名词的部分的至少一个项目显示在显示器130中。例如,至少一个项目可以称为与专有名词相对应的“推荐项目”。可以基于第一话语和用户的个性化数据库来确定至少一个项目。
在操作320中,电子装置100的处理器110可以识别产生的文本中的专有名词。例如,专有名词可以包含人的名字或物体的名字。
在实施例中,专有名词中由具体人使用但不在词典中的专有名词可能被语音识别功能错误地识别。电子装置100可参考个性化数据库提供与专有名词相对应的推荐项目。
例如,电子装置100可以将被识别为专有名词的部分的文本与包含在个性化数据库中的文本进行比较,以在个性化数据库中选择与被识别为专有名词的部分的文本类似的项目。电子装置100可以通过进行模式匹配等来计算两个文本之间的相似度。电子装置100可以以计算出的相似度的降序提供推荐项目。
电子装置100可以将被识别为专有名词的部分修订为从显示器130中显示的项目中选择的一个项目。其详细的操作将在下面参照图5进行描述。
图4图示了根据本公开的实施例的提供语音秘书服务的过程。图4的过程可以由图2所示的电子装置100进行。
参照图4,操作400、操作410和操作440可以对应于图3中描述的操作300、操作310和操作320。因此,这里将不重复其详细描述。
在操作420中,电子装置(例如,图1的电子装置100)的处理器(例如,图2的处理器110)可以通过使用至少一个应用来进行与产生的文本相对应的命令。
在进行操作440之前,电子装置100可以进行与文本相对应的命令。在取决于用户的意图获得命令的情况下,该命令可以立即进行。此时,可以省略提供推荐项目的操作。
在实施例中,为了进行与文本相对应的命令,电子装置100可以启动至少一个应用并且可以通过使用该应用来进行命令。
例如,当第一话语是“拨打电话给‘a’”时,电子装置100可以启动呼叫应用,并且可以通过使用该呼叫应用拨打电话给“a”。
对于另一个示例,当第一话语是“显示存在‘a’的照片”时,电子装置100可以启动照片应用,并且可以通过使用该照片应用将存在“a”的照片显示在显示器(例如,图2的显示器130)中。
在上述示例中,“a”可以是人的名字。用户说出的“a”可能被错误地识别为与“a”类似或与“a”完全不同的“b”。在这种情况下,电子装置100可以拨打电话给“b”或者可以将存在“b”的照片显示在显示器中。替代地,在“b”的名字不在地址簿中的情况下或者在“b”的名字从未用照片标记的情况下,由于电子装置100不可以进行上述命令,可能发生错误。
在操作430中,当用于提供命令的执行结果错误的通知的第一事件发生时,电子装置100的处理器110可以配置为在显示器130中显示与被识别为专有名词的部分相对应的至少一个项目。
例如,第一事件可以发生在电子装置100不能进行与基于第一话语所产生的文本相对应的命令的情况下。当发生命令不能被进行的错误时,电子装置100可以感测第一事件。
例如,即使电子装置100已经进行了命令,但是在执行结果与用户的意图不匹配的情况下,可能发生第一事件。当用户的取消命令或修订命令存在时,电子装置100可以确定是否发生第一事件。
在操作440中,可以基于第一话语和与至少一个应用相关联的个性化数据库来确定至少一个项目。
例如,与至少一个应用相关联的个性化数据库可以是通过具体应用输入的数据,或者可以包含具体应用使用的数据。
在各种实施例中,至少一个应用可以包含呼叫应用,并且个性化数据库可以包含联系人列表和呼叫记录。此时,电子装置100的处理器110可以配置为基于第一话语、联系人列表和呼叫记录将至少一个项目显示在显示器中。
例如,当用户说出“拨打电话给Aliana的手机”时,电子装置100可以启动呼叫应用并且可以拨打电话给Aliana。当发生错误时,电子装置100可以从联系人列表和呼叫记录中搜索与被识别为专有名词的部分“Aliana”相同或类似的专有名词。电子装置100可以将包含在联系人列表和呼叫记录中的名字中的与“Aliana”类似的“Arianna”、“Alora”等显示为推荐项目。
在各种实施例中,至少一个应用可以包含网络浏览器,并且个性化数据库可以包含在该网络浏览器中输入的搜索记录。此时,电子装置100的处理器110可以配置为基于第一话语和搜索记录将至少一个项目显示在显示器中。
例如,当用户说出“搜索YVESSAINTLAURENT”时,电子装置100可以执行网络浏览器,可以将“YVESSAINTLURENT”输入到网络浏览器的搜索框中,并且可以向用户提供搜索结果。当发生错误时,电子装置100可以从搜索记录中搜索与被识别为专有名词的部分“YVESSAINTLURENT”相同或类似的专有名词。电子装置100可以将包含在搜索记录中的词语中的与“YVESSAINTLURENT”类似的“TRENCH YVES SAINT LAURENT”、“CUIR YVES SAINTLAURENT”等显示为推荐项目。
在各种实施例中,至少一个应用可以包含电子邮件应用,并且个性化数据库可以包含电子邮件的接收者信息和发送者信息。此时,电子装置100的处理器110可以配置为基于第一话语、接收者信息和发送者信息将至少一个项目显示在显示器中。
例如,当用户说出“发送邮件给Smith的三星账户”时,电子装置100可以启动邮件应用,并且可以将邮件发送到smith@samsung.com的账户。当发生错误时,电子装置100可以从接收者信息和发送者信息中搜索与被识别为专有名词的部分“Smith”相同或类似的专有名词。电子装置100可以将包含在接收者信息和发送者信息的名字中或邮件的邮件地址中的与“smith”类似的“smiths@samsung.com”显示为推荐项目。
在各种实施例中,至少一个应用可以包含社交网络应用,并且个性化数据库可以包含在社交网络中输入的标签和位置标签。此时,电子装置100的处理器110可以配置为基于第一话语、标签和位置标签将至少一个项目显示在显示器中。
例如,当用户说出“上传今天在Instagram中捕获的具有selfie的标签的照片”时,电子装置100可以启动Instagram,可以输入#selfie,并且可以上传今天捕获的照片。当发生错误时,电子装置100可以从用户已经通过Instagram输入的标签和位置标签中搜索与被识别为专有名词的部分的“selfie”相同或类似的专有名词。电子装置100可以将在标签和位置标签中与“selfie”类似的“selfies”、“self”、“selfpic”等显示为推荐项目。
在各种实施例中,至少一个应用可以包含地图应用,并且个性化数据库可以包含在地图应用中输入的地名。电子装置100的处理器110可以配置为基于第一话语和地名将至少一个项目显示在显示器中。
例如,当用户说出“找到去Nonhyeon Station的路”时,电子装置100可以启动地图应用,可以输入“Nonhyeon Station”,并且可以搜索从当前位置到Nonhyeon Station的路径。当发生错误时,电子装置100可以从用户通过地图应用输入的地名中搜索与被识别为专有名词的部分“Nonhyeon Station”相同或类似的专有名词。电子装置100可以在地名中将与“Nonhyeon Station”类似的“Shin Nonhyeon Station”、“Nonhyun elementaryschool”、“Nonhyun Samgyetang”等显示为推荐项目。
图5图示了根据本公开的实施例的当提供语音秘书服务时修订专有名词的过程。图5的过程可以由图2所示的电子装置100进行。图5的过程可以在图3所示的操作320或图4所示的操作440之后进行。
参照图5,电子装置(例如,图1的电子装置100)的处理器(例如,图2的处理器110)可以配置为将产生的文本中的专有名词修订为从至少一个推荐项目中选择的项目,并且将修订的文本显示在显示器中。
例如,在操作510a中,电子装置100的处理器110可以接收与推荐项目中的具体项目相关联的选择输入。用户可以验证所显示的至少一个推荐项目并且可以选择适当的具体项目。
例如,在操作510b中,电子装置100的处理器110可以在推荐项目中选择具体项目。例如,处理器110可以基于专有名词与所显示项目中的每个之间的相似度来选择具体项目。电子装置100可以选择计算出的相似度最高的项目作为要修订的具体项目。
可以替代地进行操作510a和操作510b。
在操作520中,当选择具体项目时,电子装置100的处理器110可以将产生的文本中被识别为专有名词的部分修订为从至少一个项目中选择的项目。电子装置100的处理器110可以配置为将修订的文本显示在显示器中。
在操作530中,电子装置100的处理器110可以通过使用一个或多个应用来进行与修订的文本相对应的命令。
在操作540中,电子装置100的处理器110可以配置为将修订的文本、与第一话语相对应的语音数据以及修订文本和与第一话语相对应的语音数据的映射信息储存在存储器(例如,图2的存储器140)中。
电子装置100可以在再次获得第一话语的情况下参考映射信息。之后,电子装置100可以基于第一话语产生修订的文本。
图6A和6B图示了根据本公开的实施例的用户界面。特别地,图6A和6B图示了在用户说出说“向具体人发送消息(send a message to a specific person)”的命令的情况下能够提供的用户界面。用户界面可以显示在电子装置(例如,图1的电子装置100)的显示器(例如,图2的显示器130)中。
参照图6A和6B,当用户50说出“给Sungjin发送消息”(以下称为“第一话语”)时,电子装置100可以在用户界面上显示基于第一话语产生的文本。电子装置100可以在显示器130中高亮并显示在第一话语中被识别为专有名词的部分610。
在第一话语中,“Sungjin”和“消息”两者都是名词。作为词典中列出的词语,“消息”是容易进行语音识别的名词;另一方面,作为人名的“Sungjin”是在语音识别中具有高错误概率的专有名词。
电子装置100可以在显示器130中显示基于第一话语产生的文本620a,并且可以进行与产生的文本620a相对应的命令。
参照图6A,第一话语可能被错误地识别为“给Sangjin发送消息(620a)”。电子装置100可以通过使用消息应用来进行与产生的文本620a相对应的命令。然而,由于“Sangjin”的名字不在消息应用可访问的地址簿中,电子装置100可能不进行该命令。因此,可能发生用于提供与命令相关联的错误的通知的第一事件。
参照图6A,电子装置100可以显示与被识别为专有名词的部分相对应的至少一个项目630。至少一个项目630可以是与“给Sangjin”相关联的推荐项目,其是被识别为专有名词的部分。当获得第一话语时,可以显示至少一个项目630;或者当通过进行与产生的文本620a相对应的命令获得的结果指示发生错误时,可以显示至少一个项目630。
至少一个项目630可以从与消息应用相关联的个性化数据库中储存的文本项目中选择。例如,与消息应用相关联的个性化数据库可以包含联系人列表、关于消息接收者的信息以及关于消息发送者的信息。
至少一个项目630可以以相似度的降序显示。例如,可以以与“给Sangjin”类似的顺序显示“给Sungjin”、“给Seungjin”和“给Seungbin”。
可以从至少一个项目633中选择“给Sungjin”。“给Sungjin”可以由用户选择来选择,并且电子装置100可以基于相似度来选择“给Sungjin”。
当从至少一个项目630中选择“给Sungjin”作为具体项目时,电子装置100可以将被识别为专有名词的部分的“给Sangjin”修订为所选择的项目“给Sungjin”。
通过使用消息应用,电子装置100可以进行与修订的文本620b的“给Sungjin发送消息”相对应的命令。在进行命令之后或者在进行命令时,电子装置100可以储存第一话语和修订的文本的映射信息。
例如,电子装置100可以将与第一话语相对应的语音数据、修订的文本620b以及语音数据和修订的文本620b的映射信息储存在存储器(例如,图2的存储器140)中。对于另一个示例,电子装置100可以将与被识别为专有名词的部分相对应的语音数据、所选择的项目“给Sungjin”以及语音数据和所选择的项目的映射信息储存在存储器140中。之后,当再次获得第一话语时,电子装置100可以正确地进行语音识别,使得第一话语被识别为“给Sungjin”。
图7图示了根据本公开的实施例的当提供语音秘书服务时训练专有名词的过程。图7的过程可以由图2所示的电子装置100进行。
图7的过程可以在图3所示的操作320之后进行,或图7的过程可以在图4所示的操作430中当第一事件发生时进行。
参照图7,在操作710中,电子装置(例如,图2的电子装置100)的处理器(例如,图2的处理器110)可以感测用于请求关于被识别为专有名词的部分的训练的第二事件的发生。
例如,电子装置100可以在显示器(例如,图2的显示器130)中显示具体图标;当接收到与具体图标相关联的输入时,电子装置100可以确定发生第二事件。对于另一个示例,在用户重复取消话语输入的情况下,或者在重复获得相同话语的情况下,电子装置100可以确定发生第二事件。
在操作720中,电子装置100的处理器110可以配置为在显示器130中显示用于被识别为专有名词的部分的训练的引导屏幕。取决于引导屏幕,用户可以输入与被识别为专有名词的部分相对应的正确文本。用户可以通过使用键盘或话语来进行输入。
在操作730a中,电子装置100的处理器110可以通过键盘(例如,图2的键盘120b)从用户接收与被识别为专有名词的部分相对应的键盘输入。
在实施例中,在被识别为专有名词的部分的字符数目不小于预定的字符数目的情况下,电子装置100的处理器110可以配置为通过键盘120b从用户接收键盘输入。原因在于长词语的语音识别比短词语的语音识别更困难。因此,可以通过键盘输入来进行关于被识别为预定的字符数目或更多的专有名词的部分的训练。
在操作740中,电子装置100的处理器110可以配置为:将通过键盘输入获得的文本、与在第一发声中被识别为专有名词的部分相对应的语音数据以及文本和语音数据的映射信息储存在存储器中。
在用户获得与被识别为专有名词的部分相对应的语音数据的情况下,电子装置100可以通过使用映射信息将语音数据转换为正确的专有名词。
在操作730b中,电子装置100的处理器110可以配置为通过麦克风120a从用户获得与被识别为专有名词的部分相对应的第二话语。
在实施例中,电子装置100的处理器110可以配置为对于包含于被识别为专有名词的部分中的每个字符获得第二话语。与同时获得第二话语的时间点相比,电子装置100可以在对于每个字符获得第二话语的时间点处获得精确的转换结果。
在操作740中,电子装置100的处理器110可以配置为将基于第二话语产生的文本、与第一话语中被识别为专有名词的部分相对应的语音数据以及文本和语音数据的映射信息储存在存储器中。
图8A、8B、9A和9B图示了根据本公开的实施例的用于关于专有名词的训练的引导屏幕。
参照图8A和8B,图8A图示了用于接收键盘输入、用于关于被识别为专有名词的部分的训练的引导屏幕。图8B图示了用于接收话音输入、用于关于被识别为专有名词的部分的训练的引导屏幕。
参照图8A,电子装置(例如,图1的电子装置100)可以从用户接收与被识别为专有名词的部分相关联的键盘输入,该部分是训练目标。电子装置100可以通过使用输入文本来训练被识别为专有名词的部分。通过图7的操作730a和操作740来描述训练过程。
参照图8B,电子装置可以从用户获得与被识别为专有名词的部分相关联的话语,该部分是训练目标。电子装置100可以通过使用所获得的话语来训练被识别为专有名词的部分。通过图7的操作730b和操作740来描述训练过程。
参照图9A和9B,图9A和图9B图示了用于训练的引导屏幕。为了获得与被识别为专有名词的部分相关联的话语,电子装置100可以在显示器(例如,图2的显示器130)中显示图9A和/或图9B。
参照图9A,电子装置100可以对于包含于被识别为专有名词的部分的每个字符(参考区域900)获得话语。该操作描述为图7中的操作730b的示例。
参照图9B,电子装置100可以在显示器130中显示区域910-1,并且可以获得与被识别为专有名词的部分“给Sungjin”相对应的话语。另外,电子装置100可以在显示器130中显示区域910-2,并且可以获得与包含被识别为专有名词的部分的“这给Sungjin”相对应的话语。此外,电子装置100可以在显示器130中显示区域910-3,并且可以获得与包括被识别为专有名词的部分的“给Sungjin发送消息”相对应的话语。
参照图9B,将识别为专有名词的部分单独说出的情况、识别为专有名词的部分前面的任意单词被包含并说出的情况、以及识别为专有名词的部分后面的任意单词被包含并说出的情况中的所有情况可以被训练。所示区域910-1至区域910-3是示例性的。电子装置100可以在该部分的前面和/或后面,组合任意词与被识别为专有名词的部分,并且可以引导该训练。
根据本公开中公开的各种实施例,电子装置可以包含麦克风、显示器、存储器以及电连接到麦克风、显示器和存储器的处理器。处理器可以配置为执行语音识别功能,通过麦克风从用户获得第一话语,将基于第一话语产生的文本显示在显示器中,并且将至少一个术语显示在显示器中,该术语对应于文本中被识别为专有名词的部分并且基于第一话语和用户的个性化数据库被确定。
根据本公开中公开的各种实施例,电子装置还可以包含用于进行语音识别功能的物理按钮。处理器可以配置为当与物理按钮相关联的输入发生时进行语音识别功能。
根据本公开中公开的各种实施例,处理器可以配置为通过使用至少一个应用进行与产生的文本相对应的命令,并且当用于提供命令的执行结果错误的通知的第一事件发生时将至少一个项目显示在显示器中,该至少一个项目基于第一话语和与至少一个应用相关联的个性化数据库被确定。
根据本公开中公开的各种实施例,至少一个应用可以包含呼叫应用。个性化数据库可以包含联系人列表和呼叫记录,并且处理器可以配置为基于第一话语、联系人列表和呼叫记录将至少一个项目显示在显示器中。
根据本公开中公开的各种实施例,至少一个应用可以包含网页浏览器。个性化数据库可以包含在网页浏览器中输入的搜索记录,并且处理器可以配置为基于第一话语和搜索记录将至少一个项目显示在显示器中。
根据本公开中公开的各种实施例,至少一个应用可以包含电子邮件应用。个性化数据库可以包含电子邮件的接收者信息和发送者信息,并且处理器可以配置为基于第一话语、接收者信息和发送者信息将至少一个项目显示在显示器中。
根据本公开中公开的各种实施例,至少一个应用可以包含社交网络应用。个性化数据库可以包含在社交网络应用中输入的标签和位置标签,并且处理器可以配置为基于第一话语、标签和位置标签将至少一个项目显示在显示器中。
根据本公开中公开的各种实施例,至少一个应用可以包含地图应用。个性化数据库可以包含在地图应用中输入的地名,并且处理器可以配置为基于第一话语和地名将至少一个项目显示在显示器中。
根据本公开中公开的各种实施例,处理器可以配置为将在产生的文本中被识别为专有名词的部分修订为从至少一个项目中选择的项目,并且将修订的文本显示在显示器中。
根据本公开中公开的各种实施例,处理器可以配置为将修订的文本、与第一话语相对应的语音数据以及修订文本和与第一话语相对应的语音数据的映射信息储存在存储器中。
根据本公开中公开的各种实施例,处理器可以配置为,当用于请求关于被识别为专有名词的部分的训练的第二事件发生时,将用于关于被识别为专有名词的部分的训练的指导屏幕显示在显示器中。
根据本公开中公开的各种实施例,处理器可以配置为通过麦克风从用户获得与被识别为专有名词的部分相对应的第二话语。
根据本公开中公开的各种实施例,处理器可以配置为对于包含于被识别为专有名词的部分中的每个字符获得第二话语。
根据本公开中公开的各种实施例,处理器可以配置为,将基于第二话语产生的文本、与第一话语中被识别为专有名词的部分相对应的语音数据,以及基于第二话语产生的文本和与第一话语中被识别为专有名词的部分相对应的语音数据的映射信息储存在存储器中。
根据本公开中公开的各种实施例,电子装置还可以包含键盘。处理器可以配置为通过键盘从用户接收与被识别为专有名词的部分相对应的键盘输入。
根据本公开中公开的各种实施例,当被识别为专有名词的部分不小于预定的字符数目时,处理器可以配置为通过键盘从用户接收键盘输入。
根据本公开中公开的各种实施例,处理器可以配置为,将通过键盘输入获得的文本、与第一话语中被识别为专有名词的部分相对应的语音数据,以及通过键盘输入获得的文本和与第一话语中被识别为专有名词的部分相对应的语音数据的映射信息储存在存储器中。
根据本公开中公开的各种实施例,由电子装置进行的方法包含,执行语音识别功能以通过麦克风从用户获得第一话语,将基于第一话语产生的文本显示在显示器中,并且将至少一个术语显示在显示器中,该术语对应于所产生的文本中被识别为专有名词的部分并且基于第一话语和用户的个性化数据库被确定。
根据本公开中公开的各种实施例,该方法还可以包含通过使用至少一个应用来进行与产生的文本相对应的命令。将至少一个项目显示在显示器中包含,当用于提供命令的执行结果错误的通知的第一事件发生时,将至少一个项目显示在显示器中,该项目基于与至少一个应用相关联的个性化数据库被确定。
根据本公开中公开的各种实施例,该方法还可以包含:将被识别为专有名词的部分修订为从至少一个项目中选择的一个项目,以在显示器中显示修订的文本,并且通过使用至少一个应用进行与修订的文本相对应的命令。
图10图示了根据本公开的各种实施例的网络环境中的电子装置。
参照图10,在网络环境1000中,电子装置1001可以包含各种类型的装置。例如,电子装置1001可以包含便携式通信装置(例如,智能电话)、计算机装置(例如、个人数字助理(PDA)、平板个人计算机(PC)、膝上型PC、台式PC、工作站或服务器)、便携式多媒体装置(例如,电子书阅读器或MP3播放器)、便携式医疗装置(例如,心率、血糖、血压或温度计)、照相机或可穿戴装置中的至少一种。可佩戴装置可以包含配件类型的装置(例如,钟表、戒指、手镯、脚链、项链、眼镜、隐形眼镜或头戴式装置(HMD))、单件织物或衣服类型的装置(例如,电子衣服)、身体附着类型的装置(例如,皮肤垫或纹身)或生物可植入电路中的至少一种。根据各种实施例,电子装置可以包含例如电视(TV)、数字多功能盘(DVD)播放器、音频装置、音频配件装置(例如,扬声器、耳机或者耳麦)、冰箱、空调,清洁器、烤箱、微波炉、洗衣机、空气净化器、机顶盒、家庭自动化控制面板、安全控制面板、游戏机、电子词典、电子钥匙、摄像机或电子相框中的至少一种。
根据另一个实施例,电子装置可以包含导航装置、全球导航卫星系统(GNSS)、事件数据记录器(EDR)(例如,用于汽车、船舶或飞机的黑匣子)、车辆信息娱乐装置(例如,车辆的平视显示器)、工业或家庭机器人、无人机、自动取款机(ATM)、销售点(POS)装置、测量装置(例如,水表、电表或燃气表)或物联网(例如,灯泡、喷水装置、火警、温控器或路灯)中的至少一种。根据本公开的实施例,电子装置不限于上述装置。例如,类似于具有测量个人生物信息(例如,心率或血糖)功能的智能电话,电子装置可以以复杂的方式提供多个装置的功能。在本公开中,本文使用的术语“用户”可以指代使用电子装置的人或者可以指代使用电子装置的装置(例如,人工智能电子装置)。
参照图10,在网络环境1000下,电子装置1001(例如,图1的电子装置100)可以通过本地无线通信1098与第一外部电子装置1002通信,或者可以通过第二网络1099与第二外部电子装置1004或服务器1008通信。根据实施例,电子装置1001可以通过服务器1008与第二外部电子装置1004通信。
根据实施例,电子装置1001可以包含总线1010、处理器1020(例如,图2的处理器110)、存储器1030、输入装置1050(例如,微型电话或鼠标)、显示器1060、音频模块1070、传感器模块1076、接口1077、触觉模块1079、相机模块1080、功率管理模块1088、电池1089、通信模块1090和用户识别模块(SIM)1096。根据实施例,电子装置1001可以不包含上述元件中的至少一个(例如,显示器1060或相机模块1080),或者还可以包含其他元件。
例如,总线1010可以与上述元件1020至1090互连,并且可以包含用于在上述元件之间传送信号(例如,控制消息或数据)的电路。
处理器1020可以包含中央处理单元(CPU)、应用处理器(AP)、图形处理单元(GPU)、相机的图像信号处理器(ISP)或通信处理器(CP)中的一个或多个。根据实施例,处理器1020可以用片上系统(SoC)或系统级封装(SiP)来实现。例如,处理器1020可以驱动操作系统(OS)或应用以控制连接到处理器1020的另一元件(例如,硬件或软件元件)中的至少一个,并且可以处理和计算各种数据。处理器1020可以将从其他元件(例如,通信模块1090)中的至少一个接收的命令或数据载入到易失性存储器1032中以处理该命令或数据,并且可以将处理结果数据储存到非易失性存储器1034中。
存储器1030可以包含例如易失性存储器1032或非易失性存储器1034。易失性存储器1032可以包含,例如随机存取存储器(RAM)(例如,动态RAM(DRAM)、静态RAM(SRAM)或同步动态RAM(SDRAM))。非易失性存储器1034可以包含,例如一次性可编程只读存储器(OTPROM)、可编程ROM(PROM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、掩模ROM、闪速ROM、闪存、硬盘驱动器或固态驱动器(SSD)。另外,非易失性存储器1034可以根据与电子装置1001的连接以内部存储器1036的形式或仅在必要时通过连接可用的外部存储器1038的形式来配置。外部存储器1038还可以包含诸如紧凑型闪存(CF)的闪存驱动器、安全数字(SD)、微型SD,迷你SD、极限数字(xD)、多媒体卡(MMC)或存储器棒等。外部存储器1038可以以有线方式(例如,电缆或通用串行总线(USB))或无线(例如,蓝牙)方式在操作上或物理上与电子装置1001连接。
例如,存储器1030可以储存例如电子装置1001的至少一个不同的软件元件,诸如与程序1040相关联的指令或数据。程序1040可以包含例如内核1041、库1043、应用框架1045或应用程序(可互换地为“应用”)1047。
输入装置1050可以包含麦克风、鼠标或键盘。根据一个实施例,键盘可以包含物理连接的键盘或通过显示器1060虚拟显示的键盘。
显示器1060可以包含显示器、全息图装置或投影仪,以及控制相关装置的控制电路。屏幕可以包含,例如液晶显示器(LCD)、发光二极管(LED)显示器、有机LED(OLED)显示器、微机电系统(MEMS)显示器或电子纸显示器。根据实施例,显示器可以灵活地、透明地或可穿戴地实现。显示器可以包含触摸电路,其能够检测用户的输入,诸如手势输入、接近输入或悬停输入或能够测量触摸压力的压力传感器(可互换地为力传感器)。触摸电路或压力传感器可以与显示器一体地实现,或者可以使用与显示器分开地至少一个传感器来实现。全息图装置可以利用光的干涉在空间中示出立体图像。投影机可以将光投影到屏幕上以显示图像。屏幕可以位于电子装置1001的内部或外部。
音频模块1070可以例如从声音转换成电信号或从电信号转换成声音。根据实施例,音频模块1070可以通过输入装置1050(例如,麦克风)获取声音,或者可以通过包含于电子装置1001、与电子装置1001连接的外部电子装置(例如,第一外部电子装置1002(例如,无线扬声器或无线耳机))或第三外部电子装置1006(例如,有线扬声器或有线耳机)中的输出装置(未图示)(例如,扬声器或接收器)输出声音。
传感器模块1076可以测量或检测例如电子装置1001的内部操作状态(例如,功率或温度)或外部环境状态(例如,高度、湿度或亮度)以产生与所测量的状态或检测到的状态的信息相对应的电信号或数据值。传感器模块1076可以包含例如手势传感器、陀螺仪传感器、大气压力传感器、磁性传感器、加速度传感器、抓握传感器、接近传感器、颜色传感器(例如,红色、绿色、蓝色(RGB)传感器)、红外传感器、生物传感器(例如,虹膜传感器、指纹传感器、心率监测(HRM)传感器、电子鼻传感器、肌电图(EMG)传感器、脑电图(EEG)传感器、心电图(ECG)传感器)、温度传感器、湿度传感器、照度传感器或UV传感器。传感器模块1076还可以包含用于控制包含在其中的至少一个或多个传感器的控制电路。根据实施例,电子装置1001可以通过使用处理器1020或与处理器1020分开的处理器(例如,传感器集线器)来控制传感器模块1076。在使用分开的处理器(例如,传感器集线器)的情况下,在处理器1020处于睡眠状态时,在不唤醒处理器1020的情况下,电子装置1001可以通过分开的处理器的操作来控制传感器模块1076的操作或状态的至少部分。
根据实施例,接口1077可以包含高清多媒体接口(HDMI)、USB、光接口、推荐标准232(RS-232)、D超小型(D-sub)高清链接(MHL)接口、SD卡/MMC接口或音频接口。连接器1078可以物理地连接电子装置1001和第三外部电子装置1006。根据实施例,连接器1078可以包含例如USB连接器、SD卡/MMC连接器或音频连接器(例如,耳机连接器)。
触觉模块1079可以将电信号转换成机械刺激(例如,振动或运动)或电刺激。例如,触觉模块1079可以向用户施加能触知的或动觉的刺激。触觉模块1079可以包含例如电动机、压电元件或电刺激器。
相机模块1080可以捕获例如静止图像和动态图片。根据一个实施例,相机模块1080可以包含至少一个镜头(例如,广角镜头和长焦镜头,或前镜头和后镜头)、图像传感器、ISP或者闪光灯(例如,LED或氙灯)。
用于管理电子装置1001的功率的功率管理模块1088可以构成功率管理集成电路(PMIC)的至少一部分。
电池1089可以包含主电池、辅助电池或燃料电池,并且可以由外部电源再充电以给电子装置1001的至少一个元件供电。
通信模块1090可以建立电子装置1001与外部装置(例如,第一外部电子装置1002、第二外部电子装置1004或服务器1008)之间的通信信道。通信模块1090可以通过建立的通信信道来支持有线通信或无线通信。根据实施例,通信模块1090可以包含无线通信模块1092或有线通信模块1094。通信模块1090可以使用无线通信模块1092或有线通信模块1094之间的相关模块,通过本地无线通信1098(例如,诸如蓝牙或红外数据关联(IrDA)的无线局域网(LAN))或第二网络1099(例如,诸如蜂窝网络的无线广域网(WAN))与外部装置通信。
无线通信模块1092可以支持例如蜂窝通信、本地无线通信和GNSS通信。蜂窝通信可以包含例如长期演进(LTE)、长期演进技术升级版(LTE-A)、码分多址(CDMA)、宽带CDMA(WCDMA)、通用移动电信系统(UMTS)、无线宽带(WiBro)或用于移动通信(GSM)的全球系统。本地无线通信1098可以包含无线保真(Wi-Fi)、Wi-Fi direct、光保真(Li-Fi)、蓝牙,蓝牙低功耗(BLE)、Zigbee、近场通信(NFC)、磁安全传输(MST)、射频(RF)或体域网(BAN)。GNSS可以包含全球定位系统(GPS)、全球导航卫星系统(Glonass)、北斗导航卫星系统(北斗)、欧洲全球卫星导航系统(伽利略)等中的至少一个。在本公开中,“GPS”和“GNSS”可以互换使用。
根据实施例,当无线通信模块1092支持蜂窝通信时,无线通信模块1092可以例如使用SIM(例如,SIM卡)1096识别或认证通信网络内的电子装置1001。根据实施例,无线通信模块1092可以包含与处理器2820(例如,AP)分开的CP。在这种情况下,当处理器1020处于非激活(睡眠)状态时,CP可以进行与电子装置1001的元件1010至1096中的至少一个相关联的至少一部分功能以取代处理器1020,并且当处理器1020处于激活状态时与处理器1020一起。根据实施例,无线通信模块1092可以包含多个通信模块,每个通信模块仅支持蜂窝通信、短距离无线通信或GNSS通信方案之中的相关通信方案。
有线通信模块1094可以包含例如LAN服务、电力线通信或普通老式电话服务(POTS)。
例如,本地无线通信1098可以采用例如Wi-Fi direct或蓝牙通过电子装置1001与第一外部电子装置1002之间的无线直接连接来发送或接收指令或数据。第二网络1099可以包含用于在电子装置1001和第二外部电子装置1004之间发送或接收指令或数据的电信网络(例如,诸如LAN或WAN的计算机网络、因特网或电话网络)。
根据各种实施例,可以通过与第二网络连接的服务器1008在电子装置1001和第二外部电子装置1004之间发送或接收指令或数据。第一外部电子装置1002和第二外部电子装置1004中的每一个可以是与电子装置1001的类型不同或相同的装置。根据各种实施例,电子装置1001将进行的全部或部分操作可以由另一个或多个电子装置(例如,第一和第二外部电子装置1002和1004或服务器1008)进行。根据实施例,在电子装置1001自动执行任何功能或服务或者响应于请求执行任何功能或服务的情况下,电子装置1001可以不在内部进行功能或服务,而是可以替代地或附加地将与电子装置1001相关联的功能的至少部分的请求发送到任何其他装置(例如,第一和第二外部电子装置1002或1004或服务器1008)。其他的电子装置(例如,第一和第二外部电子装置1002或1004或服务器1008)可以执行所请求的功能或附加功能,并且可以将执行结果发送到电子装置1001。电子装置1001可以使用所接收的结果来提供所请求的功能或服务,或者可以附加地处理所接收的结果以提供所请求的功能或服务。为此,例如,可以使用云计算、分布式计算或客户端-服务器计算。
本公开的各种实施例和本文中使用的术语不旨在限制将本公开中描述的技术限制为具体实施例,并且应该理解,各种实施例和术语包含对与本文所描述的实施例相对应的修改、等同物和/或替代。关于附图的描述,类似的元件可以由类似的附图标记标记。除非另有指定,单数形式的术语可以包含复数形式。在本文中公开的公开中,在本文中使用的表述“A或B”、“A和/或B中的至少一个”、“A、B或C”或“A、B和/或C中的至少一个”等可以包含相关联所列术语中的一个或多个的任何和所有组合。诸如“第一”或“第二”等表达可以表达它们的元件,而不管它们的优先级或重要性如何,并且可以用于将一个元件与另一个元件区分开但不限于这些组件。当(例如,第一)元件称为“(可操作地或通信地)与另一个(例如,第二)元件耦接/耦接到另一个(例如,第二)元件”或“连接到”另一个(例如,第二)元件时,其可以直接与另一个元件耦接/耦接到另一个元件或连接到另一个元件,或者中间元件(例如,第三元件)可以存在。
根据情形,本文使用的表达“适应于或配置为”可以互换地用作例如表达“适合于”、“具有……的能力”、“改变为”、“对……做出”、“能够”或“设计为”。表达“配置为……的装置”可以意指该装置“能够”与另一个装置或其他组件一起操作。例如,“配置为(或设置为)进行A、B和C的处理器”可以意指用于进行对应的操作的专用处理器(例如,嵌入式处理器)或通过执行储存在存储器装置(例如,存储器1030)中的一个或多个软件程序来进行对应的操作的通用处理器(例如,CPU或AP)。
本说明书中使用的术语“模块”可以包含使用硬件、软件或固件实现的单元。例如,术语“模块”可以与术语“逻辑”、“逻辑块”、“组件”、“电路”等互换使用。“模块”可以是集成组件或其一部分的最小单元,或者可以是用于进行一个或多个功能或其一部分的最小单元。“模块”可以机械地或电子地实现,并且可以包含例如专用IC(ASIC)芯片、现场可编程门阵列(FPGA)和用于进行一些已知的或要开发的操作的可编程逻辑装置。
根据各种实施例,设备(例如,其模块或其功能)或方法(例如,操作)的至少一部分可以例如通过储存在计算机可读储存器介质(例如,存储器1030)中的以程序模块的形式存在的指令来实现。该指令当由处理器(例如,处理器1020)执行时可以使处理器进行与该指令相对应的功能。计算机可读记录介质可以包含硬盘、软盘、磁介质(例如,磁带)、光介质(例如,光盘ROM(CD-ROM)和DVD、磁光介质(例如,软光盘))、嵌入式存储器等。该一个或多个指令可以含有由编译器所生成的代码或可由解释器执行的代码。
图11是图示根据本公开的各种实施例的集成智能系统的视图。
参照图11,集成智能系统1000可以包含用户终端1200(例如,图1的电子装置)、智能服务器1300、个人信息服务器1400或建议服务器1500。
参照图11,集成智能系统1000可以包含用户终端1200(例如,图1的电子装置)、智能服务器1300、个人信息服务器1400或建议服务器1500。
用户终端1200可以通过储存在用户终端1200中的应用(或应用程序)(例如,警报应用、消息应用、图片(图库)应用等)提供用户所必需的服务。例如,用户终端1200可以通过储存在用户终端1200中的智能应用(或语音识别应用)来执行和操作其他应用。可以接收用于通过用户终端1200的智能应用启动和操作其他应用的用户输入。例如,用户输入可以通过物理按钮、触摸板,话音输入、远程输入等来接收。根据实施例,与互联网连接的各种类型的终端装置(或电子装置)可以对应于用户终端1200,诸如移动电话、智能手机、PDA、笔记本电脑等。
根据实施例,用户终端1200可以接收用户话语作为用户输入。用户终端1200可以接收用户话语并且可以基于用户话语产生用于操作应用的指令。这样,用户终端1200可以通过使用该指令来操作应用。
智能服务器1300可以通过通信网络从用户终端1200接收用户的话音输入,并且可以将该话音输入改变为文本数据。在另一个实施例中,智能服务器1300可以基于该文本数据产生(或选择)路径规则。路径规则可以包含关于用于进行应用的功能的动作(或操作或任务)的信息或者关于进行该动作所必需的参数的信息。另外,路径规则可以包含应用的动作的顺序。用户终端1200可以接收路径规则,可以取决于路径规则选择应用,并且可以执行包括在所选择的应用中的路径规则中的动作。
例如,用户终端1200可以执行动作并且可以将与执行动作的用户终端1200的状态相对应的屏幕显示在显示器中。对于另一个示例,用户终端1200可以执行动作并且可以不将通过执行该动作所获得的结果显示在显示器中。例如,用户终端1200可以执行多个动作,并且可以仅将多个动作的一部分的结果显示在显示器中。例如,用户终端1200可以仅将通过执行最后动作所获得的结果显示在显示器中。对于另一个示例,用户终端1200可以接收用户输入以将通过执行该动作所获得的结果显示在显示器中。
个人信息服务器1400可以包含储存用户信息的数据库。例如,个人信息服务器1400可以从用户终端1200接收用户信息(例如,上下文信息、关于执行应用的信息等),并且可以将用户信息储存在数据库中。智能服务器1300可以用于通过通信网络从个人信息服务器1400接收用户信息并且产生与用户输入相关联的路径规则。根据实施例,用户终端1200可以通过通信网络从个人信息服务器1400接收用户信息,并且可以使用用户信息作为用于管理数据库的信息。
建议服务器1500可以包含数据库,该数据库储存关于终端中的功能、应用的介绍或要提供的功能的信息。例如,建议服务器1500可以包含与用户通过从个人信息服务器1400接收用户终端1200的用户信息而利用的功能相关联的数据库。用户终端1200可以通过通信网络从建议服务器1500接收关于要提供的功能的信息,并且可以将该信息提供给用户。
图12是图示根据本公开的实施例的集成智能系统的用户终端的框图。
参照图12,用户终端1200可以包含输入模块1210、显示器1220、扬声器1230、存储器1240或处理器1250。用户终端1200还可以包含外壳,并且用户终端1200的元件可以位于外壳中或者可以位于外壳上。
根据实施例,输入模块1210可以从用户接收用户输入。例如,输入模块1210可以从所连接的外部装置(例如,键盘或耳麦)接收用户输入。对于另一个示例,输入模块1210可以包含耦接到显示器1220的触摸屏(例如,触摸屏显示器)。对于另一个示例,输入模块1210可以包含放置在用户终端1200(或用户终端1200的外壳)中的硬件按键(或物理按键)。
根据实施例,输入模块1210可以包含能够接收用户话语作为话音信号的麦克风。例如,输入模块1210可以包含语音输入系统,并且可以通过语音输入系统接收用户的话语作为话音信号。
根据实施例,显示器1220可以显示应用的图像、视频和/或执行屏幕。例如,显示器1220可以显示应用的图形用户界面(GUI)。
根据实施例,扬声器1230可以输出话音信号。例如,扬声器1230可以将在用户终端1200中产生的话音信号输出到外部。
根据实施例,存储器1240可以储存多个应用1241和1243。取决于用户输入可以选择、启动和执行储存在存储器1240中的多个应用1241和1243。
根据实施例,存储器1240可以包含能够储存识别用户输入所必需的信息的数据库。例如,存储器1240可以包含能够储存日志信息的日志数据库。对于另一个示例,存储器1240可以包含能够储存用户信息的角色数据库。
根据实施例,存储器1240可以储存多个应用1241和1243,并且可以加载多个应用程序1241和1243以进行操作。例如,储存在存储器1240中的多个应用1241和1243可以由处理器1250的执行管理器模块1253加载以进行操作。多个应用1241和1243可以包含进行功能或多个动作(或单元动作)1241b和1243b的执行服务1241a和1243a。执行服务1241a和1243a可以由处理器1250的执行管理器模块1253产生,并且然后可以执行多个动作1241b和1243b。
根据实施例,当执行应用1241和1243的动作1241b和1243b时,可以在显示器1220中显示根据动作1241b和1243b的执行的执行状态屏幕。例如,执行状态屏幕可以是动作1241b和1243b完成的状态下的屏幕。对于另一个示例,执行状态屏幕可以是在动作1241b和1243b的执行处于部分登陆的状态(例如,在未输入动作1241b和1243b所必需的参数的情况下)的屏幕。
根据实施例,执行服务1241a和1243a可以取决于路径规则执行动作1241b和1243b。例如,执行服务1241a和1243a可以由执行管理器模块1253激活,可以取决于路径规则从执行管理器模块1253接收执行请求,并且可以取决于执行请求而执行应用1241和1243的动作1241b和1243b。当动作1241b和1243b的执行完成时,执行服务1241a和1243a可以将完成信息发送给执行管理器模块1253。
根据实施例,在应用1241和1243中分别执行多个动作1241b和1243b的情况下,可以顺序执行多个动作1241b和1243b。当一个动作(动作1)的执行完成时,执行服务1241a和1243a可以打开下一个动作(动作2)并且可以将完成信息发送给执行管理器模块1253。这里,应当理解的是,打开任意动作是将任意动作的状态改变为可执行状态或者准备任意动作的执行。换言之,当任意动作未被打开时,对应的动作可以不被执行。当接收到完成信息时,执行管理器模块1253可以将对于下一个动作1241b和1243b的执行请求发送给执行服务(例如,动作2)。根据实施例,在执行多个应用1241和1243的情况下,可以顺序执行多个应用1241和1243。例如,当在执行第一应用的最后动作之后接收到完成信息时,执行应用1241,执行管理器模块1253可以将第二应用(应用1243)的第一动作的执行请求发送给执行服务1243a。
根据实施例,在应用1241和1243中执行多个动作1241b和1243b的情况下,可以在显示器1220中显示根据执行的多个动作1241b和1243b中的每一个的执行的结果屏幕。根据实施例,可以在显示器1220中仅显示根据执行的多个动作1241b和1243b的多个结果屏幕的一部分。
根据实施例,存储器1240可以储存与智能代理1251结合操作的智能应用(例如,语音识别应用)。结合智能代理1251操作的应用可以接收并处理用户的话语作为话音信号。根据实施例,结合智能代理1251操作的应用可以通过输入模块1210输入的具体输入(例如,通过硬件按键的输入、通过触摸屏的输入或具体话音输入)来操作。
根据实施例,处理器1250可以控制用户终端1200的全体动作。例如,处理器1250可以控制输入模块1210以接收用户输入。处理器1250可以控制显示器1220显示图像。处理器1250可以控制扬声器1230输出话音信号。处理器1250可以控制存储器1240读取或储存必需的信息。
根据实施例,处理器1250可以包含智能代理1251、执行管理器模块1253或者智能服务模块1255。在实施例中,处理器1250可以通过执行储存在存储器1240中的指令来驱动智能代理1251、执行管理器模块1253或智能服务模块1255。本公开的各种实施例中描述的模块可以通过硬件或通过软件来实现。在本公开的各种实施例中,可以理解,由智能代理1251、执行管理器模块1253或智能服务模块1255执行的动作是由处理器1250执行的动作。
根据实施例,智能代理1251可以基于作为用户输入接收的话音信号来产生用于操作应用的指令。根据实施例,执行管理器模块1253可以从智能代理1251接收所产生的指令,并且可以选择、启动并操作储存在存储器1240中的应用1241和1243。根据实施例,智能服务模块1255可以管理用户的信息并且可以使用用户的信息来处理用户输入。
智能代理1251可以将通过输入模块1210接收到的用户输入发送并处理到智能服务器1300。
根据实施例,在将用户输入发送到智能服务器1300之前,智能代理1251可以预处理用户输入。根据实施例,为了预处理用户输入,智能代理1251可以包含自适应回声消除器(AEC)模块、噪声抑制(NS)模块、端点检测(EPD)模块或自动增益控制(AGC)模块。AEC可以移除包含于用户输入中的回声。NS模块可以抑制包含于用户输入中的背景噪声。EPD模块可以检测包含于用户输入中的用户话音的端点以搜索其中存在用户话音的部分。AGC模块可以调整用户输入的音量,以适合于识别和处理用户输入。根据实施例,智能代理1251可以包含用于性能的所有预处理元件。然而,在另一个实施例中,智能代理1251可以包含预处理元件的一部分以在低功率操作。
根据实施例,智能代理1251可以包含识别用户的呼叫的唤醒识别模块。唤醒识别模块可以通过语音识别模块识别用户的唤醒指令。在唤醒识别模块接收到唤醒指令的情况下,唤醒识别模块可以激活智能代理1251以接收用户输入。根据实施例,智能代理1251的唤醒识别模块可以用低功率处理器(例如,包含于音频编解码器中的处理器)来实现。根据实施例,智能代理1251可以取决于通过硬件按键输入的用户输入而被激活。在智能代理1251被激活的情况下,可以执行与智能代理1251结合操作的智能应用(例如,语音识别应用)。
根据实施例,智能代理1251可以包含用于进行用户输入的语音识别模块。语音识别模块可以识别用于执行应用中的动作的用户输入。例如,语音识别模块可以识别用于执行应用1241和1243中诸如唤醒指令的动作的受限用户(话音)输入(例如,用于当执行相机应用时执行捕获动作的诸如“点击”的话语)。例如,用于在帮助智能服务器1300时识别用户输入的语音识别模块可以识别并迅速处理能够在用户终端1200中处理的用户指令。根据实施例,用于执行智能代理1251的用户输入的语音识别模块可以在应用处理器中实现。
根据实施例,智能代理1251的语音识别模块(包含唤醒模块的语音识别模块)可以通过使用用于识别话音的算法来识别用户输入。例如,用于识别话音的算法可以是隐马尔可夫模型(HMM)算法、人工神经网络(ANN)算法或动态时间规整(DTW)算法中的至少一个。
根据实施例,智能代理1251可以将用户的话音输入改变为文本数据。根据实施例,智能代理1251可以将用户的话音发送给智能服务器1300以接收改变的文本数据。如此,智能代理1251可以将文本数据显示在显示器1220中。
根据实施例,智能代理1251可以从智能服务器1300接收路径规则。根据实施例,智能代理1251可以将路径规则发送给执行管理器模块1253。
根据实施例,智能代理1251可以根据从智能服务器1300接收的路径规则将执行结果日志发送给智能服务模块1255,并且发送的执行结果日志可以在角色模块1255b的用户的优选信息中被累积和管理。
根据实施例,执行管理器模块1253可以从智能代理1251接收路径规则以执行应用1241和1243,并且可以允许应用1241和1243执行包含于路径规则中的动作1241b和1243b。例如,执行管理器模块1253可以将用于执行动作1241b和1243b的指令信息发送给应用1241和1243,并且可以从应用1241和1243接收动作1241b和1243b的完成信息。
根据实施例,执行管理器模块1253可以发送或接收用于执行智能代理1251与应用1241和1243之间的应用1241和1243的动作1241b和1243b的指令信息。执行管理器模块1253可以取决于路径规则绑定要执行的应用1241和1243,并且可以将包含于路径规则中的动作1241b和1243b的指令信息发送给应用1241和1243。例如,执行管理器模块1253可以将包含于路径规则中的动作1241b和1243b顺序地发送给应用1241和1243,并且可以取决于路径规则顺序地执行应用1241和1243的动作1241b和1243b。
根据实施例,执行管理器模块1253可以管理应用1241和1243的动作1241b和1243b的执行状态。例如,执行管理器模块1253可以从应用1241和1243接收关于动作1241b和1243b的执行状态的信息。例如,在动作1241b和1243b的执行状态处于部分登陆的情况下(例如,在未输入动作1241b和1243b所必需的参数的情况下),执行管理器模块1253可以将关于部分登陆的信息发送给智能代理1251。智能代理1251可以通过使用所接收的信息来向用户请求输入必需的信息(例如,参数信息)。对于另一个示例,在动作1241b和1243b的执行状态处于操作状态的情况下,可以从用户接收话语,并且执行管理器模块1253可以将关于正在执行的应用1241和1243以及应用1241和1243的执行状态的信息发送给智能代理1251。智能代理1251可以通过智能服务器1300接收用户的话语的参数信息,并且可以将接收到的参数信息发送给执行管理器模块1253。执行管理器模块1253可以通过使用接收到的参数信息将动作1241b和1243b中的每个的参数改变为新参数。
根据实施例,执行管理器模块1253可以将包含于路径规则中的参数信息发送给应用1241和1243。在取决于路径规则顺序执行多个应用1241和1243的情况下,执行管理器模块1253可以将包含于路径规则中的参数信息从一个应用发送给另一个应用。
根据实施例,执行管理器模块1253可以接收多个路径规则。执行管理器模块1253可以基于用户的话语来选择多个路径规则。例如,在用户话语指定应用1241执行动作1241b的一部分但未指定应用1243执行任何其他动作1243b的情况下,执行管理器模块1253可以接收多个不同路径规则,其中执行动作1241b的部分的相同应用1241(例如,图库应用)被执行,并且其中执行另一动作1243b的不同应用1243(例如,消息应用或电报应用)被执行。例如,执行管理器模块1253可以执行多条路径规则中的相同动作1241b和1243b(例如,相同的连续动作1241b和1243b)。在执行管理器模块1253执行相同动作的情况下,执行管理器模块1253可以将用于选择包含于多个路径规则中的不同应用1241和1243的状态屏幕显示在显示器1220中。
根据实施例,智能服务模块1255可以包含上下文模块1255a、角色模块1255b或建议模块1255c。
上下文模块1255a可以从应用1241和1243收集应用1241和1243的当前状态。例如,上下文模块1255a可以接收指示应用1241和1243的当前状态的上下文信息以收集应用1241和1243的当前状态。
角色模块1255b可以利用用户终端1200来管理用户的个人信息。例如,角色模块1255b可以收集用户终端1200的使用信息和执行结果以管理用户的个人信息。
建议模块1255c可以预测用户的意图以向用户推荐指令。例如,建议模块1255c可以考虑用户的当前状态(例如,时间、地点、上下文或应用)向用户推荐指令。
图13是图示根据本公开的实施例的执行用户终端的智能应用的视图。
参照图13,用户终端1200接收用户输入以执行结合智能代理1251操作的智能应用(例如,语音识别应用)。
根据实施例,用户终端1200可以通过硬件按键1212执行用于识别话音的智能应用。例如,在用户终端1200通过硬件按键1212接收到用户输入的情况下,用户终端1200可以将智能应用的UI 1221显示在显示器1220中。例如,用户可以触摸智能应用的UI 1221的语音识别按钮1221a,以便在智能应用的UI 1221被显示在显示器1220中的状态下输入语音1211b。对于另一个示例,在连续不断地按下硬件按键1212以输入话音1211b时,用户可以输入话音1211b。
根据实施例,用户终端1200可以通过麦克风1211执行用于识别话音的智能应用。例如,在通过麦克风1211输入了指定话音(例如,唤醒!)(1211a)的情况下,用户终端1200可以将智能应用的UI 1221显示在显示器1220中。
根据各种实施例的每个元件(例如,模块或程序模块)可以由单个实体或多个实体组成,上述子元件的一部分可以被省略或还可以包含其他元件。替代地或附加地,在集成到一个实体中之后,一些元件(例如,模块或程序模块)可以同样地或类似地进行由在集成之前每个对应的元件执行的功能。根据各种实施例,由模块、程序模块或其他元件执行的操作可以通过连续方法、并行方法、重复方法或启发式方法来执行,或者可以以不同顺序执行或省略操作的至少一部分。替代地,可以添加其他操作。
虽然已经参考本公开的各种实施例示出和描述了本公开,但本领域技术人员将理解,在不脱离由所附权利要求及其等同物所限定的本公开的精神和范围的情况下,可以在其中进行形式和细节上的各种改变。

Claims (15)

1.一种电子装置,包括:
麦克风;
显示器;
存储器;以及
处理器,其电连接到所述麦克风、所述显示器和所述存储器,
其中所述处理器配置为:
执行语音识别功能,
通过所述麦克风从用户获得第一话语,
将基于所述第一话语产生的文本显示在所述显示器中,并且
将至少一个项目显示在所述显示器中,所述项目对应于所述文本中被识别为专有名词的部分并且基于所述第一话语和所述用户的个性化数据库被确定。
2.如权利要求1所述的电子装置,其中所述处理器还配置为:
通过使用至少一个应用来进行与所述产生的文本相对应的命令,并且
当用于提供所述命令的执行错误的通知的第一事件发生时,将所述至少一个项目显示在显示器中,所述项目基于所述第一话语和与所述至少一个应用相关联的所述个性化数据库被确定。
3.如权利要求2所述的电子装置,
其中所述至少一个应用包含呼叫应用,
其中所述个性化数据库包含联系人列表和呼叫记录,并且
其中所述处理器还配置为,基于所述第一话语、所述联系人列表和所述呼叫记录将所述至少一个项目显示在所述显示器中。
4.如权利要求2所述的电子装置,
其中所述至少一个应用包含网络浏览器,
其中所述个性化数据库包含在所述网络浏览器中输入的搜索记录,并且
其中所述处理器还配置为,基于所述第一话语和所述搜索记录将所述至少一个项目显示在所述显示器中。
5.如权利要求2所述的电子装置,
其中所述至少一个应用包含电子邮件应用,
其中所述个性化数据库包含电子邮件的收件人信息和发件人信息,并且
其中所述处理器还配置为,基于所述第一话语、所述收件人信息和所述发件人信息将所述至少一个项目显示在所述显示器中。
6.如权利要求2所述的电子装置,
其中所述至少一个应用包含社交网络应用,
其中所述个性化数据库包含在所述社交网络应用中输入的标签和位置标签,并且
其中所述处理器还配置为,基于所述第一话语、所述标签和所述位置标签将所述至少一个项目显示在所述显示器中。
7.如权利要求2所述的电子装置,
其中所述至少一个应用包含地图应用,
其中所述个性化数据库包含在所述地图应用中输入的地名,并且
其中所述处理器配置为,基于所述第一话语和所述地名将所述至少一个项目显示在所述显示器中。
8.如权利要求1所述的电子装置,其中所述处理器还配置为:
将所述产生的文本中被识别为所述专有名词的所述部分修订为从所述至少一个项目中选择的项目,并且
将修订的文本显示在所述显示器中。
9.如权利要求8所述的电子装置,其中所述处理器还配置为:
将所述修订的文本、与所述第一话语相对应的语音数据,以及所述修订的文本和与所述第一话语相对应的所述语音数据的映射信息储存在所述存储器中。
10.如权利要求1所述的电子装置,其中所述处理器还配置为,当用于请求关于被识别为所述专有名词的部分的训练的第二事件发生时,将用于关于被识别为所述专有名词的部分的所述训练的引导屏幕显示在所述显示器中。
11.如权利要求10所述的电子装置,其中所述处理器还配置为,通过所述麦克风从所述用户获得与被识别为所述专有名词的部分相对应的第二话语。
12.如权利要求12所述的电子装置,其中所述处理器还配置为,将基于所述第二话语产生的第二文本、与所述第一话语中被识别为所述专有名词的部分相对应的语音数据,以及基于所述第二话语产生的所述第二文本和与所述第一话语中被识别为所述专有名词的部分相对应的所述语音数据的映射信息储存在所述存储器中。
13.一种由电子装置进行的方法,所述方法包括:
执行语音识别功能以通过麦克风从用户获得第一话语;
将基于所述第一话语产生的文本显示在显示器中;以及
将至少一个项目显示在所述显示器中,所述项目对应于所述产生的文本中被识别为专有名词的所述文本的部分并且基于所述第一话语和所述用户的个性化数据库被确定。
14.如权利要求13所述的方法,还包括:
通过使用至少一个应用来进行与所述产生的文本相对应的命令,
其中将所述至少一个项目显示在所述显示器中包含,当用于提供所述命令的执行错误的通知的第一事件发生时,将所述至少一个项目显示在所述显示器中,所述项目基于与所述至少一个应用相关联的所述个性化数据库被确定。
15.如权利要求14所述的方法,还包括:
将被识别为所述专有名词的文本的所述部分修订为从所述至少一个项目中选择的一个项目,以将修订的文本显示在所述显示器中;以及
通过使用所述至少一个应用来进行与所述修订的文本相对应的命令。
CN201810400219.9A 2017-04-28 2018-04-28 用于提供语音识别服务的电子装置及其方法 Active CN108806669B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020170055640A KR102375800B1 (ko) 2017-04-28 2017-04-28 음성 인식 서비스를 제공하는 전자 장치 및 그 방법
KR10-2017-0055640 2017-04-28

Publications (2)

Publication Number Publication Date
CN108806669A true CN108806669A (zh) 2018-11-13
CN108806669B CN108806669B (zh) 2023-04-18

Family

ID=62116693

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810400219.9A Active CN108806669B (zh) 2017-04-28 2018-04-28 用于提供语音识别服务的电子装置及其方法

Country Status (4)

Country Link
US (1) US10825453B2 (zh)
EP (2) EP3396666B1 (zh)
KR (1) KR102375800B1 (zh)
CN (1) CN108806669B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754797A (zh) * 2018-12-18 2019-05-14 广东金祺盛工业设备有限公司 基于语音交互的智能终端操作系统
CN112349285A (zh) * 2019-08-06 2021-02-09 三星电子株式会社 识别语音的方法和支持该方法的电子设备
CN112530398A (zh) * 2020-11-14 2021-03-19 国网河南省电力公司检修公司 基于语音转换功能的便携式人机交互运维装置
CN113348506A (zh) * 2019-01-22 2021-09-03 三星电子株式会社 显示与语音输入相关联的视觉信息的方法及支持该方法的电子装置

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102764597B1 (ko) * 2018-12-14 2025-02-11 엘지전자 주식회사 세탁 스케쥴링 장치
KR102219943B1 (ko) * 2019-03-13 2021-02-25 주식회사 아이스크림미디어 스마트 마이크 제어 서버 및 시스템
WO2020196960A1 (ko) * 2019-03-28 2020-10-01 엘지전자 주식회사 차량용 전자 장치 및 차량용 전자 장치의 동작 방법
KR102252526B1 (ko) 2019-06-07 2021-05-14 부산대학교 산학협력단 경량 IoT 장치를 위한 지능형 음성 서비스 지원 장치 및 방법
KR20200141687A (ko) * 2019-06-11 2020-12-21 주식회사 오투오 음성 인식 액세서리를 이용한 서비스 제공 시스템 및 방법
KR20190099167A (ko) * 2019-08-06 2019-08-26 엘지전자 주식회사 음성 인식을 수행하는 인공 지능 기기
KR102503488B1 (ko) * 2019-12-19 2023-02-24 보리 주식회사 발달장애 진단과 치료를 위한 협업 방법 및 시스템
KR20220013732A (ko) * 2020-07-27 2022-02-04 삼성전자주식회사 전자 장치 및 이의 제어 방법
US12095865B2 (en) * 2020-12-11 2024-09-17 International Business Machines Corporation Identifying a voice command boundary
CN112599136A (zh) * 2020-12-15 2021-04-02 江苏惠通集团有限责任公司 基于声纹识别的语音识别方法及装置、存储介质、终端
CN120823830A (zh) * 2022-04-21 2025-10-21 语联网(武汉)信息技术有限公司 语音序列的重点子序列识别与显示方法、系统与电子设备
KR20240044260A (ko) * 2022-09-28 2024-04-04 엘지전자 주식회사 디스플레이 장치 및 그의 동작 방법
CN118136003A (zh) * 2024-05-07 2024-06-04 广汽埃安新能源汽车股份有限公司 基于个性化语音唤醒的车辆人机交互方法、装置、电子设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1322981A (zh) * 2000-05-04 2001-11-21 国际商业机器公司 向处理能力有限的设备提供的连续语音识别技术
US20090030684A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using speech recognition results based on an unstructured language model in a mobile communication facility application
EP2575128A2 (en) * 2011-09-30 2013-04-03 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US20130090921A1 (en) * 2011-10-07 2013-04-11 Microsoft Corporation Pronunciation learning from user correction
CN103714815A (zh) * 2013-12-09 2014-04-09 何永 语音控制方法及其设备
WO2017068826A1 (ja) * 2015-10-23 2017-04-27 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61105671A (ja) * 1984-10-29 1986-05-23 Hitachi Ltd 自然言語処理装置
EP0840287A3 (en) 1996-10-31 1999-04-07 Microsoft Corporation Method and system for selecting recognized words when correcting recognized speech
US6480819B1 (en) 1999-02-25 2002-11-12 Matsushita Electric Industrial Co., Ltd. Automatic search of audio channels by matching viewer-spoken words against closed-caption/audio content for interactive television
JP4089861B2 (ja) 2001-01-31 2008-05-28 三菱電機株式会社 音声認識文章入力装置
US20110054900A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Hybrid command and control between resident and remote speech recognition facilities in a mobile voice-to-speech application
KR101556594B1 (ko) 2009-01-14 2015-10-01 삼성전자 주식회사 신호처리장치 및 신호처리장치에서의 음성 인식 방법
US9236045B2 (en) * 2011-05-23 2016-01-12 Nuance Communications, Inc. Methods and apparatus for proofing of a text input
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US20140046891A1 (en) * 2012-01-25 2014-02-13 Sarah Banas Sapient or Sentient Artificial Intelligence
US9653073B2 (en) * 2013-11-26 2017-05-16 Lenovo (Singapore) Pte. Ltd. Voice input correction
US9552817B2 (en) * 2014-03-19 2017-01-24 Microsoft Technology Licensing, Llc Incremental utterance decoder combination for efficient and accurate decoding
US20150287043A1 (en) * 2014-04-02 2015-10-08 Avaya Inc. Network-based identification of device usage patterns that can indicate that the user has a qualifying disability
US10216855B2 (en) * 2014-06-26 2019-02-26 International Business Machines Corporation Mobilizing an existing web application
KR101590724B1 (ko) 2014-10-06 2016-02-02 포항공과대학교 산학협력단 음성 인식 오류 수정 방법 및 이를 수행하는 장치
EP3304544A1 (en) * 2015-05-26 2018-04-11 Katholieke Universiteit Leuven Speech recognition system and method using an adaptive incremental learning approach
US11087748B2 (en) * 2018-05-11 2021-08-10 Google Llc Adaptive interface in a voice-activated network
CN115016638B (zh) * 2018-10-15 2025-11-18 美的集团股份有限公司 提供虚拟指导的方法、计算机系统及计算机可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1322981A (zh) * 2000-05-04 2001-11-21 国际商业机器公司 向处理能力有限的设备提供的连续语音识别技术
US20090030684A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using speech recognition results based on an unstructured language model in a mobile communication facility application
EP2575128A2 (en) * 2011-09-30 2013-04-03 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US20130090921A1 (en) * 2011-10-07 2013-04-11 Microsoft Corporation Pronunciation learning from user correction
CN103714815A (zh) * 2013-12-09 2014-04-09 何永 语音控制方法及其设备
WO2017068826A1 (ja) * 2015-10-23 2017-04-27 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US20170337919A1 (en) * 2015-10-23 2017-11-23 Sony Corporation Information processing apparatus, information processing method, and program

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754797A (zh) * 2018-12-18 2019-05-14 广东金祺盛工业设备有限公司 基于语音交互的智能终端操作系统
CN113348506A (zh) * 2019-01-22 2021-09-03 三星电子株式会社 显示与语音输入相关联的视觉信息的方法及支持该方法的电子装置
CN112349285A (zh) * 2019-08-06 2021-02-09 三星电子株式会社 识别语音的方法和支持该方法的电子设备
CN112349285B (zh) * 2019-08-06 2025-02-21 三星电子株式会社 识别语音的方法和支持该方法的电子设备
CN112530398A (zh) * 2020-11-14 2021-03-19 国网河南省电力公司检修公司 基于语音转换功能的便携式人机交互运维装置

Also Published As

Publication number Publication date
EP3396666B1 (en) 2020-06-03
EP3396666A1 (en) 2018-10-31
EP3709294B1 (en) 2021-08-25
US20180315426A1 (en) 2018-11-01
KR20180121210A (ko) 2018-11-07
US10825453B2 (en) 2020-11-03
EP3709294A1 (en) 2020-09-16
KR102375800B1 (ko) 2022-03-17
CN108806669B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN108806669B (zh) 用于提供语音识别服务的电子装置及其方法
CN109243432B (zh) 话音处理方法以及支持该话音处理方法的电子设备
US11435980B2 (en) System for processing user utterance and controlling method thereof
CN108829235B (zh) 语音数据处理方法和支持该方法的电子设备
US10909982B2 (en) Electronic apparatus for processing user utterance and controlling method thereof
EP3392877B1 (en) Device for performing task corresponding to user utterance
CN109102802B (zh) 用于处理用户话语的系统
US20190019509A1 (en) Voice data processing method and electronic device for supporting the same
US11915700B2 (en) Device for processing user voice input
US10996922B2 (en) Electronic apparatus for processing user utterance
KR102369083B1 (ko) 음성 데이터 처리 방법 및 이를 지원하는 전자 장치
KR20180120385A (ko) 음성 인식 서비스 운용 방법 및 이를 지원하는 전자 장치
KR102431817B1 (ko) 사용자 발화를 처리하는 전자 장치 및 서버
KR102369309B1 (ko) 파셜 랜딩 후 사용자 입력에 따른 동작을 수행하는 전자 장치
CN110462662B (zh) 使用话语进行支付的设备和方法
KR102426411B1 (ko) 사용자 발화을 처리하는 전자 장치 및 시스템
KR102402224B1 (ko) 사용자 발화에 대응하는 태스크를 수행하는 전자 장치
CN109309754B (zh) 用于获取和键入缺少参数的电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant