CN1220174C

CN1220174C - 话音输出装置和方法

Info

Publication number: CN1220174C
Application number: CNB028007573A
Authority: CN
Inventors: 小林惠理香; 赤羽诚; 新田朋晃; 岸秀树; 堀中里香; 武田正资
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2001-03-22
Filing date: 2002-03-22
Publication date: 2005-09-21
Anticipated expiration: 2022-03-22
Also published as: JP4687936B2; EP1372138A4; US20030171850A1; WO2002077970A1; KR100879417B1; CN1459090A; KR20030005375A; EP1372138B1; DE60234819D1; EP1372138A1; US7222076B2; JP2002278575A

Abstract

一种话音输出装置，能按照预定激励停止输出话音并对激励输出反应，从而实现自然的话音输出。规则生成块(24)产生并输出一个合成话音。例如，当一个合成话音“Deguchi wa doko desuka？”(日语，意为“where is theexit？(出口在哪里)”)被产生且在机器人已输出“Deguchi wa do”时用户打击机器人，则反应生成块(30)参照反应数据库(31)，决定输出一个反应话音“Ite”(日语，意为“ouch”)，停止输出合成话音“Deguchi wa doko desuka？”，并输出反应话音“Ite”。此后，反应生成块(30)控制被读出控制块(29)控制的缓冲器(26)的读出指针，以便恢复输出被停止的前述合成话音的输出。结果，合成话音“Deguchi wa do，Ite，ko desuka？”被输出。

Description

话音输出装置和方法

技术领域

本发明涉及话音输出装置和方法，且特别地，例如，涉及能以更自然的方式输出话音的话音输出装置和方法。

背景技术

在传统的话音合成装置中，合成的话音是根据通过分析文本获得的文本或语音符号产生的。

近年来，已出现了一种具有话音合成器并能够对用户说话或聊天的宠物机器人。

在这样一种宠物机器人中，话音通过置于其内的话音合成器按照对应于要表达的文本或语音符号被合成，并且作为结果的合成话音被输出。

在该宠物机器人中，一旦开始输出合成话音，输出合成话音就是连续的直到输出全部的合成话音。但是，当用户在合成话音被输出时斥责宠物机器人，若宠物机器人继续输出合成话音，即，若宠物机器人继续发声，机器人就给了用户一种奇怪的印象。

发明内容

考虑到以上情况，本发明的目的是提供一种以更自然的方式输出话音的技术。

根据本发明的一方面，提供了一种话音输出装置，包含：合成话音输出部件，用于在信息处理装置的控制下输出合成话音；缓冲器，用于暂存从所述合成话音输出部件提供的合成话音；读控制器，用于控制所述缓冲器中存储的合成话音的读取并提供读取的数据用于输出；反应发生器，用于响应特定激励而控制输出控制器以便停止从所述缓冲器提供所述合成话音，提供反应话音用于输出，并当完成所述反应话音的输出时，控制以便恢复输出被停止的所述合成话音。

根据本发明的另一方面，提供了一种用于信息处理装置的话音合成的输出话音的方法，包含的步骤为：在信息处理装置的控制下输出合成话音；响应特定激励停止输出话音；响应所述特定激励输出反应；和当完成所述反应的输出时，恢复输出被停止步骤停止的话音。

在本发明中，话音在信息处理装置的控制下被输出。响应特定激励，输出话音被停止并且对应于该特定激励输出一个反应。此后，恢复输出被停止的话音。

附图说明

图1是表示根据本发明一个实施例机器人外部结构示例的透视图。

图2是表示机器人内部结构示例的方框图。

图3是表示控制器10功能结构示例的方框图。

图4表示一个激励(stimulus)表。

图5是表示话音合成单元55构造示例的方框图。

图6表示一个反应表。

图7是表示关联于话音合成单元55的处理的流程图。

图8是表示根据本发明一个实施例计算机构造示例的方框图。

具体实施方式

图1表示根据本发明一个实施例机器人外部结构的示例，且图2表示其电气配置的示例。

在本实施例中，机器人被构造成有四条腿的动物的形式，诸如狗，其中腿部单元3A、3B、3C和3D在分别的四个角加之于身体单元2上，并且头部单元4和尾部单元5在前及后端加之于身体单元2上。

尾部单元5从置于身体单元2上表面的基部5B延伸以使尾部单元5能够以两种自由度弯曲或摇动。

在身体单元2中，如图2所示，置有总体控制机器人的控制器10，用作机器人电源的电池11，和包括电池传感器12A、姿势传感器12B、温度(热度/温度)传感器12C及计时器12D的内部传感器12。

在头部单元4上，如图2所示，在适当选择的位置置有用作耳朵的麦克风15，用作眼睛的CCD(电荷耦合器件)16，用作触觉传感器的接触传感器(压力传感器)17，和用作嘴巴的扬声器18。用作嘴巴下颚的下颚单元4A加之于头部单元4上以使下颚单元4A能够以一种自由度移动。机器人的嘴巴能够通过移动下颚单元4A张开及闭合。在本实施例中，除了置于头部单元4上的接触传感器，类似的传感器也置于诸如身体单元2和腿部单元3A至3D的各种单元上，尽管在图2所示的实施例中，只简单表示了一个置于头部单元4上的接触传感器17。

如图2所示，激励器(actuator)3AA₁至3AA_K，3BA₁至3BA_K，3CA₁至3CA_K，3DA₁至3DA_K，4A₁至4A_L，5A₁和5A₂被分别置于连接腿部单元3A至3D部分的接合处，连接腿部单元3A至3D与身体单元2的接合处，连接头部单元4与身体单元2的接合处，连接头部单元4与下颚单元4A的接合处，和连接尾部单元5与身体单元2的接合处。

置于头部单元4上的麦克风15从外界环境收集包括用户表达的话音(声音)并将获得的话音信号传送给控制器10。CCD照相机16摄取外界环境的图像(通过检测光)并将获得的图像信号传送给控制器10。

接触传感器17(还有其他图中未示出的接触传感器)检测由用户施加的压力作为诸如“摩擦”或“敲打”这样的物理动作，并将获得的压力信号作为检测结果传送给控制器10。

置于身体单元2中的电池传感器12A检测电池11的剩余容量并将检测结果作为电池剩余容量信号传送给控制器10。由陀螺仪或类似物构成的姿势传感器12B检测机器人的姿势并将指示所检测到的姿势的信息提供给控制器10。温度传感器12C检测周围温度并将指示所检测到的温度的信息提供给控制器10。计时器12D使用时钟测量时间并将指示当前时间的信息提供给控制器10。

控制器10包括CPU(中央处理单元)10A和存储器10B。控制器10通过使用CPU10A执行存储在存储器10B中的控制程序实施各种处理。

更具体地，根据从麦克风15提供的话音信号、从CCD照相机16提供的图像信号、从接触传感器17提供的压力信号，还有内部传感器12检测到的如电池11的剩余容量、姿势、温度和当前时间这样的参数，控制器10检测外界环境的状态、由用户发出的命令、以及各种激励，诸如所施加给机器人的用户的反应。

根据以上检测到的参数，控制器10作出下一步如何动作的决定。按照该决定，控制器10激活那些必要的激励器，包括3AA₁至3AA_K，3BA₁至3BA_K，3CA₁至3CA_K，3DA₁至3DA_K，4A₁至4A_L，5A₁和5A₂，使得头部单元4点头或摇动或者张开及闭合下颚单元4A。根据该状况，控制器10移动尾部单元5或者通过移动腿部单元3A至3D使机器人行走。

此外，根据需要，控制器10产生合成的话音数据并将其提供给扬声器18，从而生成话音，或者打开/关闭或闪烁置于眼睛上的LED(发光二极管，图中未示)。在以上过程中，当合成话音被输出时，控制器10根据需要移动下颚4A。随着输出合成话音同时张开及闭合下颚4A能够给用户一种机器人真地在说话的印象。

如上所述，机器人响应于外界环境条件自主地动作。

尽管只有一个存储器10B用在图2所示的例子中，除了存储器10B外可以安置一个或多个存储器。一些或所有这样的存储器可以用能更换的存储卡的形式被提供，诸如存储条(商标)，其能被容易地加上和分离。

图3表示图2所示控制器10的功能结构。注意图3所示的功能结构通过使用CPU10A执行存储在存储器10B中的控制程序来实现。

传感器输入处理单元50分别根据从麦克风15、CCD照相机16和接触传感器17提供的话音信号、图像信号和压力信号，检测特定的外部条件、施加给机器人的用户的反应、和由用户给出的命令。指示所检测到的条件的信息作为识别状态信息被提供给模型存储器51和动作决定单元52。

更具体地，传感器输入处理单元50包括话音识别单元50A，用于识别从麦克风15提供的话音信号。例如，若给出的话音信号被话音识别单元50A识别为诸如“行走”、“躺下”或“追球”的命令，被识别的命令就作为识别状态信息从传感器输入处理单元50提供到模型存储器51和动作决定单元52。

传感器输入处理单元50还包括图像识别单元50B，用于识别从CCD照相机16提供的图像信号。例如，若传感器输入处理单元50通过由图像识别单元50B执行的图像识别处理检测到“红色圆形某物”或“从地面垂直延伸的平面高度超过预定值”，于是传感器输入处理单元50将指示诸如“有一个球”或“有一面墙”的环境状态的信息作为识别状态信息提供到模型存储器51和动作决定单元52。

传感器输入处理单元50进一步包括压力处理单元50C，用于通过分析从安置在机器人上多个位置的包括接触传感器17的接触传感器(下文中这样的接触传感器将被简单称作“接触传感器17或类似物”)提供的压力信号，检测压力被施加的部位、压力的幅度、压力被施加的范围、和压力被施加的持续时间。例如，若压力处理单元50C检测到短持续时间的高于预定门限的压力，传感器输入处理单元50则识别机器人被“敲打(斥责)”。在检测到的压力幅度低于预定门限且持续时间长的情况下，传感器输入处理单元50识别机器人被“摩擦(称赞)”。指示施加给机器人的压力被识别的含义的信息作为识别状态信息提供到模型存储器51和动作决定单元52。

在传感器输入处理单元50中，由话音识别单元50A执行的话音识别结果，由图像识别单元50B执行的图像识别结果，和由压力处理单元50C执行的压力分析结果也被提供到激励识别单元56。

模型存储器51存储并管理分别代表有关情绪、本能和成长的机器人内部状态的情绪模型、本能模型和成长模型。

情绪模型使用预定范围内的数值代表有关情绪的状态(程度)，例如“愉快”、“悲伤”、“生气”和“喜悦”，其中数值根据从传感器输入处理单元50提供的识别状态信息和根据经过的时间而变化。本能模型使用预定范围内的数值代表有关本能的状态(程度)，例如“食欲”、“期望睡觉”和“期望运动”，其中数值根据从传感器输入处理单元50提供的识别状态信息和根据经过的时间而变化。成长模型使用预定范围内的数值代表成长的状态(程度)，诸如“童年”、“青年”、“中年”和“老年”，其中数值根据从传感器输入处理单元50提供的识别状态信息和根据经过的时间而变化。

分别由情绪模型、本能模型和成长模型的数值所代表的情绪、本能和成长状态，作为状态信息从模型存储器51提供到动作决定单元52。

除了从传感器输入处理单元50提供的识别状态信息，模型存储器51还从动作决定单元52接收指示机器人当前或过去动作的动作信息，诸如“行走了很长一段时间”，从而根据由动作信息所指示的机器人的动作，使得模型存储器51对相同的识别状态信息产生不同的状态信息。

更具体地，例如，当机器人问候用户时，若用户摩擦机器人的头部，则指示机器人问候用户的动作信息和指示头部被摩擦的识别状态信息被提供给模型存储器51。作为响应，模型存储器51增加指示愉快程度的情绪模型的数值。

另一方面，若当机器人正在干一件工作时机器人被摩擦头部，指示机器人正在干工作的动作信息和指示头部被摩擦的识别状态信息被提供给模型存储器51。在这种情况下，模型存储器51不增加指示“愉快”程度的情绪模型的数值。

如上所述，模型存储器51不仅根据识别状态信息而且根据指示机器人当前或过去动作的动作信息设定情绪模型的数值。这防止了机器人在情绪上有非自然的变化。例如，即使当机器人正在进行某件任务时用户摩擦机器人的头部意在和机器人开玩笑，关联于“愉快”的情绪模型的数值也不会被非自然地增加。

至于本能模型和成长模型，模型存储器51也根据识别状态信息和动作信息二者增加或减少数值，如情绪模型那样。此外，当模型存储器51增加或减少情绪模型、本能模型和成长模型之一的数值时，其他模型的数值也被考虑。

动作决定单元52根据从传感器输入处理单元50提供的识别状态信息、从模型存储器51提供的状态信息和经过的时间决定下一步要采取的动作。被决定的动作内容作为动作命令信息提供给姿势改变单元53。

更具体地，动作决定单元52管理一个有限自动机(finite automaton)，其能够获取对应于机器人可能动作的状态，作为确定机器人动作的动作模型，以使用作动作模型的有限自动机的状态根据从传感器输入处理单元50提供的识别状态信息、关联于情绪模型、本能模型和成长模型的模型存储器51的数值以及经过的时间来改变，并且动作决定单元52实施对应于所改变的状态的动作作为下一步要采取的动作。

在以上过程中，当动作决定单元52检测到特定的触发时，动作决定单元52改变状态。更具体地，例如，当一段时间，其中对应于当前状态的动作被进行，已经到达一个预定值时，或者当特定的识别状态信息被接收时，或者当从模型存储器51提供的状态信息所指示的情绪、本能或成长状态的数值变得比预定门限低或高时，动作决定单元52改变状态。

因为，如上所述，动作决定单元52不仅根据从传感器输入处理单元50提供的识别状态信息而且根据模型存储器51的情绪模型、本能模型和成长模型的数值改变动作模型的状态，当前状态被改变到的状态能够根据情绪模型、本能模型和成长模型的数值(状态信息)而不同，即使当相同的识别状态信息被输入时。

例如，当状态信息指示机器人不“生气”且不“饥饿”时，若识别状态信息指示“一只用户的手手掌向前保持在机器人的脸前方”，动作决定单元52响应于保持在机器人脸前方的手，产生指示应当进行摇动的动作命令信息并将其传送到姿势改变单元53。

另一方面，例如，当状态信息指示机器人不“生气”但“饥饿”时，若识别状态信息指示“一只用户的手手掌向前保持在机器人的脸前方”，动作决定单元52响应于保持在机器人脸前方的手，产生指示机器人应当舔手掌的动作命令信息并将其传送到姿势改变单元53。

当状态信息指示机器人生气时，若识别状态信息指示“一只用户的手手掌向前保持在机器人的脸前方”，动作决定单元52产生指示机器人应当转过脸的动作命令信息，不管状态信息指示机器人“饥饿”与否，并且动作决定单元52将所产生的动作命令信息传送到姿势改变单元53。

此外，根据从模型存储器51提供的状态信息所指示的情绪、本能或成长状态，动作决定单元52可以确定相关联的动作参数，例如，在当前状态要被改变到的状态中应当实施的行走步调或幅度及移动前腿和后腿的速度。在这种情况下，包括动作参数的动作命令信息被提供到姿势改变单元53。

除了上述关联于诸如头部、前腿、后腿等机器人各部分运动的动作命令信息，动作决定单元52还产生引起机器人说话的动作命令信息。引起机器人说话的动作命令信息被提供给话音合成单元55。提供给话音合成单元55的动作命令信息包括对应于要被话音合成单元55合成的话音的一个文本或类似物。若话音合成单元55接收来自动作决定单元52的动作命令信息，话音合成单元55就按照包括在动作命令信息中的文本产生一个合成话音并将它提供给扬声器18，其依次输出合成话音。这样，例如，扬声器18输出哭声、“我饿了”的话音向用户请求些什么，或者话音“什么？”以响应来自用户的呼叫。

话音合成单元55还接收指示由后面将要描述的激励识别单元56识别的激励含义的信息。除了如前所述按照从动作决定单元52接收的动作命令信息产生合成话音，话音合成单元55还根据由激励识别单元56识别的激励含义停止输出合成话音。在这种情况下，若需要，话音合成单元55响应被识别的含义合成一个反应话音并将其输出。此后，根据需要，话音合成单元55恢复输出被停止的合成话音。

按照从动作决定单元52提供的动作命令信息，姿势改变单元53产生用于将机器人的姿势从当前姿势改变到下一个姿势的姿势改变命令信息并将其传送到控制单元54。

机器人的姿势能够从当前姿势被改变到的可能的姿势依赖于机器人各部分，诸如身体、前腿和后腿的形状与重量，并且还依赖于机器人的物理状态，诸如各部分间的耦合状态。此外，可能的姿势也依赖于激励器3AA₁至5A₁和5A₂的状态，诸如接合处(joint)的方向与角度。

尽管在某些情况下直接转变到下一个姿势是可能的，但根据下一个姿势直接转变是不可能的。例如，具有四条腿的机器人能够将姿势从机器人腿部完全伸展地侧躺状态直接改变为卧倒状态，但不能够直接改变为站立状态。为了改变为站立状态的姿势，必须执行两步操作，包括通过收腿改变为卧倒姿势和随后站立起来。其中某些姿势是不容易改变的。例如，若具有四条腿的机器人试图从机器人以四条腿站立的姿势向上抬起它的两条前腿，机器人会容易倒下。

为避免以上问题，姿势改变单元53提前登记能够通过直接转变获得的姿势。若从动作决定单元52提供的动作命令信息指定了一个能够通过直接转变获得的姿势，姿势改变单元53将与姿势改变命令信息一样的动作命令信息传送给控制单元54。但是，在动作命令信息指定了一个不能够通过直接转变获得的姿势的情况下，姿势改变单元53产生姿势改变命令信息，指示姿势应当首先改变为可能的中间姿势及随后改变到最终姿势，并且姿势改变单元53将产生的姿势改变命令信息传送给控制单元54。这防止了机器人试图把它的姿势改变为不可能的姿势或倒下。

按照从姿势改变单元53接收的姿势改变命令信息，控制单元54产生一个用于驱动激励器3AA₁至5A₁和5A₂的控制信号并将其传送给激励器3AA₁至5A₁和5A₂。由此，按照控制信号，激励器3AA₁至5A₁和5A₂被驱动以使机器人自主动作。

激励识别单元56通过参照激励数据库57识别从机器人外部或内部施加的激励的含义并将指示所识别的含义的信息提供给话音合成单元55。更具体地，如前所述，激励识别单元56从传感器输入处理单元50接收由话音识别单元50A执行的话音识别的结果，由图像识别单元50B执行的图像识别的结果，和由压力处理单元50C执行的压力分析的结果，并且还接收来自内部传感器单元12的输出以及存储在关联于情绪模型、本能模型和成长模型的模型存储器51中的数值。根据输入到激励识别单元56的这些条信息，激励识别单元56通过参照激励数据库57识别从外部或内部施加的激励的含义。

激励数据库57存储一个激励表，指示诸如声音、光(图像)和压力的每一激励类型的激励和激励含义之间的对应关系。

图4表示激励表的一个示例，其中描述了激励类型为压力的激励对应关系。

在图4所示的例子中，关联于作为激励所施加的压力的参数被定义的方面有压力被施加的部位、幅度(强度)、范围和持续时间(其间压力被施加.)，以及对具有各个参数值的压力定义的含义。例如，在一个超过宽范围的强压力短时间地施加到头部、尾部、肩部、背部、腹部或腿部的情况下，所施加压力的参数值符合图4所示激励表第一行，且由此激励识别单元56识别压力的含义为“敲打”，即，激励识别单元56识别用户施加压力给机器人意图为敲打机器人。

在以上过程中，激励识别单元56根据激励被提供的激励检测单元确定激励类型，其中激励检测单元包括电池传感器12A、姿势传感器12B、温度传感器12C、计时器12D、话音识别单元50A、图像识别单元50B、压力处理单元50C和模型存储器51。

激励识别单元56可以被构成为使传感器输入处理单元50的一些部分被激励识别单元56和传感器输入处理单元50共享。

图5表示图3所示话音合成单元55的一个结构示例。

动作命令信息，其从动作决定单元52被输出并包括基于要被合成的话音的一个文本，被提供给语言处理单元21。当接收到动作命令信息时，语言处理单元21参照字典存储器22和语法分析存储器23分析包括在动作命令信息中的文本。

字典存储器22存储了指示关联于各个单词的语音、发音、重音部分的信息的单词字典。语法分析存储器23存储了指示规则的分析语法，诸如存储在字典存储器22的单词字典中所描述的各个单词的单词连接限制。按照上述单词字典和分析语法，语言处理单元21执行文本分析，诸如在给定文本上的形态分析和句法分析，并且提取后面由基于规则的(rule-based)合成器24执行的规则话音合成所需的信息。更具体地，例如，规则话音合成所需的信息包括停顿位置、用于控制重音的韵律信息、声调和力量，以及指示单词发音的发音信息。

由语言处理单元21获得的信息被提供给基于规则的合成器24。基于规则的合成器24参照音素存储器25并产生对应于输入到语言处理单元21的文本的合成话音数据(数字数据)。

音素存储器25以例如CV(辅音，元音)、VCV、CVC或一个音调的形式存储音素数据。按照从语言处理单元21提供的信息，基于规则的合成器24通过处理音素数据的波形连接必需的音素数据并加上停顿、重音和声调，从而产生对应于输入到语言处理单元21的文本的合成话音的话音数据(合成话音数据)。

以上述方式产生的合成话音数据被提供给缓冲器26。缓冲器26暂时存储从基于规则的合成器24提供的合成话音数据。缓冲器26在读控制器29的控制下读取存储其中的合成话音数据并将读取的数据提供给输出控制器27。

输出控制器27控制从缓冲器26到D/A(数字/模拟)转换器28输出合成话音数据。输出控制器27还控制响应于一个激励从反应发生器30到D/A转换器28的指示要表达话音的数据(反应话音数据)的输出。

D/A转换器28将输出控制器27提供的合成话音数据或反应话音数据从数字信号转换为模拟信号并将得到的模拟信号提供给扬声器18，其依次输出所提供的模拟信号。

在反应发生器30的控制下，读控制器29控制从缓冲器读取合成话音数据。更具体地，读控制器29设定指示读取地址的读指针，在该地址合成话音数据被从缓冲器26读取，并且读控制器29连续移动读指针以使合成话音数据被从缓冲器26适当读取。

指示由激励识别单元56识别的激励含义的信息被提供给反应发生器30。若反应发生器30从激励识别单元56收到指示激励含义的信息，反应发生器30参照反应数据库31并决定是否响应于激励输出一个反应。若决定反应应当被输出，反应发生器30进一步决定应当输出什么反应。按照该决定，反应发生器30控制输出控制器27和读控制器29。

反应数据库31存储了一个反应表，指示激励含义和反应之间的对应关系。

图6表示一个反应表。按照图6所示的反应表，例如，若给定激励的识别含义为“敲打”，则“Ouch！”作为反应话音被输出。

参照图7所示的流程图，下面描述由图6所示话音合成单元55执行的一个话音合成过程。

若话音合成单元55从动作决定单元52接收动作命令信息，话音合成单元55开始该过程。首先，在步骤S1，动作命令信息被提供给语言处理单元21。

该过程于是前进至步骤S2。在步骤S2，在语言处理单元21和基于规则的合成器24中，按照从动作决定单元52接收的动作命令产生合成话音数据。

更具体地，语言处理单元21参照字典存储器22或语法分析存储器23分析包括在动作命令中的文本。分析结果被提供给基于规则的合成器24。根据从语言处理单元21接收的分析结果，基于规则的合成器单元24参照音素存储器25并产生对应于包括在动作命令中的文本的合成话音数据。

由基于规则的合成器单元24产生的合成话音数据被提供给缓冲器26并存储其中。

该过程于是前进至步骤S3。在步骤S3，读控制器29开始读取存储在缓冲器26中的合成话音数据。

更具体地，读控制器29设定读指针以便指出存储在缓冲器26中的合成话音数据的起点，且读控制器29连续移动读指针以使存储在缓冲器26中的合成话音数据从其起点被读取并被提供给输出控制器27。输出控制器27将从缓冲器26读取的合成话音数据通过D/A转换器28提供给扬声器18从而自扬声器18输出数据。

此后，该过程前进至步骤S4。在步骤S4，反应发生器30确定指示被识别的激励含义的信息是否已经从激励识别单元56(图3)被发送。激励识别单元56以规则或不规则的间歇识别激励含义并将指示识别结果的信息提供给反应发生器30。或者，激励识别单元56一直识别激励含义，并且若激励识别单元56检测到被识别含义的改变，激励识别单元56将指示改变后的识别含义的信息提供给反应发生器30。

在步骤S4确定指示激励识别含义的信息已经从激励识别单元56被发送的情况下，反应发生器30接收指示识别含义的信息。此后，该过程前进至步骤S5。

在步骤S5，反应发生器30使用接收自激励识别单元56的识别含义作为搜索关键词搜索存储在反应数据库31中的反应表。此后，该过程前进至步骤S6。

在步骤S6，根据在步骤S5执行的反应表的搜索结果，反应发生器30决定是否输出一个反应话音。若在步骤S6决定没有反应话音要被输出，即，例如，若在反应表中没有找到对应于激励识别单元56给定的激励含义的反应(激励识别单元56给定的激励含义未在反应表中被登记)，流程返回步骤S4以重复上述过程。

在这种情况下，继续从缓冲器26输出合成话音数据。

另一方面，若在步骤S6决定应当输出一个反应话音，即，例如，若在反应表中找到了对应于激励识别单元56给定的激励含义的反应，反应发生器30从反应数据库31读取相应的反应话音数据。此后，该过程前进至步骤S7。

在步骤S7，反应发生器30控制输出控制器27以便停止从缓冲器26向D/A转换器28提供合成话音数据。

因而，在这种情况下，合成话音数据的输出被停止。

此外，在步骤S7，反应发生器30提供一个内部信号给读控制器29以获取合成话音数据输出被停止时读指针的数值。此后，该过程前进至步骤S8。

在步骤S8，反应发生器30将通过检索反应表在步骤S5得到的反应话音数据提供给输出控制器27并通过输出控制器27进一步提供到D/A转换器28。

于是，在输出合成话音数据被停止后，反应话音数据被输出。

在开始输出反应话音数据之后，该过程前进至步骤S9，其中反应发生器30设定读指针以便指出要被恢复的合成话音数据读取的地址。此后，该过程前进至步骤S10。

在步骤S10，该过程等待在步骤S8开始的输出反应话音数据的完成。若输出反应话音数据被完成，该过程前进至步骤S11。在步骤S11，反应发生器30将指示在步骤S9设定的读指针的值的数据提供给读控制器29。作为响应，读控制器29恢复从缓冲器26再现(读取)合成话音数据。

由此，当开始于停止输出合成话音数据后的反应话音数据的输出被完成时，恢复输出合成话音数据。

此后，该过程返回至步骤S4。若在步骤S4确定没有指示激励识别含义的信息已经从激励识别单元56被发送，则过程跳至步骤S12。在步骤S12，确定是否有更多的合成话音数据要从缓冲器26被读取。若确定有更多的合成话音数据要被读取，则过程返回至步骤S4。

在步骤S12确定没有更多的合成话音数据要从缓冲器26被读取的情况下，则过程完成。

通过上述话音合成过程，话音被输出，例如，象下面描述的。

这里，我们假定合成话音数据“Where is an exit？(出口在哪里)”产生于基于规则的合成器24并存储在缓冲器26中。我们还假定当输出合成话音数据进行至“Where is an e”时用户敲打机器人。在这种情况下，激励识别单元56识别所施加的激励含义是“敲打”并将指示激励识别含义的信息提供给反应发生器30。反应发生器30参照图6所示的反应表并确定“Ouch！”为响应识别的激励作为具有“敲打”含义的反应话音数据要被输出。

反应发生器30于是控制输出控制器27以使停止输出合成话音数据并输出反应话音数据“Ouch！”。此后，反应发生器30控制读指针以使从输出被停止的点恢复输出合成话音数据。

更具体地，在这种情况下，当输出合成话音数据进行至“Where is an e”被输出时，合成话音数据的输出被停止并且响应于检测到机器人被用户敲打输出反应话音“Ouch！”。此后，输出合成话音数据的剩余部分“xit”。

在这一特别示例中，合成话音被输出为“Where is an e”→“Ouch！”→“xit”。因为在反应话音数据“Ouch！”之后输出的合成话音数据“xit”是一个完整单词的一部分，用户不能容易地理解所表达的话音。

为避免以上问题，输出合成话音数据被恢复的点可以向回移动至一个早些的点，对应于信息片段间的分界(例如，对应于当重新开始点向回移动时将会到达的一个第一信息片段的起点)。

也就是，合成话音数据的输出可以从一个单词的分界被恢复，其将是当恢复点被从停止点向回移动时检测到的第一个单词。

在上述特别示例中，输出合成话音数据被停止于单词“exit”的“x”，且由此输出合成话音数据可以从单词“exit”的起点被恢复。在这种情况下，当输出合成话音数据进行至“Where is an e”被输出时，合成话音数据的输出被停止并且响应于检测到机器人被用户敲打输出反应话音“Ouch！”。此后，输出合成话音数据“exit”。

输出合成话音数据被恢复的点可以向回移动至一个标点或一个呼吸停顿，其将是当恢复点从停止点向回移动时被检测到的第一个。或者，输出合成话音数据的点可以通过操作一个图中未示出的操作单元由用户任意指定。

更具体地，输出合成话音数据被恢复的点能够通过图7中所示的步骤S9设定至对应值的读指针来指定。

在上述示例中，当施加一个激励时，输出合成话音数据被停止且对应于所施加的激励的反应话音数据被输出，并且紧接着，输出合成话音数据被恢复。或者，输出反应话音数据之后，输出合成话音数据可以不立即恢复但可在预定的固定反应被输出后恢复。

更具体地，如上所述输出合成话音数据被停止之后且输出反应话音数据“Ouch！”，一个固定的合成话音诸如“请原谅”或“我请求你原谅”被输出以对停止输出合成话音数据道歉。此后，停止的合成话音数据输出被恢复。

输出合成话音数据可以从其起点被恢复。

例如，若指示诸如用户发出“Eh！”的一个问题的话音在输出合成话音数据的过程中间被检测到，能够推断用户不能领会合成话音。于是，在这种情况下，响应于话音激励“Eh！”的检测输出合成话音数据可被停止，并且在一个很短的沉默期之后合成话音数据可以再从其起点被输出。恢复输出合成话音数据也能通过设定至对应值的读指针容易地实现。

控制输出合成话音数据也可以响应于压力或话音以外的激励被执行。

例如，激励识别单元56比较从内部传感器单元12的温度传感器12C输出的温度激励和一个预定门限(threshold)，并且若温度低于预定门限，激励识别单元56识别其为“冷”。在激励识别单元56识别其为“冷”的情况下，反应发生器30可以输出一个对应的反应话音数据，例如，一个喷嚏到输出控制器27。在这种情况下，机器人在输出合成话音数据的过程中间打喷嚏并随后恢复输出合成话音数据。

作为另一示例，当激励识别单元56比较从内部传感器单元12的计时器12D作为一个激励输出的当前时间(或由存储在模型存储器51中的本能模型决定的指示“期望睡觉”程度的值)和一个预定门限值时，若当前时间在对应于早晨很早或午夜的范围内，激励识别单元56识别机器人是“困倦”的。在激励识别单元56识别机器人是“困倦”的情况中，反应发生器30可以输出一个对应的反应话音数据，例如，一个呵欠到输出控制器27。在这种情况下，机器人在输出合成话音数据的过程中间打呵欠并随后恢复输出合成话音数据。

作为又一示例，当激励识别单元56比较从内部传感器单元12的电池传感器12A作为一个激励输出的电池剩余容量(或由存储在模型存储器51中的本能模型决定的指示“食欲”程度的值)和一个预定门限值时，若电池剩余容量低于预定门限，激励识别单元56识别机器人是“饥饿”的。在激励识别单元56识别机器人是“饥饿”的情况中，反应发生器30可以输出一个例如指示“辘辘”声的反应话音数据到输出控制器27。在这种情况下，机器人的胃在输出合成话音数据的过程中间发出辘辘声并随后恢复输出合成话音数据。

作为再一示例，当激励识别单元56比较由存储在模型存储器51中的本能模型决定的指示“期望运动”程度的值和一个预定门限值时，若指示“期望运动”程度的值低于预定门限，激励识别单元56识别机器人是“疲劳”的。在激励识别单元56识别机器人是“疲劳”的情况中，反应发生器30可以产生一个诸如“唉呦”代表疲劳的指示叹息声的反应话音数据并将其输出到输出控制器27。在这种情况下，机器人在输出合成话音数据的过程中间叹息并随后恢复输出合成话音数据。

作为另外一个示例，根据从姿势传感器12B的输出，可以确定是否机器人将会失去姿势的平衡。若确定机器人将会失去平衡，一个指示诸如“啊呀”话音的反应话音数据可被输出。

如上所述，响应于从机器人外部或内部施加的激励，输出合成话音数据被停止且对应于施加激励的反应被输出。此后，停止的合成话音数据输出被恢复。由此，可实现能以非常自然的方式带有与人类感情和感觉相似的感情和感觉来表达的机器人，即，能够以类似于人类的方式产生行为。也就是，机器人能够以这样的方式产生行为：给出机器人通过脊髓反射产生行为的印象，并且因此机器人能够给用户带来很好的娱乐。

此外，通过从停止点向回移动输出合成话音数据的恢复点，可能防止用户错过由于合成话音数据结尾前停止输出合成话音数据表达的含义。

尽管本发明参考以上用于娱乐的四足动物机器人(用作假冒宠物的机器人)的实施例被描述，本发明还可以应用于其他类型的机器人，诸如具有相似于人类形状的两足动物机器人。此外，本发明不仅能应用于在真实世界中行动的实际机器人，也能应用于虚拟机器人(人物)，诸如显示在液晶显示屏上的。而且，本发明不仅能应用于机器人，还能应用于各种系统，诸如具有话音合成装置或话音输出装置的交互系统。

在上述实施例中，通过使用CPU10A执行程序来进行一系列处理。作为选择，处理序列也可以通过专有的硬件来进行。

程序可以被提前存储在存储器10B中(图2)。作为选择，程序可以被暂时或永久地存储(记录)在可更换的存储介质上，诸如软盘、CD-ROM(光盘只读存储器)、MO(磁光)盘、DVD(数字通用盘)、磁盘或半导体存储器。程序被存储其上的可更换的存储介质可以是所谓的封装软件，从而允许程序被安装在机器人(存储器10B)上。

也可以从通过数字广播卫星和通过无线或有线网络诸如LAN(局域网)或因特网的某一地点下载程序，将程序安装进存储器10B。

在这种情况下，当程序被升级时，升级的程序可以被容易地安装进存储器10B。

在本发明中，描述于要被执行各种处理的CPU10A执行的程序中的处理步骤不必按照描述于流程图中的次序以时间序列被执行。作为替代，处理步骤可以并行或分离地被执行(通过并行处理或对象处理)。

程序可以由单个CPU或由多个CPU以分散方式来执行。

图5所示的话音合成单元55可以通过专有的硬件或通过软件来实现。当话音合成单元55通过软件来实现时，软件程序被安装在多用途计算机或类似物上。

图8表示本发明的一个实施例，其中用以实现话音合成单元55的程序被安装在一个计算机上。

程序可以提前存储在用作存储介质的硬盘105上或置于计算机内部的ROM103中。

作为选择，程序可以被暂时或永久地存储(记录)在可更换的存储介质111上，诸如软盘、CD-ROM、MO盘、DVD、磁盘或半导体存储器。这样一个可更换的存储介质111可以是所谓的封装软件的形式。

取代从可更换的存储介质111安装程序到计算机上，程序也可以从通过无线传输的数字广播卫星或通过有线通信网络诸如LAN(局域网)或因特网的下载地点被传送给计算机。在这种情况下，计算机使用通信单元108接收以上述方式传送的程序并将所接收的程序安装在置于计算机内的硬盘105上。

计算机包括CPU102。CPU102通过总线101被连接到一个输入/输出接口110以使当操作诸如键盘或鼠标的输入单元107发出的一个命令通过输入/输出接口110被输入时，CPU102响应于该命令执行存储在ROM103中的程序。作为选择，CPU102可以执行装载于RAM(随机存储器)104中的程序，其中程序可以通过传送存储于硬盘105上的程序到RAM104而被装载进RAM104，或者在通过通信单元108从卫星或网络接收之后传送已安装在硬盘105上的程序，或者在装载于驱动器109上的可更换记录介质111被读取之后传送已安装在硬盘105上的程序。通过执行程序，CPU102实施以上参考流程图描述的过程或以上参考方框图描述的过程。CPU102根据需要通过输入/输出接口110输出该过程的结果给诸如LCD(液晶显示器)或扬声器的输出单元106。该过程的结果也可以通过通信单元108被传送或者可以被存储在硬盘105上。

尽管在上述实施例中，话音(反应话音)响应于激励被输出，但反应话音以外的反应也可以响应于激励被实施(输出)。例如，机器人可以响应于激励点头或摇头或者摆动它的尾巴。

尽管在图6所示反应表的示例中，描述了激励和反应的对应关系，其他参数之间的对应关系也可以被描述。例如，激励改变(比如激励力量的改变)和反应之间的对应关系可以被描述。

此外，尽管在上述实施例中，通过规则话音合成器产生合成话音，合成话音也可以通过规则话音合成器以外的方法来产生。

工业实用性

按照本发明，如上所述，话音在信息处理装置的控制下被输出。话音输出响应于特定激励被停止，并且输出对应于该特定激励的反应。此后，恢复输出被停止的话音。于是，话音以非常自然的方式输出。

Claims

1.一种用于输出话音的话音输出装置，包括合成话音输出部件，用于在信息处理装置的控制下输出合成话音，其特征在于，所述装置还包括：

缓冲器，用于暂存从所述合成话音输出部件提供的合成话音；

读控制器，用于控制所述缓冲器中存储的合成话音的读取并提供读取的数据用于输出；

反应发生器，用于响应特定激励而控制输出控制器以便停止从所述缓冲器提供所述合成话音，提供反应话音用于输出，并当完成所述反应话音的输出时，控制以便恢复输出被停止的所述合成话音。2.如权利要求1的话音输出装置，其中所述特定激励是声音、光、时间、温度或压力。

3.如权利要求2的话音输出装置，进一步包括检测装置，用于检测作为所述特定激励而被施加的声音、光、时间、温度或压力。

4.如权利要求1的话音输出装置，其中所述特定激励是信息处理装置的内部状态。

5.如权利要求4的话音输出装置，其中

所述信息处理装置是真实或虚拟的机器人；和

所述特定激励是机器人情绪或本能的状态。

6.如权利要求1的话音输出装置，其中

所述信息处理装置是真实或虚拟的机器人；和

所述特定激励是机器人姿势的状态。

7.如权利要求1的话音输出装置，其中所述读控制器从输出被停止的点恢复输出话音。

8.如权利要求1的话音输出装置，其中所述读控制器从输出被停止的点向回移动的一个特定点恢复输出话音。

9.如权利要求8的话音输出装置，其中所述读控制器从输出被停止的点向回移动的一个特定点恢复输出话音，所述特定点是信息片段之间的边界。

10.如权利要求9的话音输出装置，其中所述读控制器从输出被停止的点向回移动的一个特定点恢复输出话音，所述特定点是单词之间的边界。

11.如权利要求9的话音输出装置，其中所述读控制器从输出被停止的点向回移动的一个特定点恢复输出话音，所述特定点对应于一个标点。

12.如权利要求9的话音输出装置，其中所述读控制器从输出被停止的点向回移动的一个特定点恢复输出话音，所述特定点对应于一个呼吸停顿的起点。

13.如权利要求1的话音输出装置，其中所述读控制器从用户指定的特定点恢复输出话音。

14.如权利要求1的话音输出装置，其中所述读控制器从话音的起点恢复输出话音。

15.如权利要求1的话音输出装置，其中在话音对应于文本的情况下，所述读控制器从文本的起点恢复输出话音。

16.如权利要求1的话音输出装置，其中在所述反应发生器响应于特定激励已输出反应之后，所述反应发生器还输出一个预定且固定的反应。

17.如权利要求1的话音输出装置，其中所述反应发生器通过话音响应于特定激励输出反应。

18.如权利要求1的话音输出装置，进一步包括激励识别部件，用于根据从检测特定激励的检测部件的输出识别特定激励的含义。

19.如权利要求18的话音输出装置，其中所述激励识别部件根据已检测特定激励的检测部件识别特定激励的含义。

20.如权利要求18的话音输出装置，其中所述激励识别部件根据特定激励的力量识别特定激励的含义。

21.一种用于信息处理装置的话音合成的输出话音的方法，包含步骤：在信息处理装置的控制下输出合成话音；

其特征在于，所述方法还包括步骤：

响应特定激励停止输出话音；

响应所述特定激励输出反应；和

当完成所述反应的输出时，恢复输出被停止步骤停止的话音。