CN1461464A

CN1461464A - 语言处理装置

Info

Publication number: CN1461464A
Application number: CN02801318A
Authority: CN
Inventors: 小林惠理香; 赤羽诚; 新田朋晃; 岸秀树; 堀中里香; 武田正资
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2001-04-20
Filing date: 2002-04-19
Publication date: 2003-12-10
Also published as: JP2002318594A; EP1381027A1; WO2002086861A1; KR20030010736A; US20040054519A1

Abstract

一种考虑象声词和拟声词，通过语言处理生成有效的合成语音的语言处理装置。利用声音表达文本中的象声词和拟声词的含义，从作为语音合成对象的文本产生有效的合成语音。象声词/拟声词分析单元(21)从文本中提取象声词和拟声词。象声词/拟声词处理单元(27)按照象声词或拟声词的相应音效生成声学数据。声音合成单元26将由象声词/拟声词处理单元27产生的声学数据叠加到规则合成单元(24)所产生的合成声音数据的一部分或全部。本语言处理装置可以应用于带有语音合成器的机器人。

Description

语言处理装置

技术领域

本发明涉及一种语言处理设备，并且更具体地说，涉及通过包括例如象声词或模拟音的文本的语言处理产生有效的合成语音的语言处理设备。

背景技术

在语言处理或相关技术领域中，对于输入文本进行语形学分析，针对语形学的分析结果，对应输入文本产生相应的合成语音。

根据语言学普遍接受的一个意见，词的发音关联于词的意义。

然而，在拟声词或象声词的使用中，例如，“他吞下啤酒，咕，咕(glug)”句中的“咕，咕”，词的声音和意义的关系并非必须关联。

所以，拟声词是描述声音的词，该词与主体的一个行为(动作)相关，而象声词是用一个象征声音的词来描述环境状态或动作。由此，拟声词或象声词可以看作“声音”。

然而，在普通的语音处理设备中，对于文本中包含的拟声词或象声词的处理和文本中包含的其他普通词的处理是使用同一种方式的，因此，通过拟声词或象声词发出的声音在合成语音输出中并未得到较好的表现。

发明内容

为解决上述问题，本发明的目的是提供一种对通过对包含拟声词或象声词的文本的语言处理产生有效合成语音的技术。

因此，本发明提供一种语言处理装置，包括：从输入数据中提取象声词或拟声词的提取装置；用于处理象声词或拟声词的象声/拟声词处理装置；和用于根据对于象声词或拟声词的处理结果对于输入数据进行语言处理的语言处理装置。

本发明也提供一种语言处理方法，包括步骤：从输入数据中提取象声词或拟声词；象声词或拟声词的处理；和根据对象声词或拟声词的处理结果，进行对于输入数据的语言处理。

本发明的另一个目的是提供一种使计算机对于输入数据进行语言处理的程序，包括步骤：从该输入数据中提取象声词或拟声词；对该象声词或拟声词的处理；和根据对该象声词或拟声词的处理结果，对于该输入数据的进行语言处理。

本发明的另一个目的是提供一种包括存储在其中的程序的存储介质，用于计算机对于输入数据进行语言处理，所述程序包括步骤：从该输入数据中提取象声词或拟声词；对象声词或拟声词的处理；和根据对该象声词或拟声词的处理结果，对于该输入数据进行语言处理。

在本发明中，从输入数据中提取拟声词或象声词，处理所提取的拟声词或象声词，然后语言处理利用拟声词或象声词的处理结果对输入数据进行处理。

附图说明

图1是本实施例应用的机器人的外部结构透视图的实例。

图2是机器人内部结构框图。

图3是处理器10的功能结构框图。

图4是语音合成单元55的结构框图。

图5是语音合成单元55的处理流程图。

图6是语音合成单元55对于拟声词/象声词的处理流程图。

图7是拟声音数据库31的内容列表。

图8是语音合成单元55的语音合成流程图。

图9是本实施例应用的计算机结构示例框图

具体实施方式

图1是本实施例应用的的机器人的外部结构，图2是相应的电气结构。

在本实施例应用中，将机器人设计为有四条腿的动物外形，如狗，腿部单元3A、3B、3C和3D，以透视图的四角，连接到身体单元2；头部单元4和尾部单元5，在前端和后端处，连接到身体单元2。

尾部单元5从安装于身体单元2的上表面的基部5B中伸出，这样尾部单元5可以完成两个自由度的弯曲或摇摆。

身体单元2在其内部包括，控制器10，全面控制机器人；电池11，提供机器人的电源；内部传感器单元14，包括电池传感器12和热传感器13。

头部单元4，在相应选择的位置安装了，麦克风15作为“耳朵”，CCD(Charged Coupled Device，电荷耦合器件)16作为“眼睛”，接触传感器17作为感应接触动作的传感器，扬声器18作为“嘴巴”。下颚单元4A作为嘴巴的下颚部分，连接到头部单元4的下部，使下颚单元4A可以完成一个自由度的运动。通过移动下颚单元4A，机器人的嘴巴可以完成张合动作。

如图2，致动器3AA₁到3AA_K，3BA₁到3BA_K，3CA₁到3CA_K，3DA₁到3DA_K，4A₁到4A_L，5A₁和5A₂分别安装在连接腿部单元3A到3D部件的关节，连接腿部单元3A到3D和身体单元2的关节，连接头部单元4和身体单元2的关节，连接头部单元4和下颚单元4A的关节，以及连接尾部单元5和身体单元2的关节。

安装在头部单元4的麦克风15采集来自周围环境中的用户的话音(声音)，并把采集的语音信号传送到控制器10。CCD摄像头16采集环境的图象，并把采集的图象信号传送到控制器10。

触觉传感器17安装在头部单元4的上部，用于测试用户施加的压力信号，如抚摸、拍打等身体动作，并将测试的压力信号作为检测结构传递到控制器10。

电池传感器12安装在身体单元2上，测试电池11的剩余容量，并将测试结果作为电池剩余容量信号传递到控制器10。热传感器13测试机器人内部的热量，将测试结果作为热测试信号传递到控制器10。

控制器10，包括CPU(Central Processing Unit，中央处理单元)10A和存储器10B，通过存储在存储器10B的控制程序在CPU10A中的运行完成不同的处理过程。

控制器10测试具体的外部情况，用户对机器人的命令，和用户对机器人的发出的操作，该操作是基于分别通过麦克风15、CCD摄像头16、触觉传感器17、电池传感器或热传感器而得到的语音信号、图象信号和压力信号或电池剩余容量信号。

根据上述测试的信号，控制器10决定下一步如何行动。根据相应的决策，控制器10控制相应的致动器，包括3AA₁到3AA_K，3BA₁到3BA_k，3CA₁到3CA_K，3DA₁到3DA_K，4A₁和4A₂，5A₁和5A₂，使得头部单元4的点头、摇头动作、下颚单元4A的张合动作得以完成。根据不同条件，控制器10移动尾部单元5或者通过运动腿部单元3A到3D来使机器人移动。

此外，根据需求，控制器10产生合成语音数据并将其传送到扬声器18发出语音；或开关、闪烁安装于眼睛部位的LED(发光二极管，图中并未标出)。

如上所述，机器人自动对环境条件发出回应行为。

图3是图2中控制器10的功能结构。注意图3中的功能结构的实现是通过CPU10A运行存储在存储器10B的控制程序来完成的。

控制器10包括传感器输入处理单元50，来探测详细的外部状态；模型存储器51，来存储传感器输入处理单元50的探测结果和表示一种和感情、本能和成长相联系的状态；行动决定单元52，根据传感器输入处理单元50的探测结果确定如何反应；姿态变换单元53，使机器人根据行动决定单元52的决定采取相应的实际行动；控制单元54，驱动致动器3AA₁到5A₁和5A₂；语音合成单元55产生合成语音。

传感器输入处理单元50探测详细的外部条件，用户对机器人的动作，用户下达的命令，图象信号和压力信号，这些信号分别来自麦克风15、CCD摄像头16和触觉传感器17。表示被测条件的信息作为识别状态信息提供给模型存储器51和行动决定单元52。

传感器输入处理单元50还包括语音识别单元50A，用于识别来自麦克风15的语音信号。例如，如果语音识别单元50A处理输入的语音信号得到的结果是“走”、“躺下”或“跟着球”的命令，识别的命令作为来自语音识别单元50A的识别状态信息提供给模型存储器51和行动决定单元52。

传感器输入处理单元50还包括图像识别单元50B，用来识别来自CCD摄像头16的图象信号。例如，如果图像识别单元50B利用图象识别测试到“某个红色、圆的东西”、“直立垂直高出地面某个预定值的物体”，然后图像识别单元50B将诸如“这是个球”、“这是一堵墙”一样的表示环境的状态作为识别状态信息提供给模型存储器51和行动决定单元52。

传感器输入处理单元50还包括压力处理单元50C，用来处理来自触觉传感器17测试的压力信号。例如，如果压力处理单元50C测试到一个短时的高于预设值的压力信号，压力处理单元50C识别为机器人被“轻打(责备)”了。测试到的信号是一个低于预定值且持续时间较长的压力信号，压力处理单元50C识别为机器人被“抚摸(表扬)”。表示识别结果的信息作为识别状态信息提供给模型存储器51和行动决定单元52。

模型存储器51存储和管理情感模型，本能模型和成长模型，来表示机器人相应的感情，本能和成长。

情感模型采用预定范围内的值(例如，从-1.0到1.0)表示相关感情的状态，例如，“快乐”、“悲伤”、“生气”和“压力”。这些值根据传感器输入处理单元50的识别状态信息而改变，同时与时间流有关。本能模型表示相应本能的状态(程度)，例如，采用预定范围内的值表示的“胃口”、“睡眠欲望”和“尝试欲望”。这些值根据由传感器输入处理单元50所提供的识别状态信息而改变，同时与时间流有关。成长模型表示成长的状态，例如，采用预定范围内的值表示的“幼年”、“青年”、“中年”和“老年”。这些值根据传感器输入处理单元50所提供的识别状态信息而改变，同时与时间流有关。

用相应的情感模型、本能模型和成长模型的值描述的情感、本能和成长作为来自模型存储器51的状态信息提供给行为决定单元52。

此外，除了来自传感器输入处理单元50的识别状态信息，模型存储器51还接收来自行为决定单元52的行为信息，该信息用来描述当前或过去的机器人的行为，例如，“走了很长时间”，因此根据行为信息描述的机器人的行动，允许模型存储器51对于相同的识别状态信息产生不同的状态信息。

更具体的说，例如，如果用户抚摸机器人的头部，机器人对用户表示问候。然后，表示机器人问候用户的行为信息和表示头部被抚摸的识别状态信息会提供给模型存储器51。这时，模型存储器51会提高表示快乐程度的感情模型的值。

相反，如果抚摸在工作的机器人的头部，表示机器人处在工作的行为信息和表示头部被抚摸的识别状态信息会提供给模型存储器51。这时，模型存储器51并不提高表示快乐程度的感情模型的值。

如上所述，模型存储器51不仅仅根据识别状态信息，还要根据描述当前和过去的机器人行为的行为信息，来设置感情模型的值。这防止机器人在感情上出现不自然的变化。例如，即使用户抚摸处于正在作某项任务的机器人，试图和它开玩笑，和“快乐”相关的感情模型的值不会发生不自然的提高。

和感情模型相同，对于本能模型和成长模型，模型存储器51也会根据识别状态信息和行为信息，提高或降低它们的值。而且，当模型存储器51提高或降低感情模型、本能模型或成长模型的某一个值，其他模型的值也要考虑。

行为决定单元52，根据来自传感器输入处理单元50的识别状态信息、来自模型存储器51的状态信息和时间流，决定下一步行为。决定的行为内容作为行动命令信息，提供给姿态变换单元53。

具体而言，行为决定单元52将有限机器人(finite automaton)--能根据其可能的行为表现出相应的状态的机器人--作为一个可控制整个机器人行为的模型来管理，从而使得作为行为模型的有限机器人的状态根据来自传感器输入处理单元50的识别状态信息、和感情模型、本能模型、成长模型相关的模型存储器51的值以及时间流发生改变，并且行为决定单元52采用相应于经改变的状态的行为作为下一步采取的行为。

在上述过程中，当行为决定单元52测试到特定的触发条件时，其会改变对应的状态。更具体的说，行为决定单元52会改变状态，例如，当相应于当前状态的行为持续的时间周期到达一定的值时，或者当接收到特定的识别状态信息时，或者当表示感情、本能或成长状态的状态信息的值，这些值来自模型存储器51，高于或低于预定限度时。

因为，如上所述，行为决定单元52不仅依靠来自传感器输入处理单元50提供的识别状态信息，而且依靠模型存储器51的感情、本能或成长模型的值来改变行为模型的状态；所以，即使输入了相同的识别状态信息，当前状态的变化也会依赖感情、本能或成长模型的值(状态信息)而出现不同。

例如，当状态信息表示机器人不“生气”和不“饿”时，如果识别状态信息是“用户将手心向上放在机器人脸部前方”，对于手放在机器人脸部前方，行为决定单元52发出表示应当完成握手的行为命令，并将发出的行为命令传送到姿态变化单元53。

另一方面，例如，当状态信息表示机器人不“生气”但“饿”时，如果识别状态信息是“用户将手心向上放在机器人脸部前方”，对于手放在机器人脸部前方，行为决定单元52发出表示应当“舔舔手掌”的行为命令，并将发出的行为命令传送到姿态变化单元53。

当状态信息表示机器人在“生气”，如果识别状态信息是“用户将手心向上放在机器人脸部前方”，对于手放在机器人脸部前方，行为决定单元52发出表示“把头转向一边”的行为命令，无论机器人“饿”与否。并将发出的行为命令传送到姿态变化单元53。

除了上述与机器人不同部分的运动相关的行为命令信息，如头部、手部、腿部等，行为决定单元52还可以发出控制机器人发声的行为命令信息。控制机器人发声的行为命令信息提供给语音合成单元55。根据由语音合成单元55合成的语音，提供给语音合成单元55的行为命令信息包括文本(或者包括音标信息的语音符号的序列)。如果语音合成单元55接收到来自行为决定单元52的行为命令信息，语音合成单元55就会根据行为命令信息包含的文本产生相应的合成语音并将该合成语音提供给扬声器18，依次由扬声器18发出相应的合成语音。因此，例如，扬声器18发出哭的声音，发出表示“我饿了”的声音来要求用户给东西，发出“什么”的声音来回应用户的呼唤。当语音合成单元55发出合成语音时，行为决定单元52按要求发出行为命令信息控制下颚单元4A上下张合，并向姿态变换单元53发出结果行为命令信息。下颚单元4A的张合的同时输出经合成的语音会给用户带来机器人真在说话的感觉。

根据行为决定单元52提供的行为命令信息，姿态变换单元53发出姿态变换命令信息，将机器人的现有姿态变化为下一个状态，并将其传递到控制单元54。

根据姿态变换变换单元53提供的姿态变换命令信息，控制单元54产生和传递控制信号到驱动致动器3AA₁到5A₁和5A₂。因此，根据控制信号，驱动致动器3AA₁到5A₁和5A₂从而使得机器人自动运行。

图4是图3中语音合成单元55的结构示例。

包括文本的行为命令信息，依照该文本来合成语音，由行为命令单元52提供给象声/拟声词(Onomatopoeic/mimetic)分析单元21。象声/拟声词分析单元21分析包含在行为命令信息中的文本，决定文本中是否包含象声、拟声词。如果文本中包含象声或拟声词，象声/拟声词分析单元21从文本中提出象声词或拟声词。更具体的说，象声/拟声词分析单元21把行为命令信息中的文本提供给语形分析器22，由它对接收文本进行语形分析。根据语形分析的结果，象声/拟声词分析单元21从文本中提出象声词或拟声词。

象声/拟声词分析单元21在文本中为其中的象声词或拟声词加上(插入)标识包括于文本中象声词或拟声词的识别标签(在下文中，该标签简单地以识别标签表示)，并且象声/拟声词分析单元21将完成处理的文本提供给规则基合成器24。象声/拟声词分析单元21还将带有识别标签的表示象声词或拟声词的数据提供给象声/拟声词处理单元21。

根据从象声/拟声词分析单元21接收的数据，参考词典/语法数据库23，语形分析器22在语形上对提供文本进行分析。

词典/语法数据库23包括单字词典，每个词用语音、发音、重音和其他信息进行描述；还包括表示语法规则的数据，如对单字词典中单词的合成限制。依照单字词典和语法规则，语形分析器22分析象声/拟声词分析单元21提供的文本(如果需要，也会进行句法分析或其他分析)，并将分析结果提供给象声/拟声词分析单元21。

对文本的语形分析结果，该结果由语形分析器22得到，不仅仅可以供象声/拟声词分析单元21参考，而且如果需要也可以提供给其他模块。

规则基合成器(rule-based synthesizer)24按照规则对于自然语言进行处理。更具体的说，规则基合成器24首先根据语形分析器22的语形分析结果，提取在对文本的规则基语音合成中所需要的信息，这些文本由象声/拟声词处理单元21提供。规则基语音合成中提取的所需信息包括，例如，控制重音的信息、语调、暂停的位置、音律信息，诸如每个词发音的音素信息。

规则基合成器24参考音素数据库25，按照来自象声/拟声词分析单元21的文本来产生合成语音的语音数据(数字数据)。

音素数据库25存储音素数据，按照一定的格式，例如CV(辅音、元音)、VCV或CVC。规则基合成器24依照得到的音律(prosodic)或音素信息，连接必要的音素数据，进一步设置一种模式(音高模式)，表示音高频率与时间相关的变化，和另一种模式(力度模式)，表示力度与时间相关的变化。因此，暂停、重音和语调被正确的添加到连接的音素数据，所以依照象声/拟声词分析单元21提供的文本生成合成语音数据。

在上述过程中，除非象声/拟声词处理单元27指定具体的语音类型，规则基合成器24会选用默认的语音类型，并且规则基合成器24根据默认的语音类型产生合成语音，使其含有语调或音律特征。然而，在象声/拟声词处理单元21指定特定的语音形式的情况下，规则基合成器24按照指定的语音形式设置合成参数(控制音律或音调特征的参数)，这些合成参数用于规则基语音合成，并按照合成参数生成合成语音数据。

更具体的说，按照选定的语音类型，规则基合成器24改变生成合成语音数据的音素数据的频率特性，例如，通过对于音素数据进行高音加强、低音加强或均衡。规则基合成器24连接频率特性被改变的音素数据，进而产生合成语音数据。这样可以使规则基合成器24产生具有不同语音特点的合成语音数据，如男性的声音、女性的声音、小孩的声音，或者带有快乐或悲伤语调的声音。规则基合成器24按照选定的语音类型，确定音高模式或音强模式，产生有确定的音高模式或音强模式的合成语音数据。

规则基合成器24产生的合成语音数据提供给语音混频器26。当规则基合成器24按照包含识别标签的文本生成合成语音数据，该识别标签由象声/拟声词分析单元21提供，产生的合成语音数据包括在文本中的识别标签。也就是，规则基合成器24提供给语音混频器26的合成语音数据包含识别标签。如上所述，识别标签标示其中的象声词或拟声词。也就是说，这个标签以波形数据的形式标出了合成语音数据中的象声词或拟声词的位置。

此外，除了来自规则基合成器24的合成语音数据，表示声音效果的声学(acoustic)数据也会在需要时提供给语音混频器26，这个数据来自象声/拟声词处理单元27。语音混频器26混和合成语音数据和声学数据，从而产生和输出最终的合成语音数据。

表示声音效果的声学数据，该数据由象声/拟声词处理单元27提供给语音混频器26，和从规则基合成器24所输出的合成语音数据相应的文本中提取出的象声词和拟声词一致。而且语音混频器26将声学数据叠加到全部或部分合成语音数据之上，或依照象声词或拟声词，将合成语音数据中的一部分替换为声学数据。

象声/拟声词处理单元27处理象声词或拟声词，这些象声词或拟声词由象声/拟声词分析单元21提供。

也就是说，依照象声词、拟声词的声音效果，象声/拟声词处理单元27产生声学数据，并将结果的声学数据提供给语音合成器26。

更具体的说，例如，象声/拟声词处理单元27访问声音效果数据库28，读取相应拟声词或象声词的声音效果的声学数据，这些词由象声/拟声词分析单元21提供。

也就是说，声音效果数据库28存储象声词或拟声词和相应表示拟声词、象声词的声音效果的声学数据。并且象声/拟声词处理单元27访问声音效果数据库28，读取相应拟声词或象声词的声音效果的声学数据，这些拟声词或象声词由象声/拟声词分析单元21提供。

另外，象声/拟声词处理单元27也可以控制音效生成单元30，从而产生表示模拟拟声词或象声词的声音效果的声学数据，这些拟声词或象声词由象声/拟声词分析单元21提供。

按照上述方式，象声/拟声词处理单元27产生声学数据，与识别标签一起提供给语音混频器26，该识别标签加到象声/拟声词分析单元21的象声词和拟声词。

此外，除了依照象声词或拟声词生成声学数据，象声/拟声词处理单元27通过参照语音类型数据库29，决定规则基合成器24产生的合成语音的语音类型。并且按照语音类型，控制规则基合成器24产生合成语音。

也就是说，语音类型数据库29存储象声词或拟声词和相应的合成语音的语音类型，这些可以很好的反映象声词和拟声词的含义。象声/拟声词处理单元27访问语音类型数据库29，读取相应的象声词或拟声词的语音类型，这些词来自象声/拟声词分析单元21，并将结果的语音类型提供给规则基合成器24。

以“我怦然心动”为例，其中有拟声词“怦然”，它代表快乐或欢欣。因此，在语音类型数据库29中，将带有快乐语调的语音类型指定给拟声词“怦然”(例如，高频元素和加重语调的使用)。

在象声/拟声词处理单元27的控制下，通过参考模拟声音数据库31，音效生成单元30产生音效声学数据，表示象声词或拟声词的模拟声音。

也就是说，模拟声音数据库31存储象声词或拟声词或包含前两者的字符串和相应的音效信息，用于产生音效。音效生成单元30从模拟声音数据库31读取相应表示全部或部分的象声词或拟声词的字符串的音效信息，这些象声词或拟声词由象声/拟声词分析单元21提供。按照该音效信息，音效生成单元30产生模拟音效的声学数据，该模拟音效模拟象声/拟声词分析单元21所提供的象声词或拟声词，并将音效数据的结果提供给象声/拟声词处理单元27。

语音合成单元55按照上述的结构，进行预处理、象声/拟声词处理，预处理是从包含在行为命令的文本中提取象声词或拟声词，该文本由行为决定单元52(图3)提供，象声/拟声词处理是处理从文本中提取的象声词或拟声词；随后依照象声/拟声词处理的结果，按包含在行为命令的文本产生合成语音。

图5的流程图描述了预处理。

如果依照包含文本的行为命令信息产生合成语音，并且该信息由行为决定单元52(图3)提供给象声/拟声词分析单元21，则象声/拟声词分析单元21将文本提供给语形分析器22，该文本包含于接收的来自行为决定单元52的行为命令信息，并要求语形分析器22进行语形分析。

因此，在S1步骤中，语形分析器22对象声/拟声词分析单元21提供的文本进行语形分析，并把分析结果提供给象声/拟声词分析单元21。如果象声/拟声词分析单元21接收到来自语形分析器22的语形分析结果，那么，在S2步骤中，象声/拟声词分析单元21根据分析结果，决定该文本是否包含象声词或拟声词。如果在步骤S2中确定文本既不包含象声词也不包括拟声词，跳转到S4步骤，并不执行S3步骤。在步骤S4中，象声/拟声词分析单元21直接输出行为命令信息包含的文本到规则基合成器24，并且预处理过程结束。这种方式下，在随后的语音合成过程(图8)，文本的语音合成与传统的技术相同

如果在步骤S2确定文本中包含象声词或拟声词，执行步骤S3。在步骤S3中，象声/拟声词分析单元21从文本中提取象声词或拟声词，并在那里加上识别标签。提取的象声词或拟声词和添加的识别标签输出到象声/拟声词处理单元27。

随后在下一步骤S4，象声/拟声词分析单元21将识别标签添加到文本，使得象声词或拟声词可以被识别。将添加标签的文本结果提供给规则基合成器24，并且预处理过程结束。

在上述过程中，例如，如果行为命令信息是“满满地倒一杯啤酒”，象声/拟声词分析单元21提取出拟声词“满满地”(brimmingly)，将拟声词和其识别标签-“<Pmix1>满满地”提供给象声/拟声词处理单元27。进而，象声/拟声词分析单元21把包含识别标签的文本，“<Pmix1>满满的</Pmix1>倒一杯啤酒”，提供给规则基合成器24。

在上文中，在“<”和“>”中的部分是识别标签。识别标签<Pmix1>中，第一个P表示象声词和拟声词仅在其有限的、与象声词或拟声词的部分相应的范围中对合成语音数据有影响。也就是说，如果识别标签以P开头，语音混频器26混合合成语音数据和声学数据，而象声词或拟声词的相应音效的声学数据根据该象声词或拟声词，仅在相应于文本的合成语音数据的部分有所反映。

如果希望象声词或拟声词影响相应文本的整个合成语音数据，例如，S放在识别标签的首位。因此，如果识别标签是，例如，“<Smix1>”，语音混频器26会将包括在文本中的相应于象声词或拟声词的音效的声学数据叠加到相应于该文本的整个合成语音数据。

在识别标签<Pmix1>中，P后的mix表示语音混频器26会将包括在文本中的相应于象声词或拟声词的音效的声学数据叠加到相应于该文本的整个合成语音数据上。根据条件的不同，语音混频器26可能以象声词或拟声词相应音效的声学数据来替换相应于文本的合成语音数据中的相应于象声词或拟声词的部分。在这种情况下，识别标签中的mix用rep替换。也就是说，例如，如果识别标签形如<Prep1>，语音混频器26会以象声词或拟声词的相应音效的声学数据来替换相应于文本的合成语音数据中的相应于象声词或拟声词的部分。

在识别标签<Pmix1>中，末尾的数字1表示为单独分配给标有识别标签的象声词或拟声词添加的数字编码。从1开始顺序给文本中的各个象声词或拟声词分配数字。也就是说，如果文本包括较多的象声词或拟声词，从第一个象声词或拟声词开始，为识别标签添加相应的数字编码，如<Pmix1>、<Pmix2>，......，等。

除了表示象声词或拟声词的开始位置的识别标签<Pmix1>，象声词/拟声词分析单元21还会添加识别标签</Pmix1>，该识别标签</Pmix1>与识别标签<Pmix1>基本相同，除了在开始添加了“/”，表示象声词或拟声词的结束位置。

例如，当行为命令信息包含文本“我的心高兴的怦怦直跳”，其中包含拟声词“怦怦”。象声/拟声词分析单元21提取出拟声词“怦怦”。在这种情况下，如果希望语音混频器26仅将相应于象声词或拟声词的音效叠加到相应于该文本的相应于象声词或拟声词的部分上。象声词/拟声词分析单元21产生添加标签“<Pmix1>怦怦”的拟声词，这里的P表示象声词或拟声词的相应音效的声学数据根据该象声词或拟声词，仅在相应于文本的合成语音数据的部分有所反映，并且mix表示声学数据应当叠加在合成语音数据上，以及加有标签的拟声词的结果提供给象声词/拟声词处理单元27。进而，象声词/拟声词分析单元21在文本“我的心高兴的怦怦直跳”中的拟声词“怦怦”的开始和结束位置分别添加识别标签<Pmix1>和</Pmix1>，产生结果文本“我的心高兴的<Pmix1>怦怦</Pmix1>直跳”，并将加上标签的文本结果传送到规则基合成器24。

作为另一个示例，如果行为命令信息包含文本“他鼓掌，啪，啪，啪”，象声/拟声词分析单元21提取出象声词“啪，啪，啪”。在这种情况下，如果希望以象声词或拟声词相应音效的声学数据仅替换相应于文本的合成语音数据中的相应于该象声词或拟声词的部分，象声词/拟声词分析单元21产生添加识别标签<Prep1>的象声词“<Prep1>啪，啪，啪”，其中P表示象声词或拟声词的相应音效的声学数据根据该象声词或拟声词，仅在合成语音数据的部分有所反映，并且rep表示合成语音数据中的象声词或拟声词的相应部分应由象声词“啪，啪，啪”的音效的声学数据替代，并且将添加识别标签的结果象声词提供给象声词/拟声词处理单元27。进而，象声词/拟声词分析单元21在文本“他鼓掌，啪，啪，啪”的象声词“啪，啪，啪”的开始和结束位置分别添加识别标签<Prep1>和</Prep1>，产生结果文本“他鼓掌，<Prep1>啪，啪，啪</Prep1>”，并将加上标签的文本结果传送到规则基合成器24。

表示相应象声词音效的声学数据是应在相应于该象声词的合成语音数据的一部分、还是应在整个合成语音数据中反映的信息，可以预先设置或在行为决定单元52提供的行为命令信息中描述。表示相应象声词音效的声学数据是应在相应于该象声词的合成语音数据的一部分、还是应在整个合成语音数据中反映的决定可以由用户作出或是按照该象声词上下文作出。关于是否将声学数据叠加在合成语音数据上或者合成语音数据的一部分应当由该声学数据替代的决定，也可以以同样的方式作出。

现在以图6的流程图说明对象声/拟声词的处理。

当象声/拟声词处理单元27接收到添加识别标签的象声词或拟声词，这些词来自象声/拟声词分析单元21，开始对象声/拟声词的处理。也就是说，在第一个步骤S11，象声/拟声词处理单元27接收到添加识别标签的象声词或拟声词，这些词来自象声/拟声词分析单元21。其后进行步骤S12。

在步骤S12，象声/拟声词处理单元27搜索音效数据库28。在下一步骤S13，确定在步骤S12的音效数据库28的检索中，是否找到步骤S11接收的象声词或拟声词，这些词来自象声/拟声词分析单元21。也就是说，确定从象声/拟声词分析单元21传送的象声词或拟声词是否包含在音效数据库28中。

如果在步骤S13中确定象声/拟声词分析单元21传送的象声词或拟声词包含在音效数据库28中，进行步骤S14。在步骤S14，象声/拟声词处理单元27从音效数据库28中读取象声词或拟声词的相应音效的声学数据，这些词来自象声/拟声词分析单元21，并且向从音效数据库28读取的声学数据添加识别标签，该识别标签添加在来自象声/拟声词分析单元21的象声词或拟声词上。象声/拟声词处理单元27将添加识别标签的声学数据的结果输出到语音混频器26，并结束象声/拟声词处理过程。

例如，当音效数据库28包括彼此联系的拟声词“满满地”和音效的声学数据“汩汩、汩汩”时，假如从象声/拟声词分析单元21将添加有识别标签的拟声词“满满地”提供给象声/拟声词处理单元27，则象声/拟声词处理单元27从音效数据库28读取相应于拟声词“满满地”的“汩汩、汩汩”的音效的声学数据，并且向语音混频器26提供所获得的声学数据以及添加有拟声词“满满地”的识别标签。

另一方面，假如在步骤S13中确定在音效数据库28中不包括从象声/拟声词分析单元21接收的象声词或者拟声词(以下，该象声词或者拟声词记为兴趣的象声/拟声词)，则步骤转到步骤S15。在步骤S15中，象声/拟声词处理单元27确定是否指定合成语音数据的语音类型。

表示是否应当指定合成语音数据的语音类型的信息可由用户事先设定或者可在行为命令信息中描述，以便根据该信息确定步骤S13种的决定。

假如在步骤S15中确定应当指定合成语音数据的语音类型，则转到步骤S16。在步骤S16中，象声/拟声词处理单元27访问语音类型数据库29以读取与兴趣的象声/拟声词有关的语音类型。象声/拟声词处理单元27将表示合成语音数据应当根据指定的语音类型而产生的命令信号连同表示语音类型的数据一同提供给规则基合成器24。由此，象声/拟声词处理结束。

因此，例如，在语音类型数据库29中，拟声词“重击(Pound)”是被指定加重语调的语音类型。如果象声/拟声词分析单元21传送加有识别标签的拟声词“重击”到象声/拟声词处理单元27，象声/拟声词处理单元27从语音类型数据库29中读取相应的语音类型，其上带有与拟声词“重击”加重语调，并将表示语音类型的命令信号传送到规则基合成器24。

在语音类型数据库29中不包括相应于兴趣的象声/拟声词的语音类型的情况下，象声/拟声词处理单元2 7将表示例如默认语音类型的命令信号传送到规则基合成器24。

另一方面，如果在步骤S15中确定，没有必要指定合成语音数据的语音类型，则跳转到步骤S17。在步骤S17，象声/拟声词处理单元27确定是否需要产生音效，从而使用兴趣的象声词或拟声词的音效来模拟兴趣的象声词或拟声词(下文中，这样的音效被指定为模拟音效)。

表明是否需要利用模拟音效作为对于兴趣的象声词或拟声词的音效的信息，可以预先设置，或在行为命令信息中描述表示是否指定合成语音数据的语音类型的信息，所以在步骤S17中依照该信息作出相应的决定。

如果在步骤S17中确定利用模拟音效作为对于兴趣的象声词或拟声词的音效，则跳转到步骤S18。在步骤S18，象声/拟声词处理单元27控制音效生成单元30，产生对于兴趣的象声词或拟声词的音效的声学数据。

更具体的说，在这种情况下，音效生成单元30通过参考模拟语音数据库31产生对于兴趣的象声词或拟声词的模拟音效的声学数据。

如图7所示，模拟语音数据库31存储字符串和相应的音效信息，前者表示各个象声词或拟声词的整体或部分，后者用来产生模拟音效。在图7的具体的例中，用于产生每个模拟音效的音效信息包括模拟音效的中心频率，回响时间，频率波动，发生次数及发生之间的间隔。

例如，以添加有识别标签的象声词“啪，啪，啪”为例，由象声/拟声词分析单元21提供至象声/拟声词处理单元27，从作为模拟音效数据库30中的象声词“啪，啪，啪”的一部分的字符串“啪”有关的音效信息，音效生成单元30识别出：中心频率“1500Hz”，回响时间“200ms”，频率波动“中度”，发生次数“1”，发生间隔“500ms”。依照得到的音效信息，音效生成单元30产生表示冲击衰减音(impulsive attenuating sound)的声学数据，作为象声词“啪，啪，啪”的模拟音效，并把声学数据结果传送给象声/拟声词处理单元27。模拟音的声学数据可以利用诸如正弦波来产生。

如果象声/拟声词处理单元27接收到来自音效生成单元30的模拟音的声学数据，象声/拟声词处理单元27为声学数据加上识别标签，附加上兴趣的象声/拟声词，并将加有识别标签的声学数据传送到语音混频器26。这样，象声/拟声词处理过程结束。

下面参照图8的流程图说明语音合成过程。

当象声/拟声词分析单元21把文本传送到规则基合成单元24时，语音合成过程开始。在第一步骤S21，规则基合成单元24接收到来自象声/拟声词分析单元21传送的文本。然后，进入步骤S22。

在步骤S22，规则基合成单元24确定指定语音类型的命令信号是否已经从象声/拟声词处理单元27接收到，也就是说，是否指定了语音类型。

如果在步骤S22中确定并未指定语音类型，跳转到S23。在步骤S23，规则基合成器24选择使用的默认语音类型。其后，进入步骤S25。

另一方面，假如在步骤S22中确定指定语音类型，则跳转到S24。在步骤S24中，规则基合成器24选择指定的语音类型作为使用的语音类型。其后，进入步骤S25。

在步骤S25，依照从象声/拟声词分析单元21接收的文本，规则基合成器24进行规则基语音合成，以产生合成语音数据，以便合成语音数据具有与在步骤S23或S24中选择的语音类型相应的音调或音律特性。

例如，“<Pmix1>满满的</Pmix1>倒一杯啤酒”这样的文本，它由象声/拟声词分析单元21提供给规则基合成器24，规则基合成器24按照音素信息生成语音数据，该音素信息是“po：r bíer intu a glàs<Pmix1>brimingli</Pmix1>”，这里：表示长音，’表示重音的位置。规则基合成器24产生合成语音数据，所以相应象声词或拟声词的部分可以由识别标签识别。

例如，“我的心高兴的<Pmix1>怦怦</Pmix1>直跳”这样的文本，它由象声/拟声词分析单元21提供给规则基合成器24。如果由象声/拟声词处理单元27提供给规则基合成器24的语音类型数据指定了加重语调的语音类型，规则基合成器24产生合成语音数据，相应的“我的心高兴的<Pmix1>怦怦</Pmix1>直跳”中的兴趣象声/拟声词“怦怦”有加重语调，并且除兴趣的象声/拟声词“怦怦”的其他部分，也就是说“我的心”、“高兴的”，具有默认的音律特性。在识别标签<Smix1>与兴趣的象声/拟声词“怦怦”相连的情况，生成合成语音数据以使在整个文本“我的心高兴的怦怦直跳”添加加重语调。

在步骤S25，将规则基合成器24生成的合成语音数据提供给语音混频器26。其后，过程由步骤S25执行到S26。在步骤S26，语音混频器26决定是否接收到来自象声/拟声词处理单元27的相应于兴趣象声/拟声词音效的声学数据。

如果在步骤S26中确定没有接收到声学数据，过程跳过步骤S27执行步骤S28。在步骤S28，语音混频器26将来自规则基合成器24的合成语音数据传送到扬声器18。这样，语音合成过程结束。

因此，在这种情况下，规则基合成器24产生的合成语音数据(更精确是，相应的合成语音)，直接输出到扬声器18。

然而，当象声/拟声词处理单元27指定了语音类型，扬声器18输出的合成语音，具有相应于为兴趣的象声/拟声词指定的语音类型的音调或音律特性，这样合成语音数据的音调或音律特性可以表示兴趣的象声/拟声词的含义。

另一方面，在步骤S26中确定接收到声学数据的情况下，过程执行到步骤S27。在步骤S27，语音混频器26将从规则基合成器24接收的合成语音数据与声学数据混频。其后，过程执行到步骤S28。

在步骤S28，语音混频器26把合成语音数据提供给扬声器18，该数据是在步骤27中与声学数据和合成数据混频得到。其后，语音合成过程结束。

例如，规则基合成器24生成了相应于文本“<Pmix1>满满的</Pmix1>倒一杯啤酒”的合成语音数据，并且象声/拟声词处理单元27生成了声学数据，其代表相应于文本中包含的象声词“<Pmix1>满满的”的音效“汩汩”。语音混频器26按照识别标签<Pmix1>进行混频，标签中P在起始位置，其后是mix，这样表示的音效“汩汩”的声学数据被叠加到相应于“满满地”的部分，该部分是相应于文本“满满的倒一杯啤酒”的合成语音数据的一部分。结果，当扬声器18输出了合成语音“满满的倒一杯啤酒”，音效“汩汩”叠加到“满满地”部分上。

另一方面，规则基合成器24生成了相应于“他鼓掌，<Prep1>啪，啪，啪</Prep1>”的合成语音数据，并且音效生成单元30依照文本中的模拟音效“啪，啪，啪”生成声学数据。语音混频器26按照其中的识别标签<Prep1>进行混频，标签中P在起始位置，其后是rep，这样根据象声词“啪，啪，啪”，文本“他鼓掌，啪，啪，啪”的合成语音数据的相应部分用“啪，啪，啪”的代表模拟音效的声学数据替换。结果，当扬声器18输出合成语音“他鼓掌，啪，啪，啪”，其中的“啪，啪，啪”部分用模拟音效替代。

在上述过程，语音混频器26以包括在合成语音数据的识别标签为基础，确定合成语音数据的哪一个部分与象声/拟声词相关。

在文本包含有较多的象声词或拟声词的情况下，语音混频器26根据包含于添加有声学数据和合成语音数据的识别标签的数字编码，确定包括在从规则基合成器24输出的合成语音数据中的多个象声/拟声词中的哪一个相应于从象声/拟声词分析单元27输出的声学数据。

如上所述，通过从文本中提取象声词或拟声词，处理提取的象声词或拟声词，并且根据处理的结果合成语音，这样才可能获得合成语音，该合成语音具有有效地表示象声词或拟声词的含义有效的声音。

尽管上文描述的本发明是参考发明的具体实施例-娱乐型机器人(宠物机器人)，但本发明并不仅局限于该实施例，它可以广泛的应用于需要语音合成的互动系统。此外，本发明除了应用于现实中的实际机器人，还可以应用于虚拟机器人，如液晶显示器上所显示的机器人。

在上述的实施例中，一系列的处理是通过CPU10A的程序运行来完成。另外也可以通过专门的硬件来完成上述的处理过程。

程序可以预先存贮在内存10B(图2)中，另外也可以暂时或长期存储(记录)到移动存储器，如软盘，CD-ROM(只读型压缩光盘)，MO(Magnetooptical磁光型)盘，DVD(数字化多用光盘)，磁盘或半导体存储器。移动存储器上存储的程序可以作为所谓的软件包由此允许将程序安装到机器人(存储器10B)。

程序在存储器10B的安装也可以通过网站的下载完成，借助数字通信卫星或无线或有线网络，如LAN(局域网)和因特网。

这样，当升级程序时，被升级的程序可以方便的安装到存储器10B。

在本发明中，CPU10A运行程序所描述的完成不同处理的进程步骤，并不是必须按照流程图中的时序执行。进程可以并行或串行运行(通过并行处理或对象处理的技术手段)。

程序既可以在单CPU，也可以在分布模式的多CPU上完成。

图4的语音合成单元55可以通过专门硬件或软件来实现。当语音合成单元55利用软件实现，软件程序可以安装在通用计算机或类似装置上。

图9说明了本发明的一个实施例，利用安装在计算机上的程序来实现语音合成单元55。

程序可以预先存储在作为存储体的硬盘105或ROM103上，两者都安装于计算机的内部。

另外，程序也可以暂时或永久的存储(记录)在可移动记录介质111上，如软盘，CD-ROM，MO盘，DVD，磁盘或半导体存储器。移动存储器上存储的程序可以作为所谓的软件包安装到计算机。

除了将程序从可移动记录介质111安装到计算机上，程序也可以可以通过网站的下载完成，借助数字通信卫星或无线或有线网络的电缆通讯，如LAN和因特网。在这种情况下，计算机利用通信单元108接收上述方式传递的程序，并将程序安装到计算机内部的硬盘上。

计算机包括CPU(中央处理单元)102。CPU102通过总线101连接输入/输出接口110，这样当通过输入操作单元107，如键盘、鼠标和麦克风，发出的命令被输入到输入/输出接口110时，CPU102按照命令执行存储在ROM(只读存储器)103的程序。另外，CPU102也可以执行存储在RAM(随机存储器)104中的程序，其中通过将存储在硬盘105上的该程序传送到RAM104来将该程序装载到RAM104中；或者通过通信单元108在从卫星或网络接收之后将该程序安装在硬盘105上来传送该程序；或通过将驱动器109中的可移动记录介质111的程序读取安装到硬盘105来传送该程序。通过执行程序，CPU102运行程序执行操作，具体内容可以参考上述内容的方框图。按照需要，CPU102输出操作步骤的结果，将结果通过输入/输出单元110输出到输出单元106，例如LCD(液晶显示屏)或传送到扬声器。操作的结果也可以通过通信单元108传送，或这存储在硬盘105上。

尽管在上述应用中，合成语音是通过行为决定单元52的输出文本产生的，本发明也可以应用于通过预先提供的文本来合成语音的情况。另外，本发明的另一个可能应用是：编辑预先录制的语音数据，并且根据该经编辑的语音数据实现语音合成。

在上述实施例中，文本中包含的象声或拟声词的相应的音效的声学数据在文本的相应合成语音数据中会反映出来。另外，声学数据的输出也可以和显示文本的操作同步进行。

对于使用基于拟声词或象声词的声学数据或语音类型的指定，可以单独执行其一，也可以共同执行。

工业应用

根据本发明，综上所述，从文本中提取象声词或拟声词，并对其进行分析处理，按照分析处理的结果，进行输入数据的语言处理。因此，可以生成有效的表示象声词或拟声词含义的合成语音。

Claims

1.一种语言处理装置，该装置可以进行输入数据的语言处理，包括：

从输入数据中提取象声词或拟声词的提取装置；

用于处理象声词或拟声词的象声/拟声词处理装置；和

用于根据对于象声词或拟声词的处理结果对于该输入数据进行语言处理的语言处理装置。

2.如权利要求1所述的语言处理装置，进一步包括用于对该输入数据进行语形学分析的语形学分析装置，

其中根据对于输入数据的语形学分析的结果，从该输入数据中提取象声词或拟声词的提取装置。

3.如权利要求1所述的语言处理装置，其中语言处理装置

按照该输入数据生成合成语音；并且

根据对于该象声词或拟声词的处理结果处理合成语音。

4.如权利要求3所述的语言处理装置，其中象声/拟声词处理装置根据该象声词或拟声词产生音效；并且

语言处理装置对于合成语音和音效进行混频。

5.如权利要求4所述的语言处理装置，进一步包括音效存储装置，用来存储至少一种音效和至少一种与相应音效有关的象声或拟声词，

其中象声/拟声词处理装置从音效存储装置中读取由该提取装置所提取的与象声词或拟声词有关的的音效。

6.如权利要求4所述的语言处理装置，进一步包括音效信息存储装置，用来存储至少一条用于产生音效的音效信息和至少一种象声词或拟声词或字符串，该字符串是象声词或拟声词的一部分，以该方式使每条音效信息与相应的象声词、拟声词或字符串相联系，

其中象声/拟声词处理装置按照相应条的音效信息，产生相应于象声词或拟声词的音效。

7.如权利要求4所述的语言处理装置，其中语言处理装置通过将音效叠加到该合成语音上或者使用该音效替代该合语音的一部分，将该合成语音与该音效混频。

8.如权利要求1所述的语言处理装置，其中语言处理装置按照输入数据生成合成语音，

象声/拟声词处理装置按照象声或拟声词，决定和合成语音的语音类型；和

语言处理装置按照象声词和拟声词，生成所决定的语音类型的合成语音。

9.一种对于输入数据进行语言处理的语言处理方法，包括步骤：

从该输入数据中提取象声词或拟声词；

象声词或拟声词的处理；和

根据对象声词或拟声词的处理结果，进行对于输入数据的语言处理。

10.一种使计算机对于输入数据进行语言处理的程序，包括步骤：

从该输入数据中提取象声词或拟声词；

对该象声词或拟声词的处理；和

根据对该象声词或拟声词的处理结果，对于该输入数据的进行语言处理。

11.一种包括存储在其中的程序的存储介质，用于计算机对于输入数据进行语言处理，所述程序包括步骤：

从该输入数据中提取象声词或拟声词；

对象声词或拟声词的处理；和

根据对该象声词或拟声词的处理结果，对于该输入数据进行语言处理。