CN1161701C

CN1161701C - 语言识别装置和语言识别方法

Info

Publication number: CN1161701C
Application number: CNB981055443A
Authority: CN
Inventors: 向川信一; 弘; 藤并稔弘; 信; 金冈秀信; 之; 多田智之
Original assignee: Omron Corp
Current assignee: Omron Corp
Priority date: 1997-03-14
Filing date: 1998-03-12
Publication date: 2004-08-11
Anticipated expiration: 2018-03-12
Also published as: KR19980080220A; CN1197962A; US6246976B1; TW421750B; KR100330801B1

Abstract

本发明提供了语言识别装置和语言识别方法，识别文本数据的语言及其文字代码系统。事先按照语言和文字代码系统的每一种组合准备按照每个文字记述了文字代码的出现概率的出现概率表。把输入的文字代码序列分成一个个文字，参照出现概率表得到其文字代码的出现概率。按照语言和文字代码系统的每一种组合计算出现概率的积，根据得到的积，判断关于输入文字代码序列的语言和文字代码系统的组合。

Description

语言识别装置和语言识别方法

技术领域

本发明涉及判别由文字代码序列表示的文字序列的语言以及其文字代码的种类(文字代码系统)的语言识别装置以及方法、识别由被给出的文本数据或者关键字(每一个都被进行了编码)所表示的文本(文章)或者单词的语言切换种种处理的各种装置、以及存储了控制上述装置或者实现上述方法的计算机程序的记录媒体。

背景技术

当前，在日本、中国、韩国以及台湾所使用的汉字(或者朝鲜字母)的文字代码由2个字节表现1个文字。这些文字代码(系统)按照各种语言(日文，中文，韩文等)独立地进行定义。如果编码方式(文字代码系统，代码的种类或者编码的规则)不同，则即使相同语言的文字也用不同的文字代码表示。表示语言的信息通常不添加到文字代码数据上。因此，在给出了一系列文字代码时，不能够简单地辩别出其文字代码是用哪种语言进行编码后获得的。

数据库的检索系统、翻译系统、声音合成系统等这样的语言信息处理系统都是以特定的语言以及文字代码系统为前提制做的。在考虑了多种语言可利用的语言信息处理系统的情况下，由于每种语言中语言信息处理不同，因此需要明确所给出的关键字以及文本数据的语言。如果被给出的关键字、文本数据的语言以及文字代码系统不明确，则不能够期待适当的处理。

发明内容

本发明的目的是能够识别被给出的文字代码序列的语言以及其文字代码系统。

另外，本发明的目的还在于即使在不知道所输入的关键字或者文本数据的语言以及文字代码系统的情况下，也能够进行适用于各个语言的各种语言信息处理。

本发明提供一种语言识别装置，该装置识别被编码的文本数据的语言和文字代码系统的组合，其特征在于具有对于每种语言和文字代码系统的组合，存储分别记述在该组合中文字代码出现的概率的多个出现概率表的存储装置；对于所给出的文本数据中所包含的一个或多个文字代码，从上述多个出现概率表中分别读出出现的概率，对于每种语言和文字代码系统的组合，基于从出现概率表中所读出的出现概率，获得评价数据的装置；及根据所得到的评价数据，判别所给出的文本数据的语言和文字代码系统的组合的装置。

本发明提供一种语言识别方法，用于识别被编码的文本数据的语言和文字代码系统的组合，其特征在于预先对于语言和文字代码系统的每一种组合，作成分别记述在其组合中文字代码出现的概率的出现概率表，对于被给出的文本数据中所包含的一个或多个文字代码从上述多个出现概率表中分别读出出现概率，对每一种语言和文字代码系统的组合，基于从出现概率表中所读出的出现概率，获得评价数据，根据所得到的评价数据，判别所给出的文本数据的语言和文字代码系统的组合。

本发明提供一种语言识别装置，该装置识别被编码的文本数据语言和文字代码系统的组合，其特征在于具有对于每种语言和文字代码系统的组合，存储分别记述在该组合中文字代码出现的概率的多个出现概率表的存储装置；对于所给出的文本数据中所包含的一个或多个文字代码，从上述多个出现概率表中分别读出出现的概率，对于每种语言和文字代码系统的组合，基于从出现概率表中所读出的出现概率，获得评价数据的装置。

本发明第1方案的文字代码的识别装置是识别被编码了的文本数据的语言和文字代码系统的组合的装置，其特征在于具有按照语言和文字代码系统的每一种组合存储分别记述了在其组合中文字代码出现的概率的多个出现概率表的存储装置，根据被给出的文本数据中所包含的1个或者多个文字代码从上述多个出现概率表分别读出出现概率，按照语言和文字代码系统的每一种组合获得评价数据的装置，以及根据所得到的评价数据判别被给出的文本数据的语言和文字代码系统的组合的装置。

本发明的第1方案还提供适合于上述装置的方法。即，该方法的特征在于预先根据语言和文字代码系统的每一种组合，作成分别记述在其组合中文字代码出现的概率的出现概率表。对于被给出的文字，数据中所包含的一个或多个文字代码从上述多个出现概率表中分别读出出现概率，对每一种语言和文字代码系统的组合获得评价数据。根据所得到的评价数据，判别所给出的文本，数据的语言和文字代码系统的组合。

进而，还提供存储了用于实施上述方法的程序的记录媒体。即，该记录媒体是记录了这样的程序的记录媒体，该程序使用按照语言和文字代码系统的每一种组合记述了文字代码在其组合中出现的概率的出现概率表，识别被编码了的文本数据的语言和文字代码系统的组合，该记录媒体还是记录了这样的程序的记录媒体，该程序控制计算机使得计算机根据被给出的文本数据中所包含的1个或多个文字代码从上述多个出现概率表分别读出出现概率，按照语言和文字代码系统的每一种组合得到评价数据，并根据评价数据判别被给出的文本数据的语言和文字代码系统的组合。作为记录媒体，可以是磁盘存储装置、光磁盘存储装置、光盘存储装置、磁带、半导体存储器等。

文字代码的出现概率依赖于由其文字代码所表示的文字的语言和文字代码系统的组合。即使是相同的文字代码，其文字代码的出现概率在每一种语言中都不相同。另外，即使是相同的语言如果文字代码系统不同则同一文字代码的出现概率也不相同。本发明的第1方案是着眼于在语言和文字代码系统的组合中特有文字代码的出现概率，判别由文字代码所表示的语言以及其文字代码系统的种类的发明。

如果依据本发明的第1方案，则对于被输入的文字代码序列的每个文字代码从上述出现概率表读出上述出现概率，按照语言和文字代码系统的每一种组合生成评价数据。如果与出现概率相关的评价数据低，则判断为被输入的文字代码序列不是该语言和文字代码系统的组合的可能性高，如果评价数据高，则考虑为被输入的的文字代码序列是该语言和文字代码系统的组合的可能性高。这样根据评价数据，判别被给出的文本数据(文字代码序列)的语言和文字代码系统的组合。

从精度的观点出发最好计算出从出现概率表读出的出现概率的积，根据计算出来的值判别文本数据的语言以及编码方法。每种单个文字代码的出现概率如果是0或者非常接近于0的值，则积也成为非常小的值，从而明确地排除了该种语言和文字代码系统的组合。

本发明第2方案的多语言词素分析系统的特征在于具有识别被给出的文本数据的语言的语言识别装置，根据多种语言设置的多个词素分析装置，以及把被给出的上述文本数据供给到适合于由上述语言识别装置识别的语言的上述词素分析装置中的控制装置。

本发明的第2方案还提供了适合于上述装置的方法。即，该方法的特征是根据多种语言设置多个词素分析装置，识别被给出的文本数据的语言，把被给出的上述文本数据供给到适合于被识别的语言的上述词素分析装置中。

本发明的第2方案还提供了存储用于实施上述方法的程序的记录媒体。即，该记录媒体是记录了这样的程序的记录媒体，该程序用于切换向根据多种语言设置的多个词素分析装置中文本数据的供给，该记录媒体还是记录了这样的程序的记录媒体，该程序控制计算机，使得计算机识别被给出的文本数据的语言，把被给出的上述文本数据供给到适合于被识别的语言的上述词素分析装置中。

依据本发明的第2方案，对应于多种语言设置上述词素分析装置。识别被给出的文本数据的语言。根据被识别的语言把文本数据供给到与该语言相适应的词素分析装置中。即使不知道输入的文本数据与哪种语言相关也能够实施最佳的词素分析。

本发明第3方案的多语言检索系统的特征在于具有识别被给出的关键字的语言的语言识别装置，根据多种语言设置的、根据输入的关键字输出与该关键字相关联的信息的多个检索装置，以及把被给出的关键字供给到适合于由上述语言识别装置识别的语言的上述检索装置中的控制装置。

本发明第3方案还提供适合于上述系统的方法。即，该方法的特征在于对于多种语言设置根据输入的关键字输出与该关键字相关联的信息的多个检索装置，识别被给出的关键字的语言，把被给出的关键字供给到适合于被识别的语言的上述检索装置中。

还有，本发明第3方案还提供了存储用于实施上述方法的记录媒体。即，该记录媒体是记录了这样的程序的记录媒体，该程序用于切换向对于多种语言设置的、根据输入关键字输出与该关键字相关联的信息的多个检索装置中的关键字的供给，该记录媒体还是存储了这样的程序的计算机可读取的记述媒体，该程序控制计算机，使得计算机识别被给出的关键字的语言，把被给出的关键字供给到适合于被识别的语言的上述检索装置中。

依据本发明第3方案，对应于多种语言设置上述检索装置。

识别被给出的关键字的语言。根据被识别的语言，把关键字供给到适合于该语言的检索装置中。

即使不知道输入的关键字与哪种语言相关也能够实现最佳的检索处理。

本发明第4方案的多语言输出装置的特征在于具有识别被给出的文本数据的语言的语言识别装置，输出由上述文本数据表示的文本的输出装置，以及根据由上述语言识别装置识别的语言控制上述输出装置中的上述文本的输出形态的输出形态控制装置。

本发明第4方案还提供了适合于上述装置的方法。即，该方法的特征在于识别被给出的文本数据的语言，根据被识别的语言，控制把由上述文本数据表示的文本进行输出的输出装置中的上述文本的输出形态。

本发明第4方案还提供了用于实现上述方法的记录媒体。即，该记录媒体是存储了这样的程序的计算机可读取的记录媒体，该程序用于控制计算机，使得计算机识别被给出的文本数据的语言，根据被识别的语言，控制把由上述文本数据表示的文本进行输出的输出装置中的上述文本的输出形态。

如果根据本发明第4方案，则识别被给出的文本数据的语言。根据被识别的语言控制上述文本的输出形态(例如，选择字体的种类，纵向书写还是横向书写，输出为从左向右阅读还是从右向左阅读等)。能够实现对应于语言的最佳输出。

上述输出装置，例如是打印机，在这种情况下，控制打印机中的文本的印刷形态。

还有，在上述输出装置是显示装置的情况下，控制显示装置中的显示形态。

本发明第5方案的多语言翻译系统的特征在于具有识别被给出的文本数据的语言的语言识别装置，对于2种语言的多种组合设置的、把其中的一种语言翻译成其它语言并且进行输出的多个翻译装置，以及把被给出的文本数据供给到适合于由上述语言识别装置识别的语言的上述翻译装置中的控制装置。

本发明第5方案还提供适合于上述系统的方法。即，该方法的特征在于对于2种语言的多种组合设置把其中的一种语言翻译成其它语言并且进行输出的多个翻译装置，识别被给出的文本数据的语言，把被给出的文本数据供给到适合于被识别的语言的上述翻译装置中。

本发明第5方案还提供了用于实施上述方法的记录媒体。即，该记录媒体是存储了这样的程序的记录媒体，该程序用于切换向对于2种语言的多种组合设置的、把其中的一种语言翻译成另外一种语言并且进行输出的多个翻译装置中的文本数据的输入，该记录媒体还是存储了这样的程序的计算机可读取的记录媒体，该程序控制计算机，使得计算机识别被给出的文本数据的语言，把被给出的文本数据供给到适合于被识别的语言的上述翻译装置中。

如果依据本发明第5方案，则对于2种语言的多种组合设置上述翻译装置。

识别被给出的文本数据的语言。根据被识别的语言把文本数据供给到适合于其语言的翻译装置中。

即使不知道输入的文本数据的语言，也能够翻译成预定的语言。还能够把被翻译了的语言变换成声音进行输出。

本发明第6方案的多语言文字处理器的特征在于具有存储对于多种语言的文本数据的文本数据存储装置，识别存储在上述文本数据存储装置中的文本数据以及被输入的文本数据的语言的语言识别装置，根据各种语言设置的、把被输入的文本数据变换为适合于由该文本数据表示的文本的语言体系的语言的文本数据的语言输入装置，以及根据上述语言识别装置中的识别结果进行控制使得把被输入的文本数据供给到与其适应的语言的上述语言输入装置中的控制装置。

本发明的第6方案还提供了适合于上述装置的方法。即，该方法是这样的方法，存储对于多种语言的文本数据，设置按照每种输入的文本的语言，把被输入的文本数据变换为适合于由该文本数据表示的文本的语言体系的语言的语言输入装置，识别被存储的文本数据以及被输入的文本数据的语言，根据语言识别结果，进行控制使得把被输入的文本数据供给到与其适应的语言的上述语言输入装置中。

本发明第6方案还提供了用于实施上述方法的记录媒体。即，该记录媒体是存储了这样的程序的记录媒体，该程序用于记录对于多种语言的文本数据，在按照每种输入文本的语言，设置了把被输入的文本数据变换成适合于由其文本数据表示的文本的语言体系的语言的语言输入装置的情况下，把被输入的文本数据供给到与其适应的语言的上述语言输入装置中，该记录媒体还是存储了这样程序的计算机可读取的记录媒体，该程序控制计算机，使得计算机识别被存储的文本数据以及被输入的文本数据的语言，根据上述识别结果，把被输入的文本数据供给到与其适应的语言的上述语言输入装置中。

如果依据本发明第6方案，则存储对于多种语言的文本数据。识别被输入的文本数据以及被输入的文本数据的语言，根据该识别结果，把被输入的文本数据供给到与其适应的语言的上述语言输入装置中。

本发明第7方案的多语言声音合成系统的特征在于具有识别被给出的文本数据的语言的语言识别装置，对于多种语言设置的、把由输入的文本数据表示的文本变换成声音并且进行输出的多个声音合成装置，以及把被给出的文本数据供给到适合于由上述语言识别装置识别的语言的上述声音合成装置中的控制装置。

本发明第7方案还提供了适合于上述系统的方法。即，该方法是这样的方法，对于多种语言设置把由输入的文本数据表示的文本变换成声音并且进行输出的多个声音合成装置，识别被给出的文本数据的语言，把被给出的文本数据供给到适合于被识别的语言的上述声音合成装置中。

本发明第7方案还提供了用于实施上述方法的记录媒体。即，该记录媒体是存储了这样的程序的记录媒体，该程序用于切换向对于多种语言设置的、把由输入的文本数据表示的文本变换为声音并且进行输出的多个声音合成装置的文本数据的输入，该记录媒体还是存储了这样的程序的计算机可读取的记录媒体，该程序控制计算机，使得计算机识别被给出的文本数据是与哪种语言相关的文本数据，把被给出的文本数据供给到适合于被识别的语言的上述声音合成装置中。

如果依据本发明第7方案，对应于多种语言设置上述声音合成装置。

对于被给出的文本数据识别其文本数据是哪种语言的文本数据。根据被识别的语言，把文本数据供给到与其语言适应的声音合成装置中。

即使不知道输入的文本数据是哪种语言的文本数据，由其文本数据表示的文本也能够以预定语言的声音进行输出。

本发明第8方案的多语言处理系统的特征在于具有识别被给出的文本数据的语言的语言识别装置，对于多种语言设置的多个处理装置，以及把被给出的上述文本数据供给到适合于由上述语言识别装置识别的语言的上述处理装置中的控制装置。

本发明第8方案还提供了适合于上述系统的方法。即，该方法的特征在于对于多种语言设置多个处理装置，识别被给出的文本数据的语言，把被给出的上述文本数据供给到适合于被识别的语言的上述处理装置中。

本发明第8方案还提供了存储用于实施上述方法的程序的记录媒体。即，该记录媒体是存储了这样的程序的记录媒体，该程序用于切换向对于多种语言设置的多个处理装置中的文本数据的输入，该记录媒体还是存储了这样的程序的计算机可读取的记录媒体，该程序控制计算机，使得计算机识别被给出的文本数据的语言，把被给出的上述文本数据供给到适合于被识别的语言的上述处理装置中。

如果依据本发明第8方案，则对于多种语言设置上述处理装置。

识别被给出的文本数据的语言。根据被识别的语言，把文本数据供给到与其语言相适应的处理装置中。

即使不知道输入的文本数据与哪种语言相关，也能够实施最佳处理。

附图说明

图1示出文字代码的语言识别系统的外观。

图2示出文字代码的语言识别系统的电结构的概要。

图3示出文字代码的语言识别系统中所使用的记录媒体的数据结构。

图4示出处理对象的输入数据，语言识别程序以及出现概率数据的相互关系。

图5示出文字代码的语言识别系统的处理顺序。

图6对应于语言以及文字代码示出表示预定句子的文字代码的出现概率。

图7是示出多语言词素分析系统的电结构概要的框图。

图8示出多语言词素分析系统中的处理顺序的概要。

图9是示出多语言检索系统的电结构的概要的框图。

图10示出多语言检索系统中的处理顺序的概要。

图11是示出多语言输出系统的电结构的概要的框图。

图12示出多语言输出系统中的处理顺序的概要。

图13是示出多语言翻译系统的电结构的概要的框图。

图14示出多语言翻译系统中的处理顺序的概要。

图15是示出多语言文字处理器的电结构的概要的框图。

图16示出多语言文字处理器中的处理顺序的概要。

图17是示出多语言声音合成系统的电结构的概要的框图。

图18示出多语言声音合成系统中的处理顺序的概要。

图19示出多语言声音合成系统的电结构的概要。

具体实施方式

第1实施例

本实施例是涉及文字代码或者文字代码序列的语言识别装置的实施例。

图1示出文字代码的语言识别装置的外观，图2示出其电结构的概要。

文字代码的语言识别装置包含计算机10。在计算机10上连接着CRT显示装置(或者液晶显示面板)11，打印机12以及输入装置(键盘13A和鼠标13B)。在计算机10的内部设置了FD驱动器14，CD-ROM驱动器15以及HD单元16。FD驱动器14进行对于FD(软盘)19的数据写入以及从FD19的数据读出。CD-ROM驱动器15进行从CD-ROM(光盘只读存储器)18的数据读出。HD单元16进行对于HD(硬盘)(未图示)的数据写入以及从HD的数据读出。计算机10还包含有内部存储器(半导体存储器等)17。

CD-ROM18中存储着用于进行文字代码的语言识别的语言识别程序以及在该语言识别中所用的出现概率数据。图3中示出其内容。出现概率数据是表示文字代码(即文字)出现概率的数据。通过统计处理在过去各种各样的文书中所出现的文字预先获得每个文字的出现概率。既可以仅对于代表性的文字也可以对于所有的文字求出其出现概率。出现概率数据按照语言和文字代码系统(文字代码的种类或者编码方法)的每一种组合以表的形态存储。在本实施例中，有中文用(大陆用以及台湾用))表(出现概率表)，日文用表(EUC(Extended UNIX Code)代码以及移位-JIS(Japanese IndustrialStandards)，以及韩文用表。日文一般通过EUC代码或者移位-JIS代码进行编码。该EUC代码和移位-JIS代码是文字代码系统或者编码方法。从而，不仅能够进行语言种类的识别，也能够进行文字代码系统的识别。对于日文以外的其他语言也相同。特别地，由于日文移位-JIS代码能够码变换成日文EUC代码，所以像后述的语言识别处理的例子那样，对于日文也可以仅设置EUC代码表。

在文字代码的语言识别装置起动时，从CD-ROM18读出存储在CD-ROM18中的程序以及数据，并存贮到HD中。在文字代码的语言识别中，这些程序以及数据的一部分根据需要在内存储器17中被暂存或者被展开。

图4概念性地示出处理对象的输入数据，语言识别程序以及出现概率表的相互关系。

通过浏览器，通信软件等文本输入处理软件(或者经过键盘13A)输入的文本数据，用语言识别程序分割成一个个文字，对于被分割的各个文字按照语言(日文，中文，韩文)和文字代码系统的每一种组合求出出现频度数据。求出的出现概率在评价值用工作区(内部存储器17的一部分)中进行统计处理(后述的乘法运算处理)，最终地识别输入文本数据的语言种类和文字代码系统的组合。

图5是示出文字代码识别装置中文字代码识别处理顺序的流程图。在该处理中，说明在从键盘输入了表示“梅花に莺”句子的文字代码序列(该文字代码序列，例如在日文EUC代码中表示为0xC7DF，0xB2D6，0xA4CB，0xB2A9，在日文移位-JIS代码中表示为0x947E，0x89D4，0x82C9。这里，0x表示16进制数)的情况下，识别其文字代码序列是哪种语言和文字代码序列的组合的例子。图6示出在语言和文字代码系统的每种组合中构成该语句“梅花に莺”的文字代码序列的出现概率，示出在各个出现概率表中把最大出现概率取为100％的归一化的值。

从被输入的文本数据取出2字节(一个文字用)的数据(步骤21)。

按照每一种语言和文字代码系统组合从出现概率表读出对应于被取出的2字节数据(文字代码)的出现概率(步骤23，25，29，31)。被取出的2字节的数据，另一方面从移位-JIS代码变换成EUC代码(步骤22)，从日文用出现概率表(EUC代码)读出基于变换后的EUC代码的文字代码的出现概率(步骤27)。

“梅花に莺”的第一个文字“梅”的文字代码，在日文的EUC系统中具有0.0948％的出现概率，在日文的移位-JIS代码系统中具有0％的出现概率，在中文(大陆)的EUC代码系统具有0.0129％，在中文(台湾)的大五代码系统中具有0.0022％的出现概率，在韩文的EUC代码系统中具有10.941％的出现概率。

计算出被读出的出现概率和已经被计算出的评价值的积，把该积作为新的评价值(更新评价值)(步骤24，26，28，30，32)。该计算也是按照语言和文字代码系统的每一种组合(即，按照每个出现概率表)进行。作为评价值的初始值设定为1，在第一个文字的文字代码的情况下，把被读出的出现概率和1进行相乘。

这样把被更新了的评价值中的具有最大值的评价值取为100，把其它评价值进行归一化(步骤33)。这是为了在后述的步骤35中和阈值进行比较处理。

如果对于构成被输入的文本数据的所有文字代码没有结束上述的处理(步骤34)，则计算出除去具有最大值的评价值以外的其它所有评价值的总和。如果该计算出的总和值小于预定的阈值(步骤35中YES)，则判别为输入的文本数据是给出具有最大值的评价值的语言和文字代码系统的组合。如果该计算出的总和值超过了预定的阈值(步骤35中NO)，则重复进行从步骤21到步骤34的处理。

“梅花に莺”的第二个文字“花”的文字代码，在日文的EUC代码中的出现概率是3.2740％，在日文的移位-JIS代码中的出现概率是0％里，在中文(大陆)的EUC代码中的出现概率是0.1118％，在中文(台湾)的大五代码中的出现概率是0.2874％，在韩文的EUC代码中的出现概率是0％。

“梅花に莺”的第三个的文字“に”的文字代码的出现概率，在日文的EUC代码中是59.155％，在日文的移位-JIS代码中是0％，在中文(大陆)的EUC代码中是0.0001％，在中文(台湾)的大五代码中是0％，在韩文的EUC代码中是0.0001％。

“梅花に莺”的第四个文字“莺”的文字代码的出现概率在日文的EUC代码中是0.0001％，在日文的移位-JIS代码中是0％，在中文(大陆)的EUC代码中是0.3717％，在中文(台湾)的大五代码中是0.0048％，在韩文的EUC代码中是0.0299％。

作为最终的评价值得到了构成“梅花に莺”的4个文字的文字代码的出现概率的积。对于构成被输入的文本数据的所有的文字代码结束了上述的处理(步骤34中的YES)。最终的评价值在日文的EUC代码中是0.000000001836％，在日文的移位-JIS代码中是0％，在中文(大陆)的EUC代码中是0.000000000005366％，在中文(台湾)的大五代码中是0％，在韩文的EUC代码中是0％。如果比较这些值，则由于日文的EUC代码中的评价值最大，所以判断为“梅花に莺”是用日文而且是以EUC代码表现的词句。这样，识别文字代码表示的文字语言以及其文字代码的种类(文字代码系统，或者编码方法)。在输入文本数据包含有多个文字代码的情况下，通常，在结束对于3～4个文字的处理时，在步骤35中成为YES，将终止输入文本数据的语言和文字代码系统的组合的判断。

第2实施例

本实施例是涉及多语言词素分析系统的实施例。

图7是示出多语言词素分析系统的电结构的概要的框图，图8示出其处理顺序的概要。

该多语言词素分析系统包含多种语言用的多个词素分析装置，把输入的文本数据供给到适合于由其文本数据表示的文本的语言种类的词素分析装置中，进行词素分析。

实现图8所示的处理顺序的程序存储在CD-ROM43中。通过把该CD-ROM43装入到语言识别装置46中，读取存储在CD-ROM43中的程序以及数据。

文本数据从WWW服务器41输入到多语言词素系统42中。文本数据输入到语言识别装置46以及切换装置47中。在语言识别装置46中识别由输入的文本数据表示的文本的语言(如果需要的话还有语言和文字代码系统的组合，以下相同)(步骤55)。该识别处理既可以通过上述第1实施例的方法进行，也能够通过在语言中是否包含有特殊文字来进行，还能够根据有关所谓文字的N-gram形成的方法或者文字序列的规律来进行。

总之，如果识别了语言，则由语言识别装置46切换控制切换装置47(步骤56)，使得输入的文本数据输入到对应于被识别了的语言的词素分析装置(48，49以及50的任一个)中。由此，把文本数据供给到适合于输入文本数据的中文词素分析装置48，日文词素分析装置49或者韩文词素分析装置50中，进行适宜的词素分析。

词素分析的分析结果，被供给到索引生成装置51中，生成对于输入文本数据的索引。被生成的索引存储在检索用索引数据库54中。通过使用检索器53访问检索用索引数据库54，使用者能够用自己的计算机52进行所希望的检索处理。

上述中，在日文的词素分析装置方面，有Inso Corporation的Intelliscope Search Enhancer，富士通株式会社的Breakfast，语言工学研究所的俊司，京都大学工学部电气系长尾研究室的JUMAN，奈良先端科学技术大学院大学情报科学研究科自然语言处理讲座(松本研究室)的茶荃(ChaSen)，在韩文的词素分析装置方面，有奈良先端科学技术大学院大学情报科学研究科自然语言处理讲座(松本研究室)的茶苓(KoCha)，在中文(大陆)的词素分析装置方面，有新墨西哥大学CRL的Chinese Segenter，北京大学的现代汉语文本切分和品词标记规范，在英文的词素分析装置方面，有InsoCorporation的Intelli Scope Search Enhancer。

从功能的观点出发分成语言识别装置46，切换装置47，中文词素分析装置48，日文词素分析装置49，韩文词素分析装置50以及索引生成装置51示出了上述多语言词素分析系统，然而能够用1台或者多台计算机实现这些装置。这一点在以下所示的其他实施例中也适用。使得个人计算机52，检索器53以及检索用索引数据库54包含在多语言词素分析系统中。

第3实施例

本实施例是涉及多语言检索系统的实施例。

图9是示出多语言检索系统的电结构的概要的框图，图10示出其处理顺序。

该多语言检索系统具有多个不同语言的检索装置，把文本数据供给到适合于由输入的文本数据表示的文本的语言种类的检索装置中，进行检索处理。

实现图10所示处理的程序存储在CD-ROM62中。通过把该CD-ROM62装入到语言识别装置65中，读取存储在CD-ROM62中的程序以及数据。

使用输入装置61，例如由操作员输入文本数据。从输入装置输入的关键字输入到语言识别装置65以及切换装置66中。在语言识别装置65中，识别输入的关键字的语言种类(步骤71)。

一旦识别了关键字的语言种类，则用语言识别装置65切换控制切换装置66(步骤72)，使得输入的关键字输入到被识别的种类的语言用的检索装置67，日文用检索装置68或者韩文用检索装置69中。由此，把关键字供给到适合于输入的关键字的语言的中文用检索装置67，日文用检索装置68或者韩文用检索装置69中，进行根据其关键字的检索处理。检索结果从中文用检索装置67，日文用检索装置68或者韩文用检索装置69输出。

如以上那样，无论关键字的语言种类，而且即使事前不知道其语言也能够实行检索处理。多语言检索系统也能够用1台或者多台计算机实现。

第4实施例

本实施例是涉及多语言输出装置的实施例。

图11是示出多语言输出装置的电结构的概要的框图，图12示出其处理顺序的概要。

该多语言输出装置是根据由输入的文本数据表示的文本的语言种类控制文本的输出状态的装置。

实现图12所示处理顺序的程序存储在CD-ROM82中。通过把该CD-ROM82装入到语言识别装置85中，读取存储在CD-ROM82中的程序以及数据。

使用输入装置81输入文本数据。被输入的文本数据供给到语言识别装置85，显示控制装置86以及打印机控制装置88中。显示控制装置86是控制显示装置87中的文本的显示的装置。打印机控制装置88是控制打印机89中的文本的印刷的装置。

在语言识别装置85中，识别由输入的文本数据表示的文本的语言(步骤91)。

一旦识别了语言，则用语言识别装置85控制显示控制装置86以及打印机控制装置88(步骤92，93)，使得进行对应于由其输入的文本数据表示的文本的语言种类的显示、印刷。例如，根据被识别的语言，控制显示或者被印刷的字体的种类(如果语言是日文则为MSP黑体字，如果是中文(大陆)则为MS Soug，如果是中文(台湾)则为Ming Liu，如果是韩文则为MS Hei)，横向书写还是纵向书写，从左向右书写还是从右向左书写，文字间隔，行距等。

这样，根据由文本数据表示的语言种类控制显示装置87中的显示以及打印机89中的印刷状态。

第5实施例

本实施例是涉及多语言翻译系统的实施例。

图13是示出多语言翻译系统的电结构的概要的框图，图14示出其处理顺序的概要。

在多语言翻译系统具有从中文，日本以及韩文分别翻译成英文的多个翻译器，把输入的文本数据供给到与由输入的文本数据表示的语言种类相对应的翻译器中，进行翻译处理。

实现图14所示的处理顺序的程序存储在CD-ROM102中。通过把该CD-ROM102装入到语言识别装置105中，读取存储在CD-ROM102中的程序以及数据。

从输入装置101供给表示应该翻译的文本的文本数据，输入到语言识别装置105以及切换装置106中。在语言识别装置105中识别由输入的文本数据表示的文本的语言(步骤111)。

一旦识别了语言，则用语言识别装置105控制切换装置106的切换(步骤112)，使得输入了的文本数据输入到与由其文本数据表示的语言相对应的翻译器中，即进行从中文向英文翻译的中文→英文翻译引挚107，进行从日文向英文翻译的日文→英文翻译引挚108或者进行从韩文向英文翻译的韩文→英文翻译引挚109的某一个中。

由此，由输入的文本数据表示的文本的语言种类无论是日文，中文，韩文的哪一种都被翻译成英文并且进行输出。语言识别装置105，切换装置106以及中文→英文翻译引挚107，日文→英文翻译引挚108，韩文→英文翻译引挚109能够由1台或者多台计算机实现。

第6实施例

本实施例是涉及多语言文字处理器的实施例。

图11是示出多语言文字处理器的电结构的概要的框图，图16示出其处理顺序的概要(包括多种处理形态)。

实现图16所示的处理顺序的程序存储在CD-ROM134中。通过把该CD-ROM134装入到语言识别装置127中，读取存储在CD-ROM134中的程序以及数据。

多语言文字处理器中，包含有日文用的语言输入装置122，中文用的语言输入装置123，韩文用的语言输入装置124以及英文用的语言输入装置125。日文用的语言输入装置122是把用拉丁文字母或者假名输入的文本数据转换成假名汉字混合文的文本数据的装置。中文用的语言输入装置123是把用拼音字母输入的文本数据转换成中文的文本数据的装置。韩文用的语言输入装置124是在输入构成朝鲜文字的字母(也可以是拉丁文字母输入)的情况下转换成朝鲜文字的文本数据的装置。英文用的语言输入装置125是进行由拉丁文字母输入的文本数据所表示的文本的拼写检查的装置。

在输入日文的文本数据，输入中文的文本数据，输入韩文的文本数据以及输入英文的文本数据的任一种情况下都使用共同的键盘121(当然，也可以根据语言使用不同的键盘)。

文本数据存储器128中一般混合地存储多种语言的文本数据(文件)。在图15所示的例中，图示了存储中文文本数据的存储区129，存储日文的文本数据的存储区130，以及存储韩文的文本数据的存储区131。如果使用者指定所希望的文本.文件，则读出其文件，供给到语言识别装置127中。语言识别装置127识别被读出的文件的文本数据的语言(日文，中文，韩文或者英文)(步骤141)，根据识别结果选择用于显示的字体。由此，显示由文本数据表示的语言的文字(步骤142)。

在使用者以特定的语言输入了文本数据时，从键盘121输入的文本数据供给到语言识别装置127中，识别被输入的文本数据是日文，中文，韩文以及英文的哪一种语言(步骤141)。一旦识别了语言，则用语言识别装置127控制切换装置133(步骤142)，使得从键盘121输入的文本数据输入到对应的日文输入装置122，中文输入装置123，韩文输入装置124或者英文输入装置125中。进行切换装置126的切换控制，使得从输入装置(122，123，124，125的某一个)得到的文本数据最终地存储在与其语言相对应的文件(存储区)中。当该文件不存在时，以及在该语言的存储区域不存在时，形成新的文件或者存储区域。

第7实施例

本实施例是涉及多语言声音合成系统的实施例。

图17是示出多语言声音合成系统的电结构的框图，图18示出其处理顺序的概要。

该多语言声音合成系统是把由输入的文本数据表示的文本用其文本的语言的声音进行输出的装置。

实现图18所示的处理顺序的程序存储在CD-ROM152中。通过把CD-ROM152装入到语言识别装置155中，读取存储在CD-ROM152中的程序和数据。

多语言声音合成系统中具有把中文(大陆)的文本数据变换成在中国大陆一般使用的中文(大陆)声音并且进行输出的声音合成装置157，把日文的文本数据以日文的声音进行输出的声音合成装置158，在输入的文本数据是韩文的情况下以韩文的声音进行输出的声音合成装置159以及把中文(大陆)的文本数据以在台湾一般使用的中文的声音进行输出的声音合成装置160。

从输入装置151输入的文本数据供给到语言识别装置155以及切换装置156中。在语言识别装置155中识别由输入的文本数据表示文本的语言(步骤161)。

一旦识别了语言，则控制切换装置156，使得输入的文本数据输入到与由其文本数据表示的文本的语言相对应的中文(大陆)声音合成装置157，日文声音合成装置158，韩文声音合成装置159或者中文(台湾)声音合成装置160中(步骤162)。由此，成为文本数据输入到与由输入的文本数据表示的文本的语言相对应的中文(大陆)声音合成装置157，日文声音合成装置158，韩文声音合成装置159或者中文(台湾)声音合成装置160中。得到以各种语言进行的声音输出。语言识别装置155，切换装置156以及中文(大陆)声音合成装置157，日文声音合成装置158，韩文声音合成装置159或者中文(台湾)声音合成装置160能够用1台或者多台计算机实现。

应用例

本应用例是涉及多语言声音合成系统的应用例。

该语言声音合成系统是即使在由输入的文本数据表示的文本的语言是日文以外的语言的情况下也用日文的声音进行输出的装置。

图19是示出多语言声音合成系统的电结构的概要的框图。

在该多语言声音合成系统，包括把中文翻译成日文并且进行输出的翻译器177以及把韩文翻译成日文并且进行输出的翻译器178。

CD-ROM172中存储着语言识别装置175中的语言识别处理以及切换装置176根据其识别结果进行的切换处理的程序。

如果把CD-ROM172装入到语言识别装置175中，则读取存储在CD-ROM172中的程序。以下的动作按照该程序进行。

从输入装置171输入文本数据。被输入的文本数据供给到语言识别装置175以及切换装置176中。在语言识别装置175中，识别由输入的文本数据表示的语言种类。

一旦识别了语言，则根据被识别的语言，用语言识别装置175控制切换装置176的切换。由此，如果输入的文本数据是表示中文的文本，则供给到中文日文翻译器177中，如果输入的文本数据是表示韩文的文本，则供给到韩文日文翻译器178中。在翻译器177或者178中被翻译为日文的文本数据供给到日文声音合成装置179中，得到日文的声音输出。如果在多语言声音合成系统中输入的文本数据是日文，则从切换装置176输出的文本数据当然直接供给到日文声音合成装置179用日文进行输出。

Claims

1.一种语言识别装置，该装置识别被编码的文本数据的语言和文字代码系统的组合，其特征在于具有

对于每种语言和文字代码系统的组合，存储分别记述在该组合中文字代码出现的概率的多个出现概率表的存储装置；

对于所给出的文本数据中所包含的一个或多个文字代码，从上述多个出现概率表中分别读出出现的概率，对于每种语言和文字代码系统的组合，基于从出现概率表中所读出的出现概率，获得评价数据的装置；及

根据所得到的评价数据，判别所给出的文本数据的语言和文字代码系统的组合的装置。

2.如权利要求1所述的语言识别装置，其特征在于

获得上述评价数据的装置是计算从出现概率表读出的出现概率的积的装置。

3.如权利要求1所述的语言识别装置，其特征在于具有

对于多种语言和文字代码系统的组合所设置的多个词素分析装置，用于对对应于相应的语言的文字代码进行词素分析；及

把所给出的上述文本数据供给到对应于由上述语言识别装置所识别出的语言的上述词素分析装置中的控制装置。

4.如权利要求1所述的语言识别装置，其特征在于具有

对于多种语言设置的、将对于所给出的文本数据中所包含的一个或多个文字代码作为输入的关键字、根据输入的关键字输出与该关键字相关联的信息的多个检索装置；及

把所给出的关键字供给到对应于由上述语言识别装置所识别出的语言的上述检索装置中的控制装置。

5.如权利要求1所述的语言识别装置，其特征在于具有

输出用上述文本数据所表示的文本的输出装置；及

根据由上述语言识别装置所识别的语言，控制上述输出装置中的上述文本的输出形态的输出形态控制装置。

6.如权利要求5所述的语言识别装置，其特征在于

上述输出装置是印刷上述文本的打印机，上述输出形态控制装置是控制上述打印机的印刷形态的装置。

7.如权利要求5所述的语言识别装置，其特征在于

上述输出装置是显示上述文本的显示装置，上述输出形态控制装置是控制上述显示装置的显示形态的装置。

8.如权利要求1所述的语言识别装置，其特征在于具有

根据两种语言的多个组合设置的、把其中的一种语言翻译为另一种语言的多个翻译装置；

把被给出的文本数据供给到对应于由上述语言识别装置识别出的语言的上述翻译装置的控制装置。

9.如权利要求8所述的语言识别装置，其特征在于还具有

把通过翻译得到的上述另一种语言变换为声音并且进行输出的声音合成装置。

10.如权利要求1所述的语言识别装置，其特征在于具有

存储多种语言的文本数据的文本数据存储装置；

按照各语言种类而设置的、把被输入的文本数据变换为对应于由该文本数据所表示的文本的语言体系的语言的文本数据的语言输入装置；及

根据上述语言识别装置中的识别结果进行控制，使得把被输入的文本数据供给到与其适应的语言的上述语言输入装置中的控制装置。

11.如权利要求1所述的语言识别装置，其特征在于具有

对于多种语言设置的、把由输入的文本数据所表示的文本变换为声音并且进行输出的多个声音合成装置；及

把给出的文本数据供给到对应于由上述语言识别装置识别出的语言的上述声音合成装置中的控制装置。

12.如权利要求1所述的语言识别装置，其特征在于具有

对应于多种语言和文字代码系统的组合而设置的多个处理装置，以对对应于相应的语言的文字代码进行处理；及

把给出的上述文本数据供给到对应于由上述语言识别装置识别出的语言的上述处理装置的控制装置。

13.一种语言识别方法，用于识别被编码的文本数据的语言和文字代码系统的组合，其特征在于

预先对于语言和文字代码系统的每一种组合，作成分别记述在其组合中文字代码出现的概率的出现概率表，

对于被给出的文本数据中所包含的一个或多个文字代码从上述多个出现概率表中分别读出出现概率，对每一种语言和文字代码系统的组合，基于从出现概率表中所读出的出现概率，获得评价数据，

根据所得到的评价数据，判别所给出的文本数据的语言和文字代码系统的组合。

14.如权利要求13记述的语言识别方法，其特征在于

通过计算从出现概率表读出的出现概率的积获得上述评价数据。

15.如权利要求13所述的语言识别方法，其特征在于

对于多种语言和文字代码系统的组合预先设定多个词素分析装置，以对对应于相应的语言的文字代码进行词素分析，

把被给出的上述文本数据供给到对应于被识别出的语言的上述词素分析装置中。

16.如权利要求13所述的语言识别方法，其特征在于

将对于所给出的文本数据中所包含的一个或多个文字代码作为输入的关键字、对于多种语言预先设定根据输入的关键字输出与该关键字相关联的信息的多个检索装置，

把被给出的关键字供给到对应于被识别出的语言的上述检索装置中。

17.如权利要求13所述的语言识别方法，其特征在于

根据被识别的语言，对于输出由上述文本数据所表示的文本的输出装置中的上述文本的输出形态进行控制。

18.如权利要求17所述的语言识别方法，其特征在于

上述输出装置是印刷上述文本的打印机，

该方法控制上述打印机中的印刷形态。

19.如权利要求17所述的语言识别方法，其特征在于

上述输出装置是显示上述文本的显示装置，

该方法控制上述显示装置中的显示形态。

20.如权利要求13所述的语言识别方法，其特征在于

对于两种语言的多个组合，设置把其中的一种语言翻译成另一种语言并且进行输出的多个翻译装置，

把被给出的文本数据供给到对应于被识别的语言的上述翻译装置中。

21.如权利要求20所述的语言识别方法，其特征在于

把通过翻译得到的上述另一种语言变换成声音并且进行输出。

22.如权利要求13所述的语言识别方法，其特征在于

存储对应于多种语言的文本数据，

设置按照各种输入文本的语言，把被输入的文本数据变换成对应于由该文本数据所表示的文本的语言体系的语言的输入装置，

根据语言识别结果，把输入的文本数据供给与其适应的语言的上述语言输入装置。

23.如权利要求13所述的语言识别方法，其特征在于

对于多种语言，设置把由输入的文本数据表示的文本变换成声音并且进行输出的多个声音合成装置，

把被给出的文本数据供给到对应于被识别的语言的上述声音合成装置中。

24.如权利要求13所述的语言识别方法，其特征在于

对于多种语言和文字代码系统的组合设置多个处理装置，以对对应于相应的语言的文字代码进行处理，

把被给出的上述文本数据供给到对应于被识别的语言的上述处理装置中。

25.一种语言识别装置，用于识别被编码的文本数据的语言和文字代码系统的组合，其特征在于具有

对于所给出的文本数据中所包含的一个或多个文字代码，从上述多个出现概率表中分别读出出现的概率，对于每种语言和文字代码系统的组合，基于从出现概率表中所读出的出现概率，获得评价数据的装置。