CN107870901B - 从翻译源原文生成相似文的方法、记录介质、装置以及系统 - Google Patents
从翻译源原文生成相似文的方法、记录介质、装置以及系统 Download PDFInfo
- Publication number
- CN107870901B CN107870901B CN201710674166.5A CN201710674166A CN107870901B CN 107870901 B CN107870901 B CN 107870901B CN 201710674166 A CN201710674166 A CN 201710674166A CN 107870901 B CN107870901 B CN 107870901B
- Authority
- CN
- China
- Prior art keywords
- text
- sentences
- words
- database
- translation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/45—Example-based machine translation; Alignment
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/49—Data-driven translation using very large corpora, e.g. the web
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开涉及从翻译原文生成相似文的方法、程序、装置以及系统。所述方法包括:输入第1文;从第1数据库提取与构成第1文的多个词句中的第1词句具有相同意思的一个以上的第2词句;基于第2数据库并基于与一个以上的第2词句对应的语境依赖值来算出N‑gram值,从在第1文中将第1词句替换成一个以上的第2词句而得到的一个以上的第2文中,提取与N‑gram值相当的数量的、包括第2词句的连续的一个以上的第3词句;对一个以上的第3词句,算出在第3数据库中的出现频度;判定算出的出现频度是否在阈值以上;在判定为算出的出现频度在阈值以上的情况下,采用一个以上的第2文作为第1文的相似文,并输出给外部的设备。
Description
技术领域
本公开涉及从原文生成相似(类似)文的相似文生成方法、相似文生成程序、相似文生成装置、以及具备该相似文生成装置的相似文生成系统。
背景技术
近年来,正在研究和开发将第1语言的语句(文)翻译成与第1语言不同的第2语言的语句的机器翻译,要提高这种机器翻译的性能,需要收集有大量的可利用于翻译的例文的对译语料库。为此,可进行根据一个原文来生成与该原文相似的一个或者多个相似文(改述文)。
例如,专利文献1中公开了一种语言变换处理统一系统:以预定模式将语句进行变形,为了判定变形是否合适,使用评价函数算出评价值,选择评价值最高的表达。
另外,专利文献2中公开了一种自然语言处理方法:对词素设定涉及活性的分数(point),增减该分数,并基于增减后的分数从文本中提取信息。
另外,专利文献3中公开了一种文书处理装置:基于由用户指定的改述前用例以及改述后用例,生成新的改述后用例,输出通过对已解析的语句应用差量所制作出的改述文。
现有技术文献
专利文献1:日本专利第3932350号公报
专利文献2:日本特开2005-339043号公报
专利文献3:日本专利第5060539号公报
发明内容
发明所要解决的问题
然而,要提高机器翻译性能,则可利用于翻译的例文越多越好,对于可作为例文使用的相似文的生成,需要进一步的改善。
用于解决问题的技术方案
本公开的一个技术方案的方法,是从翻译源原文生成相似文的方法,包括:输入第1文;从第1数据库提取与构成所述第1文的多个词句中的第1词句具有相同意思的一个以上的第2词句,所述第1数据库将词句与所述第1数据库所包含的词句的近义词句(类义词句)进行关联;根据基于第2数据库所获得的与所述一个以上的第2词句对应的语境(上下文)依赖(依存、相关)值来算出N-gram值,所述第2数据库将词句与对应于所述第2数据库所包含的词句的所述语境依赖值进行关联,所述语境依赖值表示所述第2数据库包含的词句所表示的意思依赖于语境的程度;从在所述第1文中将所述第1词句替换成所述一个以上的第2词句而得到的一个以上的第2文中,提取与所述N-gram值相当的数量的、包括所述第2词句在内的连续的一个以上的第3词句;对所述一个以上的第3词句,算出在第3数据库中的出现频度,所述第3数据库将词句与所述第3数据库所包含的词句在所述第3数据库中的出现频度进行关联;判定算出的所述出现频度是否在阈值以上;在判定为算出的所述出现频度在所述阈值以上的情况下,采用所述一个以上的第2文作为所述第1文的相似文,并输出给外部的设备。
发明效果
根据本公开,能够降低对语言模型数据库的搜索成本,并且能够高精度地进行对相似文的识别。
附图说明
图1是表示本公开的实施方式1中的相似文生成装置的构成的一例的框图。
图2是表示图1所示的替换候选辞典的数据结构的一例的图。
图3是表示图1所示的语境依赖率辞典的数据结构的一例的图。
图4是表示图1所示的语言模型数据库的数据结构的一例的图。
图5是表示由图1所示的相似文生成装置进行的相似文生成处理的一例的流程图。
图6是表示本公开的实施方式2中的相似文生成系统的构成的一例的框图。
图7是表示图6所示的相似文生成系统的包括反馈数据更新处理的相似文生成处理的一例的流程图。
标号说明
1、1a:相似文生成装置 2:翻译装置
10、10a:替换对象文输入部 11:替换候选提取部
12:语境依赖率查对部 13:语境依赖性判定部
14:语言模型查对部 15:替换判定部
16:替换结果输出部 17:数据更新部
21:替换候选辞典 22:语境依赖率辞典
23:语言模型数据库 31:对译语料库生成部
32:翻译模型生成部 33:被翻译文输入部
34:机器翻译部 35:翻译结果文输出部
36:翻译结果评价部 37:反馈数据生成部
具体实施方式
(成为本公开的基础的见解)
如上所述,要提高机器翻译性能,则可利用于翻译的例文越多越好,要求由使用文节(在日语中,由自然发音对文进行划分而得到的最小单位)替换来生成相似文所实现的、以少量的对译语料库为基础的文句量的自动扩大。在该使用文节替换来生成相似文时,存在如下情况:在对包括替换后的表达(词句)的相似候选文的取舍选择中,替换的良好与否依赖于语境。
因此,想要通过基于语言模型的替换规则的动态的取舍选择,从而在考虑语境依赖性的同时还能够对事例进行学习以及反映,但是,要有效地取舍选择相似候选文,则如何取舍选择相似候选文变得很重要。
例如,在基于替换(同义转换)来进行对译语料库的扩充以及相似候选文的生成的情况下,作为同义转换规则,可将“話せない(不会/能说)”替换成(1)“話せません(不会/能说)”、(2)“喋れない(不会/能说)”、(3)“秘密です(是秘密)”中的某一个时(关于此处的日语例文,前三者意思相同,在日语中,“話せない”为简体,“話せません”为基本敬语表达方式,“喋れない”为含义与“話せない”大致相同的简体表达方式。三者均为语境依赖语、即会根据上下文关系而表示不同的意思,例如可以表示“不能对其他人说”或者“不会说某种语言”,在表示前一意思的情况下,与“秘密です”意思相同),若对“英語は話せない(不会说英语)”这一文句适用上述的同义转换规则,则会生成“英語は話せません(不会说英语)”、“英語は喋れない(不会说英语)”以及“英語は秘密です(英语是秘密)”这3个相似候选文。
在该情况下,根据上下文,可以采用“英語は話せません”以及“英語は喋れない”作为相似文,但作为日语,“英語は秘密です”并非适当的表达,因此不能作为相似文采用,而被废弃。如此,即使适用相同的同义转换规则,根据上下文,也会出现相似候选文能够作为相似文采用的情况和不能采用的情况。
作为现有的对能够作为相似文采用的选定文和不能作为相似文采用的废弃文进行识别的方法,进行了以在使用单词向量和/或文向量的分布式表征(distributedrepresentation)模型中的相似性、在语言模型(例如N-gram语言模型)中的出现频度等为基准的判断。具体而言,通过扩大语言模型的识别对象区域(搜索范围)(例如使N-gram的N增大),判断是否作为表达而存在,决定对依赖于语境的同义转换规则(替换规则)的选定及废弃。
另外,也进行了由使用语言模型来对文的流畅度进行建模所实现的评价。例如,存在设语言模型为N-gram语言模型,提高使用了N-gram语言模型数据库内包含得较多的表达的译文和/或短语的得分(score),降低使用了没怎么包含的表达的译文和/或短语的得分这一方法等。通过应用该方法,算出相似候选文的得分,并根据阈值处理,识别出“良好文”(能够作为相似文采用的选定文)或者“非良好文”(不能作为相似文采用的废弃文)。
然而,若扩大识别对象区域,则数据量以及计算量会增加,并且由于数据分布变得稀疏,因此,为了从大的识别对象区域中检索所有的替换候选,数据量以及计算量会增大。例如,存在如下问题:在2-gram中约为8000万条数据,在5-gram中会变为约8亿条数据,当使N-gram的N增大时,数据量以及计算量会飞跃式地增大。
为了解决上述问题,在本公开中,例如,设置将替换候选文字串与表示该替换候选文字串依赖于语境的程度的语境依赖值进行关联并对多个进行存储的语境依赖值存储部,在替换良好与否依赖于语境而产生变动的相似文中,根据替换的良好与否是否依赖于语境而产生变动,决定是否参照包括替换候选文字串前后的单词的语言模型。
即,根据语境依赖值来决定对语言模型数据库的搜索范围(识别对象区域),使用所决定的搜索范围对语言模型数据库进行搜索,由此,只有被视为语境依赖值高的替换候选文字串要在更大的搜索区域进行识别,语境依赖值低的替换候选文字串在小的搜索区域进行识别,实现了搜索成本与识别精度的平衡。
另外,在现有的生成相似文的方法中,对于没有包含于分布式表征或语言模型内的表达,原本就无法识别,而会被废弃。例如,具有如下问题:若训练数据内不存在包括“それは秘密です(那是个秘密)”这一短语的文,则无法进行对包含“それは秘密です”的相似候选文的识别,会将其废弃。
为了解决上述问题,在本公开中,例如,在通过来自外部的输入(例如用户或者预定装置等的反馈),输入了具有语境依赖性的替换候选文字串的情况下,对语言模型数据库以及语境依赖值存储部等进行更新。另外,在输入了新的文表达的情况下,根据该表达,改变语境依赖值存储部内的相应单词的语境依赖值,另外,对包括新的文表达的N-gram等进行局部构建,将新的文表达反映到语言模型中。如此,通过追加正确的数据,对包括替换文字串前后的单词的语言模型的出现频度等进行加减,并且,语境依赖值存储部本身也根据外部输入进行更新。
如上所述,通过反馈外部知识和/或新知识,对语言模型数据库等进行更新,能够提高识别精度。其结果,能够以低成本进行精度良好的相似候选文识别,再者,能够进行也能更新并应对不存在于N-gram模型的数据库内的表达的、高效率且自主的相似候选文识别。
基于上述见解,本申请发明人用心对应该如何从原文生成相似文进行了研究,其结果,完成了本公开。
(1)本公开的一个技术方案涉及的方法,是从翻译源原文生成相似文的方法,包括:输入第1文;从第1数据库提取与构成所述第1文的多个词句中的第1词句具有相同意思的一个以上的第2词句,所述第1数据库将词句与所述第1数据库所包含的词句的近义词句进行关联;根据基于第2数据库所获得的与所述一个以上的第2词句对应的语境依赖值来算出N-gram值,所述第2数据库将词句与对应于所述第2数据库所包含的词句的所述语境依赖值进行关联,所述语境依赖值表示所述第2数据库包含的词句所表示的意思依赖于语境的程度;从在所述第1文中将所述第1词句替换成所述一个以上的第2词句而得到的一个以上的第2文中,提取与所述N-gram值相当的数量的、包括所述第2词句在内的连续的一个以上的第3词句;对所述一个以上的第3词句,算出在第3数据库中的出现频度,所述第3数据库将词句与所述第3数据库所包含的词句在所述第3数据库中的出现频度进行关联;判定算出的所述出现频度是否在阈值以上;在判定为算出的所述出现频度在所述阈值以上的情况下,采用所述一个以上的第2文作为所述第1文的相似文,并输出给外部的设备。
根据这种构成,输入第1文;从第1数据库提取与构成第1文的多个词句中的第1词句具有相同意思的一个以上的第2词句,第1数据库将词句与第1数据库所包含的词句的近义词句进行关联;根据基于第2数据库所获得的与一个以上的第2词句对应的语境依赖值来算出N-gram值,第2数据库将词句与对应于第2数据库所包含的词句的语境依赖值进行关联,语境依赖值表示第2数据库包含的词句所表示的意思依赖于语境的程度;从在第1文中将第1词句替换成一个以上的第2词句而得到的一个以上的第2文中,提取与N-gram值相当的数量的、包括第2词句在内的连续的一个以上的第3词句;对一个以上的第3词句,算出在第3数据库中的出现频度,第3数据库将词句与第3数据库所包含的词句在第3数据库中的出现频度进行关联;判定算出的出现频度是否在阈值以上;在判定为算出的出现频度在阈值以上的情况下,采用一个以上的第2文作为第1文的相似文,并输出给外部的设备,因此,能够使得只有语境依赖值高的第2词句要在大的搜索区域进行识别,语境依赖值低的第2词句在小的搜索区域进行识别,能够降低对作为语言模型数据库的第3数据库的搜索成本,并且能够高精度地进行对相似文的识别。
(2)在上述技术方案中,也可以为,所述第1文用第1语言记述,所述第1文包含于对译语料库,所述对译语料库包括多个成对的用第1语言记述的文和用第2语言记述的对译文,所述方法还包括:在判定为算出的所述出现频度在所述阈值以上的情况下,将所述一个以上的第2文作为所述第1文的相似文追加到所述对译语料库中。
根据这种构成,能够向对译语料库追加相似文。
(3)在上述技术方案中,也可以为,所述第3数据库包括N-gram语言模型数据库,所述方法还包括:根据所述语境依赖值,将所述N-gram语言模型的N决定为i(正整数);通过查对所述第3数据库,求取包括所述第2词句的i-gram的出现频度;基于包括所述第2词句的i-gram的出现频度,判定是否采用所述一个以上的第2文作为所述第1文的相似文。
根据这种构成,根据语境依赖值来将N-gram语言模型的N决定为i(正整数);通过查对N-gram语言模型数据库,求取包括第2词句的i-gram的出现频度;基于求得的出现频度,判定是否采用一个以上的第2文作为第1文的相似文,因此,语境依赖值越大则将i设定得越大,语境依赖值越小则将i设定得越小,由此,能够对语境依赖性高的第2词句,使用大范围的识别对象区域,高精度地求取包括语境依赖值大的第2词句的i-gram的出现频度,并且能够对语境依赖性低的第2词句,使用小范围的识别对象区域,以低成本且高精度地求取包括语境依赖值小的第2词句的i-gram的出现频度,能够有效并且高精度地进行对相似文的识别。
(4)在上述技术方案中,也可以为,还包括:使用翻译模型对预定的翻译对象文进行翻译并制作翻译结果文,所述翻译模型基于被判定为作为所述第1文的相似文来采用的所述一个以上的第2文、和将生成了所述一个以上的第2文的所述第1文用第2语言进行翻译所得到的翻译文而生成;评价所述翻译结果文;基于所述翻译结果文的评价结果,生成反馈信息,所述反馈信息包括关于所述翻译对象文的语言和/或所述翻译结果文的语言的语言信息、以及对于所述语言信息的评价信息。
根据这种构成,使用翻译模型对预定的翻译对象文进行翻译并制作翻译结果文,该翻译模型基于被判定为采用的一个以上的第2文、和将生成了一个以上的第2文的第1文用第2语言进行翻译所得到的翻译文而生成;评价制作出的翻译结果文;基于该翻译结果文的评价结果,生成反馈信息,该反馈信息包括关于翻译对象文的语言和/或翻译结果文的语言的语言信息、以及对于该语言信息的评价信息,因此,能够自主地生成用于学习以及反映考虑了语境依赖性的事例的反馈信息。
(5)在上述技术方案中,也可以为,使用所述反馈信息对所述第1数据库、所述第2数据库和所述第3数据库中的至少一方进行更新。
根据这种构成,使用包括语言信息和评价信息的反馈信息,对第1数据库、第2数据库和第3数据库中的至少一方进行更新,因此,能够将考虑了语境依赖性的事例反映到第1数据库、第2数据库和第3数据库中的至少一方,能够进行也能应对不存在于更新前的第1数据库、第2数据库以及第3数据库的表达的、高效率且自主的相似文识别。
(6)在上述技术方案中,也可以为,在所述反馈信息包括具有语境依赖性的所述第2词句的情况下,对所述第2数据库以及所述第3数据库进行更新。
根据这种构成,在反馈信息包括具有语境依赖性的第2词句的情况下,对第2数据库以及第3数据库进行更新,因此,能够将考虑了语境依赖性的事例反映到第2数据库以及第3数据库中,能够进行考虑了语境依赖性的、高效率且自主的相似文识别。
(7)在上述技术方案中,也可以为,在所述反馈信息包括新的文表达的情况下,根据所述文表达来改变所述第2数据库的语境依赖值。
根据这种构成,在反馈信息包括新的文表达的情况下,根据新的文表达来改变第2数据库的语境依赖值,因此,能够进行也能应对新的文表达的、高效率且自主的相似文识别。
(8)在上述技术方案中,也可以为,在所述反馈信息包括新的文表达的情况下,更新所述第3数据库以使其包括所述文表达。
根据这种构成,在反馈信息包括新的文表达的情况下,更新第3数据库以使其包括新的文表达,因此,能够进行也能应对不存在于更新前的第3数据库的新的文表达的、高效率且自主的相似文识别。
另外,本公开不仅能够作为执行如上所述的特征性处理的相似文生成方法而实现,而且也能够作为计算机程序而实现,所述计算机程序使计算机执行这种相似文生成方法所包含的特征性的处理。另外,还能够作为具备与由相似文生成方法所执行的特征性处理对应的特征性构成的相似文生成装置等而实现。因此,在以下的其他技术方案中,也能够实现与上述相似文生成方法同样的效果。
(9)本公开的其他技术方案涉及的程序,是用于使计算机作为从翻译源原文生成相似文的装置而发挥功能的程序,所述程序使所述计算机执行如下处理:输入第1文;从第1数据库提取与构成所述第1文的多个词句中的第1词句具有相同意思的一个以上的第2词句,所述第1数据库将词句与所述第1数据库所包含的词句的近义词句进行关联;根据基于第2数据库所获得的与所述一个以上的第2词句对应的语境依赖值来算出N-gram值,所述第2数据库将词句与对应于所述第2数据库所包含的词句的所述语境依赖值进行关联,所述语境依赖值表示所述第2数据库包含的词句所表示的意思依赖于语境的程度;从在所述第1文中将所述第1词句替换成所述一个以上的第2词句而得到的一个以上的第2文中,提取与所述N-gram值相当的数量的、包括所述第2词句在内的连续的一个以上的第3词句;对所述一个以上的第3词句,算出在第3数据库中的出现频度,所述第3数据库将词句与所述第3数据库所包含的词句在所述第3数据库中的出现频度进行关联;判定算出的所述出现频度是否在阈值以上;在判定为算出的所述出现频度在所述阈值以上的情况下,采用所述一个以上的第2文作为所述第1文的相似文,并输出给外部的设备。
(10)本公开的其他技术方案涉及的装置,是从翻译源原文生成相似文的装置,具备:输入部,其被输入第1文;第2词句提取部,其从第1数据库提取与构成所述第1文的多个词句中的第1词句具有相同意思的一个以上的第2词句,所述第1数据库将词句与所述第1数据库所包含的词句的近义词句进行关联;第1算出部,其根据基于第2数据库所获得的与所述一个以上的第2词句对应的语境依赖值来算出N-gram值,所述第2数据库将词句与对应于所述第2数据库所包含的词句的所述语境依赖值进行关联,所述语境依赖值表示所述第2数据库包含的词句所表示的意思依赖于语境的程度;第3词句提取部,其从在所述第1文中将所述第1词句替换成所述一个以上的第2词句而得到的一个以上的第2文中,提取与所述N-gram值相当的数量的、包括所述第2词句在内的连续的一个以上的第3词句;第2算出部,其对所述一个以上的第3词句,算出在第3数据库中的出现频度,所述第3数据库将词句与所述第3数据库所包含的词句在所述第3数据库中的出现频度进行关联;判定部,其判定算出的所述出现频度是否在阈值以上;以及输出部,其在判定为算出的所述出现频度在所述阈值以上的情况下,采用所述一个以上的第2文作为所述第1文的相似文,并输出给外部的设备。
本公开的其他技术方案涉及的系统,是从翻译源原文生成相似文的系统,具备:上述的装置;翻译部,其使用翻译模型对预定的翻译对象文进行翻译并制作翻译结果文,所述翻译模型基于由所述装置判定为作为所述第1文的相似文来采用的所述一个以上的第2文、和将生成了所述一个以上的第2文的所述第1文用第2语言进行翻译所得到的翻译文而生成;评价部,其对由所述翻译部制作出的所述翻译结果文进行评价;以及生成部,其基于所述评价部的评价结果,生成反馈信息,所述反馈信息包括关于所述翻译对象文的语言和/或所述翻译结果文的语言的语言信息、以及对于所述语言信息的评价信息。
根据这种构成,能够实现与上述的相似文生成方法同样的效果,并且,还使用翻译模型对预定的翻译对象文进行翻译并制作翻译结果文,该翻译模型基于被判定为作为第1文的相似文来采用的一个以上的第2文、和将生成了该一个以上的第2文的第1文用第2语言进行翻译所得到的翻译文而生成;评价所制作出的翻译结果文;基于该评价结果,生成反馈信息,该反馈信息包括关于翻译对象文的语言和/或翻译结果文的语言的语言信息、以及对于语言信息的评价信息,因此,能够实现能自主地生成用于学习以及反映考虑了语境依赖性的事例的反馈信息,并能自主地学习以及反映考虑了语境依赖性的事例的相似文生成系统。
而且,毫无疑问也可以通过CD-ROM等计算机可读取的非瞬时性的记录介质或者互联网等通信网络来使如上所述的计算机程序流通。
另外,也可以作为使本公开的一个实施方式涉及的相似文生成装置或者相似文生成系统的构成要素的一部分和除此以外的构成要素分散于多个计算机的系统来构成。
此外,以下说明的实施方式均用于表示本公开的一个具体例。在以下的实施方式中表示的数值、形状、构成要素、步骤、步骤的顺序等仅为一例,并非旨在限定本公开。另外,对于以下的实施方式中的构成要素中的、没有记载在表示最上位概念的独立权利要求中的构成要素,作为任意的构成要素进行说明。另外,在所有的实施方式中,也可以组合各自的内容。
以下,参照附图,对本公开的各实施方式进行说明。
(实施方式1)
图1是表示本公开的实施方式1中的相似文生成装置的构成的一例的框图。图1所示的相似文生成装置1从替换对象文(原文)生成相似文。相似文生成装置1具备替换对象文输入部10、替换候选提取部11、语境依赖率查对部12、语境依赖性判定部13、语言模型查对部14、替换判定部15、替换结果输出部16、替换候选辞典21、语境依赖率辞典22以及语言模型数据库23。
替换对象文输入部10受理由用户进行的预定的操作输入,将用户输入的替换对象文(第1文)输出给替换候选提取部11。例如,“僕は英語が話せないので日本語でお願いします(我不会说英语,所以麻烦请讲日语)”这一替换对象文被输入到替换对象文输入部10。此外,相似文生成装置1所生成的相似文的语言不特别限定于日语,也可以是英语、汉语、韩语、法语、德语、意大利语、葡萄牙语等其他语言。
替换候选辞典21是将按文节/单词/词素等的替换事例作为辞典进行保存的替换候选存储部,预先存储有可从替换对象文替换出的、成为替换对象部分的替换候选的一个或者多个替换候选文字串。替换候选辞典21是将词句与替换候选辞典21所包含的词句的近义词句进行关联的第1数据库的一例。
图2是表示图1所示的替换候选辞典21的数据结构的一例的图。如图2所示,在替换候选辞典21中,关联存储有替换对象部分(词句)与替换候选文字串(词句的近义词句)。例如,与替换对象部分“これだ(是这个)”相关联地存储有“これです(是这个)”、“これでございます(是这个)”等替换候选文字串(关于此处的日语例文,意思均相同,在日语中,“これだ”为简体,“これです”为基本敬语表达方式,“これでございます”为郑重体敬语表达方式),与替换对象部分“話せない”相关联地存储有“話せません”、“しゃべれない(不会/能说)”、“秘密です”等替换候选文字串(关于此处的日语例文,“しゃべれない”是上述的“喋れない”的日文假名形式,除此之外请参照上述相关说明)。
替换候选提取部11从替换候选辞典21中提取与构成替换对象文(第1文)的多个词句中的替换对象部分(第1词句)具有相同意思的替换候选文字串(一个以上的第2词句)。具体而言,替换候选提取部11将从替换对象文输入部10输入的替换对象文以文节/单词/词素等为单位进行分割,从分割出的文节/单词/词素等中决定替换对象部分,从替换候选辞典21中检索与替换对象部分关联存储的可替换的文字串(替换候选文字串),提取一个或者多个替换候选文字串并与替换对象文一起输出给语境依赖率查对部12。例如,在替换对象部分为“話せない”的情况下,替换候选提取部11从替换候选辞典21中提取“話せません”、“しゃべれない”以及“秘密です”等替换候选文字串。此外,分割替换对象文的方法不特别限定于上述的例子,可以使用各种公知的方法。
语境依赖率辞典22是将语境依赖值以成对的文节/单词/词素等与数值的方式作为辞典进行保存的语境依赖值存储部,所述语境依赖值表示按文节/单词/词素等进行了替换的情况下的适用可能性(语境依赖性)。具体而言,语境依赖率辞典22预先存储有将替换候选文字串与表现该替换候选文字串依赖于语境的程度的语境依赖率pc进行关联的多个数据对。语境依赖率辞典22是将词句与对应于语境依赖率辞典22所包含的词句的语境依赖值进行关联的第2数据库的一例,语境依赖值表示语境依赖率辞典22包含的词句所表示的意思依赖于语境的程度。
图3是表示图1所示的语境依赖率辞典22的数据结构的一例的图。如图3所示,在语境依赖率辞典22中,例如,预先对替换候选文字串“です(是、为)”存储有pc=0.35、对“ですが(是~,但~)”存储有pc=0.05、对“話せません”存储有pc=0.25、对“しゃべれない”存储有pc=0.01、对“秘密です”存储有pc=0.75等。
在此,语境依赖率pc例如是在0~1的范围内表现因替换候选文字串依赖于语境从而使用了替换候选文字串的相似候选文被废弃的概率的值。此外,语境依赖值不特别限定于上述的语境依赖率pc,可以进行各种变更,既可以使用表现替换候选文字串依赖于语境的程度的其他数值,也可以将替换候选文字串依赖于语境的程度进行分级(例如将语境依赖度分为大、中、小等的等级),对属于哪个等级进行存储。
语境依赖率查对部12从语境依赖率辞典22中检索替换候选文字串的语境依赖率pc,提取与替换候选文字串关联存储的语境依赖率pc,将所提取的语境依赖率pc与替换对象文一起输出给语境依赖性判定部13。例如,作为语境依赖率pc,在替换候选文字串为“話せません”的情况下提取出0.25、为“しゃべれない”的情况下提取出0.01、为“秘密です”的情况下提取出0.75。
语境依赖性判定部13根据基于语境依赖率辞典22所获得的与替换候选文字串(一个以上的第2词句)对应的语境依赖值来算出N-gram值。具体而言,语境依赖性判定部13根据语境依赖率pc的值,判定为了进行包括替换候选文字串的相似候选文的判定而要参照的语言模型数据库23的识别对象区域,将判定结果与替换对象文一起输出给语言模型查对部14。
在此,在本实施方式中,作为语言模型数据库23,使用了N-gram语言模型数据库,在语言模型数据库23中,以关联了语言信息与其出现频度的表的形式存储有数据。语言模型数据库23是将词句与语言模型数据库23所包含的词句在语言模型数据库23中的出现频度进行关联的第3数据库的一例。
图4是表示图1所示的语言模型数据库23的数据结构的一例的图。如图4所示,在语言模型数据库23中,例如,作为语言信息及其出现频度,分别对“英語”、“英語は”、“英語が”、“英語が好き”关联了“234,567,890”、“12,345,670”、“22,222,220”、“999,001”并以表形式预先存储于语言模型数据库23。另外,基于该出现频度,例如能够求取出现概率。
此外,语言模型数据库23所存储的信息不特别限定于上述的例子,只要是关联有语言信息和与其出现频度等相应的值的表,可以是任意的内容。另外,语言模型数据库23的语言模型也不特别限定于上述的N-gram语言模型,也可以使用其他语言模型。
在语言模型数据库23是N-gram语言模型数据库的情况下,语境依赖性判定部13根据语境依赖率pc,将语言模型数据库23的N-gram语言模型的N(N-gram值)决定为i(正整数)。具体而言,例如,语境依赖性判定部13将语境依赖率pc分成4个等级,设0≤pc≤0.25为等级1、0.25<pc≤0.5为等级2、0.5<pc≤0.75为等级3、0.75<pc≤1为等级4,作为N-gram的N(正整数),分别在等级1决定为N=4、在等级2决定为N=5、在等级3决定为N=6、在等级4决定为N=7。
例如,在替换候选文字串“話せません”的情况下,语境依赖率pc为0.25,属于等级1,语境依赖性判定部13决定与等级1相当的N-gram即N=4作为语言模型数据库23的识别对象区域。此外,识别对象区域的判定基准不特别限定于上述的例子,可以进行各种变更,也可以使用语境依赖率pc直接将识别对象区域算式化。例如,设为N=floor(k-log2(pc))(在此,k为常数),在替换候选文字串“話せません”的情况下,语境依赖率pc为0.25,在设常数k=6的情况下,N=4。
另外,语言模型数据库23不限于N-gram语言模型,也可以是基于其他语言资源的数据库。例如,也可以是通过实数值和/或向量等分布式表征记述的语言模型,可以组合任意的已有方法和/或已有数据来构建。不论在哪种情况下,都能够以任意的变量来定义对数据库进行检索的范围,作为识别对象区域,并根据语境依赖率pc决定该任意的变量。
语言模型查对部14从在替换对象文(第1文)中替换对象部分(第1词句)被替换成替换候选文字串(一个以上的第2词句)而得到的替换文(一个以上的第2文)中,提取与N-gram值相当的数量的、包括替换候选文字串(第2词句)在内的连续的N-gram(一个以上的第3词句),对N-gram(一个以上的第3词句)算出在语言模型数据库23中的出现频度。
即,语言模型查对部14通过从语言模型数据库23中检索并提取对应于在语境依赖性判定部13中判定出的识别对象区域的识别对象数据,从而进行与替换候选文字串的对照(查对),生成与替换候选文字串关联的、由文节/单词/词素等而成的语言信息、和与该语言信息的出现频度或者出现概率相应的值的成对数据,与替换对象文一起输出给替换判定部15。
具体而言,语言模型查对部14使用由语境依赖性判定部13赋予的作为要参照的识别对象区域的大小的N的值,从语言模型数据库23中取得N-gram(例如,在替换候选文字串属于等级1的情况下为4-gram)的出现频度或者出现概率,将所查对的替换候选文字串以及所取得的出现频度或者出现概率输出给替换判定部15。
替换判定部15使用从语言模型查对部14获得的、由文节/单词/词素等而成的语言信息、和与该语言信息的出现频度或者出现概率相应的值的成对数据,决定是将该替换候选文字串适用于替换对象文还是废弃,将该替换结果与替换对象文一起输出给替换结果输出部16。
作为上述决定方法的一例,替换判定部15判定所算出的出现频度是否在阈值以上。具体而言,在将第j个(j为任意整数)语言信息的出现频度的值设为nj,将预定阈值设定为Th时,替换判定部15针对所有j,如果nj>Th,则决定为将替换候选文字串适用于替换对象文,除此之外的情况下决定为将其废弃。
例如,使用4-gram作为N-gram,对于替换候选文字串“話せません”,作为语言信息与该语言信息的出现频度,分别取得了“は英語が話せません”与“51,550”、“英語が話せませんので”与“1,720”、“が話せませんので日本”与“530”、“話せませんので日本語”与“3,220”(关于此处的日语例文,均为包括替换候选文字串的语言信息),在Th=500的情况下,对于j=1~4的每一个,出现频度均在阈值Th以上,判定为替换候选文字串“話せません”是适用的。
此外,作为决定是将替换候选文字串适用于替换对象文还是废弃的方法,不特别限定于上述的例子,可以进行各种变更,也可以根据nj的分布来决定是适用还是废弃(例如,将4-gram的出现频度的排名靠后的3%废弃),或根据是否存在变为nj=0的j来决定是适用还是废弃,或根据从使用nj的任意数式算出的值来决定是适用还是废弃。
替换结果输出部16在判定为算出的出现频度在阈值以上的情况下,采用根据被判定为适用的替换候选文字串所生成的替换文(一个以上的第2文)来作为替换对象文(第1文)的相似文,并输出给外部的设备。具体而言,替换结果输出部16基于替换结果,将替换对象文的替换对象部分替换成在替换判定部15中判定为适用的替换候选文字串,采用根据被判定为适用的替换候选文字串所生成的替换文(替换后的文)作为相似文,将生成的相似文输出给外部的设备(省略图示)等。
另外,也可以为,替换对象文(第1文)用第1语言(例如日语)记述,替换对象文(第1文)包含于对译语料库,对译语料库包括多个成对的用第1语言记述的文和用第2语言(例如英语)记述的对译文,替换结果输出部16在判定为算出的出现频度在阈值以上的情况下,将根据被判定为适用的替换候选文字串所生成的替换文(一个以上的第2文)作为替换对象文(第1文)的相似文追加到对译语料库中。
此外,相似文生成装置1的构成不特别限定于如上所述那样按各功能由专用的硬件来构成的例子,也可以构成为,具备CPU(Central Processing Unit,中央处理单元)、ROM(Read Only Memory,只读存储器)、RAM(Random Access Memory,随机存取存储器)以及辅助存储装置等的一台或多台计算机或者服务器(信息处理装置)安装用于执行上述处理的相似文生成程序,作为相似文生成装置而发挥其功能。另外,替换候选辞典21、语境依赖率辞典22以及语言模型数据库23不特别限定于设置在相似文生成装置1的内部的例子,也可以为,对外部的服务器等设置替换候选辞典21、语境依赖率辞典22以及语言模型数据库23,相似文生成装置1经由预定网络取得所需的信息。关于该点,其他实施方式也是同样的。
接着,详细说明由如上所述构成的相似文生成装置1进行的相似文生成处理。图5是表示由图1所示的相似文生成装置1进行的相似文生成处理的一例的流程图。此外,在以下处理中,使用出现频度进行了对替换候选文字串的适用/废弃的判定,但不特别限定于该例,例如也可以使用出现概率等。关于该点,其他实施方式也是同样的。
首先,在步骤S11中,替换对象文输入部10受理由用户输入的替换对象文(原文),将被输入的替换对象文输出给替换候选提取部11。
接着,在步骤S12中,替换候选提取部11将替换对象文以文节/单词/词素等为单位进行分割,从分割出的文节/单词/词素等中决定替换对象部分,从替换候选辞典21中提取与替换对象部分关联存储的替换候选文字串并与替换对象文一起输出给语境依赖率查对部12。
接着,在步骤S13中,语境依赖率查对部12查对语境依赖率辞典22,提取替换候选文字串的语境依赖率pc并与替换对象文一起输出给语境依赖性判定部13。
接着,在步骤S14中,语境依赖性判定部13根据替换候选文字串的语境依赖率pc的值,决定语言模型数据库23的N-gram的N,由此,根据语境依赖性来决定要参照的语言模型长度,将所决定的N的值与替换对象文一起输出给语言模型查对部14。
例如,在替换对象文为“僕は英語が話せないので日本語でお願いします”,替换候选文字串为“話せません”,替换候选文为“僕は英語が話せませんので日本語でお願いします”(意思与替换对象文相同、即为“我不会说英语,所以麻烦请讲日语”,不同之处在于将简体的“話せない”替换成了基本敬语的“話せません”)的情况下,语境依赖性判定部13决定N=4来作为语言模型数据库23的N-gram的N。
接着,在步骤S15中,语言模型查对部14使用由语境依赖性判定部13赋予的作为要参照的识别对象区域的大小的N的值,从语言模型数据库23中取得N-gram的出现频度,将所查对的替换候选文字串以及所取得的出现频度与替换对象文一起输出给替换判定部15。
例如,在上述的将替换对象文“話せない”替换成“話せません”的情况下,语言模型查对部14生成包括进行了替换的文节“話せません”在内的周围4-gram(例如,“は英語が話せません”、“英語が話せませんので”、“が話せませんので日本”、“話せませんので日本語”),并与语言模型数据库23进行对照,获取各个4-gram的出现频度(例如,“は英語が話せません”的51,550、“英語が話せませんので”的1,720、“が話せませんので日本”的530、“話せませんので日本語”的3,220)。
接着,在步骤S16中,替换判定部15从语言模型查对部14中取得包括替换候选文字串的N-gram及其出现频度,算出替换候选文字串的得分。
接着,在步骤S17中,替换判定部15通过判定替换候选文字串的得分(出现频度)是否在预定的阈值Th以上,判定是将替换候选文字串适用于替换对象文还是废弃,并将该判定结果与替换对象文一起输出给替换结果输出部16。
当在步骤S17中判定为替换候选文字串的得分(出现频度)低于预定的阈值Th的情况下,在步骤S20中,替换结果输出部16将替换候选文字串废弃并结束处理。
另一方面,当在步骤S17中判定为替换候选文字串的得分(出现频度)在预定的阈值Th以上的情况下,在步骤S18中,替换结果输出部16将替换候选文字串适用于替换对象文的替换对象部分,制作将替换对象文的替换对象部分替换成替换候选文字串而得到的替换文。
接着,在步骤S19中,替换结果输出部16将根据被判定为适用的替换候选文字串所生成的替换文作为相似文进行输出并结束处理。
通过上述处理,在本实施方式中,根据语境依赖率pc决定N-gram语言模型的N,语境依赖率pc越大则将N设定得越大,语境依赖率pc越小则将N设定得越小。另外,通过使用所决定的N,对语言模型数据库23进行查对,来求取包括替换候选文字串的N-gram的出现频度,基于求得的出现频度,判定是否采用根据替换候选文字串所生成的替换文作为相似文,因此,能够使用大范围的识别对象区域,高精度地求取包括语境依赖率pc大的替换候选文字串的i-gram的出现频度,并且能够使用小范围的识别对象区域,以低成本且高精度地求取包括语境依赖率pc小的替换候选文字串的N-gram的出现频度。其结果,能够降低对语言模型数据库23的搜索成本,并且能够高精度地进行对相似文的识别。
(实施方式2)
图6是表示本公开的实施方式2中的相似文生成系统的构成的一例的框图。图6所示的相似文生成系统具备相似文生成装置1a和翻译装置2。
相似文生成装置1a具备替换对象文输入部10a、替换候选提取部11、语境依赖率查对部12、语境依赖性判定部13、语言模型查对部14、替换判定部15、替换结果输出部16、数据更新部17、替换候选辞典21、语境依赖率辞典22以及语言模型数据库23。翻译装置2具备对译语料库生成部31、翻译模型生成部32、被翻译文输入部33、机器翻译部34、翻译结果文输出部35、翻译结果评价部36以及反馈数据生成部37。
相似文生成装置1a从替换对象文(原文)生成相似文,将判定为采用的相似文等输出给翻译装置2。翻译装置2使用基于由相似文生成装置1a判定为采用的相似文、和将生成了该相似文的原文用预定语言进行翻译而得到的翻译文所生成的翻译模型,对任意的翻译对象文进行翻译并制作翻译结果文,基于制作出的翻译结果文的评价结果,生成反馈信息并反馈给相似文生成装置1a,所述反馈信息包括关于翻译对象文的语言和翻译结果文的语言中的至少一方的语言信息、以及对于该语言信息的评价信息。相似文生成装置1a基于反馈信息,对替换候选辞典21、语境依赖率辞典22和语言模型数据库23中的至少一方的数据进行更新。
在此,图6所示的相似文生成装置1a与图1所示的相似文生成装置1不同之处在于,追加了对替换候选辞典21、语境依赖率辞典22以及语言模型数据库23的数据进行更新的数据更新部17,替换对象文输入部10a除了替换对象文的输入之外,还将被输入的替换对象文(原文)的翻译文输出给翻译装置2,其他之处是同样的,因此对相同部分赋予同一标号,省略详细的说明。
替换对象文输入部10a受理由用户进行的预定的操作输入,将用户输入的替换对象文输出给替换候选提取部11,此后的对于替换对象文的从替换候选提取部11到替换结果输出部16的处理与图1所示的替换候选提取部11到替换结果输出部16的处理是同样的,替换结果输出部16将根据在替换判定部15中判定为适用的替换候选文字串所生成的替换文(相似文)输出给对译语料库生成部31。
另外,替换对象文输入部10a受理由用户进行的预定的操作输入,将用预定语言翻译用户输入的生成了替换文的原文而得到的翻译文、即替换对象文的翻译文(与原文对应的对译文)输出给对译语料库生成部31。例如,在上述的替换文用日语(源语言文)来制作,翻译装置2进行日英翻译的情况下,上述的翻译文会用英语(目标语言文)来制作。此外,源语言文以及目标语言文不特别限定于上述的例子,在相似文生成装置1a生成英语的相似文的情况下,也可以将英语作为源语言文,将日语作为目标语言文,另外,也可以是汉语、韩语、法语、德语、意大利语、葡萄牙语等其他语言。
对译语料库生成部31将从替换结果输出部16输出的替换文与从替换对象文输入部10a输出的替换对象文的翻译文进行关联,生成新的对译语料库并输出给翻译模型生成部32。此外,作为对译语料库的生成方法,不特别限定于上述的例子,也可以向已经制作出的对译语料库追加新的对译语料库,可以使用公知的各种方法。
翻译模型生成部32使用在对译语料库生成部31中生成的新的对译语料库,通过预定的学习来生成翻译模型并输出给机器翻译部34。此外,作为翻译模型的生成方法,可以使用公知的各种方法,因此省略详细的说明。
被翻译文输入部33受理由用户进行的预定的操作输入,将用户输入的翻译对象文(源语言文)输出给机器翻译部34。机器翻译部34使用由翻译模型生成部32生成的翻译模型,对翻译对象文进行翻译,将翻译结果文(目标语言文)与翻译对象文一起输出给翻译结果文输出部35。翻译结果文输出部35作为翻译结果将翻译结果文与翻译对象文一起输出给翻译结果评价部36。
翻译结果评价部36对从翻译结果文输出部35输出的翻译结果文(目标语言文)的翻译精度以及质量进行评价。在此,作为翻译结果评价部36的评价方法,既可以根据机器的数值指标进行评价,另外也可以将人工的评价结果输入到翻译结果评价部36。翻译结果评价部36作为评价结果将评价值或者评价类别等评价信息与翻译结果文(目标语言文)和/或翻译对象文(源语言文)进行关联并输出给反馈数据生成部37。
反馈数据生成部37基于由翻译结果评价部36输出的评价结果,生成向相似文生成装置1a反馈的反馈数据作为反馈信息并输出给数据更新部17。在此,反馈数据是源语言和/或目标语言侧的任意的语言信息、与关于该语言信息的值或者状态的评价信息的成对数据。作为该反馈数据,可以使用各种数据,可以使用以下数据。
例如,也可以,在翻译结果不良的情况下,由用户或者预定的翻译结果文修正装置对翻译结果文(目标语言文)进行修正,输入更好的翻译文,由此,将被输入的翻译文和原来的翻译对象文(源语言文)的成对的语言信息、与翻译结果的状态(不良)的评价信息的成对数据作为反馈数据。
另外,也可以,在由用户或者预定的翻译对象文修正装置对翻译对象文(源语言文)进行修正,输入主要内容相同而表达不同的翻译对象文,由此能够取得更好的翻译结果文的情况下,将原来的翻译对象文(源语言文)和翻译结果良好的翻译对象文(源语言文)的成对的语言信息、与翻译结果的状态(良好/不良的2值)的评价信息的成对数据作为反馈数据。
另外,也可以,从对译语料库中提取一个或者多个接近于翻译对象文(源语言文)的文,由用户或者预定的翻译文评价装置来求取是否不能作为源语言而成立的评价值(例如,良好/不良的2值),对提取出的接近于源语言文的文赋予评价值,将该评价值与表示接近于源语言文的文的语言信息的成对数据作为反馈数据。
另外,也可以,通过机器翻译部34制作多个翻译结果文,由用户或者预定的翻译文评价装置从中选择更适当的翻译结果文,将选择出的翻译结果文和未被选择的翻译结果文的成对的语言信息、与表示这些翻译结果文的选择结果的评价信息的成对数据作为反馈数据。
数据更新部17基于反馈数据生成部37生成的反馈数据(语言信息与关于该语言信息的值或者状态的评价信息的成对数据),对替换候选辞典21、语境依赖率辞典22和语言模型数据库23中的至少一方的数据库内容进行更新。
另外,数据更新部17在反馈数据包括具有语境依赖性的替换候选文字串的情况下,对语境依赖率辞典22以及语言模型数据库23进行更新。另外,数据更新部17在反馈数据包括新的文表达的情况下,根据该文表达来改变语境依赖率辞典22的语境依赖率的值,另外,对语言模型数据库23的N-gram进行局部构建以使其包括新的文表达,将语言模型数据库23进行更新。
另外,数据更新部17在语言信息包括源语言侧的信息,且在该语言信息内包含有登记于替换候选辞典21、语境依赖率辞典22或者语言模型数据库23的信息的情况下,根据对应的反馈数据的值或者状态的评价信息,将替换候选辞典21、语境依赖率辞典22或者语言模型数据库23的对应的信息进行更新、追加、或删除。
例如,在反馈了具有正面的(肯定的)值或者状态的评价信息的源语言侧的语言信息的情况下,数据更新部17通过对出现频度添加预定权重并使出现频度的值增加等,使语言模型数据库23的包括该语言信息的值向正面的方向改变。另一方面,在反馈了具有负面的(否定的)值或者状态的评价信息的源语言侧的语言信息的情况下,数据更新部17通过向依赖于语境的比例变高的方向将语境依赖率进行更新等,使语境依赖率辞典22的包括该语言信息的值向负面的方向改变。
另外,在反馈了翻译结果不良的原来的翻译对象文(源语言文)以及翻译结果良好的翻译对象文(源语言文)的语言信息、与各自的翻译结果状态(不良/良好)的评价信息的成对数据,且与良好状态对应的翻译对象文对于不良状态的原来的翻译对象文的差量没有登记于替换候选辞典21的情况下,数据更新部17将与良好状态对应的差量登记于替换候选辞典21。
另外,在反馈了翻译结果不良的翻译对象文(源语言文)的语言信息、与翻译结果状态(不良)的评价信息的成对数据的情况下,数据更新部17将翻译结果不良的翻译对象文的替换候选文字串从替换候选辞典21中删除。
此外,相似文生成装置1a以及翻译装置2的构成不特别限定于如上所述那样按各功能由专用的硬件来构成的例子,也可以构成为,具备CPU、ROM、RAM以及辅助存储装置等的一台或多台计算机或者服务器(信息处理装置)安装用于执行上述处理的程序,作为相似文生成装置或者翻译装置而发挥其功能。
接着,详细说明由如上所述构成的相似文生成系统进行的包括反馈数据更新处理的相似文生成处理。图7是表示图6所示的相似文生成系统的包括反馈数据更新处理的相似文生成处理的一例的流程图。此外,对图7所示的处理中的、与图5所示的处理相同的处理赋予同一标号,省略详细的说明。
首先,作为由相似文生成装置1a进行的相似文生成处理,在步骤S11a中,替换对象文输入部10a受理由用户输入的与原文对应的对译文以及替换对象文,将对译文输出给对译语料库生成部31,将替换对象文输出给替换候选提取部11。此外,将对译文输出给对译语料库生成部31的时刻(timing)不特别限定于上述的例子,也可以为,在步骤S17的处理时,替换对象文输入部10a将对译文输出给对译语料库生成部31。
接着,在步骤S12~S17中,执行与图5所示的步骤S12~S17同样的处理,当在步骤S17中判定为替换候选文字串的得分(出现频度)低于预定的阈值Th的情况下,在步骤S20中,替换结果输出部16将替换候选文字串废弃并结束处理。
另一方面,当在步骤S17中判定为替换候选文字串的得分(出现频度)在预定的阈值Th以上的情况下,在步骤S18中,执行与图5所示的步骤S18同样的处理后,在步骤S19中,替换结果输出部16将根据在替换判定部15中判定为适用的替换候选文字串所生成的替换文(置换文)输出给对译语料库生成部31,结束由相似文生成装置1a进行的相似文生成处理。
接着,作为由翻译装置2以及相似文生成装置1a进行的反馈数据更新处理,在步骤S21中,对译语料库生成部31将从替换结果输出部16输出的替换文与从替换对象文输入部10a输出的对译文进行关联,生成新的对译语料库并输出给翻译模型生成部32。
接着,在步骤S22中,翻译模型生成部32使用在对译语料库生成部31中生成的新的对译语料库,通过学习生成翻译模型并输出给机器翻译部34。
接着,在步骤S23中,被翻译文输入部33受理由用户输入的翻译对象文,将用户所希望翻译的任意的翻译对象文输出给机器翻译部34。
接着,在步骤S24中,机器翻译部34利用翻译模型生成部32生成的翻译模型,将翻译对象文翻译成翻译结果文,将翻译结果文与翻译对象文一起输出给翻译结果文输出部35。
接着,在步骤S25中,翻译结果文输出部35将翻译结果文与翻译对象文一起输出给翻译结果评价部36。
接着,在步骤S26中,翻译结果评价部36对从翻译结果文输出部35输出的翻译结果文的翻译精度以及质量进行评价,将评价值或者评价类别等信息与翻译结果文进行关联并作为评价结果输出给反馈数据生成部37。
接着,在步骤S27中,反馈数据生成部37根据由翻译结果评价部36输出的评价结果来生成反馈数据并输出给数据更新部17。
最后,在步骤S28中,数据更新部17基于反馈数据生成部37生成的反馈数据,对替换候选辞典21、语境依赖率辞典22和语言模型数据库23中的至少一方的数据库内容进行更新,结束反馈数据更新处理。
通过上述处理,在本实施方式中,对使用基于被判定为采用的替换文和对原文的对译文所生成的翻译模型来翻译预定的翻译对象文而得到的翻译结果文进行评价,基于该评价结果,生成包括关于翻译对象文的语言和/或翻译结果文的语言的语言信息、以及对于该语言信息的评价信息的反馈信息,因此,能够自主地生成用于对相似文生成装置1a学习以及反映考虑了语境依赖性的事例的反馈信息。
另外,在本实施方式中,使用包括语言信息和评价信息的反馈数据,对替换候选辞典21、语境依赖率辞典22以及语言模型数据库23进行更新,因此,能够将考虑了语境依赖性的事例反映于替换候选辞典21、语境依赖率辞典22以及语言模型数据库23,能够进行也能应对不存在于更新前的替换候选辞典21、语境依赖率辞典22以及语言模型数据库23的新的文表达的、高效率且自主的相似文识别。
Claims (11)
1.一种方法,是从翻译源原文生成相似文的方法,包括:
输入第1文;
从第1数据库提取与构成所述第1文的多个词句中的第1词句具有相同意思的一个以上的第2词句,所述第1数据库将词句与所述第1数据库所包含的词句的近义词句进行关联;
根据基于第2数据库所获得的与所述一个以上的第2词句对应的语境依赖值来算出N-gram值,所述第2数据库将词句与对应于所述第2数据库所包含的词句的所述语境依赖值进行关联,所述语境依赖值表示所述第2数据库包含的词句所表示的意思依赖于语境的程度;
从在所述第1文中将所述第1词句替换成所述一个以上的第2词句而得到的一个以上的第2文中,提取与所述N-gram值相当的数量的、包括所述第2词句在内的连续的一个以上的第3词句;
对所述一个以上的第3词句,算出在第3数据库中的出现频度,所述第3数据库将词句与所述第3数据库所包含的词句在所述第3数据库中的出现频度进行关联;
判定算出的所述出现频度是否在阈值以上;
在判定为算出的所述出现频度在所述阈值以上的情况下,采用所述一个以上的第2文作为所述第1文的相似文,并输出给外部的设备。
2.根据权利要求1所述的方法,
所述第1文用第1语言记述,
所述第1文包含于对译语料库,所述对译语料库包括多个成对的用第1语言记述的文和用第2语言记述的对译文,
所述方法还包括:
在判定为算出的所述出现频度在所述阈值以上的情况下,将所述一个以上的第2文作为所述第1文的相似文追加到所述对译语料库中。
3.根据权利要求1或2所述的方法,
所述第3数据库包括N-gram语言模型数据库,
所述方法还包括:
根据所述语境依赖值,将所述N-gram语言模型的N决定为i,在此,i为正整数;
通过查对所述第3数据库,求取包括所述第2词句的i-gram的出现频度;
基于包括所述第2词句的i-gram的出现频度,判定是否采用所述一个以上的第2文作为所述第1文的相似文。
4.根据权利要求1或2所述的方法,还包括:
使用翻译模型对预定的翻译对象文进行翻译并制作翻译结果文,所述翻译模型基于被判定为作为所述第1文的相似文来采用的所述一个以上的第2文、和将生成了所述一个以上的第2文的所述第1文用第2语言进行翻译所得到的翻译文而生成;
评价所述翻译结果文;
基于所述翻译结果文的评价结果,生成反馈信息,所述反馈信息包括关于所述翻译对象文的语言和/或所述翻译结果文的语言的语言信息、以及对于所述语言信息的评价信息。
5.根据权利要求4所述的方法,
使用所述反馈信息对所述第1数据库、所述第2数据库和所述第3数据库中的至少一方进行更新。
6.根据权利要求4所述的方法,
在所述反馈信息包括具有语境依赖性的所述第2词句的情况下,对所述第2数据库以及所述第3数据库进行更新。
7.根据权利要求4所述的方法,
在所述反馈信息包括新的文表达的情况下,根据所述文表达来改变所述第2数据库的语境依赖值。
8.根据权利要求4所述的方法,
在所述反馈信息包括新的文表达的情况下,更新所述第3数据库以使其包括所述文表达。
9.一种计算机可读的记录介质,存储有用于使计算机作为从翻译源原文生成相似文的装置而发挥功能的程序,所述程序使所述计算机执行如下处理:
输入第1文;
从第1数据库提取与构成所述第1文的多个词句中的第1词句具有相同意思的一个以上的第2词句,所述第1数据库将词句与所述第1数据库所包含的词句的近义词句进行关联;
根据基于第2数据库所获得的与所述一个以上的第2词句对应的语境依赖值来算出N-gram值,所述第2数据库将词句与对应于所述第2数据库所包含的词句的所述语境依赖值进行关联,所述语境依赖值表示所述第2数据库包含的词句所表示的意思依赖于语境的程度;
从在所述第1文中将所述第1词句替换成所述一个以上的第2词句而得到的一个以上的第2文中,提取与所述N-gram值相当的数量的、包括所述第2词句在内的连续的一个以上的第3词句;
对所述一个以上的第3词句,算出在第3数据库中的出现频度,所述第3数据库将词句与所述第3数据库所包含的词句在所述第3数据库中的出现频度进行关联;
判定算出的所述出现频度是否在阈值以上;
在判定为算出的所述出现频度在所述阈值以上的情况下,采用所述一个以上的第2文作为所述第1文的相似文,并输出给外部的设备。
10.一种装置,是从翻译源原文生成相似文的装置,具备:
输入部,其被输入第1文;
第2词句提取部,其从第1数据库提取与构成所述第1文的多个词句中的第1词句具有相同意思的一个以上的第2词句,所述第1数据库将词句与所述第1数据库所包含的词句的近义词句进行关联;
第1算出部,其根据基于第2数据库所获得的与所述一个以上的第2词句对应的语境依赖值来算出N-gram值,所述第2数据库将词句与对应于所述第2数据库所包含的词句的所述语境依赖值进行关联,所述语境依赖值表示所述第2数据库包含的词句所表示的意思依赖于语境的程度;
第3词句提取部,其从在所述第1文中将所述第1词句替换成所述一个以上的第2词句而得到的一个以上的第2文中,提取与所述N-gram值相当的数量的、包括所述第2词句在内的连续的一个以上的第3词句;
第2算出部,其对所述一个以上的第3词句,算出在第3数据库中的出现频度,所述第3数据库将词句与所述第3数据库所包含的词句在所述第3数据库中的出现频度进行关联;
判定部,其判定算出的所述出现频度是否在阈值以上;以及
输出部,其在判定为算出的所述出现频度在所述阈值以上的情况下,采用所述一个以上的第2文作为所述第1文的相似文,并输出给外部的设备。
11.一种系统,是从翻译源原文生成相似文的系统,具备:
权利要求10所述的装置;
翻译部,其使用翻译模型对预定的翻译对象文进行翻译并制作翻译结果文,所述翻译模型基于由所述装置判定为作为所述第1文的相似文来采用的所述一个以上的第2文、和将生成了所述一个以上的第2文的所述第1文用第2语言进行翻译所得到的翻译文而生成;
评价部,其对由所述翻译部制作出的所述翻译结果文进行评价;以及
生成部,其基于所述评价部的评价结果,生成反馈信息,所述反馈信息包括关于所述翻译对象文的语言和/或所述翻译结果文的语言的语言信息、以及对于所述语言信息的评价信息。
Applications Claiming Priority (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2016187711 | 2016-09-27 | ||
| JP2016-187711 | 2016-09-27 | ||
| JP2017-096570 | 2017-05-15 | ||
| JP2017096570A JP6817556B2 (ja) | 2016-09-27 | 2017-05-15 | 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN107870901A CN107870901A (zh) | 2018-04-03 |
| CN107870901B true CN107870901B (zh) | 2023-05-12 |
Family
ID=61686235
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201710674166.5A Active CN107870901B (zh) | 2016-09-27 | 2017-08-09 | 从翻译源原文生成相似文的方法、记录介质、装置以及系统 |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US10303761B2 (zh) |
| CN (1) | CN107870901B (zh) |
Families Citing this family (17)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US10679015B1 (en) * | 2015-12-28 | 2020-06-09 | Amazon Technologies, Inc. | Utilizing artificial intelligence-based machine translation to augment document summarization |
| EP3846070A4 (en) * | 2018-08-30 | 2021-09-08 | Fujitsu Limited | GENERATION METHOD, GENERATION PROGRAM AND INFORMATION PROCESSING DEVICE |
| US11037028B2 (en) * | 2018-12-31 | 2021-06-15 | Charles University Faculty of Mathematics and Physics | Computer-implemented method of creating a translation model for low resource language pairs and a machine translation system using this translation model |
| US11340963B2 (en) * | 2019-01-08 | 2022-05-24 | Microsoft Technology Licensing, Llc | Augmentation of notification details |
| US11106873B2 (en) * | 2019-01-22 | 2021-08-31 | Sap Se | Context-based translation retrieval via multilingual space |
| CN113924573A (zh) * | 2019-06-04 | 2022-01-11 | 松下知识产权经营株式会社 | 翻译装置 |
| CN112183117B (zh) * | 2019-06-14 | 2022-12-30 | 上海流利说信息技术有限公司 | 一种翻译评价的方法、装置、存储介质及电子设备 |
| RU2767965C2 (ru) * | 2019-06-19 | 2022-03-22 | Общество С Ограниченной Ответственностью «Яндекс» | Способ и система для перевода исходной фразы на первом языке целевой фразой на втором языке |
| USD917549S1 (en) | 2019-06-20 | 2021-04-27 | Yandex Europe Ag | Display screen or portion thereof with graphical user interface |
| KR102862810B1 (ko) * | 2019-09-27 | 2025-09-23 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 제어 방법 |
| US11341340B2 (en) * | 2019-10-01 | 2022-05-24 | Google Llc | Neural machine translation adaptation |
| US11392770B2 (en) * | 2019-12-11 | 2022-07-19 | Microsoft Technology Licensing, Llc | Sentence similarity scoring using neural network distillation |
| CN113919372B (zh) * | 2020-07-10 | 2025-07-22 | 南京大学 | 机器翻译质量评估方法、装置及存储介质 |
| US20230214604A1 (en) * | 2022-01-06 | 2023-07-06 | PRIVACY4CARS, Inc. | Translating technical operating instruction |
| CN114896991B (zh) * | 2022-04-26 | 2023-02-28 | 北京百度网讯科技有限公司 | 文本翻译方法、装置、电子设备和存储介质 |
| US12541644B2 (en) * | 2023-08-18 | 2026-02-03 | iCIMS, Inc. | Methods and apparatuses for language translation to identify contextual synonyms |
| CN118586409B (zh) * | 2024-08-05 | 2024-10-18 | 戎行技术有限公司 | 一种基于大模型的实时语言翻译数据优化处理方法 |
Family Cites Families (19)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6356865B1 (en) * | 1999-01-29 | 2002-03-12 | Sony Corporation | Method and apparatus for performing spoken language translation |
| JP3932350B2 (ja) | 2001-07-06 | 2007-06-20 | 独立行政法人情報通信研究機構 | 言語変換処理統一システム |
| US7478033B2 (en) * | 2004-03-16 | 2009-01-13 | Google Inc. | Systems and methods for translating Chinese pinyin to Chinese characters |
| JP2005339043A (ja) | 2004-05-25 | 2005-12-08 | Ricoh Co Ltd | 自然言語処理方法、自然言語処理装置、自然言語処理プログラム及び自然言語処理プログラムが記録された記録媒体 |
| JP2007072594A (ja) * | 2005-09-05 | 2007-03-22 | Sharp Corp | 翻訳装置、翻訳方法および翻訳プログラム、媒体 |
| US7536295B2 (en) * | 2005-12-22 | 2009-05-19 | Xerox Corporation | Machine translation using non-contiguous fragments of text |
| JP2008090555A (ja) * | 2006-09-29 | 2008-04-17 | Oki Electric Ind Co Ltd | 訳文評価装置、訳文評価方法およびコンピュータプログラム |
| US8204739B2 (en) * | 2008-04-15 | 2012-06-19 | Mobile Technologies, Llc | System and methods for maintaining speech-to-speech translation in the field |
| JP5060539B2 (ja) | 2009-10-20 | 2012-10-31 | 株式会社東芝 | 文書処理装置およびプログラム |
| US8731901B2 (en) * | 2009-12-02 | 2014-05-20 | Content Savvy, Inc. | Context aware back-transliteration and translation of names and common phrases using web resources |
| US8914401B2 (en) * | 2009-12-30 | 2014-12-16 | At&T Intellectual Property I, L.P. | System and method for an N-best list interface |
| US8560297B2 (en) * | 2010-06-07 | 2013-10-15 | Microsoft Corporation | Locating parallel word sequences in electronic documents |
| CN102693222B (zh) * | 2012-05-25 | 2014-10-01 | 熊晶 | 基于实例的甲骨文释文机器翻译方法 |
| US9070090B2 (en) * | 2012-08-28 | 2015-06-30 | Oracle International Corporation | Scalable string matching as a component for unsupervised learning in semantic meta-model development |
| JP6056489B2 (ja) * | 2013-01-15 | 2017-01-11 | 富士通株式会社 | 翻訳支援プログラム、方法、および装置 |
| US8959020B1 (en) * | 2013-03-29 | 2015-02-17 | Google Inc. | Discovery of problematic pronunciations for automatic speech recognition systems |
| US9785630B2 (en) * | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
| US10078631B2 (en) * | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
| US10157224B2 (en) * | 2016-02-03 | 2018-12-18 | Facebook, Inc. | Quotations-modules on online social networks |
-
2017
- 2017-08-09 CN CN201710674166.5A patent/CN107870901B/zh active Active
- 2017-09-07 US US15/697,489 patent/US10303761B2/en active Active
Also Published As
| Publication number | Publication date |
|---|---|
| US10303761B2 (en) | 2019-05-28 |
| CN107870901A (zh) | 2018-04-03 |
| US20180089169A1 (en) | 2018-03-29 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN107870901B (zh) | 从翻译源原文生成相似文的方法、记录介质、装置以及系统 | |
| JP6817556B2 (ja) | 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム | |
| JP5403696B2 (ja) | 言語モデル生成装置、その方法及びそのプログラム | |
| US20170286408A1 (en) | Sentence creation system | |
| US10394961B2 (en) | Foreign language sentence creation support apparatus, method, and program | |
| CN107861937B (zh) | 对译语料库的更新方法、更新装置以及记录介质 | |
| CN105210057A (zh) | 多语言商业标记管理以及音译合成 | |
| CN107066452A (zh) | 翻译辅助方法、翻译辅助装置、翻译装置以及翻译辅助程序 | |
| US20240062009A1 (en) | Method and device for segmenting word based on cross-language data augmentation, and storage medium | |
| US11842152B2 (en) | Sentence structure vectorization device, sentence structure vectorization method, and storage medium storing sentence structure vectorization program | |
| JP2017129995A (ja) | 前処理モデル学習装置、方法、及びプログラム | |
| US20050273316A1 (en) | Apparatus and method for translating Japanese into Chinese and computer program product | |
| Brunning | Alignment models and algorithms for statistical machine translation | |
| JP6564709B2 (ja) | 文書き換え装置、方法、及びプログラム | |
| JP2006004366A (ja) | 機械翻訳システム及びそのためのコンピュータプログラム | |
| JP5298834B2 (ja) | 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置 | |
| Oravecz et al. | Semi-automatic normalization of Old Hungarian codices | |
| Fedchuk et al. | Mathematical model of a decision support system for identification and correction of errors in Ukrainian texts based on machine learning | |
| JP4478042B2 (ja) | 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置 | |
| RU2822992C1 (ru) | Способ и устройство для разделения на слова, улучшенные с помощью межъязыковых данных | |
| JP5860861B2 (ja) | 焦点推定装置、モデル学習装置、方法、及びプログラム | |
| JP3921543B2 (ja) | 機械翻訳装置 | |
| CN102402503A (zh) | 基于扩展的层次化短语模型的统计机器翻译装置和方法 | |
| JP2004326584A (ja) | 対訳固有表現抽出装置及び方法、対訳固有表現抽出プログラム | |
| Radošević et al. | A machine translation model inspired by code generation |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |