[go: up one dir, main page]

JP2006344011A - Multilingual document retrieving device - Google Patents

Multilingual document retrieving device Download PDF

Info

Publication number
JP2006344011A
JP2006344011A JP2005169205A JP2005169205A JP2006344011A JP 2006344011 A JP2006344011 A JP 2006344011A JP 2005169205 A JP2005169205 A JP 2005169205A JP 2005169205 A JP2005169205 A JP 2005169205A JP 2006344011 A JP2006344011 A JP 2006344011A
Authority
JP
Japan
Prior art keywords
document
search
search condition
language
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005169205A
Other languages
Japanese (ja)
Inventor
Hirohito Shibata
博仁 柴田
Takeshi Yoshioka
健 吉岡
Toshiya Yamada
敏哉 山田
Yasuhide Miura
康秀 三浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2005169205A priority Critical patent/JP2006344011A/en
Publication of JP2006344011A publication Critical patent/JP2006344011A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To precisely perform multilingual document retrieval for performing document retrieval from retrieval conditions described in different languages by removing or reducing any influence due to the performance characteristics of a translation means. <P>SOLUTION: Retrieval conditions in first language are input from an input means 4, and respective translation devices 1a, 1b and 1c translate the retrieval conditions in a first language into those in a second language which is the same as that of a retrieval object document, and an integration means 2 searches for the word vectors of translated three translation results(retrieval conditions), and integrates those three word vectors into one word vector. The word vectors are preliminarily added to each retrieval object document, and a retrieval means 3 outputs the pertinent document as a retrieval result from an output means 5 based on the fact that the integrated word vectors of the retrieval conditions and the object document word vectors have a prescribed similar relation. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

本発明は、検索対象の文書と異なる言語で記述された検索条件によって文書検索を行う技術に関し、特に、検索対象文書と検索条件とを言語を同じくするための翻訳処理を複数の翻訳手段によって行う技術に関する。   The present invention relates to a technique for performing a document search using a search condition described in a language different from that of a search target document, and in particular, performs a translation process for making the search target document and the search condition the same language by a plurality of translation means. Regarding technology.

検索条件に合致する文書を検索処理する場合、検索条件として検索語(キーワード)を結合させた論理式や検索質問文等といった種々な形式の検索条件が用いられている。
このような文書検索は、通常、検索条件を記述している言語と検索対象の文書を記述している言語とが同じであることを前提としているが、グローバル化が進む現在においては、次のような要望が急増している。
When searching for documents that match the search conditions, various types of search conditions such as logical expressions combined with search terms (keywords) and search query sentences are used as the search conditions.
Such a document search is usually based on the premise that the language describing the search condition and the language describing the document to be searched are the same. Such requests are increasing rapidly.

(1)ある言語(第1言語)で記述された検索条件に対して、それと意味的・内容的にマッチする他の言語(第2言語)の文書を検索したい。
(2)ある言語(第1言語)で記述された検索条件に対して、他の言語(第2言語)で記述された文書も含めて文書を横断的に検索したい。
このような要望に応えるための検索技術は、「多言語情報検索(Cross-Language Information Retrieval: CLIR)」と呼ばれる。
(1) I want to search for a document in another language (second language) that matches the search condition described in a certain language (first language) semantically and contentally.
(2) A search condition described in a certain language (first language) is desired to be searched across documents including documents described in another language (second language).
A search technique for responding to such a request is called “multilingual information retrieval (CLIR)”.

このような要望に応えるため、 検索質問を他の言語に翻訳してから文書検索を行うという手法が提案されている(特許文献1参照。)。
しかしながら、検索質問を単純に他の言語に翻訳してから検索を行うといった手法では、検索の性能が対訳辞書や翻訳装置の良し悪しに依存して、例えば、次のような問題が生じてしまう。
In order to respond to such a request, a technique has been proposed in which a search query is translated into another language and then a document search is performed (see Patent Document 1).
However, in the method of performing the search after simply translating the search question into another language, the following problems arise, for example, depending on the performance of the search depending on the quality of the bilingual dictionary and the translation device. .

(1)翻訳装置は未だ不完全な技術であり、個々のアルゴリズムや利用する翻訳辞書によって、文章の記述内容や構文に関して得意な点と不得意な点がある。現在のところ、全てを網羅する万能の翻訳装置は存在しない。
(2)異なる言語の語の対応関係は一対一ではなく、語は多義性をもっている。これを誤って翻訳した場合、検索の再現率が落ちるという問題がある。
(3)一般に、1つの概念を表す語は複数存在する。このような表記や表現のぶれに対処しないと検索の再現率が低下する。
(4)1つの語から全ての多義性をふまえた複数の語に展開する場合、不適切に展開された語により検索の適合率が落ちるという問題がある。
(1) The translation device is still incomplete technology, and there are strengths and weaknesses regarding the description contents and syntax of sentences depending on individual algorithms and translation dictionaries to be used. At present, there is no universal translation device that covers everything.
(2) The correspondence between words in different languages is not one-to-one, and the words have ambiguity. If this is translated incorrectly, there is a problem that the recall of the search is reduced.
(3) In general, there are a plurality of words representing one concept. If such a notation or expression blur is not dealt with, the recall rate of the search will decrease.
(4) When expanding from one word to a plurality of words based on all ambiguities, there is a problem that the relevance rate of the search is lowered due to inappropriately expanded words.

このような問題に対処可能な手法として、言語間の翻訳関係が保持されたディレクトリ (インターネット上で見られる翻訳されたディレクトリ) の存在を前提として、まずは検索質問に似た第1言語のディレクトリを探し、それを対応関係にある他の言語のディレクトリを検索範囲として指定し、翻訳されたディレクトリの対応関係を利用することで、検索対象の文書を制限して、高精度な検索を実現する手法が提案されている(特許文献2参照。)。
また、
対訳関係にある文書群 (文書がどの文書の翻訳であるか関連付けられている) の存在を前提として、第1言語の検索質問に対して第1言語の文書を検索し、その検索結果の文書に対応付けられた第2言語の文書を取得して、それを検索質問として再度検索を行う手法が提案されている(特許文献3参照。)。
As a technique that can deal with such problems, assuming that there is a directory (translated directory found on the Internet) that maintains the translation relationship between languages, first, a directory in the first language similar to the search query is created. A method to achieve high-precision search by limiting the documents to be searched by searching and specifying directories in other languages that have correspondence as search ranges and using the correspondence of translated directories Has been proposed (see Patent Document 2).
Also,
Assuming the existence of a bilingual document group (associated with which document the document is a translation of), the first language document is searched for the first language search question, and the search result document A method has been proposed in which a document in the second language associated with is acquired and the search is performed again using the document as a search question (see Patent Document 3).

なお、以下に説明する本発明に適用できる技術として、次のようなものが知られている。
自然言語の語を多次元空間の軸とするのではなく、Latent Semantic Indexing(LSI) のように数学的に抽出された成分を軸として利用する技術が知られている(非特許文献1参照。)。
ベクトル空間モデルやベクトル要素の重み付けに関する技術が知られている(非特許文献2参照。)。
確率モデルに基づく検索方法が知られている(非特許文献3参照。)。
特開平5―324719号公報 特開2002―189745号公報 特開2003―196309号公報 S. Deerwester, S. T. Dumais, G. W. Furnas, T. K. Landauer, R. Harshman: Indexing by latent semantic analysis, Journal of the American Society of Information Science, Vol. 41, No. 6, pp. 391-407, 1990. G. Salton and M. J. McGill: Introduction to modern information retrieval, McGraw-Hill, 1983. 徳永 建伸: 情報検索と言語処理, 言語と計算 5, 東京大学出版会, 1999.
As techniques applicable to the present invention described below, the following are known.
A technique is known in which a natural language word is not used as an axis of a multidimensional space, but a mathematically extracted component such as Latent Semantic Indexing (LSI) is used as an axis (see Non-Patent Document 1). ).
Techniques relating to weighting of vector space models and vector elements are known (see Non-Patent Document 2).
A search method based on a probability model is known (see Non-Patent Document 3).
JP-A-5-324719 JP 2002-189745 A Japanese Patent Laid-Open No. 2003-196309 S. Deerwester, ST Dumais, GW Furnas, TK Landauer, R. Harshman: Indexing by latent semantic analysis, Journal of the American Society of Information Science, Vol. 41, No. 6, pp. 391-407, 1990. G. Salton and MJ McGill: Introduction to modern information retrieval, McGraw-Hill, 1983. Tokunaga Takenobu: Information Retrieval and Language Processing, Language and Calculation 5, The University of Tokyo Press, 1999.

特許文献2や3に記載された手法は、いずれもディレクトリや文書の翻訳関係を利用することで高精度な多言語情報検索(CLIR)を実現する好例といえる。
しかしながら、ディレクトリや文書の翻訳が存在することは現実的には稀であり、多くの人が閲覧する極一部のオフィシャルな文書に限られている。オフィスの文書の大半には翻訳文書は存在せず (存在したとしても極僅かであり)、多言語の文書が混在するのが実情である。したがって、文書やディレクトリの翻訳関係の存在は、CLIRの実現の前提としては厳しすぎると言わざるをえない。
The methods described in Patent Documents 2 and 3 are good examples for realizing highly accurate multilingual information retrieval (CLIR) by using the translation relationship between directories and documents.
However, directory and document translations rarely exist in practice, and are limited to a few official documents that many people view. Most office documents do not have translations (if any), and it is the case that multilingual documents are mixed. Therefore, it must be said that the existence of translation relations between documents and directories is too strict as a premise for realizing CLIR.

一方、特許文献1記載された手法は、文書やディレクトリの翻訳関係の存在を前提としないが、上記のように、翻訳装置のアルゴリズムや翻訳辞書によって、翻訳自体の適正性にばらつきが生じるため、検索の適合率が低下してしまう等といった問題がある。   On the other hand, although the technique described in Patent Document 1 does not assume the existence of a translation relationship between documents and directories, as described above, the appropriateness of the translation itself varies depending on the algorithm of the translation device and the translation dictionary. There is a problem such as a decrease in the relevance rate of the search.

本発明は、上記従来の事情に鑑みなされたたものであり、文書やディレクトリの翻訳関係の存在を前提とぜずに、また、翻訳装置や辞書の性能に極力依存せずに、ユーザが所望する文書の取得を可能とする高精度な多言語文書検索を実現することを目的としている。   The present invention has been made in view of the above-described conventional circumstances, and is desired by a user without assuming the existence of a translation relationship between documents and directories and without depending on the performance of the translation device or dictionary as much as possible. An object of the present invention is to realize a highly accurate multilingual document search that enables acquisition of a document to be executed.

発明の主要な技術思想は、第1言語で記述された検索条件(検索質問文やキーワードの論理式等)と、第2言語で記述された検索対象文書との少なくともいずれか一方を複数の翻訳装置(辞書を含む)を利用して同じ言語の記述に翻訳し、これら検索条件と対象文書による検索を行うことで多言語文書検索を実現する。
本発明の典型的態様の一例では、第1言語で記述された検索条件を複数の翻訳装置を利用して第2言語に翻訳し、得られた複数の翻訳結果をもとに第2言語の対象文書群に対して検索を行うが、検索条件ではなく対象文書群を複数の翻訳装置を利用して第1言語に翻訳する態様や、検索条件と対象文書群を複数の翻訳装置を利用して第3言語に翻訳する態様であってもよい。
The main technical idea of the invention is that a plurality of translations of at least one of a search condition (search query, keyword logical expression, etc.) described in the first language and a search target document described in the second language. A multilingual document search is realized by translating the description into the same language using a device (including a dictionary) and performing a search using these search conditions and the target document.
In an example of a typical aspect of the present invention, a search condition described in a first language is translated into a second language using a plurality of translation devices, and the second language is translated based on a plurality of translation results obtained. A search is performed on the target document group, but not the search condition but the target document group is translated into the first language by using a plurality of translation devices, or the search condition and the target document group are used by a plurality of translation devices. It is also possible to translate into a third language.

本発明では、複数の翻訳装置を用いることにより、各々の翻訳装置の「くせ」を吸収し、高精度な多言語文書検索を実現する。
ここで、翻訳装置の「くせ」とは、翻訳処理が得意な分野や不得意な分野、得意な構文や不得意な構文等、語彙、文章の記述内容、記述形式 (構文や文体など)等に依存した翻訳装置の性能特性をいう。
例えば、英語の「artificial life」を一般的な表現として日本語の「人工的な生命」と訳したり、専門用語と判断して「人工生命」と訳したりという違いであり、また、多義性のある「bank 」という英語を「銀行」と訳したり、「土手」と訳したりという多義性解消の違いなどがあげられる。このような性能特性は、翻訳装置の備える翻訳辞書や翻訳アルゴリズムに依存する。
In the present invention, by using a plurality of translation devices, the “feature” of each translation device is absorbed, and a highly accurate multilingual document search is realized.
Here, “Kise” of a translation device means a field that is good at translation processing, a field that is not good at translation processing, a syntax that is good at or not good at, vocabulary, description contents of sentences, description format (such as syntax and style), etc. This refers to the performance characteristics of translation devices that depend on
For example, the word “artificial life” in English is translated as “artificial life” in Japanese as a general expression, or it is interpreted as “artificial life” in terms of technical terms. There is a difference in ambiguity such as translating the English word “bank” into “bank” or “bank”. Such performance characteristics depend on the translation dictionary and translation algorithm provided in the translation apparatus.

本発明は、上記のような主用技術思想を具現化した多言語文書検索装置、このような多言語文書検索装置をコンピュータにより構成するプログラム、このような多言語文書検索装置により実行される多言語文書検索方法として実現される。   The present invention relates to a multilingual document search apparatus that embodies the main technical idea as described above, a program that configures such a multilingual document search apparatus by a computer, and a multilingual document search apparatus that executes the multilingual document search apparatus. This is realized as a language document search method.

本発明の一態様では、多言語文書検索装置が、複数の翻訳手段、統合化手段、検索手段を備え、複数の翻訳手段が、検索条件又は対象文書の少なくともいずれか一方をそれぞれ翻訳して、検索条件と対象文書とを同じ言語による記述に翻訳し、統合化手段が、各翻訳装置による複数の翻訳結果をそれらが包含する語を基準とした特徴量に変換して、検索条件又は対象文書毎の特徴量に統合化し、検索手段が、統合化された特徴量の類似関係に基づいて検索条件から対象文書を検索することにより、第1言語で記載された検索条件に基づいて、第2言語で記載された複数の対象文書の内から検索条件に合致する文書を検索する。   In one aspect of the present invention, the multilingual document search apparatus includes a plurality of translation units, an integration unit, and a search unit, and the plurality of translation units translate at least one of the search condition and the target document, The search condition and the target document are translated into a description in the same language, and the integration unit converts a plurality of translation results from each translation device into feature quantities based on the words included in the search condition or the target document. The search means is integrated with each feature quantity, and the search means searches for the target document from the search condition based on the similarity relation of the integrated feature quantity, so that the second is obtained based on the search condition described in the first language. A document that matches the search condition is searched from among a plurality of target documents written in a language.

このように、複数の翻訳装置による翻訳結果を統合化して検索処理を行うことにより、個々の翻訳装置の性能特性の影響を排除或いは低減することができ、従来に比して適正な翻訳結果に基づく検索処理が実現される。   In this way, by integrating the translation results from a plurality of translation devices and performing a search process, it is possible to eliminate or reduce the influence of the performance characteristics of each translation device. Based search processing is realized.

ここで、検索条件は、キーワードの論理結合式や検索質問文の形式で多言語文書検索装置に入力されるのが一般的であるが、本発明では、検索質問文の論理結合式等の他の種々な形式であってもよい。
また、特徴量の統合化としては、複数の特徴量の平均値を求める平均法、複数の特徴量の加重平均値を求める加重平均法、複数の特徴量の内から多数決演算を行う多数決法、複数の特徴量の内から最良のものを選択する最良選択法等、複数の量を所望の条件に応じて単一の量にするための公知の種々な方法を採用することができる。
また、特徴量及び特徴量の類似関係に基づく検索処理は、例えば、文章から重要度に応じて語を抽出し、文章を語集合とみなして類似検索を行う手法であるベクトル空間モデル(非特許文献2参照。)を用いることができる。
Here, the search condition is generally input to the multilingual document search apparatus in the form of a logical combination expression of keywords or a search question sentence, but in the present invention, other than the logical combination expression of the search question sentence, etc. The various forms may be used.
In addition, as the integration of feature amounts, an average method for obtaining an average value of a plurality of feature amounts, a weighted average method for obtaining a weighted average value of a plurality of feature amounts, a majority method for performing a majority decision operation among a plurality of feature amounts, Various known methods for making a plurality of quantities into a single quantity according to desired conditions, such as a best selection method for selecting the best one from a plurality of feature quantities, can be employed.
The search processing based on the feature quantity and the similarity relation of the feature quantity is, for example, a vector space model (non-patent document) which is a technique for extracting words from sentences according to importance and performing similarity searches by regarding sentences as word sets. Reference 2) can be used.

このようにベクトル空間モデルを用いる場合には、検索条件又は対象文書の特徴量は、検索条件又は対象文書に包含されている語の内の予め設定された複数種類の語(例えば、文の内容的な特徴を表していると想定された特徴語)を行とし、当該検索条件又は対象文書中における当該語の重要度(例えば、語の文中における出現頻度、語の文内容を特徴付けている程度等に応じた重み)を要素値とした語ベクトルとして、特徴量の類似関係は語ベクトル間の余弦が小さいほど類似している(検索条件の合致度が高い)と判定する。
なお、本発明では、特徴量及び特徴量の類似関係に基づく検索処理として、公知の種々な方法を用いることもでき、例えば、非特許文献3において知られている確率モデルを用いることができる。
When the vector space model is used in this way, the search condition or the feature amount of the target document is determined based on a plurality of types of words (for example, the contents of the sentence) set in advance among the words included in the search condition or the target document. A characteristic word that is assumed to represent a typical characteristic), and characterizes the importance of the word in the search condition or target document (for example, the frequency of occurrence of the word in the sentence, the sentence content of the word) It is determined that the similarity relationship between the feature amounts is similar as the cosine between the word vectors is smaller (the matching degree of the search condition is higher).
In the present invention, various known methods can be used as the search processing based on the feature quantity and the similarity relation of the feature quantity. For example, a probability model known in Non-Patent Document 3 can be used.

本発明のより具体的な一態様では、多言語文書検索装置が、複数の翻訳手段、統合化手段、検索手段を備え、また、対象文書保持手段に複数の対象文書をそれらが包含する語を基準とした特徴量に対応付けて保持しており、複数の翻訳手段が、検索条件を第2言語の記述にそれぞれ翻訳し、統合化手段が、各翻訳装置による複数の翻訳結果をそれらが包含する語を基準とした特徴量に変換して、検索条件の特徴量に統合化し、検索手段が、統合化された検索条件の特徴量と対象文書保持手段に保持された対象文書の特徴量との類似関係に基づいて検索条件から対象文書を検索することにより、第1言語で記載された検索条件に基づいて、第2言語で記載された複数の対象文書の内から検索条件に合致する文書を検索する。   In a more specific aspect of the present invention, the multilingual document search apparatus includes a plurality of translation units, an integration unit, and a search unit, and a target document holding unit includes a plurality of target documents. A plurality of translation means translates the search condition into a second language description, respectively, and the integration means includes a plurality of translation results by each translation device. Are converted into feature quantities based on the words to be integrated and integrated into the feature quantities of the search conditions, and the search means includes the feature quantities of the integrated search conditions and the feature quantities of the target document held in the target document holding means. A document that matches the search condition from among a plurality of target documents described in the second language based on the search condition described in the first language by searching the target document from the search condition based on the similarity relationship of Search for.

このように、複数の翻訳手段が検索条件を第2言語の記述にそれぞれ翻訳することで得られる翻訳結果(翻訳された検索条件)を統合化して検索処理を行うことにより、個々の翻訳手段の性能特性の影響を排除或いは低減することができ、従来に比して適正な翻訳結果に基づく検索処理が実現される。   In this manner, by integrating the translation results (translated search conditions) obtained by the translation means translating the search conditions into the second language descriptions, the individual translation means The influence of performance characteristics can be eliminated or reduced, and a search process based on an appropriate translation result as compared with the prior art is realized.

また、本発明のより具体的な他の一態様では、多言語文書検索装置が、複数の翻訳手段、統合化手段、特徴化手段、検索手段を備え、複数の翻訳手段が、複数の対象文書をそれぞれ第1言語の記述に翻訳し、統合化手段が、各翻訳手段による対象文書毎の複数の翻訳結果をそれらが包含する語を基準とした特徴量に変換して、対象文書毎の特徴量に統合化し、また、特徴化手段が、検索条件をそれが包含する語を基準とした特徴量に変換し、検索手段が、統合化された対象文書毎の特徴量と検索条件の特徴量との類似関係に基づいて検索条件から対象文書を検索することにより、第1言語で記載された検索条件に基づいて、第2言語で記載された複数の対象文書の内から検索条件に合致する文書を検索する。   In another more specific aspect of the present invention, the multilingual document search apparatus includes a plurality of translation units, an integration unit, a characterization unit, and a search unit, and the plurality of translation units include a plurality of target documents. Are translated into descriptions in the first language, and the integration means converts the plurality of translation results for each target document by each translation means into feature quantities based on the words that they contain, and And the characterization means converts the search condition into a feature quantity based on the word that it contains, and the search means integrates the feature quantity for each target document and the feature quantity of the search condition. By searching for the target document from the search condition based on the similarity relationship with, the search condition is matched from the plurality of target documents described in the second language based on the search condition described in the first language. Search for documents.

このように、複数の翻訳手段が個々の対象文書を第1言語の記述にそれぞれ翻訳することで得られる複数の翻訳結果(翻訳された対象文書)を統合化して検索処理を行うことにより、個々の翻訳手段の性能特性の影響を排除或いは低減することができ、従来に比して適正な翻訳結果に基づく検索処理が実現される。   In this way, a plurality of translation means integrates a plurality of translation results (translated target documents) obtained by translating each target document into a description in the first language, thereby performing search processing. The influence of the performance characteristics of the translation means can be eliminated or reduced, and a search process based on a translation result that is more appropriate than the conventional one is realized.

また、本発明のより具体的な更に他の一態様では、多言語文書検索装置が、複数の翻訳手段、統合化手段、特徴化手段、検索手段を備え、複数の翻訳手段が、検索条件と複数の対象文書をそれぞれ第3言語の記述に翻訳し、統合化手段が、検索条件の複数の翻訳結果をそれらが包含する語を基準とした特徴量に変換して、検索条件の特徴量に統合化し、また、対象文書毎の複数の翻訳結果をそれらが包含する語を基準とした特徴量に変換して、対象文書毎の特徴量に統合化し、検索手段が、統合化された検索条件の特徴量と対象文書の特徴量との類似関係に基づいて検索条件から対象文書を検索することにより、第1言語で記載された検索条件に基づいて、第2言語で記載された複数の対象文書の内から検索条件に合致する文書を検索する。   In yet another more specific aspect of the present invention, the multilingual document search apparatus includes a plurality of translation units, an integration unit, a characterization unit, and a search unit, and the plurality of translation units include a search condition and Each of the plurality of target documents is translated into a description in the third language, and the integrating means converts the plurality of translation results of the search conditions into feature quantities based on the words included in the search conditions to obtain the feature quantities of the search conditions. Integrated, converted multiple feature results for each target document into feature values based on the words they contain, integrated into feature values for each target document, and search means integrated search conditions A plurality of targets described in the second language based on the search condition described in the first language by searching the target document from the search condition based on the similarity relationship between the feature amount of the target document and the feature amount of the target document Search for documents that meet the search criteria from the documents.

このように、複数の翻訳手段が検索条件と対象文書とを共通な第3言語の記述にそれぞれ翻訳することで得られる複数の翻訳結果(翻訳された複数の対象文書と、翻訳された複数の検索条件)をそれぞれ統合化して検索処理を行うことにより、個々の翻訳手段の性能特性の影響を排除或いは低減することができ、従来に比して適正な翻訳結果に基づく検索処理が実現される。   In this manner, a plurality of translation results obtained by translating the search condition and the target document into a common third language description by a plurality of translation means (translated target documents and translated plural documents) By integrating the search conditions), it is possible to eliminate or reduce the influence of the performance characteristics of the individual translation means, and a search process based on an appropriate translation result can be realized as compared with the prior art. .

本発明によると、複数の翻訳手段による翻訳結果に基づいて、異なる言語で記述された検索条件から文書検索を行うようにしたため、翻訳手段の性能特性による影響を排除或いは低減させることができ、精度の高い多言語文書検索を実現することができる。   According to the present invention, since the document search is performed from the search conditions described in different languages based on the result of translation by a plurality of translation means, the influence due to the performance characteristics of the translation means can be eliminated or reduced. High-level multilingual document search can be realized.

本発明を実施例に基づいて具体的に説明する。
図1には、本発明の一例に係る多言語文書検索装置の主要部の構成を示してある。
この多言語文書検索装置は、3つの翻訳装置1a、1b、1c、各翻訳装置1a、1b、1cによる翻訳結果から特徴量としての語ベクトルを求めて統合化する統合化手段2、統合化された特徴量(語ベクトル)の類似関係に基づいて検索条件に合致する文書を検索する検索手段3を備えている。
The present invention will be specifically described based on examples.
FIG. 1 shows the configuration of the main part of a multilingual document search apparatus according to an example of the present invention.
This multilingual document search apparatus is integrated with three translation apparatuses 1a, 1b, 1c, an integration means 2 for obtaining and integrating word vectors as feature quantities from the translation results of the translation apparatuses 1a, 1b, 1c. There is provided search means 3 for searching for a document that matches the search condition based on the similar relationship between the feature quantities (word vectors).

なお、例示の多言語文書検索装置は3つの翻訳装置を備えているが、本発明では、2つ以上の翻訳装置を備えた態様であればよい。
また、ここに例示する本発明に係る多言語文書検索装置の主要機能(翻訳装置、統合化手段、検索手段、特徴化手段等)は、コンピュータで本発明に係るプログラムを実行することにより構成されている。
Note that the exemplary multilingual document search apparatus includes three translation apparatuses. However, in the present invention, any aspect including two or more translation apparatuses may be used.
The main functions of the multilingual document search apparatus according to the present invention exemplified here (translation apparatus, integration means, search means, characterization means, etc.) are configured by executing the program according to the present invention on a computer. ing.

本発明の実施例として、図2に概要を示すような3種類の多言語文書検索処理を以下に説明する。
第1の実施例としては、第1言語で記述された検索質問文(検索条件)qを入力手段4から入力し、各翻訳装置1a、1b、1cが入力された検索質問文qを検索対象文書と同じ第2言語の記述qhにそれぞれ翻訳し、統合化手段2が各翻訳装置が出力した3つの翻訳結果qhからそれぞれ語ベクトルを求め、これら3つの語ベクトルを後述するような方法で1つの語ベクトルに統合化する。一方、検索対象の各文書Dにはそれぞれに予め語ベクトル(特徴量)が算出されて付加されており、検索手段3が統合化された検索条件の語ベクトルと対象文書語ベクトルとが所定の類似関係にある対象文書を対象文書集合D中から特定し、当該特定された文書を検索結果として出力手段5から出力する。
As an embodiment of the present invention, three types of multilingual document search processes as outlined in FIG. 2 will be described below.
As a first embodiment, a search question sentence (search condition) q described in a first language is input from the input means 4, and the search question sentence q into which each translation device 1a, 1b, 1c is input is searched. Each of them is translated into a description qh in the same second language as the document, and the integration means 2 obtains word vectors from the three translation results qh output from the respective translation devices, and these three word vectors are converted to 1 by a method described later. Integrate into one word vector. On the other hand, a word vector (feature amount) is calculated and added in advance to each document D to be searched, and the word vector of the search condition integrated with the search means 3 and the target document word vector are predetermined. A target document having a similar relationship is specified from the target document set D, and the specified document is output from the output unit 5 as a search result.

また、第2の実施例としては、第2言語で記述された検索対象文書の全て(検索対象の文書集合)Dを入力手段4から入力し、各翻訳装置1a、1b、1cが入力された各対象文書をそれぞれ検索条件qと同じ第1言語の記述Dhにそれぞれ翻訳し、統合化手段2が各翻訳装置が出力した3つの翻訳結果qhからそれぞれ語ベクトルを求め、これら3つの語ベクトルを後述するような方法で1つの語ベクトルに統合化して、各対象文書毎に1つの語ベクトルとする。一方、入力された検索条件qに対して語ベクトルを算出し、検索手段3が算出された検索条件の語ベクトルと対象文書語ベクトルとが所定の類似関係にある対象文書を対象文書集合Dh中から特定し、当該特定された文書を検索結果として出力手段5から出力する。   In the second embodiment, all the search target documents (search target document set) D described in the second language are input from the input unit 4, and the translation devices 1a, 1b, and 1c are input. Each target document is translated into a description Dh of the same first language as the search condition q, and the integration unit 2 obtains a word vector from each of the three translation results qh output from each translation device. It is integrated into one word vector by a method as described later, and one word vector is obtained for each target document. On the other hand, a word vector is calculated for the input search condition q, and a target document in which the word vector of the search condition calculated by the search means 3 and the target document word vector have a predetermined similar relationship is included in the target document set Dh. And the specified document is output from the output means 5 as a search result.

また、第3の実施例としては、第1言語の検索質問文qを入力手段4から入力し、各翻訳装置1a、1b、1cが入力された検索質問文qを第1及び第2の言語とは異なる第3言語の記述qhにそれぞれ翻訳し、統合化手段2が各翻訳装置が出力した3つの翻訳結果qhからそれぞれ語ベクトルを求め、これら3つの語ベクトルを1つの語ベクトルに統合化する。また、第2言語の検索対象文書の全てDを入力手段4から入力し、各翻訳装置1a、1b、1cが入力された各対象文書をそれぞれ第3言語の記述Dhにそれぞれ翻訳し、統合化手段2が各翻訳装置が出力した3つの翻訳結果qhからそれぞれ語ベクトルを求め、これら3つの語ベクトルを1つの語ベクトルに統合化して、各対象文書毎に1つの語ベクトルとする。そして、検索手段3が検索条件の語ベクトルと対象文書の語ベクトルとが所定の類似関係にある対象文書を対象文書集合Dh中から特定し、当該特定された文書を検索結果として出力手段5から出力する。   As a third embodiment, a search question sentence q in the first language is input from the input means 4, and the search question sentence q into which each translation device 1a, 1b, 1c is input is the first and second languages. Is translated into a third language description qh different from, and the integration means 2 obtains word vectors from the three translation results qh output from the respective translation devices, and integrates these three word vectors into one word vector. To do. Also, all D search target documents in the second language are input from the input means 4, and each target document input by each of the translation devices 1a, 1b, 1c is translated into a third language description Dh, respectively, and integrated. The means 2 obtains word vectors from the three translation results qh output from each translation device, and integrates the three word vectors into one word vector to obtain one word vector for each target document. Then, the search unit 3 specifies a target document in which the word vector of the search condition and the word vector of the target document have a predetermined similarity relationship from the target document set Dh, and the specified document is output from the output unit 5 as a search result. Output.

図3には、上記第1の実施例に相当する多言語文書検索装置のより具体的な構成を示してある。
本実施例の多言語文書検索装置では、検索対象の複数の文書が各文書に含まれる語を基準とした特徴量(語ベクトル)を付加して対象文書データベース6に格納されている。
例えば、対象文書データベース6には、図4に示すように、各文書は、文書ID、文書名、語ベクトル、文書の実データへのポインタが対応付けて格納される。なお、検索対象の文書は、データベース形式にまとめられたもの以外に、ネットワーク上に配置された文書データを対象とすることもできる。
FIG. 3 shows a more specific configuration of the multilingual document search apparatus corresponding to the first embodiment.
In the multilingual document search apparatus according to the present embodiment, a plurality of documents to be searched are stored in the target document database 6 with feature quantities (word vectors) based on words included in each document added.
For example, as shown in FIG. 4, the target document database 6 stores each document in association with a document ID, a document name, a word vector, and a pointer to actual data of the document. Note that the search target document may be document data arranged on a network other than those collected in a database format.

また、例えば、文書の語ベクトルは、予め設定された複数の特徴語について、文書に含まれている語の内の当該特徴語に該当する語を行とし、相当するが当該文書の内容を示す度合い(重み:例えば、出現頻度、内容の特徴度)を要素値とした語ベクトルであり、図6に例示するように、3つの特徴語a、b、cがそれぞれ重みwa、wb、wcで存在する文書の語ベクトルVは(wa、wb、wc)の3次元ベクトルとして表現される。   Further, for example, the word vector of a document indicates, for a plurality of preset characteristic words, a word corresponding to the characteristic word among the words included in the document, and correspondingly indicates the content of the document. This is a word vector whose element value is a degree (weight: for example, appearance frequency, content feature), and three feature words a, b, and c are weights wa, wb, and wc, respectively, as illustrated in FIG. The word vector V of the existing document is expressed as a three-dimensional vector (wa, wb, wc).

ここで、検索条件や翻訳結果の語ベクトルについても同様であり、予め設定された複数の特徴語について、検索条件や翻訳結果に含まれている語の内の当該特徴語に該当する語を行とし、相当するが当該文書の内容を示す度合い(重み:例えば、出現頻度、内容の特徴度)を要素値とした語ベクトルである。
なお、語ベクトル同士は語ベクトル間の余弦値が小さい程類似すると判定するが、これら語ベクトルは行(特徴語)が同じものである。例えば、検索条件の翻訳結果から算出する語ベクトルと、対象文書から算出する語ベクトルとは、同じ特徴語を行としたベクトルである。
The same applies to the search condition and the word vector of the translation result. For a plurality of preset feature words, the word corresponding to the feature word among the words included in the search condition and the translation result is executed. This is a word vector whose element value is a degree indicating the content of the document (weight: for example, appearance frequency, content characteristic).
Note that the word vectors are determined to be similar as the cosine value between the word vectors decreases, but these word vectors have the same row (feature word). For example, the word vector calculated from the translation result of the search condition and the word vector calculated from the target document are vectors having the same feature word as a row.

そして、本実施例の多言語文書検索装置では、図5に示すように、第1言語の検索条件(検索質問文)qを入力手段4から入力し、各翻訳装置1a、1b、1cが入力された検索質問文を検索対象文書と同じ第2言語にそれぞれ翻訳し、統合化手段2が検索質問文についての3つの翻訳結果qhA、qhB、qhCから各翻訳結果に含まれる語を基準とした語ベクトルVA、VB、VCを求め、これら3つの語ベクトルを後述の方法で1つの語ベクトルVに統合化し、検索手段3が対象文書データベース6を検索して、統合化された検索条件の語ベクトルと対象文書語ベクトルとが所定の類似度合い(余弦)にある文書を特定し、当該特定された文書を検索結果(例えば、文書名のリスト)として出力手段5から出力する。   In the multilingual document search apparatus according to the present embodiment, as shown in FIG. 5, the search condition (search question sentence) q in the first language is input from the input means 4, and each translation apparatus 1a, 1b, 1c is input. The retrieved query sentences are translated into the same second language as the document to be retrieved, and the integration means 2 uses the three translation results qhA, qhB, and qhC for the search question sentences as a reference for the words included in each translation result. The word vectors VA, VB, VC are obtained, these three word vectors are integrated into one word vector V by a method described later, and the search means 3 searches the target document database 6 to search for the words of the integrated search condition. A document in which the vector and the target document word vector have a predetermined similarity (cosine) is specified, and the specified document is output from the output unit 5 as a search result (for example, a list of document names).

ここで、第2言語へ翻訳された検索質問文は、実際には語集合として検索処理に利用されるため、第2言語の文章として必ずしも完全なもの (すなわち、人間にとって可読であり、自然な文章) である必要はない。ただし、助詞の使い方や時制についての不完全さは許される (検索性能には影響を与えない) が、機能語を代表とする意味的に重要性の高い語の対応については正しく変換(翻訳)されるのが好ましい。   Here, since the search question sentence translated into the second language is actually used in the search process as a word set, it is not necessarily complete as the second language sentence (that is, human-readable and natural Text)). However, imperfections in the usage and tense of particles are allowed (does not affect search performance), but correct translation (translation) for semantically important words such as function words. Preferably it is done.

また、翻訳された各検索質問文(他の実施例では文書)語を抽出して、当該特徴語の各検索質問文(他の実施例では文書)内での重み付けを行うが、特徴語の重みの定め方としては、語の出現頻度(TF)、語の文書頻度の逆数 (IDF)、それらの組み合わせ(TF−IDF) など公知の様々な方法を採用することができ、要は、特徴語がそれが存在する検索質問文や文書において内容を特徴付けている度合いを重みとして定められればよい。
なお、以下の説明は最も頻繁に利用されるTF−IDFを利用した場合として話を進めるが、重み付けの詳細については上記非特許文献2を参照されたい。
Also, each translated search question sentence (document in other embodiments) is extracted and weighted in each search question sentence (document in other embodiments) of the feature word. As a method of determining the weights, various known methods such as word appearance frequency (TF), reciprocal number of word document frequency (IDF), and combinations thereof (TF-IDF) can be adopted. The degree to which the word characterizes the content in the search question sentence or document in which the word exists may be determined as a weight.
In addition, although the following description advances a case as TF-IDF utilized most frequently, please refer to the said nonpatent literature 2 for the detail of weighting.

また、翻訳によって生成された複数の語ベクトルを統合して、検索で利用する1つの語ベクトルを生成するベクトル統合方法としては、例えば、平均法、加重平均法、多数決法、最良選択法のいずれかを使用目的等に応じて採用することができる。
これらの方法を、翻訳によってn個の語ベクトルV1、V2、・・・Vnが生成され、これらを1つの語ベクトルVに統合化する例を用いて説明する。
In addition, as a vector integration method for integrating a plurality of word vectors generated by translation and generating one word vector used in a search, for example, any one of an average method, a weighted average method, a majority method, and a best selection method It can be employed depending on the purpose of use.
These methods will be described using an example in which n word vectors V1, V2,... Vn are generated by translation and integrated into one word vector V.

「平均法」では、語ベクトルV1、V2、・・・Vnの重心を統合化語ベクトルVとする。具体的には、語ベクトルV1、V2、・・・Vnを全て加算して、それをnで割ったものが統合化語ベクトルVとなる。
平均法は個々の翻訳システムの性能特性をまんべんなく利用したものであり、「平均はよい結果をもたらす」という前提に立つならば、多言語情報検索でもよい結果をもたらすことが期待される。
検索質問文qの忠実な翻訳がqh1、qh2・・・qhn の中に存在する場合には、それのみを用いる場合に比べて (他の悪い翻訳文も利用するため) 検索性能が劣化する可能性があるが、全体として (すなわち平均的には) 平均法はよい結果をもたらすことが期待できる。
In the “average method”, the centroid of the word vectors V1, V2,. Specifically, the word vectors V1, V2,... Vn are all added and divided by n is the integrated word vector V.
The average method uses the performance characteristics of each translation system evenly. If the premise is that “average gives good results”, it is expected that multilingual information retrieval will give good results.
When the faithful translation of the search query sentence q exists in qh1, qh2,... Qhn, the search performance may be degraded compared to using only it (because other bad translation sentences are also used). However, overall (ie, on average) the average method can be expected to give good results.

「加重平均法」では、語ベクトルV1、V2、・・・Vnを各々の比重 α1、α2、・・・αnで加重平均したものを統合化語ベクトルVとする。形式的には、(α1×V1+α2×V2+・・・+αn×Vn)/(α1+α2+・・・+αn)と表すことができる。
各ベクトルの比重は、各翻訳システムに対する信用度と考えることもできる。具体的に比重をどのように定めるかは、訓練データから学習すればよい。訓練データとしては、第1言語の検索質問文を入力とし、それにマッチする第2言語の文書集合が与えられればよい。さらには、第1言語での検索質問文の特性に応じて、各翻訳システムの比重を決定することが望ましい。
加重平均法も基本的には平均法と同様であるが、よい翻訳システムをより重視し、よくない翻訳システムを軽視するという違いがある。ただし、この翻訳システムに対する重み付けが、検索での性能に大きく影響を与えるため、訓練データからの重み付けの学習が重要となる。
In the “weighted average method”, the word vectors V1, V2,... Vn are weighted and averaged with specific gravity α1, α2,. Formally, it can be expressed as (α1 × V1 + α2 × V2 +... + Αn × Vn) / (α1 + α2 +... + Αn).
The specific gravity of each vector can be considered as the reliability of each translation system. How to determine the specific gravity may be learned from the training data. As training data, a search query sentence in the first language may be input, and a document set in the second language that matches it may be given. Furthermore, it is desirable to determine the specific gravity of each translation system according to the characteristics of the search question sentence in the first language.
The weighted average method is basically the same as the average method, except that a good translation system is emphasized more and a bad translation system is neglected. However, since weighting for this translation system greatly affects the performance in search, learning of weighting from training data is important.

「多数決法」では、ベクトルの各行毎に、語ベクトルV1、V2、・・・Vnの“0” でない要素の個数が半数以上ならその総和を要素とし、そうでない場合は“0”を要素とする統合化語ベクトルVとする。
多数決法は、ベクトルの個々の行 (すなわち第2言語での語) 毎に要素を文字通り多数決で決定する。平均法よりめりはりのきいた結果となることが予想され、平均法に比べ、検索性能の (良い場合と悪い場合の) 変動が大きいものと予想される。
In the “majority voting method”, if the number of elements other than “0” in the word vectors V1, V2,... Vn is more than half of each vector row, the sum is used as an element, otherwise “0” is used as an element. The integrated word vector V to be
The majority voting method literally determines the elements for each individual row of vectors (ie words in the second language). It is expected that the results will be more conspicuous than the average method, and the fluctuations in search performance (good and bad) are expected to be larger than the average method.

「最良選択法」では、翻訳された複数の検索質問文の内の最良のものを選択し、それから生成した語ベクトルを統合化ベクトルVとして採用する。
翻訳結果(検索質問文)の良否の定め方について、いくつかの例を示す。
まずは、第2言語の検索質問文の各々を第1言語に逆翻訳し、オリジナルの検索質問文との類似度を算出し、最も類似度の高いものを最良とみなすということが考えられる。逆変換の翻訳システムは必ずしも複数備える必要はなく、異なる別の単一の翻訳システムで全ての検索質問文を逆翻訳してもよい。また、検索質問文の類似度の算出方法については、下記の文書間の類似度算出方法を利用すればよい。
In the “best selection method”, the best one of a plurality of translated search question sentences is selected, and a word vector generated therefrom is adopted as an integrated vector V.
Some examples of how to determine the quality of translation results (search question text) are shown.
First, it is conceivable that each search query sentence in the second language is back-translated into the first language, the degree of similarity with the original search question sentence is calculated, and the one with the highest degree of similarity is regarded as the best. It is not always necessary to provide a plurality of reverse conversion translation systems, and all search query sentences may be reverse translated using different single translation systems. As a method for calculating the similarity of the search question sentence, the following method for calculating the similarity between documents may be used.

次に、訓練データから検索質問文の性質に応じてどの翻訳システムが最良であるかの判定を学習させるという方法も考えられる。
最良選択法は、最良の翻訳結果を利用するのであるから、検索においてもよい結果をもたらすことが期待されるが、翻訳システムのくせによる翻訳結果の表現の違いのぶれを吸収することは期待できない。また、何を最良とみなすかにより、検索の性能も異なる。
Next, a method of learning which translation system is the best from the training data according to the nature of the search question sentence can be considered.
Since the best selection method uses the best translation result, it is expected to give good results in the search, but it cannot be expected to absorb the fluctuation in the expression of the translation result due to the habit of the translation system. . Also, the search performance varies depending on what is considered the best.

また、複数の検索質問文の翻訳結果から統合化した語ベクトルVを用いて、ベクトル空間モデルに基づいて類似文書検索を行う処理は次のようにして行うことができる。
ベクトル空間モデルでは、検索対象の文書も同じベクトル空間上の点として表現される。すなわち、検索に先立って対象文書集合の個々の文書に対して、対応する語ベクトルを生成しておくことが必要となる。文書間 (または質問文と文書間) の類似度はベクトルの余弦として定義される。ベクトル空間モデルの詳細については公知であり、非特許文献2を参照されたい。
In addition, the process of performing a similar document search based on the vector space model using the word vector V integrated from the translation results of a plurality of search question sentences can be performed as follows.
In the vector space model, a search target document is also expressed as a point on the same vector space. That is, it is necessary to generate a corresponding word vector for each document in the target document set prior to the search. The similarity between documents (or questions and documents) is defined as the cosine of a vector. Details of the vector space model are publicly known, and see Non-Patent Document 2.

図7には、上記第2の実施例に相当する多言語文書検索装置のより具体的な構成を示してある。
本実施例の多言語文書検索装置では、対象文書データベース6から第2言語の検索対象文書の全てを入力手段4から入力し、各翻訳装置1a、1b、1cが入力された各対象文書をそれぞれ検索条件と同じ第1言語にそれぞれ翻訳し、統合化手段2が上記のようにして各対象文書毎の3つの翻訳結果からそれぞれ語ベクトルを求め、これら3つの語ベクトルを上記のようにして1つの語ベクトルに統合化して、各対象文書毎に1つの語ベクトルとする。
FIG. 7 shows a more specific configuration of the multilingual document search apparatus corresponding to the second embodiment.
In the multilingual document search apparatus of this embodiment, all the search target documents in the second language are input from the input unit 4 from the target document database 6, and the target documents to which the translation apparatuses 1a, 1b, and 1c are input are respectively input. Each is translated into the same first language as the search condition, and the integrating means 2 obtains word vectors from the three translation results for each target document as described above, and these three word vectors are converted into 1 as described above. One word vector is integrated for each target document.

一方、第1言語の検索条件が入力手段41(入力手段4と共用してもよい)から統合化手段2に入力され、統合化手段2が検索条件に対してそれが包含する語を基準とした特徴量(語ベクトル)を算出する。なお、本例では、統合化手段2を検索条件に対して語ベクトルを算出する特徴化手段に共用しているが、特徴化手段を別途設けてもよい。
そして、検索手段3が算出された検索条件の語ベクトルと対象文書の語ベクトルとが所定の類似関係にあるかを判定し、検索条件に合致する(所定の類似関係にある)対象文書を対象文書データベース6から特定し、当該特定された文書を検索結果として出力手段5から出力する。
On the other hand, the search condition of the first language is input from the input means 41 (which may be shared with the input means 4) to the integration means 2, and the integration means 2 uses the words included in the search condition as a reference. The calculated feature amount (word vector) is calculated. In this example, the integration unit 2 is shared by the characterization unit that calculates the word vector with respect to the search condition. However, the characterization unit may be provided separately.
Then, it is determined whether the word vector of the search condition calculated by the search means 3 and the word vector of the target document have a predetermined similarity, and the target document that matches the search condition (has the predetermined similarity) is targeted. The document is identified from the document database 6, and the identified document is output from the output means 5 as a search result.

なお、本実施例において、ベクトル空間モデルでの検索を行う場合には、第1の実施例と同様に、文書が必ずしも完全な文章として翻訳される必要はなく、語間の対応ができるだけ正しく取れるものとして翻訳されればよい。
本実施例は、検索条件を翻訳する第1の実施例と比較すれば、検索に先立って検索対象の文書を第1言語に翻訳しておく必要があり、オーバーヘッドが高いといえるが、検索時には、検索条件を翻訳する必要はないという利点がある。したがって、本実施例は、検索対象の文書集合が変化しない状況で、なおかつ検索時のスピードを重視する場合には有効である。
In this embodiment, when searching using a vector space model, as in the first embodiment, the document does not necessarily have to be translated as a complete sentence, and correspondence between words can be taken as accurately as possible. What is necessary is just to translate as a thing.
Compared with the first embodiment for translating search conditions, this embodiment needs to translate the document to be searched into the first language prior to the search, and it can be said that the overhead is high. There is an advantage that it is not necessary to translate the search condition. Therefore, this embodiment is effective when the search target document set does not change and the speed at the time of search is important.

図8には、上記第3の実施例に相当する多言語文書検索装置のより具体的な構成を示してある。
本実施例の多言語文書検索装置では、第1言語の検索質問文を入力手段4から入力し、各翻訳装置1a、1b、1cが入力された検索質問文を第3言語にそれぞれ翻訳し、統合化手段2が各翻訳装置が出力した3つの翻訳結果からそれぞれ語ベクトルを求め、これら3つの語ベクトルを1つの語ベクトルに統合化する。
FIG. 8 shows a more specific configuration of the multilingual document search apparatus corresponding to the third embodiment.
In the multilingual document search apparatus according to the present embodiment, the search query sentence in the first language is input from the input unit 4, and the search query sentences input by the translation devices 1a, 1b, and 1c are respectively translated into the third language. The integration unit 2 obtains word vectors from the three translation results output from each translation device, and integrates these three word vectors into one word vector.

また、対象文書データベース6から第2言語の検索対象文書の全てを入力手段4により入力し、各翻訳装置1a、1b、1cが入力された各対象文書をそれぞれ第3言語にそれぞれ翻訳し、統合化手段2が各翻訳装置が出力した3つの翻訳結果からそれぞれ語ベクトルを求め、これら3つの語ベクトルを1つの語ベクトルに統合化して、各対象文書毎に1つの語ベクトルとする。
そして、検索手段3が検索条件の語ベクトルと対象文書の語ベクトルとが所定の類似関係にある対象文書を対象文書データベース6から特定し、当該特定された文書を検索結果として出力手段5から出力する。
Further, all the search target documents in the second language are input from the target document database 6 by the input means 4, and the respective target documents input by the translation devices 1a, 1b, and 1c are respectively translated into the third language and integrated. The conversion unit 2 obtains word vectors from the three translation results output from the respective translation devices, and integrates the three word vectors into one word vector to obtain one word vector for each target document.
Then, the search unit 3 specifies a target document in which the word vector of the search condition and the word vector of the target document have a predetermined similarity relationship from the target document database 6 and outputs the specified document from the output unit 5 as a search result. To do.

本実施例のように中間言語(第3言語)を介して多言語文書検索を行う利点としては、第1言語及び第2言語のみならず、より多くのさまざまな言語の文書を扱う場合においても、全て第3言語を介して検索を行うことで、アルゴリズムがシンプルになるという利点がある。例えば、3種類の言語を対象に、いずれの言語で検索条件を記述してもそれにマッチする3種類の言語の文書を取得する場合、中間言語の存在を前提としない場合には、全ての言語の組み合わせについて翻訳を行う必要があるが、中間言語の存在を前提とすることで、個々の言語は中間言語との翻訳のみを行えばよいこととなる。
ここで、中間言語は必ずしも日本語や英語のような自然言語である必要はなく、自然言語の語を多次元空間の軸とするのではなく、非特許文献1に記載されるLatent Semantic Indexing(LSI)のように数学的に抽出された成分を軸として利用してもよい。
As an advantage of performing multilingual document search through an intermediate language (third language) as in the present embodiment, not only in the first language and the second language, but also in the case of handling documents in many different languages. All of the search through the third language has an advantage that the algorithm becomes simple. For example, for 3 types of languages, if you want to obtain documents of 3 types of languages that match the search conditions in any language, if you do not assume the existence of an intermediate language, all languages It is necessary to translate the combination of the above, but assuming that there is an intermediate language, each language need only be translated with the intermediate language.
Here, the intermediate language does not necessarily need to be a natural language such as Japanese or English. Instead of using a natural language word as an axis of a multidimensional space, a non-patent document 1 describes a Latent Semantic Indexing ( A component that is mathematically extracted (such as LSI) may be used as an axis.

上記のように
検索条件や対象文書を複数の翻訳システムで翻訳することにより、同じ語が複数の語に変換されるため翻訳のぶれを吸収することができ、また、同じ語が同一の語に変換されるため多義性のない対応関係の安定した語 (専門用語など) の重要度を強調することができる。
なお、文書を語集合とみなす検索モデルとしては、ベクトル空間モデルの他、非特許文献3に記載されるような確率モデルに基づく検索手法を用いるようにしてもよい。
By translating search conditions and target documents with multiple translation systems as described above, the same words are converted into multiple words, so translation blurring can be absorbed. Because it is converted, it is possible to emphasize the importance of stable words (such as technical terms) that have no ambiguity.
In addition, as a search model for regarding a document as a word set, a search method based on a probability model as described in Non-Patent Document 3 may be used in addition to a vector space model.

また、上記の実施例では、複数の翻訳システムを利用して検索条件や対象文書を翻訳してから語ベクトルを生成したが、検索条件や対象文書を語ベクトルにしてから翻訳後の言語の複数の語ベクトルに変換することも考えられる。ただし、この際に必要となるのは、翻訳システムではなく語をマッピングする対訳辞書であり、そこで行う処理は翻訳というより辞書引きであるということもできる。
また、語ベクトルの生成後、文書検索を行う前に、語を類義語に展開することも考えられ、一般の情報検索でいわれるところの「検索質問展開 (query expansion)」を行って、語の表記のぶれを吸収することもできる。
In the above embodiment, a word vector is generated after a search condition or target document is translated using a plurality of translation systems. However, a plurality of languages after translation after the search condition or target document is made a word vector. It is also possible to convert to a word vector. However, what is needed at this time is not a translation system but a bilingual dictionary for mapping words, and the processing performed there is not a translation but a dictionary lookup.
It is also possible to expand the word into a synonym after generating the word vector and before performing the document search, and by performing a “query expansion” that is commonly used in information search, It can also absorb the blur of the notation.

本発明の一実施例に係る多言語文書検索装置の主要部構成を示す図である。It is a figure which shows the principal part structure of the multilingual document search device based on one Example of this invention. 本発明の実施例に係る多言語文書検索処理を説明する図である。It is a figure explaining the multilingual document search process based on the Example of this invention. 本発明の第1の実施例に係る多言語文書検索装置の構成を示す図である。It is a figure which shows the structure of the multilingual document search apparatus based on 1st Example of this invention. 本発明の一例に係る対象文書のデータ構成を示す図である。It is a figure which shows the data structure of the object document which concerns on an example of this invention. 本発明の第1の実施例に係る多言語文書検索処理を説明する図である。It is a figure explaining the multilingual document search process which concerns on 1st Example of this invention. 本発明の一例に係るベクトル空間を説明する図である。It is a figure explaining the vector space which concerns on an example of this invention. 本発明の第2の実施例に係る多言語文書検索装置の構成を示す図である。It is a figure which shows the structure of the multilingual document search apparatus based on 2nd Example of this invention. 本発明の第3の実施例に係る多言語文書検索装置の構成を示す図である。It is a figure which shows the structure of the multilingual document search apparatus based on 3rd Example of this invention.

符号の説明Explanation of symbols

1a、1b、1c:翻訳装置、 2:統合化手段(特徴化手段)、
3:検索手段、 4、41:入力手段、
5:出力手段、 6:対象文書データベース、
1a, 1b, 1c: translation device, 2: integration means (characterizing means),
3: Search means 4, 41: Input means
5: output means, 6: target document database,

Claims (12)

第1言語で記載された検索条件に基づいて、第2言語で記載された複数の対象文書の内から検索条件に合致する文書を検索する多言語文書検索装置であって、
検索条件又は対象文書の少なくともいずれか一方を翻訳して、検索条件と対象文書とを同じ言語による記述に翻訳する複数の翻訳手段と、
複数の翻訳結果をそれらが包含する語を基準とした特徴量に変換して、検索条件又は対象文書毎の特徴量に統合化する統合化手段と、
統合化された特徴量の類似関係に基づいて検索条件から対象文書を検索する検索手段と、
を備えたことを特徴とする多言語文書検索装置。
A multilingual document search device that searches a document that matches a search condition from a plurality of target documents described in a second language based on a search condition described in a first language,
A plurality of translation means for translating at least one of the search condition and the target document, and translating the search condition and the target document into a description in the same language;
An integration means for converting a plurality of translation results into a feature value based on a word included in the translation result and integrating the feature value for each search condition or target document;
A search means for searching for a target document from a search condition based on the similarity relationship of integrated feature values;
A multilingual document search device characterized by comprising:
第1言語で記載された検索条件に基づいて、第2言語で記載された複数の対象文書の内から検索条件に合致する文書を検索する多言語文書検索装置であって、
複数の対象文書をそれらが包含する語を基準とした特徴量に対応付けて保持する対象文書保持手段と、
検索条件を第2言語の記述に翻訳する複数の翻訳手段と、
複数の翻訳結果をそれらが包含する語を基準とした特徴量に変換して、検索条件の特徴量に統合化する統合化手段と、
統合化された検索条件の特徴量と前記対象文書保持手段に保持された対象文書の特徴量との類似関係に基づいて検索条件から対象文書を検索する検索手段と、
を備えたことを特徴とする多言語文書検索装置。
A multilingual document search device that searches a document that matches a search condition from a plurality of target documents described in a second language based on a search condition described in a first language,
A target document holding means for holding a plurality of target documents in association with feature quantities based on words included in the target documents;
A plurality of translation means for translating the search condition into a description in the second language;
An integration means for converting a plurality of translation results into a feature value based on a word included in the translation result and integrating the feature value in a search condition;
A search means for searching for a target document from a search condition based on a similarity relationship between the feature quantity of the integrated search condition and the feature quantity of the target document held in the target document holding means;
A multilingual document search device characterized by comprising:
第1言語で記載された検索条件に基づいて、第2言語で記載された複数の対象文書の内から検索条件に合致する文書を検索する多言語文書検索装置であって、
複数の対象文書をそれぞれ第1言語の記述に翻訳する複数の翻訳手段と、
対象文書毎の複数の翻訳結果をそれらが包含する語を基準とした特徴量に変換して、対象文書毎の特徴量に統合化する統合化手段と、
検索条件をそれが包含する語を基準とした特徴量に変換する特徴化手段と、
統合化された対象文書毎の特徴量と検索条件の特徴量との類似関係に基づいて検索条件から対象文書を検索する検索手段と、
を備えたことを特徴とする多言語文書検索装置。
A multilingual document search device that searches a document that matches a search condition from a plurality of target documents described in a second language based on a search condition described in a first language,
A plurality of translation means for translating a plurality of target documents respectively into a description in a first language;
An integration means for converting a plurality of translation results for each target document into a feature value based on a word included in the target document, and integrating the feature value for each target document;
Characterization means for converting a search condition into a feature value based on a word included in the search condition;
A search means for searching for a target document from a search condition based on a similarity relationship between the feature quantity of each integrated target document and the feature quantity of the search condition;
A multilingual document search device characterized by comprising:
第1言語で記載された検索条件に基づいて、第2言語で記載された複数の対象文書の内から検索条件に合致する文書を検索する多言語文書検索装置であって、
検索条件と複数の対象文書をそれぞれ第3言語の記述に翻訳する複数の翻訳手段と、
検索条件の複数の翻訳結果をそれらが包含する語を基準とした特徴量に変換して、検索条件の特徴量に統合化し、また、対象文書毎の複数の翻訳結果をそれらが包含する語を基準とした特徴量に変換して、対象文書毎の特徴量に統合化する統合化手段と、
統合化された検索条件の特徴量と対象文書の特徴量との類似関係に基づいて検索条件から対象文書を検索する検索手段と、
を備えたことを特徴とする多言語文書検索装置。
A multilingual document search device that searches a document that matches a search condition from a plurality of target documents described in a second language based on a search condition described in a first language,
A plurality of translation means for translating the search condition and the plurality of target documents, respectively, into a third language description;
Converts multiple translation results of search conditions into feature quantities based on the words they contain, integrates them into the feature quantities of the search conditions, and also includes words that contain multiple translation results for each target document An integration means for converting into a feature value as a reference and integrating it into a feature value for each target document;
A search means for searching for the target document from the search condition based on the similarity relationship between the feature quantity of the integrated search condition and the feature quantity of the target document;
A multilingual document search device characterized by comprising:
請求項1乃至請求項4のいずれか1項に記載の多言語文書検索装置において、
前記検索条件又は対象文書の特徴量は、検索条件又は対象文書に包含されている語の内の予め設定された複数種類の語を行とし、当該検索条件又は対象文書中における当該語の重要度を要素値とした語ベクトルであり、
前記特徴量の類似関係は語ベクトル間の余弦に基づいて判定されることを特徴とする多言語文書検索装置。
The multilingual document search device according to any one of claims 1 to 4,
The feature amount of the search condition or target document includes a plurality of preset words among the words included in the search condition or target document, and the importance of the word in the search condition or target document. Is a word vector with element value
The multilingual document search apparatus, wherein the similarity relation of the feature quantities is determined based on a cosine between word vectors.
第1言語で記載された検索条件に基づいて、第2言語で記載された複数の対象文書の内から検索条件に合致する文書を検索する多言語文書検索装置を、コンピュータにより構成するプログラムであって、
入力された検索条件を第2言語の記述に翻訳する複数の翻訳手段と、
複数の翻訳結果をそれらが包含する語を基準とした特徴量に変換して、検索条件の特徴量に統合化する統合化手段と、
複数の対象文書をそれらが包含する語を基準とした特徴量に対応付けて保持する対象文書保持手段を参照して、統合化された検索条件の特徴量と対象文書の特徴量との類似関係に基づいて検索条件から対象文書を検索する検索手段と、
をコンピュータに構成することを特徴とする多言語文書検索プログラム。
A computer program for configuring a multilingual document search apparatus that searches a document that matches a search condition from a plurality of target documents described in a second language based on the search condition described in the first language. And
A plurality of translation means for translating the input search condition into a description in the second language;
An integration means for converting a plurality of translation results into a feature value based on a word included in the translation result and integrating the feature value in a search condition;
Similarity relationship between the feature value of the integrated search condition and the feature value of the target document with reference to the target document holding means that holds a plurality of target documents in association with the feature values based on the words that they contain A search means for searching for a target document from a search condition based on
A multilingual document search program comprising:
第1言語で記載された検索条件に基づいて、第2言語で記載された複数の対象文書の内から検索条件に合致する文書を検索する多言語文書検索装置を、コンピュータにより構成するプログラムであって、
複数の対象文書をそれぞれ第1言語の記述に翻訳する複数の翻訳手段と、
対象文書毎の複数の翻訳結果をそれらが包含する語を基準とした特徴量に変換して、対象文書毎の特徴量に統合化する統合化手段と、
検索条件をそれが包含する語を基準とした特徴量に変換する特徴化手段と、
統合化された対象文書毎の特徴量と検索条件の特徴量との類似関係に基づいて検索条件から対象文書を検索する検索手段と、
をコンピュータに構成することを特徴とする多言語文書検索プログラム。
A computer program for configuring a multilingual document search apparatus that searches a document that matches a search condition from a plurality of target documents described in a second language based on the search condition described in the first language. And
A plurality of translation means for translating a plurality of target documents respectively into a description in a first language;
An integration means for converting a plurality of translation results for each target document into a feature value based on a word included in the target document, and integrating the feature value for each target document;
Characterization means for converting a search condition into a feature value based on a word included in the search condition;
A search means for searching for a target document from a search condition based on a similarity relationship between the feature quantity of each integrated target document and the feature quantity of the search condition;
A multilingual document search program comprising:
第1言語で記載された検索条件に基づいて、第2言語で記載された複数の対象文書の内から検索条件に合致する文書を検索する多言語文書検索装置、コンピュータにより構成するプログラムであって、
検索条件と複数の対象文書をそれぞれ第3言語の記述に翻訳する複数の翻訳手段と、
検索条件の複数の翻訳結果をそれらが包含する語を基準とした特徴量に変換して、検索条件の特徴量に統合化し、また、対象文書毎の複数の翻訳結果をそれらが包含する語を基準とした特徴量に変換して、対象文書毎の特徴量に統合化する統合化手段と、
統合化された検索条件の特徴量と対象文書の特徴量との類似関係に基づいて検索条件から対象文書を検索する検索手段と、
をコンピュータに構成することを特徴とする多言語文書検索プログラム。
A multi-language document search apparatus and a computer program configured to search a document that matches a search condition from a plurality of target documents described in a second language based on a search condition described in a first language. ,
A plurality of translation means for translating the search condition and the plurality of target documents, respectively, into a third language description;
Converts multiple translation results of search conditions into feature quantities based on the words they contain, integrates them into the feature quantities of the search conditions, and also includes words that contain multiple translation results for each target document An integration means for converting into a feature value as a reference and integrating it into a feature value for each target document;
A search means for searching for the target document from the search condition based on the similarity relationship between the feature quantity of the integrated search condition and the feature quantity of the target document;
A multilingual document search program comprising:
第1言語で記載された検索条件に基づいて、第2言語で記載された複数の対象文書の内から検索条件に合致する文書を検索する方法であって、
多言語文書検索装置が、検索条件又は対象文書の少なくともいずれか一方を複数の翻訳手段によりそれぞれ翻訳して検索条件と対象文書とを同じ言語による記述に翻訳し、複数の翻訳結果をそれらが包含する語を基準とした特徴量に変換して、検索条件又は対象文書毎の特徴量に統合化した後、統合化された特徴量の類似関係に基づいて検索条件から対象文書を検索することを特徴とする多言語文書検索方法。
A method for searching a document that matches a search condition from a plurality of target documents described in a second language based on the search condition described in a first language,
The multilingual document search device translates at least one of the search condition and the target document by a plurality of translation means, translates the search condition and the target document into a description in the same language, and includes a plurality of translation results. The feature amount based on the word to be used and integrated into the feature amount for each search condition or target document, and then the target document is searched from the search condition based on the similarity relationship of the integrated feature amount. A multilingual document search method as a feature.
第1言語で記載された検索条件に基づいて、第2言語で記載された複数の対象文書の内から検索条件に合致する文書を検索する方法であって、
多言語文書検索装置が、検索条件を複数の翻訳手段によりそれぞれ第2言語の記述に翻訳し、複数の翻訳結果をそれらが包含する語を基準とした特徴量に変換して、検索条件の特徴量に統合化した後、 複数の対象文書をそれらが包含する語を基準とした特徴量に対応付けて保持する対象文書保持手段を参照して、統合化された検索条件の特徴量と対象文書の特徴量との類似関係に基づいて検索条件から対象文書を検索することを特徴とする多言語文書検索方法。
A method for searching a document that matches a search condition from a plurality of target documents described in a second language based on the search condition described in a first language,
The multilingual document search device translates the search condition into a description in the second language by a plurality of translation means, converts the plurality of translation results into feature quantities based on the words included therein, and After integrating into a quantity, refer to the target document holding means that holds a plurality of target documents in association with the feature quantity based on the word that they contain, and the feature quantity and target document in the integrated search condition A multilingual document search method characterized in that a target document is searched from a search condition based on a similarity relationship with a feature amount of a document.
第1言語で記載された検索条件に基づいて、第2言語で記載された複数の対象文書の内から検索条件に合致する文書を検索する方法であって、
多言語文書検索装置が、複数の対象文書を複数の翻訳手段によりそれぞれ第1言語の記述に翻訳し、対象文書毎の複数の翻訳結果をそれらが包含する語を基準とした特徴量に変換して、対象文書毎の特徴量に統合化し、また、検索条件をそれが包含する語を基準とした特徴量に変換した後、統合化された対象文書毎の特徴量と検索条件の特徴量との類似関係に基づいて検索条件から対象文書を検索することを特徴とする多言語文書検索方法。
A method for searching a document that matches a search condition from a plurality of target documents described in a second language based on the search condition described in a first language,
A multilingual document search device translates a plurality of target documents into a description of a first language by a plurality of translation means, and converts a plurality of translation results for each target document into feature quantities based on words included in them. Are integrated into the feature quantity for each target document, and after the search condition is converted into a feature quantity based on a word included in the search condition, the integrated feature quantity for each target document and the feature quantity of the search condition are A multilingual document search method characterized in that a target document is searched from a search condition based on the similarity relationship.
第1言語で記載された検索条件に基づいて、第2言語で記載された複数の対象文書の内から検索条件に合致する文書を検索する方法であって、
多言語文書検索装置が、検索条件と複数の対象文書を複数の翻訳手段によりそれぞれ第3言語の記述に翻訳し、検索条件の複数の翻訳結果をそれらが包含する語を基準とした特徴量に変換して、検索条件の特徴量に統合化し、また、対象文書毎の複数の翻訳結果をそれらが包含する語を基準とした特徴量に変換して、対象文書毎の特徴量に統合化した後、統合化された検索条件の特徴量と対象文書の特徴量との類似関係に基づいて検索条件から対象文書を検索することを特徴とする多言語文書検索方法。
A method for searching a document that matches a search condition from a plurality of target documents described in a second language based on the search condition described in a first language,
A multilingual document search apparatus translates a search condition and a plurality of target documents into a description in a third language by a plurality of translation units, and uses a plurality of translation results of the search condition as a feature amount based on a word included in them. Converted and integrated into the feature value of the search condition, and also converted multiple translation results for each target document into feature values based on the words they contain, and integrated them into the feature values for each target document Then, a multilingual document search method characterized in that the target document is searched from the search condition based on the similar relationship between the feature quantity of the integrated search condition and the feature quantity of the target document.
JP2005169205A 2005-06-09 2005-06-09 Multilingual document retrieving device Pending JP2006344011A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005169205A JP2006344011A (en) 2005-06-09 2005-06-09 Multilingual document retrieving device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005169205A JP2006344011A (en) 2005-06-09 2005-06-09 Multilingual document retrieving device

Publications (1)

Publication Number Publication Date
JP2006344011A true JP2006344011A (en) 2006-12-21

Family

ID=37640935

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005169205A Pending JP2006344011A (en) 2005-06-09 2005-06-09 Multilingual document retrieving device

Country Status (1)

Country Link
JP (1) JP2006344011A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105446958A (en) * 2014-07-18 2016-03-30 富士通株式会社 Word aligning method and device
JP2022076827A (en) * 2020-11-10 2022-05-20 アスタミューゼ株式会社 Program, method, and information processing device

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105446958A (en) * 2014-07-18 2016-03-30 富士通株式会社 Word aligning method and device
JP2022076827A (en) * 2020-11-10 2022-05-20 アスタミューゼ株式会社 Program, method, and information processing device
JP7565537B2 (en) 2020-11-10 2024-10-11 アスタミューゼ株式会社 Program, method, and information processing device

Similar Documents

Publication Publication Date Title
KR100408637B1 (en) Method and system for similar word extraction and document retrieval
JP5011751B2 (en) Translation information output processing program, processing method, and processing apparatus
US8280721B2 (en) Efficiently representing word sense probabilities
US8055498B2 (en) Systems and methods for building an electronic dictionary of multi-word names and for performing fuzzy searches in the dictionary
JP4173774B2 (en) System and method for automatic retrieval of example sentences based on weighted edit distance
KR101522049B1 (en) Coreference resolution in an ambiguity-sensitive natural language processing system
CN1434952A (en) Method and system for retrieving information based on meaningful head words
WO2005059771A1 (en) Translation judgment device, method, and program
CN102479252A (en) Query expression conversion apparatus and query expression conversion method
JP2009075791A (en) Apparatus, method, program and system for machine translation
KR100396826B1 (en) Term-based cluster management system and method for query processing in information retrieval
JP2011118689A (en) Retrieval method and system
US20020022953A1 (en) Indexing and searching ideographic characters on the internet
KR100341396B1 (en) 3-D clustering representation system and method using hierarchical terms
Saad et al. Cross-lingual semantic similarity measure for comparable articles
US8229970B2 (en) Efficient storage and retrieval of posting lists
KR20160009916A (en) Query Translator and Method for Cross-language Information Retrieval using Liguistic Resources from Wikipedia and Parallel Corpus
Nasharuddin et al. Cross-lingual information retrieval
JP6106489B2 (en) Semantic analyzer and program
JP2006344011A (en) Multilingual document retrieving device
Melinamath Rule based methodology for recognition of Kannada named entities
US10572592B2 (en) Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases
JP2000194721A (en) Document group classification device and document group classification method
JP2004086307A (en) Information search device, information registration device, information search method, and computer-readable program
KR100956413B1 (en) Language Cross Search Method and System

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20070928

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071024