JP2002278982A - Information extraction method and information retrieval method - Google Patents
Information extraction method and information retrieval methodInfo
- Publication number
- JP2002278982A JP2002278982A JP2001082668A JP2001082668A JP2002278982A JP 2002278982 A JP2002278982 A JP 2002278982A JP 2001082668 A JP2001082668 A JP 2001082668A JP 2001082668 A JP2001082668 A JP 2001082668A JP 2002278982 A JP2002278982 A JP 2002278982A
- Authority
- JP
- Japan
- Prior art keywords
- evaluation
- information
- word
- expression
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【課題】 文書上の評価表現に着目し、意味分類あるい
は固有表現又は評価情報を抽出する。利用者に未知語,
未知情報あるいは未知評価情報を、利用者が文書検索に
利用可能にする。
【解決手段】 評価表現「新鋭」とそれが共起しうる意
味分類「人」等とを対応付けて記述した評価表現辞書3
と、評価表現と共起表現の文章上の出現する順番4aを
記述したパターン辞書4と用い、文章上単語列に辞書4
のパターンを照合し、辞書3を用いて単語列の、パター
ンと一致した単語を同定し、辞書4の、同定した単語列
が該当するパターンを検索し、該当したパターン上の評
価の対象項目「〇〇」の意味分類「人」を、辞書3から
得る。意味分類の他に、評価値,日付,タイトルなども
加える。文書および単語「〇〇」と、抽出した意味分類
等を対応付けてデータベース10に登録し、意味分類等
を与えて、文書または単語を検索する。
(57) [Summary] [Problem] To focus on evaluation expressions in a document and extract semantic classification or named expressions or evaluation information. Unknown words to the user,
Making unknown information or unknown evaluation information available to users for document search. SOLUTION: An evaluation expression dictionary 3 in which an evaluation expression "new" and a semantic classification "person" that can co-occur with the evaluation expression 3 are described in association with each other.
And a pattern dictionary 4 that describes the order of appearance 4a of the evaluation expression and the co-occurrence expression on the sentence.
And the dictionary 3 is used to identify a word that matches the pattern in the word string. The dictionary 4 searches for a pattern corresponding to the identified word string, and the evaluation target item “ The meaning classification “person” of “〇〇” is obtained from the dictionary 3. In addition to the semantic classification, an evaluation value, a date, a title, and the like are added. The document and the word “@” are registered in the database 10 in association with the extracted semantic classification and the like, and the semantic classification and the like are given to search for the document or the word.
Description
【0001】[0001]
【発明の属する技術分野】本発明は、電子文書あるいは
電子辞書の情報抽出方法ならびに情報検索方法に関す
る。The present invention relates to a method for extracting information from an electronic document or an electronic dictionary and a method for retrieving information.
【0002】[0002]
【従来技術】近年インターネット等により流通する電子
文書の量が飛躍的に増大し、すべての文書に目を通すと
いうことは不可能になっている。そのため、文書データ
ベースからユーザの所望の文書を検索するための検索技
術や情報分析技術、情報抽出技術が研究されてきてい
る。2. Description of the Related Art In recent years, the amount of electronic documents distributed over the Internet and the like has increased dramatically, making it impossible to read all documents. Therefore, a search technology, an information analysis technology, and an information extraction technology for searching a user's desired document from a document database have been studied.
【0003】検索においてはユーザが入力した語をキー
ワードとして、文書全体と照合をとる全文検索あるい
は、文書にあらかじめキーワードを付与しておきそのキ
ーワードと照合をとることで文書を検索する方法が一般
的である。[0003] In a search, a method generally used is a full-text search in which a word input by a user is used as a keyword to collate the entire document, or a method in which a keyword is previously assigned to the document and collated with the keyword to retrieve the document. It is.
【0004】また文書に対して、テキスト中の重要な表
現(固有名詞、日付など)をあらかじめ抽出する技術もあ
る。特に固有名詞は、それにかかわる意味を推定するこ
とで、文書内容の抽出やより精度の高い検索のためのキ
ーワードとして利用できる。There is also a technique for extracting important expressions (proper nouns, dates, etc.) in a text from a document in advance. In particular, proper nouns can be used as keywords for extracting document contents and for searching with higher accuracy by estimating the meaning related to them.
【0005】[0005]
【発明が解決しようとする課題】しかし、固有名詞は、
日々新しい組織や製品が作られたり、注目される人物が
変化することから、あらかじめすべてを辞書に登録して
おくことは非常に難しい。However, proper nouns are:
It is very difficult to register everything in a dictionary in advance because new organizations and products are created every day, and the people who are noticed change.
【0006】特開平7-85095号公報では、文書を構文解
析と文脈処理を行ない、固有表現とその関係について抽
出し、関係から固有表現の意味分類を推定している。こ
の場合、特定の着目した関係名を持つ動詞を中心にそれ
と修飾関係にある語句から意味を推定している。そのた
め、動詞と修飾関係がない場合に固有表現を抽出できな
い。In Japanese Patent Application Laid-Open No. 7-85095, a document is subjected to syntax analysis and context processing to extract a specific expression and its relation, and to estimate the semantic classification of the specific expression from the relation. In this case, the meaning is presumed from a verb having a specific relational name of interest and a word having a modification relation with the verb. Therefore, when there is no modification relationship with the verb, the named entity cannot be extracted.
【0007】また、上記のような動詞を中心とした関係
あるいはあらかじめ語の間の関係を記述したスロットに
近い形式での抽出の場合、あらかじめスロットや関係名
を用意する必要があるし、決められた情報だけしか抽出
することができない。In the case of the above-described extraction in a format close to a slot in which a relation centered on a verb or a relation between words is described in advance, it is necessary to prepare a slot or a relation name in advance, and it is necessary to prepare a predetermined name. Only the information that has been extracted can be extracted.
【0008】また、スロットや修飾関係によって文書中
の事実に関する情報は抽出できるが、抽出された固有表
現や事柄に対する評価に関する情報(よい、悪いや新し
い、古いなど)は、実際の検索や情報利用時にはユーザ
からみれば重要であるにもかかわらず抽出できない、と
いった問題がある。Although information on facts in a document can be extracted based on slots and modification relations, information (e.g., good, bad, new, old, etc.) about the extracted named entity and evaluation of matters can be extracted from actual search and use of information. There is a problem that it is sometimes impossible for a user to extract data even though it is important.
【0009】本発明は、評価に関する表現によって固有
表現や評価に関する情報を抽出することを第1の目的と
する。利用者にとって未知の語,未知の情報あるいは評
価情報を、文書検索に利用可能にすることを第2の目的
とする。[0009] A first object of the present invention is to extract information about a named entity and an evaluation by an expression about an evaluation. A second object is to make words unknown to a user, unknown information or evaluation information available for document search.
【0010】[0010]
【課題を解決するための手段】(1)評価を表す表現と
評価を表す表現が共起しうる意味分類とを対応付けて記
述した評価表現辞書と、評価を表す表現と共起する表現
の文章上の出現する順番を記述したパターン辞書とをも
ちいて、テキスト中の特定の表現あるいは、データベー
スあるいは辞書中の単語に対して意味分類を付与する、
意味情報抽出方法。Means for Solving the Problems (1) An evaluation expression dictionary in which an expression representing an evaluation and a semantic classification in which the expression representing the evaluation can co-occur is described, and an expression expression dictionary that co-occurs with the expression representing the evaluation Using a pattern dictionary that describes the order of appearance in a sentence, assigning semantic classification to specific expressions in text or words in a database or dictionary,
Semantic information extraction method.
【0011】これによれば、従来技術のように「開発」
等のあらかじめ抽出した述語とその関係によるもの以外
の、格関係など不明確なものあるいは述語がいろいろな
語と共起しうる共起制限のゆるい場合にも、取出したい
語を修飾する語の性質を利用して抽出が可能である。According to this, "development" is performed as in the prior art.
Other than the predicates and their relations extracted in advance, etc., the nature of the word that modifies the word to be extracted even if it is unclear such as case relation or the co-occurrence restriction that the predicate can co-occur with various words is loose It is possible to extract by using.
【0012】特に形容詞、修飾名詞、形容動詞などもの
の性質や状態を修飾/表現する語が、語によって修飾し
うる語が限定されることを利用し、抽出とともにその意
味分類を得ることができる。特に辞書中に未登録の人名
や組織名などの固有名詞について有効である。また、修
飾する語として形容詞、修飾名詞、形容動詞以外にも連
体詞、副詞、接続詞など品詞によらず可能である。In particular, words that modify / express the properties and states of adjectives, modifier nouns, adjective verbs, and the like are limited by the words that can be modified by the words, and semantic classification can be obtained along with extraction. In particular, it is effective for proper nouns such as names of persons and organizations that are not registered in the dictionary. Further, in addition to adjectives, modifier nouns, and adjective verbs, the words to be modified can be irrespective of part of speech such as adverbs, adverbs, and conjunctions.
【0013】格関係など不明確なものあるいは述語がい
ろいろな語と共起しうる共起制限のゆるい場合にも、抽
出したい語を修飾する語の性質によって語の抽出とその
意味分類を得ることができる。[0013] Even when an unclear thing such as a case relationship or a predicate can co-occur with various words, and the co-occurrence restrictions are loose, it is necessary to extract words and obtain their semantic classification according to the properties of the words that modify the words to be extracted. Can be.
【0014】[0014]
【発明の実施の形態】(1v)評価を表す表現と評価を
表す表現が共起しうる意味分類とを対応付けて記述した
評価表現辞書と、評価を表す表現と共起する表現の文章
上の出現する順番を記述したパターン辞書とを用いて、
文章中の単語列にパターン辞書のパターンを照合し、評
価表現辞書を用いて該単語列の、パターンと照合した単
語を同定し、パターン辞書の、同定した単語列が該当す
るパターンを検索し、該当したパターン上の評価の対象
項目の意味分類を、評価表現辞書から得る、評価情報抽
出方法。DESCRIPTION OF THE PREFERRED EMBODIMENTS (1v) An evaluation expression dictionary in which expressions representing evaluations and meaning classifications in which expressions representing evaluations can co-occur is described, and texts of expressions co-occurring with expressions representing evaluations. Using a pattern dictionary that describes the order in which
Match the pattern of the pattern dictionary with the word string in the sentence, identify the word matched with the pattern of the word string using the evaluation expression dictionary, search the pattern dictionary, the pattern corresponding to the identified word string, An evaluation information extracting method for obtaining a semantic classification of an evaluation target item on a corresponding pattern from an evaluation expression dictionary.
【0015】(2)評価を表す表現と評価を表す表現が
共起しうる意味分類とを対応付けて記述した評価表現辞
書と、評価を表す表現と共起する表現の文章上の出現す
る順番を記述したパターン辞書とをもちいて、テキスト
中の特定の表現あるいは、データベースあるいは辞書中
の単語に対して、評価を表す表現を付与する、評価情報
抽出方法。(2) An evaluation expression dictionary in which expressions representing evaluations are associated with semantic classifications in which expressions representing evaluations can co-occur, and the order in which the expressions expressing evaluations and expressions co-occurring appear in the text An evaluation information extraction method for assigning an expression representing an evaluation to a specific expression in a text or a word in a database or a dictionary, using a pattern dictionary that describes the evaluation.
【0016】これによれば、評価に関する情報を自動収
集できる。特に、従来は評価に関わるがあまり抽出対象
とならなかった形容詞、形容動詞などの語を利用するこ
とで評価に関する情報を得ることができる。具体的な後
述の例2では、ある人名に関しての評価情報を自動的に
収集できる。また、同一対象(例2では同一人物)に対す
る複数の文書からの評価情報も収集でき、同一対象に対
する情報を効率的に収集できる。According to this, information on the evaluation can be automatically collected. In particular, information on evaluation can be obtained by using words such as adjectives and adjective verbs that have conventionally been involved in evaluation but have not been extracted much. In a specific example 2 described later, evaluation information on a certain person's name can be automatically collected. Further, evaluation information from a plurality of documents for the same target (the same person in Example 2) can be collected, and information for the same target can be efficiently collected.
【0017】すなわち、抽出した情報に関する評価の情
報を自動的に収集が可能である。特に評価に関する情報
は、静的なデータからは得ることができず、様々な文書
の情報を元に作成する必要があり、これを自動的に作成
できる。That is, it is possible to automatically collect evaluation information on the extracted information. In particular, information related to evaluation cannot be obtained from static data, but must be created based on information of various documents, and can be created automatically.
【0018】(2v)評価を表す表現と評価情報とを対
応付けて記述した評価表現辞書と、評価を表す表現と共
起する表現の文章上の出現する順番を記述したパターン
辞書とを用いて、文章中の単語列にパターン辞書のパタ
ーンを照合し、評価表現辞書を用いて該単語列の、パタ
ーンと照合した単語を同定し、パターン辞書の、同定し
た単語列が該当するパターンを検索し、該当したパター
ン上の評価情報を、評価表現辞書から得る、評価情報抽
出方法。(2v) Using an evaluation expression dictionary in which expressions representing evaluations and evaluation information are described in association with each other, and a pattern dictionary in which the order of appearances of expressions co-occurring with the expressions representing evaluations appear in sentences are described. Then, a pattern in a pattern dictionary is compared with a word string in a sentence, a word in the word string is compared with the pattern using the evaluation expression dictionary, and a pattern corresponding to the identified word string in the pattern dictionary is searched. A method for extracting evaluation information on a corresponding pattern from an evaluation expression dictionary.
【0019】(2v−1)評価情報は、評価タイプであ
る上記(2v)の評価情報抽出方法。(2v-1) The evaluation information extracting method according to (2v), wherein the evaluation information is an evaluation type.
【0020】(2v−2)評価情報は、評価値である上
記(2v)の評価情報抽出方法。(2v-2) The evaluation information extracting method according to the above (2v), wherein the evaluation information is an evaluation value.
【0021】(3)評価表現辞書は、評価を表す表現と
評価を表す表現が共起しうる意味分類および評価情報と
を対応付けて記述したものであり、テキスト中の特定の
表現あるいは、データベースあるいは辞書中の単語に対
して、評価を表す表現と評価値を付与する、上記(2)
の評価情報抽出方法。(3) The evaluation expression dictionary is a description in which an expression representing an evaluation and an expression representing the evaluation are co-occurred with a semantic classification and evaluation information, and are described in a specific expression in a text or in a database. Alternatively, an expression representing an evaluation and an evaluation value are assigned to a word in the dictionary.
Method for extracting evaluation information.
【0022】これによれば、ある対象(一例では人名)に
関しての評価情報(新鋭)を自動的に収集でき、かつそ
の評価の情報がよいのか悪いのかの評価値(+,−,
0)を収集できる。情報のよし(+)、あし(−)によ
って、たとえば検索システムで文書を検索する際に文書
が複数みつかり、検索システム使用者の指定したキーワ
ードが同様に含まれている際には、評価情報(新鋭,+
/−/0)、特に評価値(+/−/0)を利用すること
でより、価値のある情報を得ることができる。According to this, it is possible to automatically collect evaluation information (advanced) about a certain object (in one example, a person's name), and evaluate values (+,-, +,-) of whether the evaluation information is good or bad.
0) can be collected. According to the information good (+) and the toe (-), for example, when a plurality of documents are found when a document is searched by the search system and the keyword specified by the search system user is also included, the evaluation information ( New, +
/ − / 0), in particular, by using the evaluation value (+ / − / 0), valuable information can be obtained.
【0023】抽出した情報に関する評価の情報を、良い
評価であるか悪い評価であるかを自動的に判定できる。
同一意味分類のもの、あるいは同一対象への評価が複数
ある場合の表示順に利用でき、効率的な情報提示が可能
である。It is possible to automatically determine whether the information of the evaluation regarding the extracted information is a good evaluation or a bad evaluation.
It can be used in the order of display when there are multiple evaluations of the same semantic classification or the same object, and efficient information presentation is possible.
【0024】(4)テキスト中の特定の表現あるいは、
データベースあるいは辞書中の単語に対して、更に、評
価表現が出現した文書の作成された日付を対応づけて付
与する、上記(2)又は(3)の評価情報抽出方法。(4) A specific expression in the text or
The evaluation information extraction method according to (2) or (3), wherein the date in which the document in which the evaluation expression appears is created and associated with a word in the database or the dictionary.
【0025】これによれば、上記(2)又は(3)と同
様に、ある対象(例えば人名)に関しての評価情報を自動
的に収集でき、かつそのように評価のあった時間的要素
(例えば1986.4)も同時に収集する。評価情報は、相対
的であり、特に「新しい/古い」あるいは「良し/悪
し」といった要素は時間的経過とともに変化する可能性
がある。評価の情報に時間情報を加えることで、評価情
報自体の信頼性や検索の際の検索文書のランキングに使
用可能である。また、抽出単語に対する評価と日付情報
を付与する際に、格納済みの日付情報と比較し、より新
しい場合だけ格納するとすれば、現時点での最新の評価
情報だけを反映することができる。According to this, similarly to the above (2) or (3), evaluation information on a certain object (for example, a person's name) can be automatically collected, and the time element (for example, 1986.4) is also collected at the same time. Evaluation information is relative, and in particular, factors such as “new / old” or “good / bad” may change over time. By adding time information to the evaluation information, it can be used for reliability of the evaluation information itself and ranking of search documents at the time of search. Further, when the evaluation and the date information for the extracted word are added, the date information is compared with the stored date information, and if only the newer information is stored, only the latest evaluation information at the present time can be reflected.
【0026】日付情報を付加することで、収集した評価
情報の信頼性、新規性をも得ることができる。特に語と
評価情報抽出の際、日付情報を検査することで、最新の
評価情報だけを格納することができる。By adding date information, reliability and novelty of collected evaluation information can be obtained. In particular, when words and evaluation information are extracted, only the latest evaluation information can be stored by checking the date information.
【0027】(5)テキスト中の特定の表現あるいは、
データベースあるいは辞書中の単語に対して、更に、抽
出した語あるいは表現が属していた文書の出典情報ある
いはタイトルを、抽出した語と対応付けて付与する、上
記(2),(3)又は(4)記載の評価情報抽出方法。(5) A specific expression in the text or
(2), (3) or (4), wherein the source information or the title of the document to which the extracted word or expression belongs is added to the word in the database or dictionary in association with the extracted word. ) Described evaluation information extraction method.
【0028】これによれば、上記(3)と同様に、ある
対象(一例では人名)に関しての評価情報を自動的に収集
でき、かつ、その評価の出現していた文書の出典情報、
タイトルを付加する。これによって、ある対象に対する
評価情報が、どのような文脈、場面、分野でなされたも
のなのかを抽出できる。この情報を利用することで、あ
る用語についての評価をどのような文脈での評価なのか
が判断できる。According to this, similarly to the above (3), it is possible to automatically collect evaluation information on a certain object (in one example, a person's name), and obtain the source information of the document in which the evaluation appears,
Add a title. As a result, it is possible to extract the context, the scene, and the field in which the evaluation information for a certain object is made. By using this information, it is possible to determine in what context the evaluation of a certain term is an evaluation.
【0029】語と評価に関する情報と、評価の情報が出
現した文書タイトルを付加することで、評価の内容をよ
り正確に記述しうる。特に検索システムなどで、使用者
が未知の語あるいは特定の語を知るためにシステムを利
用する際に所望の語に関する評価の文脈を得、正確に情
報提供できる。The contents of the evaluation can be described more accurately by adding the information on the word and the evaluation and the document title in which the information on the evaluation appears. In particular, in a search system or the like, when a user uses the system to know an unknown word or a specific word, the user can obtain a context for evaluation of a desired word and provide accurate information.
【0030】(6)テキスト中の特定の表現あるいは、
データベースあるいは辞書中の単語に対して、更に、抽
出した評価表現を評価又は発言した主体に関する情報を
付与する、上記(2),(3),(4)又は(5)記載
の評価情報抽出方法。(6) A specific expression in the text or
The evaluation information extracting method according to the above (2), (3), (4) or (5), wherein information relating to a subject who has evaluated or said the extracted evaluation expression is further added to a word in the database or the dictionary. .
【0031】これによれば、評価に関する情報と、評価
をおこなった主体(人名、組織)に関する情報を付加する
ことで、評価の内容をより正確に提供できる。According to this, the contents of the evaluation can be provided more accurately by adding the information on the evaluation and the information on the subject (person name, organization) that performed the evaluation.
【0032】(7)上記(1)の意味情報抽出方法によ
って、入力された単語の意味情報を抽出して単語に対応
付けた形式で単語意味情報データベースに登録し、入力
された単語に対応づけられた意味分類を、該単語意味情
報データベースから検索して読み出す、情報検索方法。(7) The semantic information of the input word is extracted and registered in the word semantic information database in a form corresponding to the word by the semantic information extracting method of (1), and is associated with the input word. An information retrieval method for retrieving and reading the obtained semantic classification from the word semantic information database.
【0033】これによれば、利用者が未知の固有表現を
知りたい場合に、自動的に抽出した単語とその意味の情
報から、語に関する意味情報を提示するができる。According to this, when the user wants to know an unknown named expression, it is possible to present the semantic information on the word from the automatically extracted word and its meaning information.
【0034】(8)上記(2)の評価情報抽出方法によ
って、入力された単語の評価を表す表現を抽出して単語
に対応付けた形式で単語意味情報データベースに登録
し、入力された単語の、評価を表す表現を該単語意味情
報データベースから検索する、情報検索方法。(8) By the evaluation information extraction method of (2), an expression representing the evaluation of the input word is extracted and registered in the word meaning information database in a form corresponding to the word, and An information search method for searching an expression representing an evaluation from the word meaning information database.
【0035】これによれば、利用者が未知の固有表現や
既知の固有表現について、自動的に抽出した単語とその
評価の情報を提供できる。特に評価に関する情報は、静
的なデータからは得ることができず、様々な文書の情報
を元に作成する必要があるが、これを自動的に作成でき
かつ、検索によって簡単に提供できる。According to this, the user can provide automatically extracted words and information on the evaluation of unknown named entities and known named entities. In particular, information relating to evaluation cannot be obtained from static data and needs to be created based on information of various documents. This information can be created automatically and can be easily provided by search.
【0036】(9)検索時の検索キーとして、評価に関
する表現を入力可能とする、上記(8)の情報検索方
法。(9) The information search method according to the above (8), wherein an expression relating to evaluation can be input as a search key at the time of search.
【0037】これによれば、従来、検索システムの検索
キーとして評価に関する語は利用されなかったが、利用
可能にしたので、利用者の検索効率を高めることができ
る。According to this, conventionally, words related to evaluation have not been used as a search key of the search system, but are now available, so that the search efficiency of the user can be improved.
【0038】(10)上記(3)の評価情報抽出方法に
よって、入力された単語の評価情報を抽出して単語に対
応付けた形式で単語意味情報データベースに登録し、入
力された単語の、評価情報を該単語意味情報データベー
スから検索する、情報検索方法。(10) The evaluation information of the input word is extracted by the evaluation information extraction method of (3) and registered in the word meaning information database in a form corresponding to the word, and the evaluation of the input word is performed. An information retrieval method for retrieving information from the word meaning information database.
【0039】これによれば、利用者が未知の固有表現や
既知の固有表現について、自動的に抽出した単語と評価
の情報、評価値を提示することができる。特に評価値に
よって情報を提示する順番や、表示情報の選択が可能
で、効率的に情報提供ができる。According to this, the user can present automatically extracted words, evaluation information, and evaluation values for unknown and known named expressions. In particular, the order in which information is presented and the display information can be selected based on the evaluation value, and information can be provided efficiently.
【0040】(11)上記(4)の評価情報抽出方法に
よって、入力された単語があった文書の作成日付を単語
に対応付けた形式で単語意味情報データベースに登録
し、入力された単語がある文書の作成日時を、該単語意
味情報データベースから検索する、情報検索方法。(11) According to the evaluation information extracting method described in (4) above, the creation date of the document containing the input word is registered in the word meaning information database in a form corresponding to the word, and the input word exists. An information retrieval method for retrieving a document creation date and time from the word meaning information database.
【0041】これによれば、評価情報と日付情報を保持
することで、検索結果の表示順をユーザのデータ把握を
効率化するように選択できる。 評価に関する情報の信
頼性は日付によって大きく変わるものであり、評価に関
する情報の信頼性を利用者が効率的に判断できる。According to this, by retaining the evaluation information and the date information, the display order of the search results can be selected so that the user can grasp the data more efficiently. The reliability of the information on the evaluation varies greatly depending on the date, and the user can efficiently judge the reliability of the information on the evaluation.
【0042】(12)上記(5)の評価情報抽出方法に
よって、入力された単語がある文書の出典情報あるいは
タイトルを、単語に対応付けた形式で単語意味情報デー
タベースに登録し、入力された単語がある文書の出典情
報あるいはタイトルを、該単語意味情報データベースか
ら検索する、情報検索方法。(12) According to the evaluation information extracting method of (5), the source information or the title of the document having the input word is registered in the word meaning information database in a form corresponding to the word, and the input word is registered. An information retrieval method for retrieving the source information or title of a document from the word semantic information database.
【0043】これによれば、評価情報とともに出典情
報、タイトルを表示することで、利用者が効率的に評価
情報を利用できる。According to this, the user can efficiently use the evaluation information by displaying the source information and the title together with the evaluation information.
【0044】(13)上記(6)の入力された単語を評
価又は発言した主体に関する情報を該単語に対応付けた
形式で単語意味情報データベースに登録し、入力された
単語を評価又は発言した主体に関する情報を、該単語意
味情報データベースから検索する、情報検索方法。(13) Information about the subject who evaluated or said the input word in the above (6) is registered in the word meaning information database in a form associated with the word, and the subject who evaluated or said the input word. An information search method for searching for information on the word meaning information database.
【0045】これによれば、評価情報とともに評価を行
なった主体の情報を得ることで、評価情報の信頼性を利
用者が効率的に判断できる。According to this, the user can efficiently judge the reliability of the evaluation information by obtaining the information of the subject who performed the evaluation together with the evaluation information.
【0046】(14)ネットワークを通して収集した文
書の単語に対して、上記(7)乃至(13)のいずれか
に記載の情報の抽出と単語意味情報データベースへの登
録をおこない、使用者が入力した単語に対応する登録情
報を該単語意味情報データベースから検索する、ネット
ワーク情報検索方法。(14) For the words of the document collected through the network, the information described in any of the above (7) to (13) is extracted and registered in the word meaning information database, and is input by the user. A network information search method for searching registered information corresponding to a word from the word meaning information database.
【0047】これによれば、使用者がネットワークを通
して収集した文書群に基づいて検索辞書を構築して、ネ
ットワーク上の文書を検索し易い単語あるいは表現を、
検索辞書から簡単に得ることができるようになり、ネッ
トワーク上の文書検索が容易になる。 (15)上記(1)乃至(14)のいずれかに記載の方
法をコンピュータで実行するプログラム。 (16)上記(15)のプログラムを記録した媒体。According to this, a search dictionary is constructed based on a group of documents collected by a user through a network, and words or expressions that make it easy to search for documents on the network are entered.
It can be easily obtained from a search dictionary, and a document search on a network becomes easy. (15) A program for executing the method according to any one of (1) to (14) on a computer. (16) A medium on which the program of (15) is recorded.
【0048】本発明の他の目的および特徴は、図面を参
照した以下の実施例の説明より明らかになろう。Other objects and features of the present invention will become apparent from the following description of embodiments with reference to the drawings.
【0049】[0049]
【実施例】−第1実施例− 図1に、本発明を一態様で実施する文書処理システムの
概要を示す。このシステムは、単語辞書1(データベー
ス),接続表2(データベース),評価表現辞書3(デ
ータベース),パターン辞書4(データベース),形態
素解析部5(コンピュータおよびプログラムによる形態
素解析機能)および意味推定部6(コンピュータおよび
プログラムによる意味推定機能)、からなる。DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS First Embodiment FIG. 1 shows an outline of a document processing system for implementing the present invention in one embodiment. This system includes a word dictionary 1 (database), a connection table 2 (database), an evaluation expression dictionary 3 (database), a pattern dictionary 4 (database), a morphological analysis unit 5 (a morphological analysis function using a computer and a program), and a semantic estimation unit. 6 (meaning estimation function by computer and program).
【0050】形態素解析部5は、入力された文書中のテ
キストの単語の単位と品詞を同定する。この形態素解析
には、単語辞書1と接続表2を利用する。この形態素解
析は一般的に知られているものである。The morphological analysis unit 5 identifies a word unit and a part of speech of the text in the input document. For this morphological analysis, the word dictionary 1 and the connection table 2 are used. This morphological analysis is generally known.
【0051】意味推定部6は、形態素解析によって分割
された単語と品詞を、評価表現辞書3とパターン辞書4
を参照することで、パターン辞書4にある単語と品詞の
並びに一致する単語列かを判定し、一致するものである
と、その単語に評価表現辞書3に記述された意味情報を
付与する。The semantic estimation unit 6 converts the words and parts of speech divided by the morphological analysis into the evaluation expression dictionary 3 and the pattern dictionary 4
, It is determined whether the word in the pattern dictionary 4 is a word string that matches the part of speech, and if the word string matches, the meaning information described in the evaluation expression dictionary 3 is added to the word.
【0052】図2に、評価表現辞書3の内容の一部3a
を示す。これには、評価を表現する語(3a上の「表
記」の列),その品詞(3a上の「品詞」の列)、およ
び、共起した語の意味分類(3a上の「意味分類」の
列)、が対応付けられて記述されている。評価表現辞書
の一部3aは、例えば、「新鋭」という語は名詞の一種
である「修飾名詞」という品詞をもち、共起する語の意
味が「人名」である、という対応付けを意味している。
評価表現辞書3には、特に特定の語(例えば人名)と共
起し、共起した語の性質、属性を記述する評価機能のあ
る語(例えば新鋭)を、その品詞および意味分類と対応
付けて登録している。FIG. 2 shows a part 3a of the contents of the evaluation expression dictionary 3.
Is shown. This includes a word expressing evaluation (the column of “notation” on 3a), its part of speech (the column of “part of speech” on 3a), and the semantic classification of co-occurring words (the “semantic classification” on 3a). Column) are described in association with each other. Part 3a of the evaluation expression dictionary means, for example, a correspondence that the word “new sharp” has a part of speech “modification noun” which is a kind of noun, and the meaning of the co-occurring word is “person name”. ing.
The evaluation expression dictionary 3 associates a word (e.g., new) with an evaluation function that describes a property and an attribute of the co-occurred word, in particular, with a specific word (e.g., a person's name) and its part of speech and meaning classification. Registered.
【0053】図3に、パターン辞書4に登録するパター
ンの一例4aを示す。一行に一つのパターンが、語の単
位ごとに区切って記述される。入力文書中のテキスト上
の、形態素解析された語の表記と品詞の並び(図2)
に、本パターン辞書4に記述した並びの表記や品詞があ
れば、パターン辞書4(4a)の「*」でマークされた
部分を該当する語として抽出する。パターン辞書4で
は、品詞の並びを指定するが、表記を記述する場合は
「表記:」と記述される。「#」がマークされた部分
は、評価表現辞書3中の該当する品詞の語がはいりう
る。また、複数の品詞や表記が該当しうる場合は「()」
内に「|」で区切って記述される。また同じ品詞や表記
が複数連続しうる場合は品詞や表記のあとに「,+」と記
述する。「!」は否定をあらわす。FIG. 3 shows an example 4a of a pattern registered in the pattern dictionary 4. One pattern is described in one line, delimited for each word unit. Notation of morphologically analyzed words and part of speech on text in input document (Fig. 2)
If there is a description or part of speech described in the pattern dictionary 4, the part marked with "*" in the pattern dictionary 4 (4a) is extracted as a corresponding word. In the pattern dictionary 4, the arrangement of the parts of speech is specified. When a notation is described, "notation:" is described. In the part marked with “#”, the word of the corresponding part of speech in the evaluation expression dictionary 3 can be entered. Also, if multiple parts of speech or notation can be applied, "()"
Are delimited by “|”. If the same part of speech or notation can be repeated multiple times, ", +" is described after the part of speech or notation. "!" Indicates negation.
【0054】例4aは、評価表現辞書3中の修飾名詞の
後ろに、表記「の」、その後ろの品詞に「固有名詞」か
「未登録語」が1個以上並び、その後ろには名詞と未登
録語以外の品詞がくる、というパターンを示しており、
第3番めに記述の名詞連続部分(!のブロックにある
語)が、一致の際の情報付与・抽出対象の語となる。例
4aは、全部で四つの項目からなるパターンである。Example 4a shows that, in the evaluation expression dictionary 3, after the qualified noun, the notation “no” is followed by one or more “proper nouns” or “unregistered words” in the part of speech, followed by the noun And a part of speech other than unregistered words come.
Third, the noun continuation part (word in the block of!) Of the description is a word to be added / extracted with information at the time of matching. Example 4a is a pattern consisting of four items in total.
【0055】図4に、意味推定部6の処理の概要を示
す。入力文書中のテキストの、形態素解析された単語
と、パターン辞書4に記述のパターンを、評価表現辞書
3の語を参照しつつ照合していき、パターン辞書4のあ
る1行に記述されたパターンの項目すべてが該当(合
致)すると、該パターンの「*」の部分を抽出する。FIG. 4 shows an outline of the processing of the meaning estimation unit 6. The morphologically analyzed words of the text in the input document are collated with the pattern described in the pattern dictionary 4 while referring to the words in the evaluation expression dictionary 3, and the pattern described in one line of the pattern dictionary 4 is checked. If all of the items of the pattern apply (match), the part of “*” of the pattern is extracted.
【0056】具体的に説明する。まず照合済みの位置を
記憶するポインタLASTPに0をセットする(ステツプ
1)。なお、以下においてカッコ内には、ステップとい
う語を省略して、ステップ番号数字のみを記す。A specific description will be given. First, 0 is set in a pointer LASP for storing a collated position (step 1). In the following, the word “step” is omitted in parentheses, and only the step number is described.
【0057】次に、形態素解析された入力文書上の文章
の位置を表すためにポインタPにポインタLASTPに1加算
したものをセットする(2)。次に終了条件として、P
が入力単語数より大きければ処理を終了する(3−終
了)。Next, a value obtained by adding 1 to the pointer LASTP is set to the pointer P to indicate the position of the sentence on the input document subjected to the morphological analysis (2). Next, as an end condition, P
Is larger than the number of input words, the process ends (3-end).
【0058】Pが入力単語数より大きくなければ、パタ
ーン辞書の照合位置を表すポインタIに初期値1をセッ
トする(4)。終了条件として、ポインタIがパターン
数より大きくなった場合に全パターンの照合を終えたと
して、最後にパターンと照合した末の位置LASTPに1加
算した個所を入力単語の対象位置としてPに格納する
(6)。If P is not larger than the number of input words, the initial value 1 is set to the pointer I indicating the collation position of the pattern dictionary (4). As an end condition, when the pointer I becomes larger than the number of patterns, it is determined that the matching of all the patterns has been completed, and a position obtained by adding 1 to the last position of the last matching with the pattern LASTP is stored in P as a target position of the input word. (6).
【0059】Iがパターン数より大きくない場合は、I番
目のパターンの各項目を入力単語と照合する。項目のポ
インタをJとし、まずJ=1をセットする(7)。I番目の
パターンのJ番目の項目がP番目の入力単語と品詞あるい
は表記が一致するかどうかを調べる(8)。このとき、
パターンに「#」があれば、記述の品詞の語を評価表現
辞書3中から得て、入力単語(P番目の単語)と一致する
かどうかを調べる。一致しなければ、着目のパターンは
一致していないとして、パターンのポインタを次にすす
め(I=I+1)、入力対象単語のポインタPには、直前に一致
した個所lastpに1加えた値をセットする(9,1
0)。ただし、J番目の項目が繰り返し可能であり、す
でに1回照合済みの場合は、照合すべきパターンの項目
を一つすすめ(J=J+1)、照合を続ける(11)。If I is not greater than the number of patterns, each item of the I-th pattern is checked against the input word. The item pointer is set to J, and first, J = 1 is set (7). It is checked whether the J-th item of the I-th pattern matches the part-of-speech or notation of the P-th input word (8). At this time,
If the pattern has "#", the word of the part of speech of the description is obtained from the evaluation expression dictionary 3, and it is checked whether or not it matches the input word (Pth word). If they do not match, it is assumed that the pattern of interest does not match, and the pointer of the pattern is recommended next (I = I + 1), and the pointer P of the input target word is a value obtained by adding one to the last matching part lastp. Set (9,1
0). However, if the J-th item is repeatable and has already been collated once, it recommends one pattern item to be collated (J = J + 1) and continues collation (11).
【0060】パターンの記述が一致した場合は、J番目
の項目が繰り返し可能であれば、入力対象のポインタP
だけを1加算し(12−14)、繰り返しが可能でない
場合はPと項目のポインタJを1加算(P=P+1,J=J+1)する
(12−13)。When the pattern descriptions match, if the J-th item can be repeated, the input target pointer P
Is incremented by 1 (12-14), and if repetition is not possible, P and the pointer J of the item are incremented by 1 (P = P + 1, J = J + 1) (12-13).
【0061】以上をJがパターンの項目数が大になるま
で繰り返す(15−8)。大になれば、全項目が一致し
たとし、パターン中の「*」の付与された部分を抽出
し、出力する(16)。入力単語中の照合単語の最後の
単語をポインタLASTPに格納する(17)。ここでは、P
がその前に一つ進められているのでLASTP=LASTP-1とす
る。The above is repeated until J becomes large in the number of pattern items (15-8). If it becomes larger, it is determined that all the items match, and a portion with "*" in the pattern is extracted and output (16). The last word of the collation word in the input word is stored in the pointer LASP (17). Where P
LASTP = LASTP-1 because is advanced by one before that.
【0062】以上のように、対象文書中の単語につい
て、パターンを順に照合し(4−10)、照合した段階
で次の単語に処理をすすめる(7−2)。全パターンを
照合ののち、一致しない場合は対象文書中の単語を一つ
すすめ(6−2)、パターンを順に照合していく(4−
10)。As described above, patterns are sequentially collated for words in the target document (4-10), and processing is advanced to the next word at the stage of collation (7-2). After matching all patterns, if they do not match, recommend one word in the target document (6-2), and match the patterns in order (4-
10).
【0063】なお、一致した場合の単語の出力(16)
の際、該当する単語だけでなく、評価表現辞書3の情報
も合わせて出力する。Output of word in case of match (16)
At this time, not only the corresponding word but also the information of the evaluation expression dictionary 3 is output together.
【0064】例1: 文「 新鋭の○○○○氏の話題で
持ち切りだ 」 この文章は、形態素解析部5によって以下のように解析
される: (表記) 新鋭 |の| ○○○○ |氏| の |話題| で (品詞) 修飾名詞 格助詞の 未登録語 接尾辞 格助詞の 名詞 格助詞で −続き− (表記) |盛り上がっ| た (品詞) 動詞(ら行5段音便形) 助動詞た。Example 1: The sentence "I'm holding up on the topic of Mr. New XXX" This sentence is analyzed by the morphological analyzer 5 as follows: (Notation) New | | | Ms | | Topic | In (Part of speech) Modified noun Case particle unregistered word Suffix Case particle noun Case particle (continued) | Excited | Ta (Part of speech) Verb ) Auxiliary verb.
【0065】第1番めの語「新鋭」から順に、パターン
記述の先頭の行の記述を照合していく。パターン1行目
の1番目は品詞が「修飾名詞」で、「#」があるので評
価表現辞書3の語を照合する意味となるので、評価表現
辞書3から品詞が修飾名詞である「新鋭」「最速」「軽
量」を照合候補とする。The description of the first line of the pattern description is collated in order from the first word "new". The first part of the first line of the pattern is a part-of-speech “modifying noun” and “#”, which means that words in the evaluation expression dictionary 3 are to be collated. "Fastest" and "lightweight" are set as matching candidates.
【0066】「新鋭」が一致するので、照合を続ける。
パターンの次項目は「表記:の」であり、これも一致す
る。次の項目は「*(未登録語|固有名詞),+」であり、未
登録語か固有名詞が1個以上という意味である。次の対
象単語は品詞「未登録語」であるので、一致する。繰り
返し可能なので、次の単語「氏」と照合するが、一致し
ないが、すでに1回照合しているので、項目のポインタ
(J)をすすめ「!(名詞|未登録語)」であり、名詞か未登
録語以外とあり、照合(一致)が成立する。次の単語、
項目にすすむが、項目数(4)が越えるので現在のパター
ンが照合されたとして、パターン中で「*」のある項目
を目的の表現とし、評価表現辞書3の表記の該当する個
所から意味分類を得て、出力する。図5の(a)に出力
情報の一例6aを示す。Since "new" matches, the collation is continued.
The next item in the pattern is "notation: no", which also matches. The next item is “* (unregistered word | proper noun), +”, which means that there is at least one unregistered word or proper noun. Since the next target word is a part of speech “unregistered word”, it matches. Since it can be repeated, it matches with the next word "Mr.", but it does not match, but since it has already been matched once, the pointer of the item
(J) is recommended to be "! (Noun | unregistered word)", and there is no other word than noun or unregistered word. The next word,
Since the number of items exceeds (4), the current pattern is matched, and the item with "*" in the pattern is used as the target expression, and semantic classification is performed from the corresponding portion of the notation in the evaluation expression dictionary 3. And output. FIG. 5A shows an example 6a of the output information.
【0067】出力した情報は、形態素解析で用いる単語
辞書1あるいはより大きな知識辞書に表記「○○○○」
を意味「人名」として登録することで、自動的に語彙と
その意味を獲得できる。また、上記文章が出現した文書
において、この文章を含む文書を検索システムに登録の
際にキーワードとして、表記「○○○○」を文書に対応
づけて登録することで、検索システムの検索時に本キー
ワードを使用することができる。The output information is written in the word dictionary 1 used in the morphological analysis or in a larger knowledge dictionary.
By registering as a "person name", the vocabulary and its meaning can be automatically acquired. In addition, in the document in which the above sentence appears, the notation “XXXXX” is registered as a keyword in association with the document when the document including the sentence is registered in the search system. Keywords can be used.
【0068】本実施例では、従来技術のように「開発」
等のあらかじめ抽出した述語とその関係によるもの以外
の、実施例のような、格関係など不明確なものあるいは
述語がいろいろな語と共起しうる共起制限のゆるい場合
にも、取出したい語を修飾する語の性質を利用して抽出
が可能である。特に形容詞、修飾名詞、形容動詞なども
のの性質や状態を修飾/表現する語が、語によって修飾
しうる語が限定されることを利用し、抽出とともにその
意味分類を得ることができる。特に辞書中に未登録の人
名や組織名などの固有名詞について有効である。また、
修飾する語として形容詞、修飾名詞、形容動詞以外にも
連体詞、副詞、接続詞など品詞によらず可能である。格
関係など不明確なものあるいは述語がいろいろな語と共
起しうる共起制限のゆるい場合にも、抽出したい語を修
飾する語の性質によって語の抽出とその意味分類を得る
ことができる。In this embodiment, the "development"
Other than the predicates and their relations extracted in advance, such as those in the examples, even if the uncertainties such as case relations or predicates can co-occur with various words are loose, the words to be extracted Can be extracted using the property of the word that modifies. In particular, words that modify / express the properties and states of things such as adjectives, modified nouns, and adjective verbs are limited by the words that can be modified by the words, and can be extracted and semantically classified. In particular, it is effective for proper nouns such as names of persons and organizations that are not registered in the dictionary. Also,
In addition to adjectives, modifier nouns, and adjective verbs, the words to be modified can be irrespective of part of speech such as adverbs, adverbs, and conjunctions. Even in the case of unclear things such as case relationships or loose co-occurrence restrictions in which predicates can co-occur with various words, word extraction and semantic classification can be obtained depending on the nature of the word that modifies the word to be extracted.
【0069】−第2実施例− 第2実施例のシステム構成は第1実施例と同じである。
単語辞書1,接続表2,形態素解析部5,評価表現辞書
3およびパターン辞書4も同じであるが、意味推定部6
の機能に付加がある。すなわち第2実施例の意味推定部
6は、対象単語列中でパターンとの一致を判定した際
に、抽出単語と、その単語と評価表現辞書3中に対応付
けられた意味分類の内容および評価の内容を抽出単語の
付加情報として出力し、付加するものである。Second Embodiment The system configuration of the second embodiment is the same as that of the first embodiment.
Word dictionary 1, connection table 2, morphological analysis unit 5, evaluation expression dictionary 3 and pattern dictionary 4 are the same, but semantic estimation unit 6
There is an addition to the function. That is, when the meaning estimation unit 6 of the second embodiment determines that the pattern matches in the target word string, the extracted word, the contents of the meaning classification and the evaluation of the meaning classification associated with the word in the evaluation expression dictionary 3 are determined. Is output as additional information of the extracted word and added.
【0070】例2: 文「 新鋭の○○○○氏の話題で
持ち切りだ 」 この文章は例1と同じであり、形態素解析部5によって
例1と同じく以下のように解析される: (表記) 新鋭 |の| ○○○○ |氏| の |話題| で (品詞) 修飾名詞 格助詞の 未登録語 接尾辞 格助詞の 名詞 格助詞で −続き− (表記) |盛り上がっ| た (品詞) 動詞(ら行5段音便形) 助動詞た。Example 2: The sentence "I'm holding up on the topic of the newest Mr. XXX" This sentence is the same as Example 1, and is analyzed by the morphological analyzer 5 as in Example 1 as follows: ( Notation) New | | | ○○○○ | Mr. | | | Topic | de (part of speech) Modified noun Case particle unregistered word Suffix case particle noun Case particle-continued-(notation) | ) Verb (Ra row 5 steps sound form) Auxiliary verb.
【0071】パターン辞書4のパターンとの照合の経過
は、前述の例1と同じであり、パターン辞書4の第1行
めのパターンと一致する。パターン中で「*」のある項
目を目的の表現とし、評価表現辞書3の表記の該当する
個所から意味分類と、評価表現自体を出力する: 出力「 ○○○○,意味分類:人名,評価:新鋭 」。The progress of the comparison with the pattern in the pattern dictionary 4 is the same as that in the first example, and matches the pattern in the first row of the pattern dictionary 4. The item with “*” in the pattern is used as the target expression, and the semantic classification and the evaluation expression itself are output from the corresponding portion of the notation in the evaluation expression dictionary 3: output “OOOO, semantic classification: person name, evaluation : New cutting edge.
【0072】図5の(b)に出力情報の一例6bを示
す。なお、意味分類の出力は必須ではない。出力した情
報は、形態素解析部5が用いる単語辞書1あるいはより
大きな知識辞書に、表記「○○○○」が意味「人名」、
評価「新鋭」として登録することで、自動的に語彙とそ
の意味、評価を獲得できる。FIG. 5B shows an example 6b of the output information. The output of the semantic classification is not essential. The output information is stored in the word dictionary 1 or a larger knowledge dictionary used by the morphological analysis unit 5, where the notation “OOOO” means “personal name”,
By registering as a rating "new", vocabulary, its meaning, and rating can be automatically obtained.
【0073】また、この文章が出現した文書において、
その文書を検索システムに登録の際にキーワードとし
て、前記出力情報を文書に対応づけて登録することで、
検索システムの検索時に本キーワードを使用することが
できる。In the document in which this sentence appears,
By registering the output information in association with the document as a keyword when registering the document in the search system,
This keyword can be used when searching the search system.
【0074】この第2実施例によれば、評価に関する情
報を自動収集できる。特に、従来は評価に関わるがあま
り抽出対象とならなかった形容詞、形容動詞などの語を
利用することで評価に関する情報を得ることができる。
上記例2ではある人名に関しての評価情報を自動的に収
集できる。また、同一対象(例2では同一人物)に対する
複数の文書からの評価情報も収集でき、同一対象に対す
る情報を効率的に収集できる。According to the second embodiment, information on evaluation can be automatically collected. In particular, information on evaluation can be obtained by using words such as adjectives and adjective verbs that have conventionally been involved in evaluation but have not been extracted much.
In Example 2 above, evaluation information on a certain person's name can be automatically collected. Further, evaluation information from a plurality of documents for the same target (the same person in Example 2) can be collected, and information for the same target can be efficiently collected.
【0075】すなわち、抽出した情報に関する評価の情
報を自動的に収集が可能である。特に評価に関する情報
は、静的なデータからは得ることができず、様々な文書
の情報を元に作成する必要があり、これを自動的に作成
できる。That is, it is possible to automatically collect evaluation information on the extracted information. In particular, information related to evaluation cannot be obtained from static data, but must be created based on information of various documents, and can be created automatically.
【0076】−第3実施例− 第3実施例のシステム構成は第1実施例と同じである。
単語辞書1,接続表2,形態素解析部5およびパターン
辞書4も同じであるが、評価表現辞書3の内容に付加が
あり、これに対応して意味推定部6の機能にも付加があ
る。Third Embodiment The system configuration of the third embodiment is the same as that of the first embodiment.
The word dictionary 1, the connection table 2, the morphological analysis unit 5 and the pattern dictionary 4 are the same, but the contents of the evaluation expression dictionary 3 are added, and correspondingly, the function of the meaning estimation unit 6 is also added.
【0077】図5の(c)に、評価表現辞書3の内容の
一部3bを示す。第3実施例の評価表現辞書3は、評価
値(評価タイプ)として「+,−,0」を付加したもの
である。これは評価表現辞書3の語の評価としての一般
的によい意味の評価表現では「+」、好ましくない意味
の評価表現には「−」。どちらでもない場合には「0」
を記述さ下ものである。ここでは評価値として3種類の
評価タイプを設定したが、数値又はランク情報を評価値
としてもよい。FIG. 5C shows a part 3 b of the contents of the evaluation expression dictionary 3. The evaluation expression dictionary 3 of the third embodiment is obtained by adding “+, −, 0” as an evaluation value (evaluation type). This is "+" for an evaluation expression having a generally good meaning as an evaluation of words in the evaluation expression dictionary 3, and "-" for an evaluation expression having an unfavorable meaning. "0" if neither
Is described below. Here, three types of evaluation types are set as evaluation values, but numerical values or rank information may be used as evaluation values.
【0078】第3実施例の意味推定部6は、第1実施例
と同様に対象単語列中でパターンとの一致を判定した際
に、抽出単語と、その単語と評価表現辞書3中に対応付
けられた意味分類の内容,評価の内容および評価タイプ
の内容を抽出単語の付加情報として出力し、付加する。The semantic estimating unit 6 of the third embodiment, when determining the match with the pattern in the target word string, as in the first embodiment, finds the extracted word and the corresponding word in the evaluation expression dictionary 3. The attached semantic classification contents, evaluation contents, and evaluation type contents are output as additional information of the extracted words and added.
【0079】例3: 文「 新鋭の○○○○氏の話題で
持ち切りだ 」 この文章は例1と同じであり、形態素解析部5によって
例1と同じく以下のように解析される: (表記) 新鋭 |の| ○○○○ |氏| の |話題| で (品詞) 修飾名詞 格助詞の 未登録語 接尾辞 格助詞の 名詞 格助詞で −続き− (表記) |盛り上がっ| た (品詞) 動詞(ら行5段音便形) 助動詞た。Example 3: The sentence "I'm holding up on the topic of the newest Mr. XXX" This sentence is the same as in Example 1, and is analyzed by the morphological analyzer 5 as in Example 1 as follows: ( Notation) New | | | ○○○○ | Mr. | | | ) Verb (Ra row 5 steps sound form) Auxiliary verb.
【0080】パターン辞書4のパターンとの照合の経過
は、前述の例1と同じであり、パターン辞書4の第1行
めのパターンと一致する。パターン中で「*」のある項
目を目的の表現とし、評価表現辞書3の表記の該当する
個所から意味分類と、評価表現と評価値を出力する: 出力「○○○○」意味分類:人名 評価:新鋭 評価
値:+ 。The progress of the comparison with the pattern in the pattern dictionary 4 is the same as that in the first embodiment, and matches the pattern in the first row of the pattern dictionary 4. The item with “*” in the pattern is used as the target expression, and the semantic classification, the evaluation expression and the evaluation value are output from the corresponding part of the notation in the evaluation expression dictionary 3: Output “○○○○” Semantic classification: person name Evaluation: Newest Evaluation value: +.
【0081】図5の(d)に、出力情報の一例6cを示
す。意味分類および評価表現自体は必須ではなく、以下
のような出力も可能である: 出力「○○○○」評価値:+ 。FIG. 5D shows an example 6c of the output information. The semantic classification and the evaluation expression itself are not essential, and the following output is also possible: Output “OOOO” Evaluation value: +.
【0082】この第3実施例では、第2実施例と同様
に、ある対象(一例では人名)に関しての評価情報(新
鋭)を自動的に収集でき、かつその評価の情報がよいの
か悪いのかの情報(+,−,0)を収集できる。情報の
よし(+)、あし(−)によって、たとえば検索システ
ムで文書を検索する際に文書が複数みつかり、検索シス
テム使用者の指定したキーワードが同様に含まれている
際には、評価情報(新鋭,+/−/0)、特に評価値
(+/−/0)を利用することでより、価値のある情報
を得ることができる。In the third embodiment, similarly to the second embodiment, it is possible to automatically collect evaluation information (advanced) for a certain object (in one example, a person's name) and determine whether the evaluation information is good or bad. Information (+,-, 0) can be collected. According to the information good (+) and the toe (-), for example, when a plurality of documents are found when a document is searched by the search system and the keyword specified by the search system user is also included, the evaluation information ( More valuable information can be obtained by using the newest (+ /-/ 0), especially the evaluation value (+ /-/ 0).
【0083】また、複数の文書で対象「○○○○」につ
いて評価がなされている場合、以下の例の抽出がなさ
れ、 ○○○○ 意味分類:機械・システム 評価:最速 評価値:+ 評価:軽量 評価値:+ 評価:高額 評価値:− 同一対象での評価値をそれぞれ1点として計算すること
で、 ○○○○ 意味分類:機械・システム 評価:最速,軽量,高額 評価値:2 が得られる。これを同一分類の間の評価値の昇順、降順
に表示することもできる。In the case where a plurality of documents have been evaluated with respect to the object "XXX", the following examples are extracted, and the meaning is classified as: ○○○ Meaning: Machine / System Evaluation: Fastest Evaluation value: + Evaluation : Light weight Evaluation value: + Evaluation: High value Evaluation value:-By calculating each evaluation value of the same object as one point, ○○○○ Meaning classification: Machine / System Evaluation: Fastest, light weight, high value Evaluation value: 2 Is obtained. This can be displayed in ascending order and descending order of the evaluation value in the same classification.
【0084】第3実施例では、上述のように、抽出した
情報に関する評価の情報を、良い評価であるか悪い評価
であるかを自動的に判定できる。同一意味分類のもの、
あるいは同一対象への評価が複数ある場合の表示順に利
用でき、効率的な情報提示が可能である。In the third embodiment, as described above, it is possible to automatically determine whether the information on the extracted information is good or bad. Of the same semantic classification,
Alternatively, the information can be used in the order of display when there are a plurality of evaluations for the same object, and efficient information presentation is possible.
【0085】−第4実施例− 第4実施例のシステム構成は第3実施例と同じである。
単語辞書1,接続表2,形態素解析部5およびパターン
辞書4も同じであるが、評価表現辞書3の内容に付加が
あり、これに対応して意味推定部6の機能にも付加があ
る。すなわち第4実施例では、解析対象となった文書の
作成年月日(作成年、作成年月)を、評価情報とともに付
与する。これは評価表現辞書3による評価情報がある対
象について、いつの評価なのかということを記述するも
のである。-Fourth Embodiment- The system configuration of the fourth embodiment is the same as that of the third embodiment.
The word dictionary 1, the connection table 2, the morphological analysis unit 5 and the pattern dictionary 4 are the same, but the contents of the evaluation expression dictionary 3 are added, and correspondingly, the function of the meaning estimation unit 6 is also added. That is, in the fourth embodiment, the creation date (creation year, creation date) of the document to be analyzed is added together with the evaluation information. This describes when the evaluation is performed for an object having evaluation information from the evaluation expression dictionary 3.
【0086】対象単語列中でパターンが照合された際に
抽出単語と、その単語で評価表現辞書3を検索した意味
分類と、さらに評価表現辞書3の評価表現自体と評価タ
イプと、解析対象文書の日付を抽出単語の付加情報とし
て出力し、付加する。なお、意味分類は必須ではない。
また評価表現自体か、評価タイプかのどちらかが付与さ
れればよい。The extracted word when the pattern is matched in the target word string, the semantic classification obtained by searching the evaluation expression dictionary 3 with the word, the evaluation expression itself and the evaluation type of the evaluation expression dictionary 3, and the analysis target document Is output as additional information of the extracted word and added. Note that semantic classification is not essential.
Further, either the evaluation expression itself or the evaluation type may be given.
【0087】例4: 文「 新鋭の○○○○氏の話題で
持ち切りだ 」 この文章は例1と同じであり、形態素解析部5によって
例1と同じく以下のように解析される: (表記) 新鋭 |の| ○○○○ |氏| の |話題| で (品詞) 修飾名詞 格助詞の 未登録語 接尾辞 格助詞の 名詞 格助詞で −続き− (表記) |盛り上がっ| た (品詞) 動詞(ら行5段音便形) 助動詞た。Example 4: The sentence "I'm holding up on the topic of the newest Mr. XXX" This sentence is the same as in Example 1, and is analyzed by the morphological analyzer 5 as in Example 1 as follows: ( Notation) New | | | ○○○○ | Mr. | | | Topic | de (part of speech) Modified noun Case particle unregistered word Suffix case particle noun Case particle-continued-(notation) | ) Verb (Ra row 5 steps sound form) Auxiliary verb.
【0088】パターンとの照合の経過は、第1実施例と
同じである。パターン辞書の第1行めのパターンと照合
される。パターン中で「*」のある項目を目的の表現と
し、評価表現辞書の表記の該当する個所から意味分類
と、評価表現と評価タイプを出力する。かつ、解析対象
の文が属する文書の作成年月(日)をデータに付加する。
意味分類は必須ではなく、評価情報も少なくとも一つあ
ればよい。The progress of the comparison with the pattern is the same as in the first embodiment. The pattern is checked against the pattern on the first line of the pattern dictionary. The item having "*" in the pattern is set as the target expression, and the semantic classification, the evaluation expression and the evaluation type are output from the corresponding portion of the notation of the evaluation expression dictionary. In addition, the creation date (date) of the document to which the sentence to be analyzed belongs is added to the data.
The semantic classification is not essential, and at least one piece of evaluation information is sufficient.
【0089】出力例1) 「○○○○」 意味分類:人名 評価:新鋭 評価タイ
プ:+ 年月:1986.4。これが図5の(e)に、出力情報
の一例6dと示すものである。Output Example 1) "○○○○" Meaning Classification: Person Name Evaluation: New Evaluation Type: + Date: 1986.4. This is shown in FIG. 5 (e) as an example of output information 6d.
【0090】出力例2) 「○○○○」 評価:新鋭 評価タイプ:+ 年月:19
86.4 出力例3) 「○○○○」 評価:新鋭 年月:1986.4 出力例1) 「○○○○」 評価タイプ:+ 年月:1986.4 第4実施例では、第2および第3実施例と同様に、ある
対象(例えば人名)に関しての評価情報を自動的に収集で
き、かつそのように評価のあった時間的要素(1986.4)
も同時に収集する。Output Example 2) "○○○○" Evaluation: New Evaluation Type: + Year: 19
86.4 Output example 3) "○○○○" Evaluation: New year and date: 1986.4 Output example 1) "○○○○" Evaluation type: + year and month: 1986.4 In the fourth embodiment, the second and third embodiments Similarly, reputation information on a subject (eg, a person's name) can be automatically collected, and the time component of such reputation (1986.4)
Collect at the same time.
【0091】評価情報は、相対的であり、特に「新しい
/古い」あるいは「良し/悪し」といった要素は時間的
経過とともに変化する可能性がある。評価の情報に時間
情報を加えることで、評価情報自体の信頼性や検索の際
の検索文書のランキングに使用可能である。The evaluation information is relative, and in particular, “new
Factors such as "/ old" or "good / bad" can change over time. By adding time information to the evaluation information, it can be used for reliability of the evaluation information itself and ranking of search documents at the time of search.
【0092】また、抽出単語に対する評価と日付情報を
付与する際に、格納済みの日付情報と比較し、より新し
い場合だけ格納するとすれば、現時点での最新の評価情
報だけを反映することができる。Further, when the evaluation and the date information for the extracted word are given, they are compared with the stored date information and are stored only when they are newer, so that only the latest evaluation information at the present time can be reflected. .
【0093】日付情報を付加することで、収集した評価
情報の信頼性、新規性をも得ることができる。特に語と
評価情報抽出の際、日付情報を検査することで、最新の
評価情報だけを格納することができる。By adding date information, reliability and novelty of collected evaluation information can be obtained. In particular, when words and evaluation information are extracted, only the latest evaluation information can be stored by checking the date information.
【0094】−第5実施例− 第5実施例のシステム構成は第4実施例と同じである。
単語辞書1,接続表2,形態素解析部5およびパターン
辞書4も同じであるが、評価表現辞書3の内容に付加が
あり、これに対応して意味推定部6の機能にも付加があ
る。すなわち第5実施例では、対象単語列中でパターン
が照合された際に抽出単語と、その単語で評価表現辞書
を検索した意味分類、評価に関する情報と、その対象文
の出現した文書の出典情報あるいはタイトルを付加す
る。次に、出典情報をタイトルとしたときの例を示す。Fifth Embodiment The system configuration of the fifth embodiment is the same as that of the fourth embodiment.
The word dictionary 1, the connection table 2, the morphological analysis unit 5 and the pattern dictionary 4 are the same, but the contents of the evaluation expression dictionary 3 are added, and correspondingly, the function of the meaning estimation unit 6 is also added. That is, in the fifth embodiment, when the pattern is matched in the target word string, the extracted word, information on the meaning classification and evaluation obtained by searching the evaluation expression dictionary with the word, and the source information of the document in which the target sentence appears Alternatively, a title is added. Next, an example in which the source information is a title will be described.
【0095】例5:タイトル「食品、売り上げの伸び」 文 「 〜社の商品「○○○○」が好調だ 」 形態素解析によって以下のように解析される: (表記) 〜 社 |の| 商品 | 「○○○○」 | (品詞) 未登録語 接尾辞 格助詞の 名詞 開き括弧 未登録語 閉じ括弧 −続き− (表記) が |好調| だ (品詞) 格助詞が 形容動詞 助動詞だ。Example 5: Title "Food, Sales Growth" Sentence "The company's product" XXX "is performing well" Analyzed by morphological analysis as follows: (Notation) ~ company | | “○○○○” | (Part of speech) Unregistered word suffix Noun of case particle Open parenthesis Unregistered word Close parenthesis −Continue− (Notation) is |
【0096】パターンとの照合の概要は、第1実施例1
と同じである。本例では、パターン辞書4の第1行のパ
ターンとは合致せず、第2のパターンと合致する。「商
品」から「好調だ」までが、一致する。The outline of the comparison with the pattern is described in the first embodiment.
Is the same as In this example, the pattern does not match the pattern in the first row of the pattern dictionary 4, but matches the second pattern. "Product" to "good" match.
【0097】パターン中で「*」のある項目を目的の表
現とし、評価表現辞書3の表記の該当する個所から意味
分類と、評価表現と評価タイプや文書作成年月と、本実
施例では解析対象文書の出現した文書のタイトル全体を
抽出し、付加する。作成年月、評価タイプは本実施例で
は必須ではない。次に情報付与例を示す。In the present embodiment, an item having "*" in the pattern is used as a target expression, and a semantic classification, an evaluation expression, an evaluation type, a document creation date and the like are analyzed in the present embodiment. The entire title of the document in which the target document appears is extracted and added. The creation date and the evaluation type are not essential in this embodiment. Next, an example of information addition will be described.
【0098】出力「○○○○」意味分類:商品 評価:
好調 評価タイプ:+年月:2000.4 タイトル:食品、
売り上げの伸び これは、図5の(f)に、出力情報の一例6eと示すも
のである。Output "○○○○" Meaning classification: Product evaluation:
Good Evaluation type: + Year: 2000.4 Title: Food,
This is shown as an example of output information 6e in FIG. 5 (f).
【0099】この第5実施例では、第3実施例と同様
に、ある対象(一例では人名)に関しての評価情報を自動
的に収集でき、かつ、その評価の出現していた文書の出
典情報、タイトルを付加する。これによって、ある対象
に対する評価情報が、どのような文脈、場面、分野でな
されたものなのかを抽出できる。この情報を利用するこ
とで、ある用語についての評価をどのような文脈での評
価なのかが判断できる。In the fifth embodiment, as in the third embodiment, evaluation information on a certain object (in one example, a person's name) can be automatically collected, and the source information of a document in which the evaluation appears, Add a title. As a result, it is possible to extract the context, the scene, and the field in which the evaluation information for a certain object is made. By using this information, it is possible to determine in what context the evaluation of a certain term is evaluated.
【0100】語と評価に関する情報と、評価の情報が出
現した文書タイトルを付加することで、評価の内容をよ
り正確に記述しうる。特に検索システムなどで、使用者
が未知の語あるいは特定の語を知るためにシステムを利
用する際に所望の語に関する評価の文脈を得、正確に情
報提供できる。By adding information about words and evaluations and a document title in which the evaluation information appears, the contents of the evaluation can be described more accurately. In particular, in a search system or the like, when a user uses the system to know an unknown word or a specific word, the user can obtain a context for evaluation of a desired word and provide accurate information.
【0101】−第6実施例− 第6実施例のシステム構成は第1実施例と同じである。
単語辞書1,接続表2および形態素解析部5も同じであ
るが、評価表現辞書3の内容がやや異なり、これに対応
してパターン辞書4の内容および意味推定部6の機能も
やや異なる。Sixth Embodiment The system configuration of the sixth embodiment is the same as that of the first embodiment.
The word dictionary 1, the connection table 2, and the morphological analysis unit 5 are the same, but the content of the evaluation expression dictionary 3 is slightly different, and the content of the pattern dictionary 4 and the function of the meaning estimation unit 6 are slightly different correspondingly.
【0102】図6に、評価表現辞書3の内容の一部3c
を示す。評価表現辞書3の内容は、評価や発言に関する
語とその表記である。FIG. 6 shows a part 3c of the contents of the evaluation expression dictionary 3.
Is shown. The contents of the evaluation expression dictionary 3 are words related to evaluations and remarks and their notations.
【0103】図7の(a)および(b)にそれぞれ、パ
ターン辞書4の内容の二例のそれぞれ4bおよび4cを
示す。これらの大要は、第1実施例のものと同様である
が、第6実施例では、対象単語列があるパターンと一致
した際に、データベースに情報を格納する際の項目名を
記述することができるようにしている。図7の(a)お
よび(b)に示す例では、*の直後の〈 〉が項目名
で、そのあと{ }で囲まれた部分が抽出される個所に
あたる。( )で囲まれた部分は語の繰り返しや選択の
ための表記である。これは一実現方法であり、実施例1
〜5の形式でもよい。FIGS. 7A and 7B show two examples 4b and 4c of the contents of the pattern dictionary 4, respectively. The outline of these is the same as that of the first embodiment, but in the sixth embodiment, when the target word string matches a certain pattern, the item name for storing information in the database is described. I can do it. In the examples shown in FIGS. 7A and 7B, <> immediately after * is an item name, and a portion enclosed by {} is a portion to be extracted. The part surrounded by () is a notation for repetition and selection of a word. This is one realization method.
~ 5.
【0104】また、評価情報について、単語ではなく、
単語が連続した文や句のレベルのものを評価情報として
格納が可能である。1行目のパターン4bは、名詞か固
有名詞、「格助詞の」の連続のあとに、表記「につい
て」があり、さらに固有名詞か未登録語の連続のあとに
人名につく接辞(役職名など)が接続し、さらに表記が
「は」「が」「も」がくる。さらに、開き括弧のあと
に、閉じ括弧以外の文字列の連続が位置し、閉じ括弧が
位置したあと、表記「と」と、評価表現辞書中の動詞か
サ変名詞が位置する。[0104] Regarding evaluation information, not words,
Sentences and phrases at the level of continuous words can be stored as evaluation information. The pattern 4b on the first line is a suffix (post title) that is followed by a noun or proper noun, “case particle”, followed by the notation “about”, and a proper noun or unregistered word followed by a personal name. Etc.) are connected, and the notation is "ha""ga""mo". Further, after the opening parenthesis, a sequence of character strings other than the closing parenthesis is located, and after the closing parenthesis is located, the notation “to” and the verb or the intransitive noun in the evaluation expression dictionary are located.
【0105】括弧{ }で囲まれた項目(〈発言者〉は
2項目からなる)が抽出対象で、本例では〈 〉で囲ま
れた意味づけで抽出される。意味推定部6は、第1実施
例の処理機能と同様である。Items enclosed in parentheses {} (<speaker> consists of two items) are to be extracted, and in this example, are extracted with meanings enclosed in <>. The meaning estimation unit 6 has the same processing function as that of the first embodiment.
【0106】この第6実施例では、評価情報と、評価を
おこなった主体に関する情報を抽出できる。第6実施例
は、第2〜5実施例と組み合わせて実施できる。In the sixth embodiment, it is possible to extract the evaluation information and the information on the entity that has performed the evaluation. The sixth embodiment can be implemented in combination with the second to fifth embodiments.
【0107】次に示す例6は、パターン辞書と対象単語
列が一致した際、抽出する対象が複数可能になるように
しており、抽出した複数の対象を関係付けてデータベー
ス等に記述出来る。In Example 6 shown below, when the pattern dictionary matches the target word string, a plurality of targets can be extracted, and the extracted targets can be described in a database or the like in association with each other.
【0108】例6: 文『 2000年の景気について
○○総理は「今後、景気回復がわずかながらではあるが
期待できる」と述べた。 』 これは、形態素解析によって以下のように解析される: (表記) 2000年 |の| 景気 |について| ○○ |総理| (品詞) 数詞 格助詞の 名詞 格助詞相当語 固有名詞 人名接辞 −続き− (表記) は |「 |今後| 、 |景気| 回復 |が| (品詞) 副助詞は 開き括弧 副詞的名詞 読点 名詞 サ変名詞 格助詞が −続き− (表記) わずか |ながら| で |は| ある |が| 期待 (品詞) 形容動詞 副助詞 助動詞だ 副助詞は 動詞 接続助詞が サ変名詞 −続き− (表記) |できる| 」 |と| 述べ |た| 。 (品詞) 助動詞 閉じ括弧 格助詞と 発言動詞 助動詞た 句点 意味推定部6が、この対象単語例をパターン辞書のパタ
ーンを照合する。上記の文が合致するパターン4bで
は、名詞、固有名詞、未登録語、格助詞、数詞が1個以
上のあと、表記「について」があり、さらに固有名詞か
未登録語が1個以上のあとに、人名接辞(人名のあとに
つく接辞) があり、そのあとに表記「が」「は」「も」
のどれかが位置する。ついで、開き括弧があり、そのあ
とは閉じ括弧以外ならすべて一致可能であり、ついで閉
じ括弧がある。Example 6: The sentence "Regarding the 2000 Economy, Prime Minister XX stated," We can expect a slight recovery in the future. " This is analyzed by morphological analysis as follows: (Notation) 2000 | | | Business | About | ○ | Prime | (Part of speech) − (Notation) is | “| Future |, | Business | Recovery | || (Part of speech) Adjuncts are open parentheses Adverbial nouns Reading nouns Sa-variable nouns Case particles -Continued-(Notation) Slight | Expectation (part of speech) Adjective verb Secondary particle Auxiliary verb Secondary particle is a verb Connective particle is a sub-noun-continued-(notation) | can | (Part of speech) Auxiliary verb Close parenthesis Case particle and utterance verb Auxiliary verb Punctuation The meaning estimation unit 6 compares the target word example with a pattern in the pattern dictionary. In the pattern 4b to which the above sentence matches, after one or more nouns, proper nouns, unregistered words, case particles, and numbers, there is the notation “about”, and after one or more proper nouns or unregistered words, Followed by a personal name affix (the affix that follows the personal name), followed by the notation "ga", "ha", "mo"
Any of which are located. Next, there is an opening parenthesis, and after that, anything other than the closing parenthesis can be matched, followed by the closing parenthesis.
【0109】例の文がこのパターン4bに一致する。パ
ターン4bでは「*」がついて括弧{ }で囲まれた場
所が抽出個所であり、本実施例では、取出した情報がど
のような種類なのかも付与された例である。取出した情
報の種類自体(〈 〉で囲まれた個所)は必須ではな
い。出力を次に示す。The example sentence matches this pattern 4b. In the pattern 4b, a portion enclosed by parentheses {} and marked with “*” is an extraction portion, and in the present embodiment, an example is also given to what kind of extracted information is given. The type of information taken out (the part enclosed by <>) is not essential. The output is shown below.
【0110】 対象 発言 評価 出力 「 2000年の景気 ○○総理 今後、景気回復がわずか ながらではあるが期待できる 」 をとりだすことができる。図7の(c)に、出力例6f
を示す。Target Remarks Evaluation Output It is possible to take out "Economics in 2000 XX Prime Minister can expect a slight recovery in the future." FIG. 7C shows an output example 6f.
Is shown.
【0111】このように、ある対象に対して、発言や評
価の情報を、と発言者、評価者の情報を自動的に得るこ
とができる。As described above, it is possible to automatically obtain the information of the comment and the evaluation and the information of the speaker and the evaluator for a certain target.
【0112】この第6実施例は、第2〜4実施例と組み
合わせ可能であり、第4実施例の日付情報を付加した場
合は以下になる: 対象 発言 評価 出力 「 2000年の景気 ○○総理 今後、景気回復がわずか 日付 ながらではあるが期待できる 1999.12 」 図7の(e)に、この出力情報6hを示す。The sixth embodiment can be combined with the second to fourth embodiments, and when the date information of the fourth embodiment is added, the following is obtained. In the future, economic recovery can be expected, albeit slightly, on 1999.12 ". This output information 6h is shown in FIG. 7 (e).
【0113】また、第6実施例を第3実施例と組み合わ
せた場合の別の例を次に示す。図8に、この組合せで使
用する評価表現辞書3の内容の一部3dを示す。評価表
現辞書3の内容は、評価や発言に関する語とその表記、
評価値からなる: 例文 『 ○○幹事は参院選について「各党の政策の論
点がはっきりしない」と批判した。 』 形態素解析結果 (表記) ○○|幹事|は|参院選|について|「|各党|の|政策|の|論点|が| はっきり|し|ない|」|と|批判|し|た|。 (品詞) 固有名詞 人名接辞 副助詞は 名詞 格助詞 開き括弧 名詞 格助詞の 名詞 格助詞が 副詞 動詞 助動詞ない 閉じ括弧 格助詞と サ変名詞 助動詞 助動詞 句点 対象 発言 評価 出力 「 参院選 ○○幹事 各党の政策の論点が 評価値 はっきりしない − 」 図7の(d)に、この出力情報6gを示す。Another example in which the sixth embodiment is combined with the third embodiment is shown below. FIG. 8 shows a part 3d of the contents of the evaluation expression dictionary 3 used in this combination. The contents of the evaluation expression dictionary 3 include words related to evaluation and remarks and their notations,
It consists of evaluation values: Example sentence "The secretary XX criticized the Upper House election as saying," The issues of policy of each party are unclear. " ] Morphological analysis result (notation) ○○ | Secretary | About | The Upper House election | About | "| Each party | | Policy || Issue |||||||||||||||| (Part-of-speech) Proper noun Personal name affixing auxiliary particle is noun case particle open parenthesis noun case particle noun case particle is adverb verb auxiliary verb no closing parenthesis case particle and sa-variable noun auxiliary verb auxiliary verb phrase target output evaluation The evaluation value is not clear. "FIG. 7D shows the output information 6g.
【0114】第6実施例によれば、評価に関する情報
と、評価をおこなった主体(人名、組織)に関する情報を
付加することで、評価の内容をより正確に提供できる。According to the sixth embodiment, the contents of the evaluation can be provided more accurately by adding the information on the evaluation and the information on the subject (person name, organization) that performed the evaluation.
【0115】−第7実施例− 図9に、第7実施例の情報検索システムを示す。文書解
析部30は、図1に示す文書処理システム(1〜6)を
含むものである。文書が入力されると、文書解析部30
が、上記第1実施例の意味情報抽出方法あるいは第2〜
6実施例の評価情報抽出方法によって、評価表現辞書3
とパターン辞書4を用い、文書中から該当する単語と単
語の意味あるいは評価に関する情報を抽出し、抽出され
た単語と意味、評価情報を関係づけて、単語意味情報デ
ータベース10に格納する。また、これらを抽出した文
書と関係づけて格納することもできる。Seventh Embodiment FIG. 9 shows an information retrieval system according to a seventh embodiment. The document analysis unit 30 includes the document processing systems (1 to 6) shown in FIG. When a document is input, the document analysis unit 30
However, the semantic information extraction method of the first embodiment or the second to
According to the evaluation information extracting method of the sixth embodiment, the evaluation expression dictionary 3
And the pattern dictionary 4 to extract relevant words from the document and information on the meaning or evaluation of the words, associate the extracted words with the meaning and the evaluation information, and store them in the word meaning information database 10. Also, these can be stored in association with the extracted document.
【0116】図10に、文書解析部30の文書解析10
aの概要を示す。文書解析部30は、まず対象文書中の
文を形態素解析し(21)、対象文書の全単語について
意味抽出あるいは評価表現の抽出を行なう(22)。そ
して抽出した単語とそれに関連する評価情報、意味分類
を対応づけて単語意味情報データベース10に格納する
(23)。FIG. 10 shows the document analysis 10 of the document analysis unit 30.
The outline of a is shown. The document analysis unit 30 first performs a morphological analysis of a sentence in the target document (21), and extracts a meaning or an evaluation expression for all words in the target document (22). Then, the extracted words are associated with the evaluation information and the meaning classification associated with the extracted words and stored in the word meaning information database 10 (23).
【0117】図11に、情報検索部40の情報検索40
aの概要を示す。情報検索部40は、検索入力があれ
ば、入力された表現を形態素解析する(31,32)。
形態素解析された各単語を検索キーとして、単語意味情
報データベース10を検索(34)し、単語と対応付け
られた意味や評価表現情報を読出して表示する(3
5)。すべての単語を検索キーとして検索した時点で終
了となる(33−処理終了)。FIG. 11 shows an information retrieval section 40 of the information retrieval section 40.
The outline of a is shown. If there is a search input, the information search unit 40 performs a morphological analysis on the input expression (31, 32).
The word meaning information database 10 is searched (34) using each word subjected to morphological analysis as a search key, and the meaning and evaluation expression information associated with the word are read out and displayed (3).
5). The process ends when all words have been searched using the search key (33-processing end).
【0118】例7: 文書中につぎの文がある解析例と
格納例である: 文 「 新鋭の○○○○氏の話題で持ち切りだ 」 文書解析部30が、形態素解析によって以下のように解
析する: (表記) 新鋭 |の| ○○○○ |氏| の |話題| で (品詞) 修飾名詞 格助詞の 未登録語 接尾辞 格助詞の 名詞 格助詞で −続き− (表記) |盛り上がっ| た (品詞) 動詞(ら行5段音便形) 助動詞た。Example 7: An analysis example and a storage example in which the following sentence is present in the document: The sentence “I'm holding up on the topic of the newest Mr. XXX” The document analysis unit 30 performs the following by morphological analysis. Analyze to: (Notation) New | | | Excitement | Ta (part of speech) verb (ra line 5 steps sound form)
【0119】意味情報データベース10への格納例: 「○○○○」意味分類:人名 語「○○○○」に対して意味分類「人名」が意味情報デ
ータベースに格納される。Example of storage in the semantic information database 10: "OOOO" semantic classification: person name The semantic classification "person name" for the word "OOOO" is stored in the semantic information database.
【0120】利用者が「○○○○」という語があること
自体は知っているが、どのような語なのかわからないと
いった場合に検索を行なう。まず、利用者は、「○○○
○」を情報検索部40に入力する。情報検索部40は、
入力された「○○○○」を検索キーとして単語意味情報
データベース10を検索し、意味分類として「人名」を
表示する。また必要な場合には、本意味情報データの元
となった文書も表示する。A search is performed when the user knows that there is a word "OOO" but does not know what the word is. First, the user is asked to
○ ”is input to the information search unit 40. The information search unit 40
The word / semantic information database 10 is searched using the input “OOOO” as a search key, and “person name” is displayed as the meaning classification. If necessary, the document from which the semantic information data is based is also displayed.
【0121】この第7実施例によれば、利用者が未知の
固有表現を知りたい場合に、自動的に抽出した単語とそ
の意味の情報から、語に関する意味情報を提示するがで
きる。According to the seventh embodiment, when a user wants to know an unknown named expression, semantic information on a word can be presented from automatically extracted words and their meaning information.
【0122】−第8実施例− システム構成は、図9に示すものである。この実施例の
文書解析部30は、第2実施例の評価情報抽出を行う。-Eighth Embodiment- The system configuration is that shown in FIG. The document analysis unit 30 of this embodiment extracts the evaluation information of the second embodiment.
【0123】例8: 文書中につぎの文がある解析例と
格納例である: 文 「 新鋭の○○○○氏の話題で持ち切りだ 」 文書解析部30が、形態素解析によって以下のように解
析する: (表記) 新鋭 |の| ○○○○ |氏| の |話題| で (品詞) 修飾名詞 格助詞の 未登録語 接尾辞 格助詞の 名詞 格助詞で −続き− (表記) |盛り上がっ| た (品詞) 動詞(ら行5段音便形) 助動詞た。Example 8: An analysis example and a storage example in which the following sentence is present in the document: The sentence “I'm holding it up on the topic of Mr. OOOO” The document analysis unit 30 performs the following by morphological analysis. Analyze to: (Notation) New | || ○○○○ | Mr. | | | | (Part of speech) Modified noun Case particle unregistered word Suffix Case particle noun Case particle-Continuation-(Notation) | Excitement | Ta (part of speech) verb (ra line 5 steps sound form)
【0124】意味情報データベース10への格納例: 「○○○○」意味分類:人名 評価:新鋭 語「○○○○」に対して、意味分類「人名」,評価「新
鋭」という意味情報,評価情報が単語意味情報データベ
ース10に格納される。Example of storage in the semantic information database 10: "OOOO" semantic classification: person name Evaluation: new word The semantic classification "person name" and the evaluation information "new sharp" for the word "OOOO" The evaluation information is stored in the word meaning information database 10.
【0125】利用者が「○○○○」という語があること
自体は知っているが、どのような語なのかわからないあ
るいは、語の意味自体は知っているといった場合に検索
を行なう。利用者が「○○○○」を情報検索部40に入
力すると、情報検索部40は、入力された「○○○○」
を検索キーととして単語意味情報データベース10を検
索し、意味分類「人名」,評価「新鋭」を表示する。ま
た必要な場合には本意味情報データの元となった文書も
表示する。A search is performed when the user knows that there is a word "OOO", but does not know what the word is, or knows the meaning of the word itself. When the user inputs “OOOO” to the information search unit 40, the information search unit 40 outputs the input “OOOO”
Is used as a search key to search the word semantic information database 10, and the semantic classification "person name" and the evaluation "new" are displayed. If necessary, the document from which the semantic information data is based is also displayed.
【0126】この第8実施例によれば、利用者が未知の
固有表現や既知の固有表現について、自動的に抽出した
単語とその評価の情報を提供できる。特に評価に関する
情報は、静的なデータからは得ることができず、様々な
文書の情報を元に作成する必要があるが、これを自動的
に作成できかつ、検索によって簡単に提供できる。According to the eighth embodiment, the user can provide automatically extracted words and information on the evaluation of unknown named entities and known named entities. In particular, information relating to evaluation cannot be obtained from static data and needs to be created based on information of various documents. This information can be created automatically and can be easily provided by search.
【0127】−第9実施例− システム構成は、図9に示すものである。この実施例の
文書解析部30は、第8実施例と同様に、第2実施例の
評価情報抽出を行う。しかし、第8実施例とは少し異な
り、検索キーとして評価に関する表現を入力可能にして
いる。すなわち、情報検索部40は、評価に関する表現
の検索も行う。Ninth Embodiment A system configuration is as shown in FIG. The document analysis unit 30 of this embodiment extracts the evaluation information of the second embodiment, as in the eighth embodiment. However, slightly different from the eighth embodiment, an expression relating to evaluation can be input as a search key. That is, the information search unit 40 also searches for expressions related to evaluation.
【0128】例9: 文書中につぎの文がある場合、 文 「 最速の○○○○が開発された 」 文 「 軽量の○○○○が登場 」 文 「 最速の××××が開発された 」 文書解析部30が、形態素解析を行ない、以下の情報を
単語意味情報データベース10へ格納する: ○○○○ 意味分類:機械・システム 評価:最速 ○○○○ 意味分類:機械・システム 評価:軽量 ×××× 意味分類:機械・システム 評価:最速。Example 9: If the following sentence is present in the document, the sentence “The fastest XXXXX has been developed” sentence “The lightweight XXXXX has appeared” sentence “The fastest XXXXX has been developed The document analysis unit 30 performs a morphological analysis and stores the following information in the word semantic information database 10: ○○○○ semantic classification: machine / system Evaluation: fastest ○○○○ semantic classification: machine / system Evaluation: Lightweight ×××× Meaning classification: Machine / System Evaluation: Fastest.
【0129】利用者が、情報検索部40に例えば、「最
速」という語と「機械」という語を入力すると、情報検
索部40は、入力された語をを検索キーとして単語意味
情報データベース10を検索して、 ○○○○ 意味分類:機械・システム 評価:最速 ×××× 意味分類:機械・システム 評価:最速 を読出して、表示する。When the user inputs, for example, the words “fastest” and “machine” into the information search unit 40, the information search unit 40 searches the word meaning information database 10 using the input words as search keys. Search and read ○○○○ Meaning Class: Machine / System Evaluation: Fastest ×××× Meaning Classification: Machine / System Evaluation: Fastest Read and display.
【0130】この第9実施例によれば、従来、検索シス
テムの検索キーとして評価に関する語は利用されなかっ
たが、利用可能にしたので、利用者の検索効率を高める
ことができる。According to the ninth embodiment, words related to evaluation have not conventionally been used as a search key of a search system. However, since the words can be used, search efficiency of the user can be improved.
【0131】−第10実施例− システム構成は、図9に示すものである。この実施例の
文書解析部30は、第3実施例の評価情報抽出を行う。
すなわち、評価の情報として評価値を「+−0」あるい
は数値としている点を特徴とする。Tenth Embodiment The system configuration is as shown in FIG. The document analysis unit 30 of this embodiment extracts the evaluation information of the third embodiment.
That is, the feature is that the evaluation value is “+ −0” or a numerical value as the evaluation information.
【0132】意味分類「人名」評価「新鋭」評価値
「+」を表示する。また必要な場合には本意味情報デー
タの元となった文書も表示する。また、検索したい語
「○○○○」について複数の情報があった場合に、これ
を評価値の順に並べて表示することで、語「○○○○」
について利用者にわかりやすく提示する。The semantic classification “person name” evaluation “new” evaluation value “+” is displayed. If necessary, the document from which the semantic information data is based is also displayed. Also, when there is a plurality of pieces of information about the word “OOOO” to be searched, the information is arranged and displayed in order of the evaluation value, so that the word “OOOO” is displayed.
Is presented to the user in an easy-to-understand manner.
【0133】例では、3タイプの評価値だが、数値とし
て、たとえば数値の降順、昇順にデータベース内の情報
を表示することも可能である。また、検索結果の件数が
多い場合には、例えば、 例10 表示例 ○○○○ 意味分類:機械・システム 評価:最速 評価値:+ 評価:軽量 評価値:+ 評価:高額 評価値:− と表示する。また、同一対象に対して、評価値だけを加
算したものを評価値とすることで、ある対象に対する評
価値を提示することもできる。表示例としては、 ○○○○ 意味分類:機械・システム 評価:最速,軽量,高額 評価値:2 となり、例えば同じ意味分類での評価値の順にデータベ
ース内のデータを表示することも可能である。In the example, there are three types of evaluation values, but it is also possible to display information in the database as numerical values, for example, in descending order and ascending order of numerical values. If the number of search results is large, for example, Example 10 Display example ○○○○ Meaning classification: Machine / System Evaluation: Fastest Evaluation value: + Evaluation: Light weight Evaluation value: + Evaluation: High value Evaluation value:- indicate. In addition, an evaluation value for a certain target can be presented by setting the value obtained by adding only the evaluation value to the same target as the evaluation value. As a display example, ○○○○ Semantic classification: machine / system Evaluation: fastest, light weight, expensive Evaluation value: 2 For example, it is also possible to display data in the database in the order of evaluation values in the same semantic classification .
【0134】この第10実施例によれば、利用者が未知
の固有表現や既知の固有表現について、自動的に抽出し
た単語と評価の情報、評価値を提示することができる。
特に評価値によって情報を提示する順番や、表示情報の
選択が可能で、効率的に情報提供ができる。According to the tenth embodiment, the user can present automatically extracted words, evaluation information, and evaluation values for unknown or known named entities.
In particular, the order in which information is presented and the display information can be selected based on the evaluation value, and information can be provided efficiently.
【0135】−第11実施例− システム構成は、図9に示すものである。この実施例の
文書解析部30は、第4実施例の評価情報抽出を行う。
すなわち、評価情報とともに日付情報を付与した点が特
徴である。-Eleventh Embodiment- The system configuration is as shown in FIG. The document analysis unit 30 of this embodiment extracts the evaluation information of the fourth embodiment.
That is, the feature is that date information is added together with the evaluation information.
【0136】例11: 文書中につぎの文がある場合、 文 「 最速の○○○○が開発された 」 文 「 軽量の○○○○が登場 」 文 「 最速の××××が開発された 」 文書解析部30が、形態素解析を行ない、以下の情報を
単語意味情報データベース10へ格納する: ○○○○ 意味分類:機械・システム 評価:最速 日
付:2000.4 ○○○○ 意味分類:機械・システム 評価:軽量 日
付:2000.4 ×××× 意味分類:機械・システム 評価:最速 日
付:2000.4。Example 11: If the following sentence is present in the document, the sentence “The fastest XXXXX has been developed” sentence “The lightweight XXXXX has appeared” sentence “The fastest XXXXX has been developed The document analysis unit 30 performs a morphological analysis and stores the following information in the word semantic information database 10: ○○○○ semantic classification: machine / system Evaluation: fastest date: 2000.4 ○○○○ semantic classification: Machine / System Evaluation: Lightweight Date: 2000.4 ×××× Meaning Classification: Machine / System Evaluation: Fastest Date: 2000.4.
【0137】検索時に、利用者が「○○○○」というシ
ステムの名前は知っているが、どのようなものかわから
ない場合などを想定すると、利用者は、「○○○○」を
情報検索部40に入力する。情報検索部40は、入力さ
れた「○○○○」を検索キーととして単語意味情報デー
タベース10を検索して次の情報を読出して、表示す
る。また必要な場合には、本意味情報データの元となっ
た文書も表示する: ○○○○ 意味分類:機械・システム 評価:最速 日
付:2000.4 ○○○○ 意味分類:機械・システム 評価:軽量 日
付:2000.5 複数の結果がある場合に、評価が表現された日付の新し
い順、あるいは古い順等に並べて表示する。At the time of retrieval, if the user knows the name of the system "XXX", but does not know what it is, the user can search for "XXX" in the information. Input to the section 40. The information search unit 40 searches the word semantic information database 10 using the input “OOOO” as a search key, reads out the next information, and displays it. If necessary, the document from which this semantic information data is based is also displayed: ○○○○ Semantic classification: Machine / System Evaluation: Fastest Date: 2000.4 ○○○○ Semantic classification: Machine / System Evaluation: Lightweight Date: 2000.5 When there are multiple results, they are displayed side by side in the order of the date when the evaluation was expressed, or in the order of oldest.
【0138】また、検索キーを「システム」,「最速」
とした場合、情報検索部40が次の情報を検索して読み
出す: ○○○○ 意味分類:機械・システム 評価:最速 日
付:2000.4 ×××× 意味分類:機械・システム 評価:最速 日
付:1999.12 この場合、複数の検索結果が出力されるが、その際、日
付順等にすることでもっとも新しい文書で、利用者の所
望の「システム」,「最速」をもつデータをわかりやす
く提示できる。また、検索結果が多い場合にも日付の新
しい順、古い順に情報提示ができる。また、すでに登録
されている同一対象についての評価情報が抽出された際
に、日付の新しいデータに評価情報を変更し、最新の評
価データだけにすることもできる。When the search key is set to “system” or “fastest”
, The information retrieval unit 40 retrieves and reads the following information: ○○○○ Semantic classification: Machine / System Evaluation: Fastest Date: 2000.4 ×××× Semantic classification: Machine / System Evaluation: Fastest Date: 1999.12 In this case, a plurality of search results are output. In this case, the data having the desired "system" and "fastest" of the user can be presented in an easy-to-understand manner by chronological order or the like. Even when there are many search results, information can be presented in the order of newest date and oldest date. Further, when the evaluation information about the same object that has already been registered is extracted, the evaluation information can be changed to data with a new date, and only the latest evaluation data can be used.
【0139】第11実施例によれば、評価情報と日付情
報を保持することで、検索結果の表示順をユーザのデー
タ把握を効率化するように選択できる。 評価に関する
情報の信頼性は日付によって大きく変わるものであり、
評価に関する情報の信頼性を利用者が効率的に判断でき
る。According to the eleventh embodiment, by holding the evaluation information and the date information, the display order of the search results can be selected so that the user can grasp the data more efficiently. The reliability of rating information can vary significantly from date to date,
The user can efficiently judge the reliability of the information regarding the evaluation.
【0140】−第12実施例− システム構成は、図9に示すものである。この実施例の
文書解析部30は、第5実施例の評価情報抽出を行う。
すなわち、抽出した評価情報と出典情報を保持し、検索
に使用する点が特徴である。Twelfth Embodiment The system configuration is as shown in FIG. The document analysis unit 30 of this embodiment extracts the evaluation information of the fifth embodiment.
That is, the feature is that the extracted evaluation information and source information are held and used for search.
【0141】例12: 文書中につぎの文がある場合、 文 「 最速の○○○○が開発された 」 文 「 軽量の○○○○が登場 」 文 「 最速の××××が開発された 」 文書解析部30が、形態素解析を行ない、以下の情報を
単語意味情報データベース10へ格納する: ○○○○ 意味分類:機械・システム 評価:最速 出
典:Δ新聞 ×××× 意味分類:機械・システム 評価:軽量 出
典:Δ新聞 ○○○○ 意味分類:機械・システム 評価:月並み
出典:×新聞。Example 12: If the following sentence is present in the document, the sentence "The fastest OOOO has been developed" sentence "The lightweight OOOO has appeared" sentence "The fastest XXXXXX has been developed The document analysis unit 30 performs morphological analysis and stores the following information in the word semantic information database 10: ○○○○ semantic classification: machine / system Evaluation: fastest Source: Δnewspaper ×××× semantic classification : Machine / System Evaluation: Lightweight Source: Δ Newspaper ○○○○ Meaning classification: Machine / System Evaluation: Average
Source: × Newspaper.
【0142】検索の際、「○○○○」を検索キーにする
と、以下が得られる: ○○○○ 意味分類:機械・システム 評価:最速 出
典:Δ新聞 ○○○○ 意味分類:機械・システム 評価:月並み
出典:×新聞。At the time of search, if “○○○○” is used as a search key, the following is obtained: ○○○○ Meaning classification: Machine / System Evaluation: Fastest Source: Δ newspaper ○○○○ Meaning classification: Machine System evaluation: average
Source: × Newspaper.
【0143】同一対象にたとえば複数のデータが検索結
果として得られた場合、利用者は評価とその情報の出典
をみることでデータの信頼性を判断できる。上記例では
出典情報だが、タイトルであれば評価された文脈がわか
り、より正確に判断できる。When a plurality of data are obtained as a search result for the same object, the user can judge the reliability of the data by looking at the evaluation and the source of the information. In the above example, it is the source information, but if it is a title, the evaluated context can be understood, and the judgment can be made more accurately.
【0144】この第12実施例によれば、評価情報とと
もに出典情報、タイトルを表示することで、利用者が効
率的に評価情報を利用できる。According to the twelfth embodiment, by displaying the source information and the title together with the evaluation information, the user can efficiently use the evaluation information.
【0145】−第13実施例− システム構成は、図9に示すものである。この実施例の
文書解析部30は、第6実施例の評価情報抽出を行う。
すなわち、抽出した評価情報と評価した主体に関する情
報を保持し、検索に使用する点が特徴である。Thirteenth Embodiment A system configuration is shown in FIG. The document analyzer 30 of this embodiment extracts the evaluation information of the sixth embodiment.
That is, the feature is that the extracted evaluation information and information on the evaluated subject are held and used for the search.
【0146】例13: 文書中につぎの文がある場合、 文 『 2000年の景気について○○総理は「今後、
景気回復がわずかながらではあるが期待できる」と述べ
た。 』 文 『 2000年の景気について○○教授は「混迷が
深まるといわざるをえない」と批判した。 』 文) 『 10年後の景気について○○庁は「好景気に
わく見通し」と発表。 』 文書解析部30が、第6実施例の評価情報抽出によっ
て、次の評価情報を抽出し、単語意味情報データベース
10に格納する: 対象 発言 評価 2000年の景気 ○○総理 今後、景気回復がわずかながらでは あるが期待できる 2000年の景気 ○○教授 混迷が深まるといわざるをえない 2010年の景気 ○○庁 好景気にわく見通し。Example 13: If the following sentence is present in the document, the sentence "
We can expect a modest economic recovery, "he said. Statement “Professor XX criticized the economy in 2000, saying,“ I must say that the confusion is deepening. ” Statement) "About the economy 10 years from now, the XX Agency has announced that it will have a good economic outlook." The document analysis unit 30 extracts the following evaluation information by the evaluation information extraction of the sixth embodiment and stores it in the word semantic information database 10: Target Remark Evaluation 2000 Business in XX Prime Minister XX Despite the expectations, we can expect the economy in 2000. ○ Professor We must say that the confusion is deepening. The economy in 2010 ○○ Agency The outlook is for a good economy.
【0147】検索の際、検索キーを「景気」あるは「2
000年の景気」とすると、情報検索部40が、単語意
味情報データベース10から以下の情報を読出し、表示
する。At the time of search, the search key is “business” or “2”.
Assuming that "the economy of 000 years", the information retrieval unit 40 reads out the following information from the word meaning information database 10 and displays it.
【0148】 対象 発言 評価 2000年の景気 ○○総理 今後、景気回復がわずかながらでは あるが期待できる 2000年の景気 ○○教授 混迷が深まるといわざるをえない。Target Remarks Evaluation Economy in 2000 XX Prime Minister Economy in 2000 is expected to recover, albeit slightly, in the future. Professor XX Inevitably, confusion will deepen.
【0149】このように同一対象に対しての評価情報を
得ることができ、評価を行なった主体の情報によって情
報の信頼性を利用者が効率的に判断できる。As described above, evaluation information for the same object can be obtained, and the user can efficiently judge the reliability of the information based on the information of the subject who has performed the evaluation.
【0150】第13実施例に拠れば、評価情報とともに
評価を行なった主体の情報を得ることで、評価情報の信
頼性を利用者が効率的に判断できる。According to the thirteenth embodiment, the user can efficiently judge the reliability of the evaluation information by obtaining the information of the subject who has performed the evaluation together with the evaluation information.
【0151】−第14実施例− 図12に、第14実施例の検索システムを示す。これは
図9に示す情報検索システムと基本構成は同様である
が、第14実施例は、ネットワーク(WWW)上から文書を
収集し、評価情報を抽出することを特徴とする。たとえ
ば、文書中に次の表現があったとする: 例14 文 「 最速の○○○○が開発された 」 文 「 軽量の○○○○が登場 」 文 「 最速の××××が開発された 」 評価情報抽出により、以下のような情報を得る: ○○○○ 意味分類:機械・システム 評価:最速 出
典:Δ新聞 日付:1999.4 ×××× 意味分類:機械・システム 評価:最速 出
典:○新聞 日付:2000.4 ○○○○ 意味分類:機械・システム 評価:軽量 出
典:×新聞 日付:1999.4 。Fourteenth Embodiment FIG. 12 shows a search system according to a fourteenth embodiment. This has the same basic configuration as the information search system shown in FIG. 9, but the fourteenth embodiment is characterized by collecting documents from a network (WWW) and extracting evaluation information. For example, suppose the following expression is present in a document: Example 14 sentence "The fastest XXXXX has been developed" sentence "Lightweight XXXXX has appeared" sentence "The fastest XXXXXX has been developed The following information is obtained by extracting the evaluation information: ○○○○ Semantic classification: Machine / System Evaluation: Fastest Source: Δ Newspaper Date: 1999.4 ×× XXX Semantic classification: Machine / System Evaluation: Fastest Source: ○ Newspaper Date: 2000.4 ○○○○ Meaning classification: Machine / System Evaluation: Lightweight Source: × Newspaper Date: 1999.4.
【0152】検索システム利用者が例えば「○○○○」
というものについて知りたいという場合、検索キーとし
て「○○○○」と指定すると、以下が得られる: ○○○○ 意味分類:機械・システム 評価:最速 出
典:Δ新聞 日付:1999.4 ○○○○ 意味分類:機械・システム 評価:軽量 出
典:×新聞 日付:1999.4 。For example, if the search system user is "XXXXX"
If you want to know about this, specify "○○○○" as a search key, and you will get: ○○○○ Meaning: Machine / System Evaluation: Fastest Source: ΔNewspaper Date: 1999.4 ○○○○ Semantic classification: Machine / system Evaluation: Light weight Source: × Newspaper Date: 1999.4.
【0153】利用者は所望の「○○○○」に関する評価
の情報を、様々なネットワーク上の文書を参照せずに、
当該の単語意味情報データベース10pだけを検索する
ことで得ることができる。[0153] The user can obtain evaluation information on the desired "XXX" without referring to documents on various networks.
It can be obtained by searching only the word meaning information database 10p.
【0154】また、検索キーとして「システム」「最
速」とすれば、検索結果として以下が得られる: ○○○○ 意味分類:機械・システム 評価:最速 出
典:Δ新聞 日付:1999.4 ×××× 意味分類:機械・システム 評価:最速 出
典:○新聞 日付:2000.4 。If "system" and "fastest" are used as search keys, the following results can be obtained as search results: ○○○○ Meaning classification: machine / system Evaluation: fastest Source: Δ newspaper Date: 1999.4 ×××× Semantic classification: Machine / System Evaluation: Fastest Source: ○ Newspaper Date: 2000.4.
【0155】複数の結果があるが、日付や出典、発言者
等の情報から評価情報の信頼性、新規制を容易に判断で
きる。また、使用者が「○○○○」という語自体を知ら
ず、調べたい場合にも、本例により、意味分類を調べる
ことができる。Although there are a plurality of results, it is possible to easily determine the reliability of the evaluation information and the new regulations from information such as the date, source, and speaker. In addition, even when the user does not know the word "OOO" and wants to check, the present example can check the semantic classification.
【0156】[0156]
【発明の効果】格関係など不明確なものあるいは述語が
いろいろな語と共起しうる共起制限のゆるい場合にも、
抽出したい語を修飾する語の性質によって語の抽出とそ
の意味分類を得ることができる。According to the present invention, even in the case of an unclear thing such as a case relation or a loose co-occurrence restriction in which a predicate can co-occur with various words,
Word extraction and its semantic classification can be obtained according to the nature of the word that modifies the word to be extracted.
【図1】 本発明の第1〜6実施例に共通の文書処理シ
ステムの構成を示すブロック図である。FIG. 1 is a block diagram showing a configuration of a document processing system common to first to sixth embodiments of the present invention.
【図2】 図1に示す評価表現辞書3の内容の一例3a
を示す平面図である。FIG. 2 shows an example 3a of the contents of the evaluation expression dictionary 3 shown in FIG.
FIG.
【図3】 図1に示すパターン辞書4の内容であるパタ
ーンの一例を示す平面図である。FIG. 3 is a plan view showing an example of a pattern that is the content of the pattern dictionary 4 shown in FIG.
【図4】 図1に示す意味推定部6の、第1実施例の意
味推定処理を示すフローチャートである。FIG. 4 is a flowchart showing a meaning estimating process according to the first embodiment of the meaning estimating unit 6 shown in FIG. 1;
【図5】 (a)は第1実施例において、入力文章上の
ある単語に対応付けて抽出された意味分類の内容を示す
平面図、(b)は第2実施例において、入力文章上のあ
る単語に対応付けて抽出された評価情報の内容を示す平
面図、(c)は図1に示す評価表現辞書3の内容のもう
1つの例3bを示す平面図、(d)は第3実施例におい
て、入力文章上のある単語に対応付けて抽出された評価
タイプの内容を示す平面図、(e)は第4実施例におい
て、入力文章上のある単語に対応付けて付与された日付
を示す平面図、(f)は第5実施例において、入力文章
上のある単語に対応付けて付与されたタイトルを示す平
面図である。FIG. 5A is a plan view showing the contents of a semantic classification extracted in association with a certain word on an input sentence in the first embodiment, and FIG. 5B is a plan view showing the contents of the input sentence in the second embodiment. A plan view showing the contents of the evaluation information extracted in association with a certain word, (c) is a plan view showing another example 3b of the contents of the evaluation expression dictionary 3 shown in FIG. 1, and (d) is a third embodiment. In the example, a plan view showing the contents of the evaluation type extracted in association with a certain word on the input sentence, (e) shows a date assigned in association with a certain word on the input sentence in the fourth embodiment. FIG. 17F is a plan view showing a title assigned in association with a certain word on an input sentence in the fifth embodiment.
【図6】 図1に示す評価表現辞書3の内容のもう1つ
の例3cを示す平面図である。FIG. 6 is a plan view showing another example 3c of the contents of the evaluation expression dictionary 3 shown in FIG.
【図7】 (a)および(b)は、図1に示すパターン
辞書4の内容であるパターンの他の例を示す平面図、
(c)は第6実施例において、入力文章上のある単語に
対応付けて付与された評価情報を示す平面図、(d)は
第6実施例と第3実施例との組合せにおいて、入力文章
上のある単語に対応付けて付与された評価情報を示す平
面図、(e)は第6実施例と第4実施例との組合せにお
いて、入力文章上のある単語に対応付けて付与された評
価情報と日付を示す平面図である。FIGS. 7A and 7B are plan views showing another example of a pattern that is the content of the pattern dictionary 4 shown in FIG. 1;
(C) is a plan view showing evaluation information provided in association with a certain word on an input sentence in the sixth embodiment, and (d) is a combination of the sixth embodiment and the third embodiment. FIG. 9E is a plan view showing evaluation information assigned to a certain word above, and FIG. 10E shows an evaluation assigned to a certain word on an input sentence in the combination of the sixth embodiment and the fourth embodiment. It is a top view showing information and a date.
【図8】 図1に示す評価表現辞書3の内容のもう1つ
の例3dを示す平面図である。8 is a plan view showing another example 3d of the contents of the evaluation expression dictionary 3 shown in FIG.
【図9】 第7〜13実施例に共通の情報検索システム
の構成を示すブロック図である。FIG. 9 is a block diagram showing a configuration of an information search system common to the seventh to thirteenth embodiments.
【図10】 図9に示す文書解析部30の、第7実施例
での文書解析の流れを示すフローチャートである。FIG. 10 is a flowchart showing a flow of document analysis in a seventh embodiment by the document analysis unit 30 shown in FIG. 9;
【図11】 図9に示す情報検索部40の、第7実施例
での情報検索の流れを示すフローチャートである。FIG. 11 is a flowchart showing a flow of information search in an information search unit 40 shown in FIG. 9 in a seventh embodiment.
【図12】 第14実施例の情報検索を行うネットワー
ク情報検索システムの構成を示すブロック図である。FIG. 12 is a block diagram illustrating a configuration of a network information search system for performing information search according to a fourteenth embodiment.
PC:パソコン PC: PC
Claims (14)
うる意味分類とを対応付けて記述した評価表現辞書と、 評価を表す表現と共起する表現の文章上の出現する順番
を記述したパターン辞書とをもちいて、 テキスト中の特定の表現あるいは、データベースあるい
は辞書中の単語に対して意味分類を付与する、意味情報
抽出方法。1. An evaluation expression dictionary in which an expression representing an evaluation is associated with a semantic classification in which the expression representing an evaluation can co-occur, and A semantic information extraction method that assigns a semantic classification to a specific expression in text or a word in a database or dictionary using a described pattern dictionary.
うる意味分類とを対応付けて記述した評価表現辞書と、 評価を表す表現と共起する表現の文章上の出現する順番
を記述したパターン辞書とをもちいて、 テキスト中の特定の表現あるいは、データベースあるい
は辞書中の単語に対して、評価を表す表現を付与する、
評価情報抽出方法。2. An evaluation expression dictionary in which an expression representing an evaluation and a semantic class that can co-occur with an expression representing an evaluation are described in association with each other. By using the described pattern dictionary, an expression representing evaluation is given to a specific expression in text or a word in a database or dictionary.
Evaluation information extraction method.
表す表現が共起しうる意味分類および評価情報とを対応
付けて記述したものであり、 テキスト中の特定の表現あるいは、データベースあるい
は辞書中の単語に対して、評価を表す表現と評価値を付
与する、請求項2に記載の評価情報抽出方法。3. An evaluation expression dictionary is a description in which an expression expressing an evaluation and an expression expressing an evaluation co-occur with a semantic classification and evaluation information. 3. The evaluation information extraction method according to claim 2, wherein an expression representing an evaluation and an evaluation value are assigned to a word in the dictionary.
ベースあるいは辞書中の単語に対して、更に、評価表現
が出現した文書の作成された日付を対応づけて付与す
る、請求項2又は請求項3記載の評価情報抽出方法。4. The method according to claim 2, wherein a specific expression in the text or a word in the database or the dictionary is further associated with the date of creation of the document in which the evaluation expression appears. The described evaluation information extraction method.
ベースあるいは辞書中の単語に対して、更に、抽出した
語あるいは表現が属していた文書の出典情報あるいはタ
イトルを、抽出した語と対応付けて付与する、請求項
2,請求項3又は請求項4記載の評価情報抽出方法。5. A specific expression in a text, or a word in a database or a dictionary, further provided with source information or a title of a document to which the extracted word or expression belongs in association with the extracted word. The evaluation information extracting method according to claim 2, wherein the evaluation information is extracted.
ベースあるいは辞書中の単語に対して、更に、抽出した
評価表現を評価又は発言した主体に関する情報を付与す
る、請求項2,請求項3,請求項4又は請求項5記載の
評価情報抽出方法。6. A method according to claim 2, further comprising: adding a specific expression in a text or a word in a database or a dictionary to a subject who has evaluated or said the extracted evaluation expression. The evaluation information extracting method according to claim 4 or 5.
力された単語の意味情報を抽出して単語に対応付けた形
式で単語意味情報データベースに登録し、 入力された単語に対応づけられた意味分類を、該単語意
味情報データベースから検索して読み出す、情報検索方
法。7. The method according to claim 1, wherein the semantic information of the input word is extracted and registered in the word semantic information database in a form corresponding to the word, and the word is associated with the input word. An information retrieval method for retrieving and reading a meaning classification from the word meaning information database.
力された単語の評価を表す表現を抽出して単語に対応付
けた形式で単語意味情報データベースに登録し、 入力された単語の、評価を表す表現を該単語意味情報デ
ータベースから検索する、情報検索方法。8. An evaluation information extracting method according to claim 2, wherein an expression representing the evaluation of the input word is extracted and registered in a word meaning information database in a form corresponding to the word, and the evaluation of the input word is evaluated. An information search method for searching the word meaning information database for an expression representing "."
価を表す表現をも用いる請求項8に記載の情報検索方
法。9. The information search method according to claim 8, wherein an expression representing an evaluation is also used as a search key for a document containing the word.
入力された単語の評価情報を抽出して単語に対応付けた
形式で単語意味情報データベースに登録し、 入力された単語の、評価情報を該単語意味情報データベ
ースから検索する、情報検索方法。10. The method for extracting evaluation information according to claim 3,
An information search method for extracting evaluation information of an input word, registering the evaluation information in a form associated with the word in a word meaning information database, and searching for evaluation information of the input word from the word meaning information database.
入力された単語があった文書の作成日付を単語に対応付
けた形式で単語意味情報データベースに登録し、 入力された単語がある文書の作成日時を、該単語意味情
報データベースから検索する、情報検索方法。11. The evaluation information extracting method according to claim 4,
An information search, in which a creation date of a document having an input word is registered in a word meaning information database in a form corresponding to the word, and a creation date and time of a document having the input word is searched from the word meaning information database. Method.
入力された単語がある文書の出典情報あるいはタイトル
を、単語に対応付けた形式で単語意味情報データベース
に登録し、 入力された単語がある文書の出典情報あるいはタイトル
を、該単語意味情報データベースから検索する、情報検
索方法。12. The evaluation information extracting method according to claim 5,
Registers the source information or title of the document with the input word in the word meaning information database in a form corresponding to the word, and searches the word meaning information database for the source information or title of the document with the input word. The information retrieval method.
言した主体に関する情報を該単語に対応付けた形式で単
語意味情報データベースに登録し、 入力された単語を評価又は発言した主体に関する情報
を、該単語意味情報データベースから検索する、情報検
索方法。13. The information on the subject who evaluated or said the input word in claim 6 in a form associated with the word in a word meaning information database, and the information on the subject who evaluated or said the input word. From the word meaning information database.
語に対して、請求項7乃至請求項13のいずれかに記載
の情報の抽出と単語意味情報データベースへの登録をお
こない、 使用者が入力した単語に対応する登録情報を該単語意味
情報データベースから検索する、ネットワーク情報検索
方法。14. A method for extracting information according to claim 7 and registering it in a word semantic information database for words of a document collected through a network. A network information search method for searching for corresponding registration information from the word meaning information database.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001082668A JP2002278982A (en) | 2001-03-22 | 2001-03-22 | Information extraction method and information retrieval method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001082668A JP2002278982A (en) | 2001-03-22 | 2001-03-22 | Information extraction method and information retrieval method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2002278982A true JP2002278982A (en) | 2002-09-27 |
Family
ID=18938585
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001082668A Withdrawn JP2002278982A (en) | 2001-03-22 | 2001-03-22 | Information extraction method and information retrieval method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2002278982A (en) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006244053A (en) * | 2005-03-02 | 2006-09-14 | Sony Corp | Presentation device and method, program, and recording medium |
JP2007172051A (en) * | 2005-12-19 | 2007-07-05 | Nippon Telegr & Teleph Corp <Ntt> | Reputation information processing apparatus, reputation information processing method, reputation information processing program, and recording medium |
JP2008140359A (en) * | 2006-11-08 | 2008-06-19 | Nippon Telegr & Teleph Corp <Ntt> | Evaluation information extraction apparatus, evaluation information extraction method and program thereof |
JP2009140048A (en) * | 2007-12-04 | 2009-06-25 | Nippon Telegr & Teleph Corp <Ntt> | Reputation relationship extraction apparatus, method and program thereof |
JP2010198278A (en) * | 2009-02-25 | 2010-09-09 | Nippon Telegr & Teleph Corp <Ntt> | Apparatus, method, and program for classification of reputation information |
JP2013182422A (en) * | 2012-03-01 | 2013-09-12 | Nikon Corp | Electronic device |
JP2013200794A (en) * | 2012-03-26 | 2013-10-03 | Ntt Communications Kk | Device, method, and program for attribute extraction |
WO2014065630A1 (en) * | 2012-10-26 | 2014-05-01 | 고려대학교 산학협력단 | Sentiment-based query processing system and method |
-
2001
- 2001-03-22 JP JP2001082668A patent/JP2002278982A/en not_active Withdrawn
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006244053A (en) * | 2005-03-02 | 2006-09-14 | Sony Corp | Presentation device and method, program, and recording medium |
JP2007172051A (en) * | 2005-12-19 | 2007-07-05 | Nippon Telegr & Teleph Corp <Ntt> | Reputation information processing apparatus, reputation information processing method, reputation information processing program, and recording medium |
JP2008140359A (en) * | 2006-11-08 | 2008-06-19 | Nippon Telegr & Teleph Corp <Ntt> | Evaluation information extraction apparatus, evaluation information extraction method and program thereof |
JP2009140048A (en) * | 2007-12-04 | 2009-06-25 | Nippon Telegr & Teleph Corp <Ntt> | Reputation relationship extraction apparatus, method and program thereof |
JP2010198278A (en) * | 2009-02-25 | 2010-09-09 | Nippon Telegr & Teleph Corp <Ntt> | Apparatus, method, and program for classification of reputation information |
JP2013182422A (en) * | 2012-03-01 | 2013-09-12 | Nikon Corp | Electronic device |
JP2013200794A (en) * | 2012-03-26 | 2013-10-03 | Ntt Communications Kk | Device, method, and program for attribute extraction |
WO2014065630A1 (en) * | 2012-10-26 | 2014-05-01 | 고려대학교 산학협력단 | Sentiment-based query processing system and method |
KR101423549B1 (en) | 2012-10-26 | 2014-08-01 | 고려대학교 산학협력단 | Sentiment-based query processing system and method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8977953B1 (en) | Customizing information by combining pair of annotations from at least two different documents | |
US9015153B1 (en) | Topic discovery, summary generation, automatic tagging, and search indexing for segments of a document | |
US8346795B2 (en) | System and method for guiding entity-based searching | |
Read et al. | Measurement of formulaic sequences | |
KR101672579B1 (en) | Systems and methods regarding keyword extraction | |
Ray et al. | A review and future perspectives of Arabic question answering systems | |
US8498983B1 (en) | Assisting search with semantic context and automated search options | |
Archer | What's in a word-list?: investigating word frequency and keyword extraction | |
US20090019362A1 (en) | Automatic Reusable Definitions Identification (Rdi) Method | |
Barrière | Natural language understanding in a semantic web context | |
Kokkinakis et al. | Hfst-swener–a new ner resource for swedish | |
JP4347226B2 (en) | Information extraction program, recording medium thereof, information extraction apparatus, and information extraction rule creation method | |
Hassel | Evaluation of automatic text summarization | |
Siklósi | Using embedding models for lexical categorization in morphologically rich languages | |
Al-Ayyoub et al. | Framework for Affective News Analysis of Arabic News: 2014 Gaza Attacks Case Study. | |
JP2002278982A (en) | Information extraction method and information retrieval method | |
Ferreira et al. | Combining rule-based and statistical methods for named entity recognition in Portuguese | |
Grefenstette | The WWW as a Resource for Lexicography | |
JP4428703B2 (en) | Information retrieval method and system, and computer program | |
Alamir et al. | Arabic question-answering system using search engine techniques | |
JP5614687B2 (en) | Information analysis device for analyzing time-series text data including time-series information and text information | |
JP2019003270A (en) | Learning device, video search device, method, and program | |
JP5187187B2 (en) | Experience information search system | |
Nelli | Textual Data Analysis with NLTK | |
Yergesh et al. | A System for Classifying Kazakh Language Documents: Morphological Analysis and Automatic Keyword Identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080318 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20100412 |