JP5321583B2

JP5321583B2 - 共起辞書生成システム、スコアリングシステム、共起辞書生成方法、スコアリング方法及びプログラム

Info

Publication number: JP5321583B2
Application number: JP2010505973A
Authority: JP
Inventors: 正明土田; 弘紀水口; 大久寿居
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2008-04-01
Filing date: 2009-04-01
Publication date: 2013-10-23
Anticipated expiration: 2029-04-01
Also published as: WO2009123260A1; US20110055228A1; JPWO2009123260A1; US8443008B2

Description

本発明は、共起辞書生成システム、スコアリングシステム、共起辞書生成方法、スコアリング方法およびプログラムに関する。
本願は、２００８年４月１日に、日本に出願された特願２００８−０９４９８０号と、２００８年５月１２日に、日本に出願された特願２００８−１２４２５４号とに基づき優先権を主張し、その内容をここに援用する。

近年、様々な文書が電子化されている。それら電子化文書には、さまざまな情報が書かれているため、有効活用することが重要である。電子化文書の有効活用のために、自然言語処理技術が注目されている。

自然言語処理で意味的に処理するときには、語の共起情報を使うことが多い。

例えば、共起語が似ているほど意味的に類似しているとの考えから、２つの語の意味的類似度は、お互いの共起語が似ているほど高くなるよう計算される。また、かな漢字変換では、変換候補のうち、先に確定した語と良く共起する候補ほど尤もらしいと判定する。

従来の共起辞書作成システムの例が、特許文献１に記載されている。

特許文献１の共起辞書作成システムは、与えられた文書集合を解析する文書解析部と、上記与えられた文書集合中に存在している語を抽出し、記憶装置に記憶させる語抽出部と、上記与えられた文書集合中に存在している語連鎖を抽出し、記憶装置に記憶させる語連鎖抽出部と、上記語のそれぞれと上記語連鎖のそれぞれとの共起回数を検出し、記憶装置に記憶させる共起回数検出部と、上記共起回数に応じて共起度を検出し、この検出された共起度に基づいて、上記語の概念情報を、定量化し、記憶装置に記憶させる概念情報定量化部と、上記概念情報定量化部で得られた上記語の概念情報を、データベースとする概念情報データベース作成部とから構成される。

上記の「語連鎖」とは、文書中で連続するｎ（ｎは２以上）単語の連鎖である。

特許文献１では、まず文書集合中の各文を形態素解析する。次に、形態素解析結果から全ての語または語連鎖（２単語以上の連鎖）を抽出し、記憶装置に記憶させる。次に、共起回数検出部が、抽出された自立語（名詞、代名詞、動詞、形容詞、副詞）または語連鎖のそれぞれに対して、共起する自立語または語連鎖を抽出し、出現回数をカウントする。共起回数検出部は、このカウント結果を、概念情報定量化部に送る。ここで、出現回数は、語または語連鎖が所定の文書範囲に共起している場合にカウントされる。「所定の文書範囲」とは、文書、段落、文のいずれかである。次に、共起回数検出部がカウントした結果に基づいて、概念情報定量化部が、抽出された語または語連鎖のそれぞれについて、語または語連鎖のそれぞれとの共起度を計算する。ここで、共起度とは、例えば、共起回数を、共起情報を構成する片方の語の出現回数で割って正規化した値である。

従来技術における第１の問題点は、高品質な共起辞書が生成され難いことである。その理由は、特許文献１に記載された共起辞書作成システムでは、文書、段落、文など、一定範囲内にある全ての共起を収集しているが、実際にはそれらの共起の中には意味的関連がない共起が含まれるためである。例えば、「カレーは辛いが、福神漬けはしょっぱい。」という文から共起情報を取得する場合について考える。特許文献１では、「カレー，辛い」、「カレー，福神漬け」、「福神漬け，しょっぱい」、「カレー，しょっぱい」、「福神漬け，辛い」等が共起として取得される。ここで、「カレー，辛い」、「カレー，福神漬け」、「福神漬け，しょっぱい」の３種類の共起は、意味的に妥当である。しかし、「カレー，しょっぱい」、「福神漬け，辛い」は文法的には妥当であるが、通常はあまり使われない。このように特許文献１に記載された共起辞書作成システムでは、意味的関連の低い共起が大量に収集されてしまう。この傾向は、共起の取得範囲が、文から段落、文書と広がるにつれて、より顕著に現れる。

従来技術における第２の問題点は、共起情報の格納に大量の記憶領域が必要であり、共起辞書の記憶容量が大きくなることである。その理由は、特許文献１に記載された共起辞書作成システムでは、文書集合の語彙数や複数語からなる表現（複合表現と呼ぶ）のための語連鎖数ｎが増えるにつれ、語連鎖の種類数が増えるためである。それら複合表現の共起度を記憶するためには、最悪の場合、語連鎖の種類数の２乗個の数値を記憶する領域が必要である。例えば、文書集合で用いられる語彙が１０００語で、ｎが３であるとする。すると、最悪の場合、複合表現は約１０億種類（＝１０００×１０００×１０００）となる。つまり、それらの共起度を全て記憶する特許文献１に記載の共起辞書作成システムでは、１０億の二乗個の数値を記憶する領域が共起辞書に必要となる。

特開２００６−２１５８５０号公報相澤彰子、"共起に基づく類似性尺度"、オペレーションズ・リサーチ誌、Ｖｏｌ．５２、Ｎｏ．１１、ｐｐ．７０６−７１８、２００７Ｔ．Ｈｏｆｍａｎｎ、"ＰｒｏｂａｂｉｌｉｓｔｉｃＬａｔｅｎｔＳｅｍａｎｔｉｃＩｎｄｅｘｉｎｇ"、Ｐｒｏｃ．ｏｆＳＩＧＩＲ’９９、ｐｐ．５０−５７、１９９９．Ｍ．Ａ．Ｈｅａｒｓｔ、ＴｅｘｔＴｉｌｉｎｇ: ＳｅｇｍｅｎｔｉｎｇＴｅｘｔｉｎｔｏＭｕｌｔｉｐａｒａｇｒａｐｈＳｕｂｔｏｐｉｃＰａｓｓａｇｅｓ、ＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ、Ｖｏｌ．２３、Ｎｏ．１、ｐｐ．３３−６４、１９９７．

本発明は、上記課題を鑑みて発明されたものであり、その目的は、意味的関連を考慮した共起辞書を作成できる共起辞書生成システム、スコアリングシステム、共起辞書生成方法、スコアリング方法およびプログラムを提供することにある。

また、本発明の目的は、意味のある複合表現のみを抽出することで、複合表現に対応した記憶領域の小さい共起辞書を作成できる共起辞書生成システム、スコアリングシステム、共起辞書生成方法、スコアリング方法およびプログラムを提供することにある。

上記課題を解決するために、本発明の第１の形様によると、共起辞書生成システムであって、テキストを形態素解析して文節を同定して文節間の係り受けを解析する言語解析部と、言語解析部が解析した解析結果から、文節単位で一定範囲のテキスト内の名詞の共起、名詞と用言の係り受け、及び用言と用言の係り受けを共起関係として収集すると共に、各共起関係の頻度を取得する共起関係収集部と、共起関係収集部が収集した共起関係の頻度に基づき共起関係の共起スコアを計算する共起スコア計算部と、共起スコア計算部が計算した共起スコアと、共起関係収集部が収集した共起関係との対応を記述した共起辞書を記憶する共起辞書記憶部とを備える。本発明の第２の形態によると、スコアリングシステムであって、テキストが形態素解析されて文節を固定して文節間の係り受けが解析された解析結果から、一定範囲のテキスト内で収集された名詞の共起、名詞と用言の係り受け、及び用言と用言の係り受けである共起関係と、共起関係と共に取得された各共起関係の頻度に基づいて計算された値である共起スコアとの対応を記述した共起辞書を記憶する共起辞書記憶部と、典型度付与対象テキスト内の共起関係を収集し、当該収集した共起関係に対応する共起スコアを共起辞書記憶部から取得して、共起スコアが高いほど高くなるように、典型度付与対象テキストの内容の典型度スコアを計算する典型度スコアリング部とを備える。本発明の第３の形態によると、共起辞書生成方法であって、情報処理装置が、テキストを形態素解析して文節を同定して文節間の係り受けを解析する言語解析段階と、情報処理装置が、言語解析段階において解析された解析結果から、文節単位で一定範囲のテキスト内の名詞の共起、名詞と用言の係り受け、及び用言と用言の係り受けを共起関係として収集すると共に、各共起関係の頻度を取得する共起関係収集段階と、情報処理装置が、共起関係収集段階において収集された共起関係の頻度に基づき共起関係の共起スコアを計算する共起スコア計算段階と、情報処理装置が、共起スコア計算段階において計算された共起スコアと、共起関係収集段階において収集された共起関係との対応を記述した共起辞書を共起辞書記憶部に記憶させる共起辞書記憶段階とを備える。本発明の第４の形態によると、スコアリング方法であって、テキストが形態素解析されて文節を固定して文節間の係り受けが解析された解析結果から、一定範囲のテキスト内で収集された名詞の共起、名詞と用言の係り受け、及び用言と用言の係り受けである共起関係と、共起関係と共に取得された各共起関係の頻度に基づいて計算された値である共起スコアとの対応を記述した共起辞書を記憶する共起辞書記憶部を備える情報処理装置が、典型度付与対象テキスト内の共起関係を収集し、当該収集した共起関係に対応する共起スコアを共起辞書記憶部から取得して、共起スコアが高いほど高くなるように、典型度付与対象テキストの内容の典型度スコアを計算する典型度スコアリング段階を備える。本発明の第５の形態によると、プログラムであって、コンピュータを、テキストを形態素解析して文節を同定して文節間の係り受けを解析する言語解析部、言語解析部が解析した解析結果から、文節単位で一定範囲のテキスト内の名詞の共起、名詞と用言の係り受け、及び用言と用言の係り受けを共起関係として収集すると共に、各共起関係の頻度を取得する共起関係収集部、共起関係収集部が収集した共起関係の頻度に基づき共起関係の共起スコアを計算する共起スコア計算部、共起スコア計算部が計算した共起スコアと、共起関係収集部が収集した共起関係との対応を記述した共起辞書を記憶する共起辞書記憶部として機能させる。本発明の第６の形態によると、プログラムであって、コンピュータを、テキストが形態素解析されて文節を固定して文節間の係り受けが解析された解析結果から、一定範囲のテキスト内で収集された名詞の共起、名詞と用言の係り受け、及び用言と用言の係り受けである共起関係と、共起関係と共に取得された各共起関係の頻度に基づいて計算された値である共起スコアとの対応を記述した共起辞書を記憶する共起辞書記憶部、典型度付与対象テキスト内の共起関係を収集し、当該収集した共起関係に対応する共起スコアを共起辞書記憶部から取得して、共起スコアが高いほど高くなるように、典型度付与対象テキストの内容の典型度スコアを計算する典型度スコアリング部として機能させる。なお、本発明では、共起関係を構成する単位を文節とするため、名詞文節と名詞、用言文節と用言とは、それぞれ区別する必要がない。そのため、文節を省略して表記することがある。ただし、「単語」と明示した場合のみ、文節ではなく単語のみを表す。

本発明によれば、意味的関連を考慮した共起辞書を作成できる。その理由は、用言が関わる共起関係を係り受け関係に絞っているためである。

また、本発明によれば、共起の収集単位を文節としているために、意味のある複合表現のみを抽出することができる。その結果、複合表現に対応した記憶領域の小さい共起辞書を作成することができる。

本発明の第１の実施の形態の構成を示すブロック図である。本発明の第１の実施の形態の動作を示す流れ図である。コーパス入力部により入力するテキストデータの一例を示す説明図である。言語解析部の解析例を示す説明図である。共起関係収集部の処理例を示す説明図である。共起関係収集部の出力結果の一例を示す説明図である。共起辞書表示部の表示例を示す説明図である。本発明の第２の実施の形態の構成を示すブロック図である。本発明の第２の実施の形態の動作を示す流れ図である。本発明の第３の実施の形態の構成を示すブロック図である。本発明の第３の実施の形態の構成を示す流れ図である。情報抽出装置の抽出結果の一例を示す図である。かな漢字変換の候補の一例を示す図である。本発明の第３の実施の形態の説明に用いる共起辞書記憶部のデータの説明図である。情報抽出結果の典型度スコアの一例を示す図である。かな漢字変換候補の典型度スコアの一例を示す図である。本発明の第４の実施の形態の構成を示すブロック図である。本発明の実施の形態によるシステムをインプリメントした情報処理システムの一般的なブロック構成図である。

１・・・コーパス入力部、
２、９、１０・・・記憶装置、
３、５、７、１１・・・データ処理装置、
８・・・テキストデータ表示部、
２０・・・コーパス記憶部、
２１・・・共起辞書記憶部、
２２・・・テキストデータ記憶部、
２３・・・典型度スコア付きテキストデータ記憶部、
３０、７０・・・共起辞書生成部、
７１・・・典型度スコアリング部、
７２・・・テキストデータ選別部、
３００・・・言語解析部、
３０１・・・共起関係収集部、
３０２・・・共起スコア計算部、
５００・・・トピック分割部、
３０００・・・プロセッサ、
３００１・・・プログラムメモリ、
３００２・・・記憶媒体

（第１の実施の形態）
本発明を実施するための、第１の実施の形態について図面を参照して詳細に説明する。

図１は、本発明の第１の実施の形態の構成を示すブロック図である。
本発明の第１の実施の形態は、共起関係の収集元となるテキストを入力するコーパス入力部１と、テキストや生成された共起辞書を記憶する記憶装置２と、プログラム制御により動作するデータ処理装置３と、生成した共起辞書の内容を表示する共起辞書表示部４とを有する。

これらのコーパス入力部１、記憶装置２、データ処理装置３、共起辞書表示部４のそれぞれについて説明する。

コーパス入力部１は、共起関係の収集元となるテキストデータを、コーパス記憶部２０に記憶させる。コーパスは、テキスト本体を表す「テキスト」と、各データの識別子を表す「ＩＤ」とからなる。「ＩＤ」は、あらかじめ指定しても良いし、入力順に整数の連番となるようＩＤを付与するなど、自動的に付けても良い。

記憶装置２は、コーパス記憶部２０と、共起辞書記憶部２１とを備える。

コーパス記憶部２０は、コーパス入力部１により入力されたテキストデータを記憶する。

共起辞書記憶部２１は、共起辞書生成部３０によって生成された共起辞書を記憶する。

データ処理装置３は、共起辞書生成部３０と共起辞書出力部３１とを備える。

共起辞書生成部３０は、言語解析部３００、共起関係収集部３０１、共起スコア計算部３０２とを有する。

言語解析部３００は、コーパス記憶部２０からテキストデータを読み出し、各テキストデータに対して形態素解析、文節同定、文節間の係り受け解析を行う。言語解析部３００は、その解析結果を、共起関係収集部３０１に出力する。

共起関係収集部３０１は、言語解析部３００の解析結果から、名詞、用言、名詞同士の共起関係、名詞と用言が係り受けにある共起関係、用言同士が係り受けにある共起関係を収集する。また、共起関係収集部３０１は、名詞、用言、各共起関係の頻度を取得する。共起関係収集部３０１は、収集した共起関係と、取得した各共起関係の頻度とを、共起スコア計算部３０２に出力する。ここで、名詞同士の共起関係は、それぞれの名詞が所定の文書範囲に共起している場合に収集する。所定の文書範囲は、文書、段落、文のいずれかである。

共起スコア計算部３０２は、各名詞、用言、共起関係と、その頻度を受け取ると、各共起関係の共起スコアを計算する。そして、共起スコア計算部３０２は、各共起関係と、計算した共起スコアとを、共起辞書記憶部２１に記憶させる。共起スコアは、２つの語が同時に使用される度合いであり、同時に使われやすいほどスコアが高くなるように計算される。共起スコアには、任意の共起強度の計算法を用いることができる。例えば、頻度をそのまま共起スコアとしてもよい。また、高頻度の共起関係が有利になりすぎないように、頻度の対数をとって共起スコアとしてもよい。
また、偏って共起する関係は、意味的関連が深いと考えられる。そのため、共起スコアを、共起関係の２語の片方の頻度、もしくは両方の頻度の合計で共起関係の頻度を割った値としてもよい。
なお、意味的関連は、意味的に同時に使われやすい語同士ほど高く、逆に同時に使われにくい語同士は低い。

また、非特許文献１にある共起強度の尺度であるダイス係数、自己相互情報量、ジャッカード係数、などを用いてもよい。例えば、非特許文献１に記載されているダイス係数は、共起関係の頻度をｆ１２、共起関係を構成する２つの語の頻度をｆ１、ｆ２とすると、「ダイス係数＝２×ｆ１２／（ｆ１＋ｆ２）」と計算される。

また、非特許文献２に記載されているように、共起関係の集合から任意の２語の共起確率を推定する手法を用いてもよい。非特許文献２では、ｗ＿ｉ、ｗ＿ｊ（０≦ｉ，ｊ≦ｎ，ｉ≠ｊ）の２語の共起確率を「Ｐ（ｗ＿ｉ，ｗ＿ｊ）=ΣＰ（ｗ＿ｉ｜ｚ＿ｋ）Ｐ（ｗ＿ｊ｜ｚ＿ｋ）Ｐ（ｚ＿ｋ）」として、Ｐ（ｗ＿ｉ｜ｚ＿ｋ），Ｐ（ｗ＿ｊ｜ｚ＿ｋ），Ｐ（ｚ＿ｋ）を共起関係の集合から推定することでＰ（ｗ＿ｉ｜ｗ＿ｊ）を計算する。ここで、ｎは共起関係を構成する語の種類の数を表す。ｚ＿ｋのｋは添え字を表す。Σは全てのｋで和をとる演算子を表す。ｚ＿ｋは、共起語の分布が似ている語が集まっているクラスタである。ｋの数はユーザが指定する。Ｐ（ｚ＿ｋ）は各クラスタの出現確率である。Ｐ（ｗ＿ｉ｜ｚ＿ｋ）はクラスタｚ＿ｋが出現した場合のｗ＿ｉの生成確率である。Ｐ（ｗ＿ｊ｜ｚ＿ｋ）はクラスタｚ＿ｋが出現した場合のｗ＿ｊの生成確率である。非特許文献２では、共起語の分布が似ているほどＰ（ｗ＿ｉ｜ｚ＿ｋ）、Ｐ（ｗ＿ｊ｜ｚ＿ｋ）が同時に高くなる。そのため、同クラスタから生成される確率が高い２語ほど、共起確率が高くなるように計算される。つまり、非特許文献２では、それぞれの語の共起語の分布の類似性から共起確率を適切に計算する。そのため、文書中で偶然共起しなかったが、本来は共起してもおかしくない共起関係に対しても共起スコアを計算できる。

共起辞書出力部３１は、共起辞書記憶部２１から共起辞書に記述された共起関係と、その共起スコアとを読み出し、共起辞書表示部４に出力する。共起辞書出力部３１は、共起スコアの降順、または昇順に共起関係をソートして出力してもよい。また、共起辞書出力部３１は、少なくとも１つの語を指定して、入力語を含む共起関係のみを出力してもよい。また、共起辞書出力部３１は、一定以上、もしくは一定以下、もしくは一定以上一定以下の共起スコアを持つ共起関係のみを出力するようにしてもよい。

共起辞書表示部４は、共起辞書出力部３１により出力された共起関係を、その共起スコアとともに表示する。

本実施の形態では、共起辞書生成部３０は、共起の収集単位を、文の意味の最小単位である文節とする。また、共起辞書生成部３０は、名詞と用言の共起および用言同士の共起を係り受け関係に限定する。そのため、意味的関連のない共起関係の収集量を低減でき、高品質で低容量の共起辞書を作成できる。

次に、図１と、図２のフローチャートとを参照して、本実施の形態の全体の動作について詳細に説明する。

まず、共起関係を収集する元となるテキストデータを、コーパス入力部１によりコーパス記憶部２０に記憶させる（図２のステップＳ１）。図３は、コーパス記憶部２０が記憶するデータの例である。図３には３つの文書データが含まれる。例えば、ＩＤが１のテキストデータは、「このアミューズメントゾーンは、狭くて暗くて楽しそうな雰囲気で、結構面白そう。」である。

次に、言語解析部３００は、コーパス記憶部２０からテキストデータを読み込み、形態素解析、文節同定、文節間の係り受け解析を行う（図２のステップＳ２）。図４を参照して具体的に説明する。
図４は、図３のＩＤが２のテキストである「江戸時代の城らしいが、構造が昔のままなのか、妙に急な階段が多い。」というテキストを言語解析した結果を示している。

まず、言語解析部３００は、形態素解析を行う（ステップＳ１０１）。このステップＳ１０１の処理を、形態素解析とも称する。
次に、形態素解析の結果を、文節単位にまとめ上げ、各文節が名詞文節か用言文節であるかを同定する（ステップＳ１０２）。このステップＳ１０２の処理を、文節同定とも称する。ここで、各文節が名詞文節であるか用言文節であるかは、文節の後ろから形態素を探索し、最初に発見した自立語の品詞の種類により決定する。最初に名詞が見つかれば名詞文節、用言が見つかれば用言文節となる。
最後に文節の係り受け関係を解析する（ステップＳ１０３）。このステップＳ１０３の処理を、係り受け解析とも称する。
ステップＳ１０３の処理結果を示す図（図４の一番下の図）では、係り受け関係を矢印で表している。例えば、「江戸時代の」は「城らしいが」に係り、「階段が」は「多い。」に係る。

図２の説明に戻り、共起関係収集部３０１は、言語解析部３００の解析結果から、共起関係、名詞、用言を収集し、その頻度を計算する（図２のステップＳ３）。共起関係収集部３０１は、収集した共起関係、名詞、用言と、計算した頻度とを、記録する。
図５は、図４の結果から、名詞、用言、共起関係を収集した例である。共起関係収集部３０１は、共起関係を収集する際に、文節から付属語を除く。例えば、「江戸時代の」の「の」は助詞であるため、「江戸時代」となる。
また、用言は形態素解析の結果から原形に戻す。例えば、「妙に」は「妙だ」となる。これらの処理の後、名詞同士の共起、名詞と用言の係り受け関係、用言同士の係り受け関係を収集し頻度を数える。
また、共起スコアの計算時に必要になる場合には、名詞、用言単独の頻度も記録する。ここで、本発明の実施の形態では、共起関係には方向を定めていない。つまり、２つの語の順序関係を文字コードの値の大小で決めるなどして、同じ語から構成される共起関係が１種類になるようにしている。

図２の説明に戻り、共起スコア計算部３０２は、共起関係収集部３０１が収集した結果に基づき、各共起関係の共起の強さを表す共起スコアを計算する（図２のＳ４）。そして、共起スコア計算部３０２は、その共起関係と共起スコアとを、共起辞書記憶部２１に記憶させる。
図６は、共起関係収集部３０１の出力結果の例である。図６のデータを例に共起スコア計算部３０２の動作を説明する。本例では、共起スコアの計算法として、ダイス係数を採用する。具体的には、図６のデータにおいて、「江戸時代，城」のダイス係数は、「江戸時代，城」の頻度が３０、「江戸時代」の頻度が６６、「城」の頻度が１１０であることから、２×３０／（６６＋１１０）≒０．３４と計算できる。共起スコア計算部３０２は、全ての共起関係について同様の処理を行う。共起スコア計算部３０２は、共起関係を構成する２つの語と、計算した共起スコアとを対応付けて、共起辞書記憶部２１に記憶させる。

図２の説明に戻り、共起辞書表示部４は、共起辞書出力部３１により共起辞書記憶部２１から読み出された共起辞書のデータを表示する（図２のステップＳ５）。
図７は、共起辞書記憶部２１に記憶されたデータの表示例である。図７は、「江戸時代」を持つ全ての共起関係を表示している。図７を参照すると、「江戸時代，城」の共起スコアは０．３４であることがわかる。また、「江戸時代，城」と、「江戸時代，構造」の共起スコアとを比べると、「江戸時代，城」の意味的関連のほうが強いことがわかる。

次に、本実施の形態の効果について説明する。

本実施の形態では、言語解析部３００により、形態素解析、文節同定、文節間の係り受けを解析する。そして、共起関係収集部３０１により、名詞文節の共起と、名詞文節と用言文節の係り受けと、用言文節同士の係り受けの各データを収集する。そして、共起スコア計算部３０２により、収集された共起関係の頻度に基づき共起関係の共起スコアを計算する。この結果、用言が関わる共起関係は、係り受け関係に絞られることになる。そのため、意味的関連の高い共起関係から共起辞書を生成できる。

例えば、「カレーは辛いが、福神漬けはしょっぱい。」から共起語を単純に収集すると、「カレー，しょっぱい」、「福神漬け，辛い」など、意味的関連が低い共起関係が収集される。一方、名詞と用言の共起を係り受け関係に絞ると、「カレー，辛い」、「福神漬け，しょっぱい」といった意味的関連が高いものが収集される。ここで、名詞同士の共起は、係り受け関係になくても意味的に関連することが多い。そのため、名詞同士の共起は係り受け関係に限定しない。

また、本実施の形態によれば、共起の収集単位を文節としているために意味的関連の低い共起関係がなくなる。その結果、少ない記憶領域の共起辞書を生成できる。文節とは、一般的定義と同様に「文を、意味がわかる範囲で出来るだけ小さく区切ったもの」である。収集単位を文節とすると、意味の単位になっていない複合表現がなくなる。そのため、その分だけ共起辞書の記憶容量を抑えることができる。また、意味単位で共起を収集することで、文意を反映していない共起関係が収集されなくなり、記憶領域を抑えると同時に高品質な共起辞書を生成できる。

例えば、「検索エンジンは高速にキーワードを含む文書を探すことができる」を形態素解析すると、「検索／エンジン／は／高速／に／キーワード／を／含む／文書／を／探す／こと／が／できる」となる。なお、ここでは、品詞は省略している。
一方、文節は「検索エンジンは／高速に／キーワードを／含む／文書を／探す／ことが／できる」となる。単語連鎖を基本単位とすると「は高速」、「含む文書」など、意味をなさない複合表現が収集される。
また、単語単位では、「エンジン、文書」、「エンジン、キーワード」といった意味的関連が低い共起が収集される。一方、文節単位では「検索エンジン、文書」、「検索エンジン、キーワード」など、文意を適切に反映した共起関係が収集できる。

（第２の実施の形態）
次に、本発明の第２の実施の形態について図面を参照して詳細に説明する。

図８は、本発明の第２の実施の形態の構成を示すブロック図である。
本発明の第２の実施の形態は、第１の実施の形態（図１）と比較して、データ処理装置３の代わりにデータ処理装置５を備えている点で相違する。データ処理装置５は、データ処理装置３と比較して、共起辞書生成部３０の代わりに共起辞書生成部５０を備えている点で相違する。共起辞書生成部５０は、共起辞書生成部３０と比較して、言語解析部３００、共起関係収集部３０１および共起スコア計算部３０２に加えてさらに、トピック分割部５００を備えている点で相違する。

言語解析部３００は、コーパス記憶部２０からテキストデータを読み出し、各テキストデータに対して形態素解析、文節同定、文節間の係り受け解析を行う。そして、言語解析部３００は、その解析結果をトピック分割部５００に出力する。

トピック分割部５００は、言語解析部３００の解析結果から、各テキストデータのトピックの変化点を検出する。そして、トピック分割部５００は、各変化点で元の解析結果を分割して、共起関係収集部３０１に出力する。別トピックの名詞間の共起関係では意味的関連が低いため、トピック分割部５００により、トピック毎に分割して、後段の共起関係収集部３０１に出力する。これによって、より意味的関連の強い共起関係を収集できる。

例えば、「〜昨日、日経平均が暴落していたが、海外投資家の影響であろうか。なんか、腹が減ってきた。コンビニいってこよう。〜」というテキストがあるとする。このテキストでは、「なんか、腹がへってきた。」でトピックが変わっているため、「日経平均，コンビニ」は偶然共起したにすぎないことがわかる。一方、「コンビニ業界の景気がよく、日経平均が上がっている。」のように同じトピック内で共起する場合は、偶然ではなく関係があることがわかる。つまり、同じトピックから共起関係を収集することで、偶然の共起関係を減らすことができる。このため、より高品質な共起辞書が生成できる。

トピック分割部５００は、形態素解析、文節同定、係り受け解析の結果に基づき分割できる任意の手段を用いることができる。例えば、トピック分割部５００は、前後の文で使用している名詞がｎ種以上重ならなければ分割してもよい。これは、同じトピックが続いていれば、同じ内容を表す語が使われるという仮定に基づいている。上述したテキストでは、「昨日、日経平均が暴落していたが、海外投資家の影響であろうか。」と、「なんか、腹が減ってきた。」との間には、１つも同じ名詞が使用されていない。

そのため、トピックが変化したと考えることができる。また、トピック分割部５００は、トピックの変化を表す表現の出現で分割してもよい。トピックの変化を表す表現には「話は変わるが」、「ところで」、「突然であるが」などが挙げられる。また、トピック分割部５００は、文頭に接続詞が存在しない場合に分割してもよい。これは、接続詞があるということは、前後の文につながりがあると考えられ、逆にない場合は、別トピックと考えられるためである。また、トピック分割部５００は、非特許文献３の技術を用いることができる。非特許文献３では、単語列を擬似段落と見なし、連接する２つの擬似段落の語の重なりを計測して、重なりが少なくなる場所をトピックの変化点として分割する。

共起関係収集部３０１は、トピックの変化点で分割された解析結果ごとに共起関係を収集する点を除いて、第１の実施の形態における共起関係収集部３０１と同じ機能を有する。

その他の構成は、第１の実施の形態と同様である。

次に、図８と、図９のフローチャートとを参照して、本実施の形態の全体の動作について詳細に説明する。

図９のステップＳ１１、Ｓ１２は、図２のステップＳ１、Ｓ２と同様なため説明を省略する。

トピック分割部５００は、言語解析部３００の解析結果を受け取り、テキストのトピックの変化点を検出する。そして、トピック分割部５００は、検出した変化点に基づき解析結果を分割して（図９のステップＳ１３）、共起関係収集部３０１に出力する。
本例では、トピック分割部５００は、前後の文で、名詞が２種類以上重ならなければ分割する。例えば、分割対象のテキストを、「１）最近投資に興味が出てきたため日経平均をチェックするようになった。２）昨日、日経平均が暴落していたが、海外投資家の影響であろうか。３）なんか腹が減ってきた。４）コンビニいってこよう。」として以下説明する。なお、１）から４）は説明のためにつけた各文の番号であり、実際にはテキストには書かれていない。

トピック分割部５００は、連接する２つの文の名詞の種類の重なり数を数え、名詞が２種類以上重ならない文で分割する。各文の名詞は、言語解析部３００の出力から抽出できる。その結果、１）と２）の文では、「投資、日経、平均」で３種類の名詞が重なっている。また、２）と３）の文では、重なっている名詞はない。また、３）と４）の文では、重なっている名詞はない。このため、トピック分割部５００は、入力テキストを、「最近投資に興味が出てきたため日経平均をチェックするようになった。昨日、日経平均が暴落していたが、海外投資家の影響であろうか。」、「なんか腹が減ってきた。」、「コンビニいってこよう。」の３つに分割する。

図９のステップＳ１４からステップＳ１６は、図１のステップＳ３からステップＳ５と同様なため説明を省略する。

次に、本実施の形態の効果について説明する。

本実施の形態では、第１の実施の形態の効果に加えて、以下の効果を有する。つまり、トピック分割部５００を有することで、同じトピック内に限定した名詞同士の共起を収集することができる。そのため、より意味的関連が高い共起関係に絞って共起辞書を生成することができる。なお、名詞と用言との共起および用言同士の共起は、文中における名詞と用言の係り受け関係および用言同士の係り受け関係に自ずと限定される。そのため、トピック分割の有無に関わらず意味的関連が高い共起関係になっている。

（第３の実施の形態）
次に、本発明の第３の実施の形態について図面を参照して詳細に説明する。

図１０は、本発明の第３の実施の形態の構成を示すブロック図である。
本発明の第３の実施の形態は、第１の実施の形態（図１）と比較して、記憶装置２、データ処理装置３および共起辞書表示部４の代わりに、記憶装置９、データ処理装置７およびテキストデータ表示部８を備えている点において相違する。また、第３の実施の形態は、テキストデータ入力部６を備えている点で、第１の実施の形態と相違する。

記憶装置９は、記憶装置２と比較して、コーパス記憶部２０および共起辞書記憶部２１に加えてさらに、テキストデータ記憶部２２および典型度スコア付きテキストデータ記憶部２３を有する点で相違する。

データ処理装置７は、データ処理装置３と比較して、共起辞書生成部３０および共起辞書出力部３１の代わりに、共起辞書生成部７０、典型度スコアリング部７１およびテキストデータ選別部７２を備えている点で相違する。

共起辞書生成部７０は、コーパス入力部１によりコーパス記憶部２０に記憶された共起関係の収集元となるテキストに基づいて共起辞書を生成し、共起辞書記憶部２１に記憶させる。共起辞書生成部７０は、共起辞書生成部３０と同一の構成または第２の実施の形態における共起辞書生成部５０と同一の構成を有する。

テキストデータ入力部６は、共起辞書により典型度を付与する対象となるテキストデータを、テキストデータ記憶部２２に記憶させる。テキストデータは、テキスト本体を表す「テキスト」と、各データの識別子を表す「ＩＤ」と、あらかじめ指定された典型度のスコアが設定された「初期スコア」とからなる。
「ＩＤ」は、あらかじめ指定しても良いし、入力順に整数の連番となるようＩＤを付与するなど、自動的に付けても良い。また、「テキスト」は文書であっても、なんらかの方法によって抽出された複数語からなる関係でもよい。

「初期スコア」は、高い値であるほど評価が高いことを表す。また、「初期スコア」が必要ない場合、与えられない場合は、０や１など全て同じ値にする。また、テキストデータ入力部６は、かな漢字変換候補、情報検索結果、情報抽出結果など、他の自然言語処理システムの出力を自動的に入力するものとして、「初期スコア」は、それぞれのシステムのスコアとしてもよい。例えば、「初期スコア」としては、かな漢字変換候補のスコア、情報抽出装置が付与する情報抽出結果への信頼度、検索エンジンの適合度、もしくは順位の逆数などが考えられる。

典型度スコアリング部７１は、テキストデータ記憶部２２が記憶しているテキストデータと、共起辞書記憶部２１が記憶している共起辞書データとを読み出す。そして、典型度スコアリング部７１は、各テキストデータから共起関係を抽出し、各テキストデータの共起関係の共起スコアと初期スコアとから、各テキストデータの典型度スコアを計算する。そして、典型度スコアリング部７１は、各テキストと、その典型度スコアとを、典型度スコア付きテキストデータ記憶部２３に記憶させる。
ここで、典型度スコアの計算は、各共起スコアと初期スコアとが高いほど高くなるように計算する。例えば、典型度スコアは、各共起スコアと初期スコアとの和、もしくは積、もしくは和と積の組み合わせとすることが考えられる。

テキストデータ選別部７２は、典型度スコア付きテキストデータ記憶部２３から、テキストとその典型度スコアとを読み出す。そして、テキストデータ選別部７２は、典型度スコアの大小関係、もしくは値に基づき、テキストデータを選別して、テキストデータ表示部８にデータを出力する。

テキストデータ表示部８は、テキストデータ選別部７２により内容の典型度に基づき選別されたテキストデータを、その典型度スコアとともに表示する。

次に、図１０と、図１１のフローチャートとを参照して、本実施の形態の全体の動作について詳細に説明する。

本実施の形態は、共起辞書を作成する機能と、作成した共起辞書を利用して典型度付与対象テキストに対して典型度スコアを付与する機能とを、共起辞書記憶部２１が有する。共起辞書を作成する機能の動作は、第１の実施の形態、もしくは第２の実施の形態で共起辞書を作成する動作と同様である。そのため、共起辞書が作成された後の動作について以下説明する。

まず、テキストデータ入力部６は、共起辞書で典型度を付与するテキストデータを、テキストデータ記憶部２２に記憶させる（図１１のステップＳ２１）。
図１２Ａ及び図１２Ｂは、テキストデータ入力部６によりテキストデータ記憶部２２に記憶されるデータの例である。図１２Ａは、情報抽出装置の抽出結果の一例を示す図である。図１２Ｂは、かな漢字変換の候補の一例を示す図である。図１２Ａは、テキストデータから、何の（対象物）、どういった点が（属性）、どうであったか（評価）、の３語からなる関係を抽出した情報抽出結果を示している。図１２Ｂは、「遊園地Ａにいった」の「いった」のかな漢字変換の候補を示している。

次に、典型度スコアリング部７１は、テキストデータ記憶部２２からテキストデータを読み出す。そして、典型度スコアリング部７１は、各テキストデータから共起関係を抽出する（図１１のステップＳ２２）。典型度スコアリング部７１は、読み出した各テキストに対して、言語解析部３００と同様の処理を行い、共起関係収集部３０１と同様の方法で共起関係を収集する。つまり、典型度スコアリング部７１は、テキストデータを形態素解析して文節を同定して文節間の係り受けを解析する。そして、典型度スコアリング部７１は、文節単位でテキストデータ内の名詞の共起、名詞と用言の係り受け、用言と用言の係り受けを共起関係として収集する。

また典型度スコアリング部７１は、図１２Ａのように、テキストが文ではなく、複数の語からなるレコードの場合は、語の組み合わせを共起関係とする。例えば、図１２ＡのＩＤ＝１のテキストからは、「遊園地Ａ，雰囲気」、「遊園地Ａ，楽しい」、「雰囲気，楽しい」の３つの共起関係が抽出される。ここで、複数の語からなるテキストレコードで、語同士の関係に意味がある場合は、共起関係を全ての語の組み合わせとするのではなく、限定してもよい。

例えば、図１２Ａでは、「属性」は「対象物」の評価視点であり、「評価」は「属性」の評価であるが、「評価」は「対象物」そのものを直接評価しているわけではない。つまり、図１２Ａでは「対象物，属性」、「属性，評価」の２つの共起関係に限定してもよい。以降では、一例として、図１２Ａは、「対象物，属性」、「属性，評価」の２つを共起関係として抽出する場合について説明する。また、図１２ＢのＩＤ＝１では、「遊園地Ａ，言った」が共起関係として抽出される。

図１１の説明に戻り、典型度スコアリング部７１は、共起辞書を共起辞書記憶部２１から読み出す。そして、典型度スコアリング部７１は、図１１のステップＳ２２で抽出された各共起関係の共起スコアを取得する（図１１のステップＳ２３）。
図１３は、共起辞書記憶部２１に記憶された共起辞書の一例を示す図である。ここで、共起辞書記憶部２１のデータは、本発明の第１又は第２の実施の形態の何れかで作成されたものである。

次に、典型度スコアリング部７１は、ステップＳ２２で取得した各テキストデータの典型度を、ステップＳ２２で抽出した各テキストデータの共起関係と、ステップＳ２２で読み出された各テキストデータの初期スコアと、ステップＳ２３で取得した各共起関係の共起スコアとに基づき、典型度スコアを計算する（図１１のステップＳ２４）。そして、典型度スコアリング部７１は、各テキストと、各テキストの典型度スコアとを、典型度スコア付きテキストデータ記憶部２３に記憶させる。

図１２ＡのＩＤ＝１の典型度スコアの計算を例に動作を説明する。図１１のステップＳ２２により、図１２ＡのＩＤ＝１からは「遊園地Ａ，雰囲気」、「雰囲気，楽しい」の２つの共起関係が抽出される。図１３の共起辞書を参照すると、共起スコアは、「遊園地Ａ，雰囲気＝２０」、「雰囲気，楽しい＝２０」であるとわかる。図１２ＡのＩＤ＝１の初期スコアは１である。例えば、典型度スコアを、初期スコアと、各共起関係の共起スコアとの和とする。すると、典型度スコアリング部７１は、図１２ＡのＩＤ＝１の典型度スコアを、４１（＝２０＋２０＋１）と計算する。同様に、図１２ＡのＩＤ＝２〜４の典型度スコアを、ＩＤ＝２が３５１（＝１００＋２５０＋１）、ＩＤ＝３が３５１（＝１５０＋２００＋１）、ＩＤ＝４が２１（＝２０＋０＋１）とそれぞれ計算する。

また、同様に図１２ＢのＩＤ＝１〜４の典型度スコアは、各共起関係とその共起スコアが、図１３から「遊園地Ａ，言った＝１０」、「遊園地Ａ，行った＝３００」、「遊園地Ａ，要った＝０」、「遊園地Ａ，炒った＝０」となる。和を計算するとＩＤ＝１が１１（＝１０＋１）、ＩＤ＝２が３０１（＝３００＋１）、ＩＤ＝３が１（＝０＋１）、ＩＤ＝４が（＝０＋１）となる。

図１４Ａは、情報抽出結果の典型度スコアの一例を示す図である。図１４Ｂは、かな漢字変換候補の典型度スコアの一例を示す図である。
典型度スコアリング部７１は、テキストデータ記憶部２２が記憶している図１２Ａ及び図１２Ｂのデータと、共起辞書記憶部２１が記憶している図１３のデータとから典型度スコアを計算する。典型度スコアリング部７１は、典型度スコアと、テキストデータとを典型度スコア付きテキストデータ記憶部２３に記憶させる。

図１１の説明に戻り、テキストデータ選別部７２は、典型度スコア付きテキストデータ記憶部２３からデータを読み出す。そして、テキストデータ選別部７２は、各テキストの典型度スコアに基づいて、表示するテキストを選別する（図１１のステップＳ２５）。例えば、図１４Ａにおいて、典型度スコアが４０以上のデータを取り出すと、ＩＤ＝４が典型的ではないと判定される。よって、ＩＤ＝４は選ばず、ＩＤ＝１〜３を選ぶ。また、図１４Ｂでは、典型度スコアでランキングすると意味的に尤もらしい、かな漢字変換候補の順序になる。

最後に、テキストデータ表示部８は、テキストデータ選別部７２で選別されたテキストを表示する（図１１のステップＳ２６）。

次に、本実施の形態の効果について説明する。

本実施の形態では、テキストデータの内容の意味的典型度合いを計算できる。その理由は、第１の実施の形態もしくは第２の実施の形態で作成した、意味的関連が高い共起関係に絞って生成された共起辞書を用いるためである。

また本実施の形態では、典型度付与対象のテキストが文の場合、典型度スコアリング部７１は、そのテキストを形態素解析して文節を同定して文節間の係り受けを解析する。そして、典型度スコアリング部７１は、文節単位でそのテキスト内の名詞の共起、名詞と用言の係り受け、用言と用言の係り受けを共起関係として収集する。そして、典型度スコアリング部７１は、この収集した共起関係に対応する共起スコアを共起辞書から取得してテキストの内容の典型的度合いを計算する。そのため、テキストの内容の意味的典型度合いをより精度良く計算できる。

なお、典型度付与対象のテキストから収集する共起関係を、テキスト内の名詞の共起、名詞と用言の係り受け、用言と用言の係り受けに係わるものに限定しなくてもよい。この場合であっても、意味的関連が高い共起関係に絞って生成された共起辞書を用いているため、ある程度の精度は得られる。

また本実施の形態では、典型度付与対象のテキストが複数の語から構成されるレコードの場合、典型度スコアリング部７１は、語の組み合わせのうち語同士の組み合わせに意味のある組み合わせを共起関係として収集する。そして、典型度スコアリング部７１は、この収集した共起関係に対応する共起スコアを共起辞書から取得してテキストの内容の典型的度合いを計算する。そのため、テキストの内容の意味的典型度合いをより精度良く計算できる。
なお、組み合わせに意味のある語同士の組み合わせに限定しなくてもよい。この場合であっても、意味的関連が高い共起関係に絞って生成された共起辞書を用いているため、ある程度の精度は得られる。

（第４の実施の形態）
次に、本発明の第４の実施の形態について図面を参照して詳細に説明する。

図１５は、本発明の第４の実施の形態の構成を示すブロック図である。
本発明の第４の実施の形態は、第３の実施の形態（図１０）と比較して、記憶装置９およびデータ処理装置７の代わりに、記憶装置１０およびデータ処理装置１１を備えている点において相違する。また、第４の実施の形態は、コーパス入力部１を備えていない点で、第３の実施の形態と相違する。

記憶装置１０は、記憶装置９と比較して、コーパス記憶部２０を備えていない点で相違する。

データ処理装置１１は、データ処理装置７と比較して、共起辞書生成部７０を備えていない点で相違する。

本実施の形態は、第１の実施の形態の共起辞書生成部３０、もしくは第２の実施の形態の共起辞書生成部５０を用いて作成された共起辞書を、あらかじめ共起辞書記憶部２１に記憶している点で、第３の実施の形態と異なる。

次に、本実施の形態の全体の動作について説明する。本実施の形態においては、共起辞書記憶部２１に共起辞書があらかじめ記憶されているため、共起辞書を作成する動作はない。それ以外の動作、すなわち共起辞書記憶部２１に記憶された共起辞書を使って典型度スコアリング部７１がテキストデータに典型度を付与する動作や、テキストデータ選別部７２が各テキストの典型度スコアに基づいてテキストデータ表示部８に表示するテキストを選別する動作などは、第３の実施の形態と同じである。そのため、それらの説明を省略する。

次に、本実施の形態の効果について説明する。

本実施の形態では、第３の実施の形態と同様の効果が得られると同時に、テキストデータの内容の意味的典型度合いを高速に計算できる。その理由は、あらかじめ作成された共起辞書を使用することで、共起辞書の生成時間をなくせるためである。

以上、本発明の各実施の形態について説明したが、本発明は以上の各実施の形態にのみ限定されず、その他各種の付加や変更が可能である。また、本発明は、その有する機能をハードウェア的に実現することは勿論、コンピュータとプログラムとで実現することができる。プログラムは、磁気ディスクや半導体メモリ等のコンピュータ可読記録媒体に記録されて提供される。そのプログラムは、コンピュータの立ち上げ時などにコンピュータに読み取られる。読み取られたプログラムは、そのコンピュータの動作を制御する。これにより、プログラムは、そのコンピュータを前述した各実施の形態におけるデータ処理装置上の各機能部として機能させ、前述した処理ステップを実行させる。

図１６は、本発明の各実施の形態によるシステムをインプリメントした情報処理システムの一般的なブロック構成図である。図１６に示す情報処理システムは、プロセッサ３０００、プログラムメモリ３００１、記憶媒体３００２を備えている。記憶媒体３００２としては、ＲＡＭや、ハードディスク等の磁気記憶媒体を用いることができる。プログラムメモリ３００１には、第１〜第４の何れかの実施の形態におけるデータ処理装置が行う処理ステップを実行するプログラムが格納されている。プロセッサ３０００は、このプログラムによって動作する。記憶媒体３００２は、第１〜第４の実施の形態における記憶装置として用いられる。

本発明は、係り受け解析、文書校正、かな漢字変換、情報抽出結果の意味的整合性の評価、テキストの意味的典型度合いの評価など、自然言語の意味的解析に用いる共起辞書を作成するためのシステム等に適用できる。

Claims

テキストを形態素解析して文節を同定して文節間の係り受けを解析する言語解析部と、
前記言語解析部が解析した解析結果から、文節単位で一定範囲のテキスト内の名詞の共起、名詞と用言の係り受け、及び用言と用言の係り受けを共起関係として収集すると共に、各共起関係の頻度を取得する共起関係収集部と、
前記共起関係収集部が収集した共起関係の頻度に基づき共起関係の共起スコアを計算する共起スコア計算部と、
前記共起スコア計算部が計算した共起スコアと、前記共起関係収集部が収集した共起関係との対応を記述した共起辞書を記憶する共起辞書記憶部と
を備える共起辞書生成システム。
前記共起スコア計算部は、前記共起関係収集部が収集した共起関係とその頻度とに基づき、収集された共起関係を構成する任意の２語の共起確率を推定して共起スコアとする
請求項１に記載の共起辞書生成システム。
前記共起スコア計算部は、前記共起関係収集部が収集した共起関係とその頻度とに基づき、共起関係を構成する２つの語の１つ、または両方の出現頻度を用いて共起関係の頻度を正規化したものを共起スコアとする
請求項１に記載の共起辞書生成システム。
前記共起スコア計算部は、前記共起関係収集部が収集した共起関係の頻度を共起スコアとする
請求項１に記載の共起辞書生成システム。
前記言語解析部が解析した解析結果に基づいて前記テキストのトピックの変化点を検出して前記解析結果を分割するトピック分割部
を更に備え、
前記共起関係収集部は、前記トピックの変化点で分割された解析結果ごとに共起関係を収集する
請求項１に記載の共起辞書生成システム。
典型度付与対象テキスト内の共起関係を収集し、当該収集した共起関係に対応する共起スコアを前記共起辞書記憶部から取得して、前記共起スコアが高いほど高くなるように、前記典型度付与対象テキストの内容の典型度スコアを計算する典型度スコアリング部
を更に備える請求項１に記載の共起辞書生成システム。
前記典型度スコアリング部は、前記典型度付与対象テキストを形態素解析して文節を同定して文節間の係り受けを解析して、当該解析結果から文節単位で前記典型度付与対象の一定範囲のテキスト内の名詞の共起、名詞と用言の係り受け、及び用言と用言の係り受けを共起関係として収集する
請求項６に記載の共起辞書生成システム。
前記典型度スコアリング部は、前記典型度付与対象テキストを構成する複数の語の組み合わせを共起関係として収集する
請求項６に記載の共起辞書生成システム。
前記典型度スコアリング部は、前記典型度付与対象テキストを構成する対象物を示す語と、当該対象物の属性を示す語と、当該属性に対する何らかの値を示す語とのうち、いずれか２つの語の組み合わせを共起関係として収集する
請求項６に記載の共起辞書生成システム。
前記典型度スコアリング部は、前記典型度付与対象テキストに初期スコアが付与されている場合、前記共起辞書記憶部から取得した共起スコアと前記初期スコアとから前記典型度スコアを計算する
請求項６に記載の共起辞書生成システム。
テキストが形態素解析されて文節を固定して文節間の係り受けが解析された解析結果から、一定範囲のテキスト内で収集された名詞の共起、名詞と用言の係り受け、及び用言と用言の係り受けである共起関係と、前記共起関係と共に取得された各共起関係の頻度に基づいて計算された値である共起スコアとの対応を記述した共起辞書を記憶する共起辞書記憶部と、
典型度付与対象テキスト内の共起関係を収集し、当該収集した共起関係に対応する共起スコアを前記共起辞書記憶部から取得して、前記共起スコアが高いほど高くなるように、前記典型度付与対象テキストの内容の典型度スコアを計算する典型度スコアリング部と
を備えるスコアリングシステム。
前記典型度スコアリング部は、前記典型度付与対象テキストを形態素解析して文節を同定して文節間の係り受けを解析して、当該解析結果から文節単位で前記典型度付与対象の一定範囲のテキスト内の名詞の共起、名詞と用言の係り受け、及び用言と用言の係り受けを共起関係として収集する
請求項１１に記載のスコアリングシステム。
前記典型度スコアリング部は、前記典型度付与対象テキストを構成する複数の語の組み合わせを共起関係として収集する
請求項１１に記載のスコアリングシステム。
前記典型度スコアリング部は、前記典型度付与対象テキストを構成する対象物を示す語と、当該対象物の属性を示す語と、当該属性に対する何らかの値を示す語とのうち、いずれか２つの語の組み合わせを共起関係として収集する
請求項１１に記載のスコアリングシステム。
前記典型度スコアリング部は、前記典型度付与対象テキストに初期スコアが付与されている場合、前記共起辞書記憶部から取得した共起スコアと前記初期スコアとから前記典型度スコアを計算する
請求項１１に記載のスコアリングシステム。
情報処理装置が、テキストを形態素解析して文節を同定して文節間の係り受けを解析する言語解析段階と、
前記情報処理装置が、前記言語解析段階において解析された解析結果から、文節単位で一定範囲のテキスト内の名詞の共起、名詞と用言の係り受け、及び用言と用言の係り受けを共起関係として収集すると共に、各共起関係の頻度を取得する共起関係収集段階と、
前記情報処理装置が、前記共起関係収集段階において収集された共起関係の頻度に基づき共起関係の共起スコアを計算する共起スコア計算段階と、
前記情報処理装置が、前記共起スコア計算段階において計算された共起スコアと、前記共起関係収集段階において収集された共起関係との対応を記述した共起辞書を共起辞書記憶部に記憶させる共起辞書記憶段階と
を備える共起辞書生成方法。
前記共起スコア計算段階においては、前記共起関係収集段階で収集された共起関係とその頻度とに基づき、収集された共起関係を構成する任意の２語の共起確率を推定して共起スコアとする
請求項１６に記載の共起辞書生成方法。
前記共起スコア計算段階においては、前記共起関係収集段階で収集された共起関係とその頻度とに基づき、共起関係を構成する２つの語の１つ、または両方の出現頻度を用いて共起関係の頻度を正規化したものを共起スコアとする
請求項１６に記載の共起辞書生成方法。
前記共起スコア計算段階においては、前記共起関係収集段階で収集された共起関係の頻度を共起スコアとする
請求項１６に記載の共起辞書生成方法。
前記情報処理装置が、前記言語解析段階において解析された解析結果に基づいて前記テキストのトピックの変化点を検出して前記解析結果を分割するトピック分割段階
を更に備え、
前記共起関係収集段階においては、前記トピックの変化点で分割された解析結果ごとに共起関係を収集する
請求項１６に記載の共起辞書生成方法。
前記情報処理装置が、典型度付与対象テキスト内の共起関係を収集し、当該収集した共起関係に対応する共起スコアを前記共起辞書記憶部から取得して、前記共起スコアが高いほど高くなるように、前記典型度付与対象テキストの内容の典型度スコアを計算する典型度スコアリング段階
を更に備える請求項１６に記載の共起辞書生成方法。
前記典型度スコアリング段階においては、前記典型度付与対象テキストを形態素解析して文節を同定して文節間の係り受けを解析して、当該解析結果から文節単位で前記典型度付与対象の一定範囲のテキスト内の名詞の共起、名詞と用言の係り受け、及び用言と用言の係り受けを共起関係として収集する
請求項２１に記載の共起辞書生成方法。
前記典型度スコアリング段階においては、前記典型度付与対象テキストを構成する複数の語の組み合わせを共起関係として収集する
請求項２１に記載の共起辞書生成方法。
前記典型度スコアリング段階においては、前記典型度付与対象テキストを構成する対象物を示す語と、当該対象物の属性を示す語と、当該属性に対する何らかの値を示す語とのうち、いずれか２つの語の組み合わせを共起関係として収集する
請求項２１に記載の共起辞書生成方法。
前記典型度スコアリング段階においては、前記典型度付与対象テキストに初期スコアが付与されている場合、前記共起辞書から取得した共起スコアと前記初期スコアとから前記典型度スコアを計算する
請求項２１に記載の共起辞書生成方法。
テキストが形態素解析されて文節を固定して文節間の係り受けが解析された解析結果から、一定範囲のテキスト内で収集された名詞の共起、名詞と用言の係り受け、及び用言と用言の係り受けである共起関係と、前記共起関係と共に取得された各共起関係の頻度に基づいて計算された値である共起スコアとの対応を記述した共起辞書を記憶する共起辞書記憶部を備える情報処理装置が、典型度付与対象テキスト内の共起関係を収集し、当該収集した共起関係に対応する共起スコアを前記共起辞書記憶部から取得して、前記共起スコアが高いほど高くなるように、前記典型度付与対象テキストの内容の典型度スコアを計算する典型度スコアリング段階
を備えるスコアリング方法。
前記典型度スコアリング段階においては、前記典型度付与対象テキストを形態素解析して文節を同定して文節間の係り受けを解析して、当該解析結果から文節単位で前記典型度付与対象の一定範囲のテキスト内の名詞の共起、名詞と用言の係り受け、及び用言と用言の係り受けを共起関係として収集する
請求項２６に記載のスコアリング方法。
前記典型度スコアリング段階においては、前記典型度付与対象テキストを構成する複数の語の組み合わせを共起関係として収集する
請求項２６に記載のスコアリング方法。
前記典型度スコアリング段階においては、前記典型度付与対象テキストを構成する対象物を示す語と、当該対象物の属性を示す語と、当該属性に対する何らかの値を示す語とのうち、いずれか２つの語の組み合わせを共起関係として収集する
請求項２６に記載のスコアリング方法。
前記典型度スコアリング段階においては、前記典型度付与対象テキストに初期スコアが付与されている場合、前記共起辞書から取得した共起スコアと前記初期スコアとから前記典型度スコアを計算する
請求項２６に記載のスコアリング方法。
コンピュータを、
テキストを形態素解析して文節を同定して文節間の係り受けを解析する言語解析部、
前記言語解析部が解析した解析結果から、文節単位で一定範囲のテキスト内の名詞の共起、名詞と用言の係り受け、及び用言と用言の係り受けを共起関係として収集すると共に、各共起関係の頻度を取得する共起関係収集部、
前記共起関係収集部が収集した共起関係の頻度に基づき共起関係の共起スコアを計算する共起スコア計算部、
前記共起スコア計算部が計算した共起スコアと、前記共起関係収集部が収集した共起関係との対応を記述した共起辞書を記憶する共起辞書記憶部
として機能させるプログラム。
前記共起スコア計算部は、前記共起関係収集部が収集した共起関係とその頻度とに基づき、収集された共起関係を構成する任意の２語の共起確率を推定して共起スコアとする
請求項３１に記載のプログラム。
前記共起スコア計算部は、前記共起関係収集部が収集した共起関係とその頻度とに基づき、共起関係を構成する２つの語の１つ、または両方の出現頻度を用いて共起関係の頻度を正規化したものを共起スコアとする
請求項３１に記載のプログラム。
前記共起スコア計算部は、前記共起関係収集部が収集した共起関係の頻度を共起スコアとする
請求項３１に記載のプログラム。
コンピュータを、
前記言語解析部が解析した解析結果に基づいて前記テキストのトピックの変化点を検出して前記解析結果を分割するトピック分割部
として更に機能させて、
前記共起関係収集部は、前記トピックの変化点で分割された解析結果ごとに共起関係を収集する
請求項３１に記載のプログラム。
コンピュータを、
典型度付与対象テキスト内の共起関係を収集し、当該収集した共起関係に対応する共起スコアを前記共起辞書記憶部から取得して、前記共起スコアが高いほど高くなるように、前記典型度付与対象テキストの内容の典型度スコアを計算する典型度スコアリング部
として更に機能させる請求項３１に記載のプログラム。
前記典型度スコアリング部は、前記典型度付与対象テキストを形態素解析して文節を同定して文節間の係り受けを解析して、当該解析結果から文節単位で前記典型度付与対象の一定範囲のテキスト内の名詞の共起、名詞と用言の係り受け、及び用言と用言の係り受けを共起関係として収集する
請求項３６に記載のプログラム。
前記典型度スコアリング部は、前記典型度付与対象テキストを構成する複数の語の組み合わせを共起関係として収集する
請求項３６に記載のプログラム。
前記典型度スコアリング部は、前記典型度付与対象テキストを構成する対象物を示す語と、当該対象物の属性を示す語と、当該属性に対する何らかの値を示す語とのうち、いずれか２つの語の組み合わせを共起関係として収集する
請求項３６に記載のプログラム。
前記典型度スコアリング部は、前記典型度付与対象テキストに初期スコアが付与されている場合、前記共起辞書記憶部から取得した共起スコアと前記初期スコアとから前記典型度スコアを計算する
請求項３６に記載のプログラム。
コンピュータを、
テキストが形態素解析されて文節を固定して文節間の係り受けが解析された解析結果から、一定範囲のテキスト内で収集された名詞の共起、名詞と用言の係り受け、及び用言と用言の係り受けである共起関係と、前記共起関係と共に取得された各共起関係の頻度に基づいて計算された値である共起スコアとの対応を記述した共起辞書を記憶する共起辞書記憶部、
典型度付与対象テキスト内の共起関係を収集し、当該収集した共起関係に対応する共起スコアを前記共起辞書記憶部から取得して、前記共起スコアが高いほど高くなるように、前記典型度付与対象テキストの内容の典型度スコアを計算する典型度スコアリング部
として機能させるプログラム。
前記典型度スコアリング部は、前記典型度付与対象テキストを形態素解析して文節を同定して文節間の係り受けを解析して、当該解析結果から文節単位で前記典型度付与対象の一定範囲のテキスト内の名詞の共起、名詞と用言の係り受け、及び用言と用言の係り受けを共起関係として収集する
請求項４１に記載のプログラム。
前記典型度スコアリング部は、前記典型度付与対象テキストを構成する複数の語の組み合わせを共起関係として収集する
請求項４１に記載のプログラム。
前記典型度スコアリング部は、前記典型度付与対象テキストを構成する対象物を示す語と、当該対象物の属性を示す語と、当該属性に対する何らかの値を示す語とのうち、いずれか２つの語の組み合わせを共起関係として収集する
請求項４１に記載のプログラム。
前記典型度スコアリング部は、前記典型度付与対象テキストに初期スコアが付与されている場合、前記共起辞書記憶部から取得した共起スコアと前記初期スコアとから前記典型度スコアを計算する
請求項４１に記載のプログラム。