[go: up one dir, main page]

JP5321583B2 - 共起辞書生成システム、スコアリングシステム、共起辞書生成方法、スコアリング方法及びプログラム - Google Patents

共起辞書生成システム、スコアリングシステム、共起辞書生成方法、スコアリング方法及びプログラム Download PDF

Info

Publication number
JP5321583B2
JP5321583B2 JP2010505973A JP2010505973A JP5321583B2 JP 5321583 B2 JP5321583 B2 JP 5321583B2 JP 2010505973 A JP2010505973 A JP 2010505973A JP 2010505973 A JP2010505973 A JP 2010505973A JP 5321583 B2 JP5321583 B2 JP 5321583B2
Authority
JP
Japan
Prior art keywords
occurrence
score
unit
relationship
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010505973A
Other languages
English (en)
Other versions
JPWO2009123260A1 (ja
Inventor
正明 土田
弘紀 水口
大 久寿居
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010505973A priority Critical patent/JP5321583B2/ja
Publication of JPWO2009123260A1 publication Critical patent/JPWO2009123260A1/ja
Application granted granted Critical
Publication of JP5321583B2 publication Critical patent/JP5321583B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、共起辞書生成システム、スコアリングシステム、共起辞書生成方法、スコアリング方法およびプログラムに関する。
本願は、2008年4月1日に、日本に出願された特願2008−094980号と、2008年5月12日に、日本に出願された特願2008−124254号とに基づき優先権を主張し、その内容をここに援用する。
近年、様々な文書が電子化されている。それら電子化文書には、さまざまな情報が書かれているため、有効活用することが重要である。電子化文書の有効活用のために、自然言語処理技術が注目されている。
自然言語処理で意味的に処理するときには、語の共起情報を使うことが多い。
例えば、共起語が似ているほど意味的に類似しているとの考えから、2つの語の意味的類似度は、お互いの共起語が似ているほど高くなるよう計算される。また、かな漢字変換では、変換候補のうち、先に確定した語と良く共起する候補ほど尤もらしいと判定する。
従来の共起辞書作成システムの例が、特許文献1に記載されている。
特許文献1の共起辞書作成システムは、与えられた文書集合を解析する文書解析部と、上記与えられた文書集合中に存在している語を抽出し、記憶装置に記憶させる語抽出部と、上記与えられた文書集合中に存在している語連鎖を抽出し、記憶装置に記憶させる語連鎖抽出部と、上記語のそれぞれと上記語連鎖のそれぞれとの共起回数を検出し、記憶装置に記憶させる共起回数検出部と、上記共起回数に応じて共起度を検出し、この検出された共起度に基づいて、上記語の概念情報を、定量化し、記憶装置に記憶させる概念情報定量化部と、上記概念情報定量化部で得られた上記語の概念情報を、データベースとする概念情報データベース作成部とから構成される。
上記の「語連鎖」とは、文書中で連続するn(nは2以上)単語の連鎖である。
特許文献1では、まず文書集合中の各文を形態素解析する。次に、形態素解析結果から全ての語または語連鎖(2単語以上の連鎖)を抽出し、記憶装置に記憶させる。次に、共起回数検出部が、抽出された自立語(名詞、代名詞、動詞、形容詞、副詞)または語連鎖のそれぞれに対して、共起する自立語または語連鎖を抽出し、出現回数をカウントする。共起回数検出部は、このカウント結果を、概念情報定量化部に送る。ここで、出現回数は、語または語連鎖が所定の文書範囲に共起している場合にカウントされる。「所定の文書範囲」とは、文書、段落、文のいずれかである。次に、共起回数検出部がカウントした結果に基づいて、概念情報定量化部が、抽出された語または語連鎖のそれぞれについて、語または語連鎖のそれぞれとの共起度を計算する。ここで、共起度とは、例えば、共起回数を、共起情報を構成する片方の語の出現回数で割って正規化した値である。
従来技術における第1の問題点は、高品質な共起辞書が生成され難いことである。その理由は、特許文献1に記載された共起辞書作成システムでは、文書、段落、文など、一定範囲内にある全ての共起を収集しているが、実際にはそれらの共起の中には意味的関連がない共起が含まれるためである。例えば、「カレーは辛いが、福神漬けはしょっぱい。」という文から共起情報を取得する場合について考える。特許文献1では、「カレー,辛い」、「カレー,福神漬け」、「福神漬け,しょっぱい」、「カレー,しょっぱい」、「福神漬け,辛い」等が共起として取得される。ここで、「カレー,辛い」、「カレー,福神漬け」、「福神漬け,しょっぱい」の3種類の共起は、意味的に妥当である。しかし、「カレー,しょっぱい」、「福神漬け,辛い」は文法的には妥当であるが、通常はあまり使われない。このように特許文献1に記載された共起辞書作成システムでは、意味的関連の低い共起が大量に収集されてしまう。この傾向は、共起の取得範囲が、文から段落、文書と広がるにつれて、より顕著に現れる。
従来技術における第2の問題点は、共起情報の格納に大量の記憶領域が必要であり、共起辞書の記憶容量が大きくなることである。その理由は、特許文献1に記載された共起辞書作成システムでは、文書集合の語彙数や複数語からなる表現(複合表現と呼ぶ)のための語連鎖数nが増えるにつれ、語連鎖の種類数が増えるためである。それら複合表現の共起度を記憶するためには、最悪の場合、語連鎖の種類数の2乗個の数値を記憶する領域が必要である。例えば、文書集合で用いられる語彙が1000語で、nが3であるとする。すると、最悪の場合、複合表現は約10億種類(=1000×1000×1000)となる。つまり、それらの共起度を全て記憶する特許文献1に記載の共起辞書作成システムでは、10億の二乗個の数値を記憶する領域が共起辞書に必要となる。
特開2006−215850号公報 相澤彰子、"共起に基づく類似性尺度"、オペレーションズ・リサーチ誌、Vol.52、No.11、pp.706−718、2007 T.Hofmann、"Probabilistic Latent Semantic Indexing"、Proc. of SIGIR’99、pp.50−57、1999. M.A.Hearst、Text Tiling: Segmenting Text into Multiparagraph Subtopic Passages、Computational Linguistics、Vol.23、No.1、pp.33−64、1997.
本発明は、上記課題を鑑みて発明されたものであり、その目的は、意味的関連を考慮した共起辞書を作成できる共起辞書生成システム、スコアリングシステム、共起辞書生成方法、スコアリング方法およびプログラムを提供することにある。
また、本発明の目的は、意味のある複合表現のみを抽出することで、複合表現に対応した記憶領域の小さい共起辞書を作成できる共起辞書生成システム、スコアリングシステム、共起辞書生成方法、スコアリング方法およびプログラムを提供することにある。
上記課題を解決するために、本発明の第1の形様によると、共起辞書生成システムであって、テキストを形態素解析して文節を同定して文節間の係り受けを解析する言語解析部と、言語解析部が解析した解析結果から、文節単位で一定範囲のテキスト内の名詞の共起、名詞と用言の係り受け、及び用言と用言の係り受けを共起関係として収集すると共に、各共起関係の頻度を取得する共起関係収集部と、共起関係収集部が収集た共起関係の頻度に基づき共起関係の共起スコアを計算する共起スコア計算部と、共起スコア計算部が計算た共起スコアと、共起関係収集部が収集した共起関係との対応を記述した共起辞書を記憶する共起辞書記憶部とを備える。本発明の第2の形態によると、スコアリングシステムであって、テキストが形態素解析されて文節を固定して文節間の係り受けが解析された解析結果から、一定範囲のテキスト内で収集された名詞の共起、名詞と用言の係り受け、及び用言と用言の係り受けである共起関係と、共起関係と共に取得された各共起関係の頻度に基づいて計算された値である共起スコアとの対応を記述した共起辞書を記憶する共起辞書記憶部と、典型度付与対象テキスト内の共起関係を収集し、当該収集した共起関係に対応する共起スコアを共起辞書記憶部から取得して、共起スコアが高いほど高くなるように、典型度付与対象テキストの内容の典型度スコアを計算する典型度スコアリング部とを備える。本発明の第3の形態によると、共起辞書生成方法であって、情報処理装置が、テキストを形態素解析して文節を同定して文節間の係り受けを解析する言語解析段階と、情報処理装置が、言語解析段階において解析された解析結果から、文節単位で一定範囲のテキスト内の名詞の共起、名詞と用言の係り受け、及び用言と用言の係り受けを共起関係として収集すると共に、各共起関係の頻度を取得する共起関係収集段階と、情報処理装置が、共起関係収集段階において収集された共起関係の頻度に基づき共起関係の共起スコアを計算する共起スコア計算段階と、情報処理装置が、共起スコア計算段階において計算された共起スコアと、共起関係収集段階において収集された共起関係との対応を記述した共起辞書を共起辞書記憶部に記憶させる共起辞書記憶段階とを備える。本発明の第4の形態によると、スコアリング方法であって、テキストが形態素解析されて文節を固定して文節間の係り受けが解析された解析結果から、一定範囲のテキスト内で収集された名詞の共起、名詞と用言の係り受け、及び用言と用言の係り受けである共起関係と、共起関係と共に取得された各共起関係の頻度に基づいて計算された値である共起スコアとの対応を記述した共起辞書を記憶する共起辞書記憶部を備える情報処理装置が、典型度付与対象テキスト内の共起関係を収集し、当該収集した共起関係に対応する共起スコアを共起辞書記憶部から取得して、共起スコアが高いほど高くなるように、典型度付与対象テキストの内容の典型度スコアを計算する典型度スコアリング段階を備える。本発明の第5の形態によると、プログラムであって、コンピュータを、テキストを形態素解析して文節を同定して文節間の係り受けを解析する言語解析部、言語解析部が解析した解析結果から、文節単位で一定範囲のテキスト内の名詞の共起、名詞と用言の係り受け、及び用言と用言の係り受けを共起関係として収集すると共に、各共起関係の頻度を取得する共起関係収集部、共起関係収集部が収集した共起関係の頻度に基づき共起関係の共起スコアを計算する共起スコア計算部、共起スコア計算部が計算した共起スコアと、共起関係収集部が収集した共起関係との対応を記述した共起辞書を記憶する共起辞書記憶部として機能させる。本発明の第6の形態によると、プログラムであって、コンピュータを、テキストが形態素解析されて文節を固定して文節間の係り受けが解析された解析結果から、一定範囲のテキスト内で収集された名詞の共起、名詞と用言の係り受け、及び用言と用言の係り受けである共起関係と、共起関係と共に取得された各共起関係の頻度に基づいて計算された値である共起スコアとの対応を記述した共起辞書を記憶する共起辞書記憶部、典型度付与対象テキスト内の共起関係を収集し、当該収集した共起関係に対応する共起スコアを共起辞書記憶部から取得して、共起スコアが高いほど高くなるように、典型度付与対象テキストの内容の典型度スコアを計算する典型度スコアリング部として機能させる。なお、本発明では、共起関係を構成する単位を文節とするため、名詞文節と名詞、用言文節と用言とは、それぞれ区別する必要がない。そのため、文節を省略して表記することがある。ただし、「単語」と明示した場合のみ、文節ではなく単語のみを表す。
本発明によれば、意味的関連を考慮した共起辞書を作成できる。その理由は、用言が関わる共起関係を係り受け関係に絞っているためである。
また、本発明によれば、共起の収集単位を文節としているために、意味のある複合表現のみを抽出することができる。その結果、複合表現に対応した記憶領域の小さい共起辞書を作成することができる。
本発明の第1の実施の形態の構成を示すブロック図である。 本発明の第1の実施の形態の動作を示す流れ図である。 コーパス入力部により入力するテキストデータの一例を示す説明図である。 言語解析部の解析例を示す説明図である。 共起関係収集部の処理例を示す説明図である。 共起関係収集部の出力結果の一例を示す説明図である。 共起辞書表示部の表示例を示す説明図である。 本発明の第2の実施の形態の構成を示すブロック図である。 本発明の第2の実施の形態の動作を示す流れ図である。 本発明の第3の実施の形態の構成を示すブロック図である。 本発明の第3の実施の形態の構成を示す流れ図である。 情報抽出装置の抽出結果の一例を示す図である。 かな漢字変換の候補の一例を示す図である。 本発明の第3の実施の形態の説明に用いる共起辞書記憶部のデータの説明図である。 情報抽出結果の典型度スコアの一例を示す図である。 かな漢字変換候補の典型度スコアの一例を示す図である。 本発明の第4の実施の形態の構成を示すブロック図である。 本発明の実施の形態によるシステムをインプリメントした情報処理システムの一般的なブロック構成図である。
1・・・コーパス入力部、
2、9、10・・・記憶装置、
3、5、7、11・・・データ処理装置、
8・・・テキストデータ表示部、
20・・・コーパス記憶部、
21・・・共起辞書記憶部、
22・・・テキストデータ記憶部、
23・・・典型度スコア付きテキストデータ記憶部、
30、70・・・共起辞書生成部、
71・・・典型度スコアリング部、
72・・・テキストデータ選別部、
300・・・言語解析部、
301・・・共起関係収集部、
302・・・共起スコア計算部、
500・・・トピック分割部、
3000・・・プロセッサ、
3001・・・プログラムメモリ、
3002・・・記憶媒体
(第1の実施の形態)
本発明を実施するための、第1の実施の形態について図面を参照して詳細に説明する。
図1は、本発明の第1の実施の形態の構成を示すブロック図である。
本発明の第1の実施の形態は、共起関係の収集元となるテキストを入力するコーパス入力部1と、テキストや生成された共起辞書を記憶する記憶装置2と、プログラム制御により動作するデータ処理装置3と、生成した共起辞書の内容を表示する共起辞書表示部4とを有する。
これらのコーパス入力部1、記憶装置2、データ処理装置3、共起辞書表示部4のそれぞれについて説明する。
コーパス入力部1は、共起関係の収集元となるテキストデータを、コーパス記憶部20に記憶させる。コーパスは、テキスト本体を表す「テキスト」と、各データの識別子を表す「ID」とからなる。「ID」は、あらかじめ指定しても良いし、入力順に整数の連番となるようIDを付与するなど、自動的に付けても良い。
記憶装置2は、コーパス記憶部20と、共起辞書記憶部21とを備える。
コーパス記憶部20は、コーパス入力部1により入力されたテキストデータを記憶する。
共起辞書記憶部21は、共起辞書生成部30によって生成された共起辞書を記憶する。
データ処理装置3は、共起辞書生成部30と共起辞書出力部31とを備える。
共起辞書生成部30は、言語解析部300、共起関係収集部301、共起スコア計算部302とを有する。
言語解析部300は、コーパス記憶部20からテキストデータを読み出し、各テキストデータに対して形態素解析、文節同定、文節間の係り受け解析を行う。言語解析部300は、その解析結果を、共起関係収集部301に出力する。
共起関係収集部301は、言語解析部300の解析結果から、名詞、用言、名詞同士の共起関係、名詞と用言が係り受けにある共起関係、用言同士が係り受けにある共起関係を収集する。また、共起関係収集部301は、名詞、用言、各共起関係の頻度を取得する。共起関係収集部301は、収集した共起関係と、取得した各共起関係の頻度とを、共起スコア計算部302に出力する。ここで、名詞同士の共起関係は、それぞれの名詞が所定の文書範囲に共起している場合に収集する。所定の文書範囲は、文書、段落、文のいずれかである。
共起スコア計算部302は、各名詞、用言、共起関係と、その頻度を受け取ると、各共起関係の共起スコアを計算する。そして、共起スコア計算部302は、各共起関係と、計算した共起スコアとを、共起辞書記憶部21に記憶させる。共起スコアは、2つの語が同時に使用される度合いであり、同時に使われやすいほどスコアが高くなるように計算される。共起スコアには、任意の共起強度の計算法を用いることができる。例えば、頻度をそのまま共起スコアとしてもよい。また、高頻度の共起関係が有利になりすぎないように、頻度の対数をとって共起スコアとしてもよい。
また、偏って共起する関係は、意味的関連が深いと考えられる。そのため、共起スコアを、共起関係の2語の片方の頻度、もしくは両方の頻度の合計で共起関係の頻度を割った値としてもよい。
なお、意味的関連は、意味的に同時に使われやすい語同士ほど高く、逆に同時に使われにくい語同士は低い。
また、非特許文献1にある共起強度の尺度であるダイス係数、自己相互情報量、ジャッカード係数、などを用いてもよい。例えば、非特許文献1に記載されているダイス係数は、共起関係の頻度をf12、共起関係を構成する2つの語の頻度をf1、f2とすると、「ダイス係数=2×f12/(f1+f2)」と計算される。
また、非特許文献2に記載されているように、共起関係の集合から任意の2語の共起確率を推定する手法を用いてもよい。非特許文献2では、w_i、w_j(0≦i,j≦n,i≠j)の2語の共起確率を「P(w_i,w_j)=ΣP(w_i|z_k)P(w_j|z_k)P(z_k)」として、P(w_i|z_k),P(w_j|z_k),P(z_k)を共起関係の集合から推定することでP(w_i|w_j)を計算する。ここで、nは共起関係を構成する語の種類の数を表す。z_kのkは添え字を表す。Σは全てのkで和をとる演算子を表す。z_kは、共起語の分布が似ている語が集まっているクラスタである。kの数はユーザが指定する。P(z_k)は各クラスタの出現確率である。P(w_i|z_k)はクラスタz_kが出現した場合のw_iの生成確率である。P(w_j|z_k)はクラスタz_kが出現した場合のw_jの生成確率である。非特許文献2では、共起語の分布が似ているほどP(w_i|z_k)、P(w_j|z_k)が同時に高くなる。そのため、同クラスタから生成される確率が高い2語ほど、共起確率が高くなるように計算される。つまり、非特許文献2では、それぞれの語の共起語の分布の類似性から共起確率を適切に計算する。そのため、文書中で偶然共起しなかったが、本来は共起してもおかしくない共起関係に対しても共起スコアを計算できる。
共起辞書出力部31は、共起辞書記憶部21から共起辞書に記述された共起関係と、その共起スコアとを読み出し、共起辞書表示部4に出力する。共起辞書出力部31は、共起スコアの降順、または昇順に共起関係をソートして出力してもよい。また、共起辞書出力部31は、少なくとも1つの語を指定して、入力語を含む共起関係のみを出力してもよい。また、共起辞書出力部31は、一定以上、もしくは一定以下、もしくは一定以上一定以下の共起スコアを持つ共起関係のみを出力するようにしてもよい。
共起辞書表示部4は、共起辞書出力部31により出力された共起関係を、その共起スコアとともに表示する。
本実施の形態では、共起辞書生成部30は、共起の収集単位を、文の意味の最小単位である文節とする。また、共起辞書生成部30は、名詞と用言の共起および用言同士の共起を係り受け関係に限定する。そのため、意味的関連のない共起関係の収集量を低減でき、高品質で低容量の共起辞書を作成できる。
次に、図1と、図2のフローチャートとを参照して、本実施の形態の全体の動作について詳細に説明する。
まず、共起関係を収集する元となるテキストデータを、コーパス入力部1によりコーパス記憶部20に記憶させる(図2のステップS1)。図3は、コーパス記憶部20が記憶するデータの例である。図3には3つの文書データが含まれる。例えば、IDが1のテキストデータは、「このアミューズメントゾーンは、狭くて暗くて楽しそうな雰囲気で、結構面白そう。」である。
次に、言語解析部300は、コーパス記憶部20からテキストデータを読み込み、形態素解析、文節同定、文節間の係り受け解析を行う(図2のステップS2)。図4を参照して具体的に説明する。
図4は、図3のIDが2のテキストである「江戸時代の城らしいが、構造が昔のままなのか、妙に急な階段が多い。」というテキストを言語解析した結果を示している。
まず、言語解析部300は、形態素解析を行う(ステップS101)。このステップS101の処理を、形態素解析とも称する。
次に、形態素解析の結果を、文節単位にまとめ上げ、各文節が名詞文節か用言文節であるかを同定する(ステップS102)。このステップS102の処理を、文節同定とも称する。ここで、各文節が名詞文節であるか用言文節であるかは、文節の後ろから形態素を探索し、最初に発見した自立語の品詞の種類により決定する。最初に名詞が見つかれば名詞文節、用言が見つかれば用言文節となる。
最後に文節の係り受け関係を解析する(ステップS103)。このステップS103の処理を、係り受け解析とも称する。
ステップS103の処理結果を示す図(図4の一番下の図)では、係り受け関係を矢印で表している。例えば、「江戸時代の」は「城らしいが」に係り、「階段が」は「多い。」に係る。
図2の説明に戻り、共起関係収集部301は、言語解析部300の解析結果から、共起関係、名詞、用言を収集し、その頻度を計算する(図2のステップS3)。共起関係収集部301は、収集した共起関係、名詞、用言と、計算した頻度とを、記録する。
図5は、図4の結果から、名詞、用言、共起関係を収集した例である。共起関係収集部301は、共起関係を収集する際に、文節から付属語を除く。例えば、「江戸時代の」の「の」は助詞であるため、「江戸時代」となる。
また、用言は形態素解析の結果から原形に戻す。例えば、「妙に」は「妙だ」となる。これらの処理の後、名詞同士の共起、名詞と用言の係り受け関係、用言同士の係り受け関係を収集し頻度を数える。
また、共起スコアの計算時に必要になる場合には、名詞、用言単独の頻度も記録する。ここで、本発明の実施の形態では、共起関係には方向を定めていない。つまり、2つの語の順序関係を文字コードの値の大小で決めるなどして、同じ語から構成される共起関係が1種類になるようにしている。
図2の説明に戻り、共起スコア計算部302は、共起関係収集部301が収集した結果に基づき、各共起関係の共起の強さを表す共起スコアを計算する(図2のS4)。そして、共起スコア計算部302は、その共起関係と共起スコアとを、共起辞書記憶部21に記憶させる。
図6は、共起関係収集部301の出力結果の例である。図6のデータを例に共起スコア計算部302の動作を説明する。本例では、共起スコアの計算法として、ダイス係数を採用する。具体的には、図6のデータにおいて、「江戸時代,城」のダイス係数は、「江戸時代,城」の頻度が30、「江戸時代」の頻度が66、「城」の頻度が110であることから、2×30/(66+110)≒0.34と計算できる。共起スコア計算部302は、全ての共起関係について同様の処理を行う。共起スコア計算部302は、共起関係を構成する2つの語と、計算した共起スコアとを対応付けて、共起辞書記憶部21に記憶させる。
図2の説明に戻り、共起辞書表示部4は、共起辞書出力部31により共起辞書記憶部21から読み出された共起辞書のデータを表示する(図2のステップS5)。
図7は、共起辞書記憶部21に記憶されたデータの表示例である。図7は、「江戸時代」を持つ全ての共起関係を表示している。図7を参照すると、「江戸時代,城」の共起スコアは0.34であることがわかる。また、「江戸時代,城」と、「江戸時代,構造」の共起スコアとを比べると、「江戸時代,城」の意味的関連のほうが強いことがわかる。
次に、本実施の形態の効果について説明する。
本実施の形態では、言語解析部300により、形態素解析、文節同定、文節間の係り受けを解析する。そして、共起関係収集部301により、名詞文節の共起と、名詞文節と用言文節の係り受けと、用言文節同士の係り受けの各データを収集する。そして、共起スコア計算部302により、収集された共起関係の頻度に基づき共起関係の共起スコアを計算する。この結果、用言が関わる共起関係は、係り受け関係に絞られることになる。そのため、意味的関連の高い共起関係から共起辞書を生成できる。
例えば、「カレーは辛いが、福神漬けはしょっぱい。」から共起語を単純に収集すると、「カレー,しょっぱい」、「福神漬け,辛い」など、意味的関連が低い共起関係が収集される。一方、名詞と用言の共起を係り受け関係に絞ると、「カレー,辛い」、「福神漬け,しょっぱい」といった意味的関連が高いものが収集される。ここで、名詞同士の共起は、係り受け関係になくても意味的に関連することが多い。そのため、名詞同士の共起は係り受け関係に限定しない。
また、本実施の形態によれば、共起の収集単位を文節としているために意味的関連の低い共起関係がなくなる。その結果、少ない記憶領域の共起辞書を生成できる。文節とは、一般的定義と同様に「文を、意味がわかる範囲で出来るだけ小さく区切ったもの」である。収集単位を文節とすると、意味の単位になっていない複合表現がなくなる。そのため、その分だけ共起辞書の記憶容量を抑えることができる。また、意味単位で共起を収集することで、文意を反映していない共起関係が収集されなくなり、記憶領域を抑えると同時に高品質な共起辞書を生成できる。
例えば、「検索エンジンは高速にキーワードを含む文書を探すことができる」を形態素解析すると、「検索/エンジン/は/高速/に/キーワード/を/含む/文書/を/探す/こと/が/できる」となる。なお、ここでは、品詞は省略している。
一方、文節は「検索エンジンは/高速に/キーワードを/含む/文書を/探す/ことが/できる」となる。単語連鎖を基本単位とすると「は高速」、「含む文書」など、意味をなさない複合表現が収集される。
また、単語単位では、「エンジン、文書」、「エンジン、キーワード」といった意味的関連が低い共起が収集される。一方、文節単位では「検索エンジン、文書」、「検索エンジン、キーワード」など、文意を適切に反映した共起関係が収集できる。
(第2の実施の形態)
次に、本発明の第2の実施の形態について図面を参照して詳細に説明する。
図8は、本発明の第2の実施の形態の構成を示すブロック図である。
本発明の第2の実施の形態は、第1の実施の形態(図1)と比較して、データ処理装置3の代わりにデータ処理装置5を備えている点で相違する。データ処理装置5は、データ処理装置3と比較して、共起辞書生成部30の代わりに共起辞書生成部50を備えている点で相違する。共起辞書生成部50は、共起辞書生成部30と比較して、言語解析部300、共起関係収集部301および共起スコア計算部302に加えてさらに、トピック分割部500を備えている点で相違する。
言語解析部300は、コーパス記憶部20からテキストデータを読み出し、各テキストデータに対して形態素解析、文節同定、文節間の係り受け解析を行う。そして、言語解析部300は、その解析結果をトピック分割部500に出力する。
トピック分割部500は、言語解析部300の解析結果から、各テキストデータのトピックの変化点を検出する。そして、トピック分割部500は、各変化点で元の解析結果を分割して、共起関係収集部301に出力する。別トピックの名詞間の共起関係では意味的関連が低いため、トピック分割部500により、トピック毎に分割して、後段の共起関係収集部301に出力する。これによって、より意味的関連の強い共起関係を収集できる。
例えば、「〜昨日、日経平均が暴落していたが、海外投資家の影響であろうか。なんか、腹が減ってきた。コンビニいってこよう。〜」というテキストがあるとする。このテキストでは、「なんか、腹がへってきた。」でトピックが変わっているため、「日経平均,コンビニ」は偶然共起したにすぎないことがわかる。一方、「コンビニ業界の景気がよく、日経平均が上がっている。」のように同じトピック内で共起する場合は、偶然ではなく関係があることがわかる。つまり、同じトピックから共起関係を収集することで、偶然の共起関係を減らすことができる。このため、より高品質な共起辞書が生成できる。
トピック分割部500は、形態素解析、文節同定、係り受け解析の結果に基づき分割できる任意の手段を用いることができる。例えば、トピック分割部500は、前後の文で使用している名詞がn種以上重ならなければ分割してもよい。これは、同じトピックが続いていれば、同じ内容を表す語が使われるという仮定に基づいている。上述したテキストでは、「昨日、日経平均が暴落していたが、海外投資家の影響であろうか。」と、「なんか、腹が減ってきた。」との間には、1つも同じ名詞が使用されていない。
そのため、トピックが変化したと考えることができる。また、トピック分割部500は、トピックの変化を表す表現の出現で分割してもよい。トピックの変化を表す表現には「話は変わるが」、「ところで」、「突然であるが」などが挙げられる。また、トピック分割部500は、文頭に接続詞が存在しない場合に分割してもよい。これは、接続詞があるということは、前後の文につながりがあると考えられ、逆にない場合は、別トピックと考えられるためである。また、トピック分割部500は、非特許文献3の技術を用いることができる。非特許文献3では、単語列を擬似段落と見なし、連接する2つの擬似段落の語の重なりを計測して、重なりが少なくなる場所をトピックの変化点として分割する。
共起関係収集部301は、トピックの変化点で分割された解析結果ごとに共起関係を収集する点を除いて、第1の実施の形態における共起関係収集部301と同じ機能を有する。
その他の構成は、第1の実施の形態と同様である。
次に、図8と、図9のフローチャートとを参照して、本実施の形態の全体の動作について詳細に説明する。
図9のステップS11、S12は、図2のステップS1、S2と同様なため説明を省略する。
トピック分割部500は、言語解析部300の解析結果を受け取り、テキストのトピックの変化点を検出する。そして、トピック分割部500は、検出した変化点に基づき解析結果を分割して(図9のステップS13)、共起関係収集部301に出力する。
本例では、トピック分割部500は、前後の文で、名詞が2種類以上重ならなければ分割する。例えば、分割対象のテキストを、「1)最近投資に興味が出てきたため日経平均をチェックするようになった。2)昨日、日経平均が暴落していたが、海外投資家の影響であろうか。3)なんか腹が減ってきた。4)コンビニいってこよう。」として以下説明する。なお、1)から4)は説明のためにつけた各文の番号であり、実際にはテキストには書かれていない。
トピック分割部500は、連接する2つの文の名詞の種類の重なり数を数え、名詞が2種類以上重ならない文で分割する。各文の名詞は、言語解析部300の出力から抽出できる。その結果、1)と2)の文では、「投資、日経、平均」で3種類の名詞が重なっている。また、2)と3)の文では、重なっている名詞はない。また、3)と4)の文では、重なっている名詞はない。このため、トピック分割部500は、入力テキストを、「最近投資に興味が出てきたため日経平均をチェックするようになった。昨日、日経平均が暴落していたが、海外投資家の影響であろうか。」、「なんか腹が減ってきた。」、「コンビニいってこよう。」の3つに分割する。
図9のステップS14からステップS16は、図1のステップS3からステップS5と同様なため説明を省略する。
次に、本実施の形態の効果について説明する。
本実施の形態では、第1の実施の形態の効果に加えて、以下の効果を有する。つまり、トピック分割部500を有することで、同じトピック内に限定した名詞同士の共起を収集することができる。そのため、より意味的関連が高い共起関係に絞って共起辞書を生成することができる。なお、名詞と用言との共起および用言同士の共起は、文中における名詞と用言の係り受け関係および用言同士の係り受け関係に自ずと限定される。そのため、トピック分割の有無に関わらず意味的関連が高い共起関係になっている。
(第3の実施の形態)
次に、本発明の第3の実施の形態について図面を参照して詳細に説明する。
図10は、本発明の第3の実施の形態の構成を示すブロック図である。
本発明の第3の実施の形態は、第1の実施の形態(図1)と比較して、記憶装置2、データ処理装置3および共起辞書表示部4の代わりに、記憶装置9、データ処理装置7およびテキストデータ表示部8を備えている点において相違する。また、第3の実施の形態は、テキストデータ入力部6を備えている点で、第1の実施の形態と相違する。
記憶装置9は、記憶装置2と比較して、コーパス記憶部20および共起辞書記憶部21に加えてさらに、テキストデータ記憶部22および典型度スコア付きテキストデータ記憶部23を有する点で相違する。
データ処理装置7は、データ処理装置3と比較して、共起辞書生成部30および共起辞書出力部31の代わりに、共起辞書生成部70、典型度スコアリング部71およびテキストデータ選別部72を備えている点で相違する。
共起辞書生成部70は、コーパス入力部1によりコーパス記憶部20に記憶された共起関係の収集元となるテキストに基づいて共起辞書を生成し、共起辞書記憶部21に記憶させる。共起辞書生成部70は、共起辞書生成部30と同一の構成または第2の実施の形態における共起辞書生成部50と同一の構成を有する。
テキストデータ入力部6は、共起辞書により典型度を付与する対象となるテキストデータを、テキストデータ記憶部22に記憶させる。テキストデータは、テキスト本体を表す「テキスト」と、各データの識別子を表す「ID」と、あらかじめ指定された典型度のスコアが設定された「初期スコア」とからなる。
「ID」は、あらかじめ指定しても良いし、入力順に整数の連番となるようIDを付与するなど、自動的に付けても良い。また、「テキスト」は文書であっても、なんらかの方法によって抽出された複数語からなる関係でもよい。
「初期スコア」は、高い値であるほど評価が高いことを表す。また、「初期スコア」が必要ない場合、与えられない場合は、0や1など全て同じ値にする。また、テキストデータ入力部6は、かな漢字変換候補、情報検索結果、情報抽出結果など、他の自然言語処理システムの出力を自動的に入力するものとして、「初期スコア」は、それぞれのシステムのスコアとしてもよい。例えば、「初期スコア」としては、かな漢字変換候補のスコア、情報抽出装置が付与する情報抽出結果への信頼度、検索エンジンの適合度、もしくは順位の逆数などが考えられる。
典型度スコアリング部71は、テキストデータ記憶部22が記憶しているテキストデータと、共起辞書記憶部21が記憶している共起辞書データとを読み出す。そして、典型度スコアリング部71は、各テキストデータから共起関係を抽出し、各テキストデータの共起関係の共起スコアと初期スコアとから、各テキストデータの典型度スコアを計算する。そして、典型度スコアリング部71は、各テキストと、その典型度スコアとを、典型度スコア付きテキストデータ記憶部23に記憶させる。
ここで、典型度スコアの計算は、各共起スコアと初期スコアとが高いほど高くなるように計算する。例えば、典型度スコアは、各共起スコアと初期スコアとの和、もしくは積、もしくは和と積の組み合わせとすることが考えられる。
テキストデータ選別部72は、典型度スコア付きテキストデータ記憶部23から、テキストとその典型度スコアとを読み出す。そして、テキストデータ選別部72は、典型度スコアの大小関係、もしくは値に基づき、テキストデータを選別して、テキストデータ表示部8にデータを出力する。
テキストデータ表示部8は、テキストデータ選別部72により内容の典型度に基づき選別されたテキストデータを、その典型度スコアとともに表示する。
次に、図10と、図11のフローチャートとを参照して、本実施の形態の全体の動作について詳細に説明する。
本実施の形態は、共起辞書を作成する機能と、作成した共起辞書を利用して典型度付与対象テキストに対して典型度スコアを付与する機能とを、共起辞書記憶部21が有する。共起辞書を作成する機能の動作は、第1の実施の形態、もしくは第2の実施の形態で共起辞書を作成する動作と同様である。そのため、共起辞書が作成された後の動作について以下説明する。
まず、テキストデータ入力部6は、共起辞書で典型度を付与するテキストデータを、テキストデータ記憶部22に記憶させる(図11のステップS21)。
図12A及び図12Bは、テキストデータ入力部6によりテキストデータ記憶部22に記憶されるデータの例である。図12Aは、情報抽出装置の抽出結果の一例を示す図である。図12Bは、かな漢字変換の候補の一例を示す図である。図12Aは、テキストデータから、何の(対象物)、どういった点が(属性)、どうであったか(評価)、の3語からなる関係を抽出した情報抽出結果を示している。図12Bは、「遊園地Aにいった」の「いった」のかな漢字変換の候補を示している。
次に、典型度スコアリング部71は、テキストデータ記憶部22からテキストデータを読み出す。そして、典型度スコアリング部71は、各テキストデータから共起関係を抽出する(図11のステップS22)。典型度スコアリング部71は、読み出した各テキストに対して、言語解析部300と同様の処理を行い、共起関係収集部301と同様の方法で共起関係を収集する。つまり、典型度スコアリング部71は、テキストデータを形態素解析して文節を同定して文節間の係り受けを解析する。そして、典型度スコアリング部71は、文節単位でテキストデータ内の名詞の共起、名詞と用言の係り受け、用言と用言の係り受けを共起関係として収集する。
また典型度スコアリング部71は、図12Aのように、テキストが文ではなく、複数の語からなるレコードの場合は、語の組み合わせを共起関係とする。例えば、図12AのID=1のテキストからは、「遊園地A,雰囲気」、「遊園地A,楽しい」、「雰囲気,楽しい」の3つの共起関係が抽出される。ここで、複数の語からなるテキストレコードで、語同士の関係に意味がある場合は、共起関係を全ての語の組み合わせとするのではなく、限定してもよい。
例えば、図12Aでは、「属性」は「対象物」の評価視点であり、「評価」は「属性」の評価であるが、「評価」は「対象物」そのものを直接評価しているわけではない。つまり、図12Aでは「対象物,属性」、「属性,評価」の2つの共起関係に限定してもよい。以降では、一例として、図12Aは、「対象物,属性」、「属性,評価」の2つを共起関係として抽出する場合について説明する。また、図12BのID=1では、「遊園地A,言った」が共起関係として抽出される。
図11の説明に戻り、典型度スコアリング部71は、共起辞書を共起辞書記憶部21から読み出す。そして、典型度スコアリング部71は、図11のステップS22で抽出された各共起関係の共起スコアを取得する(図11のステップS23)。
図13は、共起辞書記憶部21に記憶された共起辞書の一例を示す図である。ここで、共起辞書記憶部21のデータは、本発明の第1又は第2の実施の形態の何れかで作成されたものである。
次に、典型度スコアリング部71は、ステップS22で取得した各テキストデータの典型度を、ステップS22で抽出した各テキストデータの共起関係と、ステップS22で読み出された各テキストデータの初期スコアと、ステップS23で取得した各共起関係の共起スコアとに基づき、典型度スコアを計算する(図11のステップS24)。そして、典型度スコアリング部71は、各テキストと、各テキストの典型度スコアとを、典型度スコア付きテキストデータ記憶部23に記憶させる。
図12AのID=1の典型度スコアの計算を例に動作を説明する。図11のステップS22により、図12AのID=1からは「遊園地A,雰囲気」、「雰囲気,楽しい」の2つの共起関係が抽出される。図13の共起辞書を参照すると、共起スコアは、「遊園地A,雰囲気=20」、「雰囲気,楽しい=20」であるとわかる。図12AのID=1の初期スコアは1である。例えば、典型度スコアを、初期スコアと、各共起関係の共起スコアとの和とする。すると、典型度スコアリング部71は、図12AのID=1の典型度スコアを、41(=20+20+1)と計算する。同様に、図12AのID=2〜4の典型度スコアを、ID=2が351(=100+250+1)、ID=3が351(=150+200+1)、ID=4が21(=20+0+1)とそれぞれ計算する。
また、同様に図12BのID=1〜4の典型度スコアは、各共起関係とその共起スコアが、図13から「遊園地A,言った=10」、「遊園地A,行った=300」、「遊園地A,要った=0」、「遊園地A,炒った=0」となる。和を計算するとID=1が11(=10+1)、ID=2が301(=300+1)、ID=3が1(=0+1)、ID=4が(=0+1)となる。
図14Aは、情報抽出結果の典型度スコアの一例を示す図である。図14Bは、かな漢字変換候補の典型度スコアの一例を示す図である。
典型度スコアリング部71は、テキストデータ記憶部22が記憶している図12A及び図12Bのデータと、共起辞書記憶部21が記憶している図13のデータとから典型度スコアを計算する。典型度スコアリング部71は、典型度スコアと、テキストデータとを典型度スコア付きテキストデータ記憶部23に記憶させる。
図11の説明に戻り、テキストデータ選別部72は、典型度スコア付きテキストデータ記憶部23からデータを読み出す。そして、テキストデータ選別部72は、各テキストの典型度スコアに基づいて、表示するテキストを選別する(図11のステップS25)。例えば、図14Aにおいて、典型度スコアが40以上のデータを取り出すと、ID=4が典型的ではないと判定される。よって、ID=4は選ばず、ID=1〜3を選ぶ。また、図14Bでは、典型度スコアでランキングすると意味的に尤もらしい、かな漢字変換候補の順序になる。
最後に、テキストデータ表示部8は、テキストデータ選別部72で選別されたテキストを表示する(図11のステップS26)。
次に、本実施の形態の効果について説明する。
本実施の形態では、テキストデータの内容の意味的典型度合いを計算できる。その理由は、第1の実施の形態もしくは第2の実施の形態で作成した、意味的関連が高い共起関係に絞って生成された共起辞書を用いるためである。
また本実施の形態では、典型度付与対象のテキストが文の場合、典型度スコアリング部71は、そのテキストを形態素解析して文節を同定して文節間の係り受けを解析する。そして、典型度スコアリング部71は、文節単位でそのテキスト内の名詞の共起、名詞と用言の係り受け、用言と用言の係り受けを共起関係として収集する。そして、典型度スコアリング部71は、この収集した共起関係に対応する共起スコアを共起辞書から取得してテキストの内容の典型的度合いを計算する。そのため、テキストの内容の意味的典型度合いをより精度良く計算できる。
なお、典型度付与対象のテキストから収集する共起関係を、テキスト内の名詞の共起、名詞と用言の係り受け、用言と用言の係り受けに係わるものに限定しなくてもよい。この場合であっても、意味的関連が高い共起関係に絞って生成された共起辞書を用いているため、ある程度の精度は得られる。
また本実施の形態では、典型度付与対象のテキストが複数の語から構成されるレコードの場合、典型度スコアリング部71は、語の組み合わせのうち語同士の組み合わせに意味のある組み合わせを共起関係として収集する。そして、典型度スコアリング部71は、この収集した共起関係に対応する共起スコアを共起辞書から取得してテキストの内容の典型的度合いを計算する。そのため、テキストの内容の意味的典型度合いをより精度良く計算できる。
なお、組み合わせに意味のある語同士の組み合わせに限定しなくてもよい。この場合であっても、意味的関連が高い共起関係に絞って生成された共起辞書を用いているため、ある程度の精度は得られる。
(第4の実施の形態)
次に、本発明の第4の実施の形態について図面を参照して詳細に説明する。
図15は、本発明の第4の実施の形態の構成を示すブロック図である。
本発明の第4の実施の形態は、第3の実施の形態(図10)と比較して、記憶装置9およびデータ処理装置7の代わりに、記憶装置10およびデータ処理装置11を備えている点において相違する。また、第4の実施の形態は、コーパス入力部1を備えていない点で、第3の実施の形態と相違する。
記憶装置10は、記憶装置9と比較して、コーパス記憶部20を備えていない点で相違する。
データ処理装置11は、データ処理装置7と比較して、共起辞書生成部70を備えていない点で相違する。
本実施の形態は、第1の実施の形態の共起辞書生成部30、もしくは第2の実施の形態の共起辞書生成部50を用いて作成された共起辞書を、あらかじめ共起辞書記憶部21に記憶している点で、第3の実施の形態と異なる。
次に、本実施の形態の全体の動作について説明する。本実施の形態においては、共起辞書記憶部21に共起辞書があらかじめ記憶されているため、共起辞書を作成する動作はない。それ以外の動作、すなわち共起辞書記憶部21に記憶された共起辞書を使って典型度スコアリング部71がテキストデータに典型度を付与する動作や、テキストデータ選別部72が各テキストの典型度スコアに基づいてテキストデータ表示部8に表示するテキストを選別する動作などは、第3の実施の形態と同じである。そのため、それらの説明を省略する。
次に、本実施の形態の効果について説明する。
本実施の形態では、第3の実施の形態と同様の効果が得られると同時に、テキストデータの内容の意味的典型度合いを高速に計算できる。その理由は、あらかじめ作成された共起辞書を使用することで、共起辞書の生成時間をなくせるためである。
以上、本発明の各実施の形態について説明したが、本発明は以上の各実施の形態にのみ限定されず、その他各種の付加や変更が可能である。また、本発明は、その有する機能をハードウェア的に実現することは勿論、コンピュータとプログラムとで実現することができる。プログラムは、磁気ディスクや半導体メモリ等のコンピュータ可読記録媒体に記録されて提供される。そのプログラムは、コンピュータの立ち上げ時などにコンピュータに読み取られる。読み取られたプログラムは、そのコンピュータの動作を制御する。これにより、プログラムは、そのコンピュータを前述した各実施の形態におけるデータ処理装置上の各機能部として機能させ、前述した処理ステップを実行させる。
図16は、本発明の各実施の形態によるシステムをインプリメントした情報処理システムの一般的なブロック構成図である。図16に示す情報処理システムは、プロセッサ3000、プログラムメモリ3001、記憶媒体3002を備えている。記憶媒体3002としては、RAMや、ハードディスク等の磁気記憶媒体を用いることができる。プログラムメモリ3001には、第1〜第4の何れかの実施の形態におけるデータ処理装置が行う処理ステップを実行するプログラムが格納されている。プロセッサ3000は、このプログラムによって動作する。記憶媒体3002は、第1〜第4の実施の形態における記憶装置として用いられる。
本発明は、係り受け解析、文書校正、かな漢字変換、情報抽出結果の意味的整合性の評価、テキストの意味的典型度合いの評価など、自然言語の意味的解析に用いる共起辞書を作成するためのシステム等に適用できる。

Claims (45)

  1. テキストを形態素解析して文節を同定して文節間の係り受けを解析する言語解析部と、
    前記言語解析部が解析した解析結果から、文節単位で一定範囲のテキスト内の名詞の共起、名詞と用言の係り受け、及び用言と用言の係り受けを共起関係として収集すると共に、各共起関係の頻度を取得する共起関係収集部と、
    前記共起関係収集部が収集た共起関係の頻度に基づき共起関係の共起スコアを計算する共起スコア計算部と、
    前記共起スコア計算部が計算た共起スコアと、前記共起関係収集部が収集した共起関係との対応を記述した共起辞書を記憶する共起辞書記憶部と
    備える共起辞書生成システム。
  2. 前記共起スコア計算部は、前記共起関係収集部収集た共起関係とその頻度とに基づき、収集された共起関係を構成する任意の2語の共起確率を推定して共起スコアとする
    請求項1に記載の共起辞書生成システム。
  3. 前記共起スコア計算部は、前記共起関係収集部収集た共起関係とその頻度とに基づき、共起関係を構成する2つの語の1つ、または両方の出現頻度を用いて共起関係の頻度を正規化したものを共起スコアとする
    請求項1に記載の共起辞書生成システム。
  4. 前記共起スコア計算部は、前記共起関係収集部収集た共起関係の頻度を共起スコアとする
    請求項1に記載の共起辞書生成システム。
  5. 前記言語解析部が解析した解析結果に基づいて前記テキストのトピックの変化点を検出して前記解析結果を分割するトピック分割部
    更に備え、
    前記共起関係収集部は、前記トピックの変化点で分割された解析結果ごとに共起関係を収集する
    請求項1に記載の共起辞書生成システム。
  6. 典型度付与対象テキスト内の共起関係を収集し、当該収集した共起関係に対応する共起スコアを前記共起辞書記憶部から取得して、前記共起スコアが高いほど高くなるように、前記典型度付与対象テキストの内容の典型度スコアを計算する典型度スコアリング部
    更に備える請求項1に記載の共起辞書生成システム。
  7. 前記典型度スコアリング部は、前記典型度付与対象テキストを形態素解析して文節を同定して文節間の係り受けを解析し当該解析結果から文節単位で前記典型度付与対象の一定範囲のテキスト内の名詞の共起、名詞と用言の係り受け、及び用言と用言の係り受けを共起関係として収集する
    請求項6に記載の共起辞書生成システム。
  8. 前記典型度スコアリング部は、前記典型度付与対象テキストを構成する複数の語の組み合わせを共起関係として収集する
    請求項6に記載の共起辞書生成システム。
  9. 前記典型度スコアリング部は、前記典型度付与対象テキストを構成する対象物を示すと、当該対象物の属性を示す語と、当該属性に対する何らかの値を示す語とのうち、いずれか2つの語の組み合わせを共起関係として収集する
    請求項6に記載の共起辞書生成システム。
  10. 前記典型度スコアリング部は、前記典型度付与対象テキストに初期スコアが付与されている場合、前記共起辞書記憶部から取得した共起スコアと前記初期スコアとから前記典型度スコアを計算する
    請求項6に記載の共起辞書生成システム。
  11. テキストが形態素解析されて文節を固定して文節間の係り受けが解析された解析結果から一定範囲のテキスト内で収集された名詞の共起、名詞と用言の係り受け、及び用言と用言の係り受けである共起関係と、前記共起関係と共に取得された各共起関係の頻度に基づいて計算された値である共起スコアとの対応を記述した共起辞書を記憶する共起辞書記憶部と、
    典型度付与対象テキスト内の共起関係を収集し、当該収集した共起関係に対応する共起スコアを前記共起辞書記憶部から取得して、前記共起スコアが高いほど高くなるように、前記典型度付与対象テキストの内容の典型度スコアを計算する典型度スコアリング部と
    を備えるスコアリングシステム。
  12. 前記典型度スコアリング部は、前記典型度付与対象テキストを形態素解析して文節を同定して文節間の係り受けを解析し当該解析結果から文節単位で前記典型度付与対象の一定範囲のテキスト内の名詞の共起、名詞と用言の係り受け、及び用言と用言の係り受けを共起関係として収集する
    請求項11に記載のスコアリングシステム。
  13. 前記典型度スコアリング部は、前記典型度付与対象テキストを構成する複数の語の組み合わせを共起関係として収集する
    請求項11に記載のスコアリングシステム。
  14. 前記典型度スコアリング部は、前記典型度付与対象テキストを構成する対象物を示すと、当該対象物の属性を示す語と、当該属性に対する何らかの値を示す語とのうち、いずれか2つの語の組み合わせを共起関係として収集する
    請求項11に記載のスコアリングシステム。
  15. 前記典型度スコアリング部は、前記典型度付与対象テキストに初期スコアが付与されている場合、前記共起辞書記憶部から取得した共起スコアと前記初期スコアとから前記典型度スコアを計算する
    請求項11に記載のスコアリングシステム。
  16. 情報処理装置が、テキストを形態素解析して文節を同定して文節間の係り受けを解析する言語解析段階と、
    前記情報処理装置が、前記言語解析段階において解析された解析結果から、文節単位で一定範囲のテキスト内の名詞の共起、名詞と用言の係り受け、及び用言と用言の係り受けを共起関係として収集すると共に、各共起関係の頻度を取得する共起関係収集段階と、
    前記情報処理装置が、前記共起関係収集段階において収集された共起関係の頻度に基づき共起関係の共起スコアを計算する共起スコア計算段階と、
    前記情報処理装置が、前記共起スコア計算段階において計算された共起スコアと、前記共起関係収集段階において収集された共起関係との対応を記述した共起辞書を共起辞書記憶部に記憶させる共起辞書記憶段階
    備える共起辞書生成方法。
  17. 前記共起スコア計算段階においては、前記共起関係収集段階で収集された共起関係とその頻度とに基づき、収集された共起関係を構成する任意の2語の共起確率を推定して共起スコアとする
    請求項16に記載の共起辞書生成方法。
  18. 前記共起スコア計算段階においては、前記共起関係収集段階で収集された共起関係とその頻度とに基づき、共起関係を構成する2つの語の1つ、または両方の出現頻度を用いて共起関係の頻度を正規化したものを共起スコアとする
    請求項16に記載の共起辞書生成方法。
  19. 前記共起スコア計算段階においては、前記共起関係収集段階で収集された共起関係の頻度を共起スコアとする
    請求項16に記載の共起辞書生成方法。
  20. 前記情報処理装置が、前記言語解析段階において解析された解析結果に基づいて前記テキストのトピックの変化点を検出して前記解析結果を分割するトピック分割段階
    備え
    前記共起関係収集段階においては、前記トピックの変化点で分割された解析結果ごとに共起関係を収集する
    請求項16に記載の共起辞書生成方法。
  21. 前記情報処理装置が、典型度付与対象テキスト内の共起関係を収集し、当該収集した共起関係に対応する共起スコアを前記共起辞書記憶部から取得して、前記共起スコアが高いほど高くなるように、前記典型度付与対象テキストの内容の典型度スコアを計算する典型度スコアリング段階
    備える請求項16に記載の共起辞書生成方法。
  22. 前記典型度スコアリング段階においては、前記典型度付与対象テキストを形態素解析して文節を同定して文節間の係り受けを解析し当該解析結果から文節単位で前記典型度付与対象の一定範囲のテキスト内の名詞の共起、名詞と用言の係り受け、及び用言と用言の係り受けを共起関係として収集する
    請求項21に記載の共起辞書生成方法。
  23. 前記典型度スコアリング段階においては、前記典型度付与対象テキストを構成する複数の語の組み合わせを共起関係として収集する
    請求項21に記載の共起辞書生成方法。
  24. 前記典型度スコアリング段階においては、前記典型度付与対象テキストを構成する対象物を示すと、当該対象物の属性を示す語と、当該属性に対する何らかの値を示す語とのうち、いずれか2つの語の組み合わせを共起関係として収集する
    請求項21に記載の共起辞書生成方法。
  25. 前記典型度スコアリング段階においては、前記典型度付与対象テキストに初期スコアが付与されている場合、前記共起辞書から取得した共起スコアと前記初期スコアとから前記典型度スコアを計算する
    請求項21に記載の共起辞書生成方法。
  26. テキストが形態素解析されて文節を固定して文節間の係り受けが解析された解析結果から、一定範囲のテキスト内で収集された名詞の共起、名詞と用言の係り受け、及び用言と用言の係り受けである共起関係と、前記共起関係と共に取得された各共起関係の頻度に基づいて計算された値である共起スコアとの対応を記述した共起辞書を記憶する共起辞書記憶部備える情報処理装置が、典型度付与対象テキスト内の共起関係を収集し、当該収集した共起関係に対応する共起スコアを前記共起辞書記憶部から取得して、前記共起スコアが高いほど高くなるように、前記典型度付与対象テキストの内容の典型度スコアを計算する典型度スコアリング段階
    備えるスコアリング方法。
  27. 前記典型度スコアリング段階においては、前記典型度付与対象テキストを形態素解析して文節を同定して文節間の係り受けを解析し当該解析結果から文節単位で前記典型度付与対象の一定範囲のテキスト内の名詞の共起、名詞と用言の係り受け、及び用言と用言の係り受けを共起関係として収集する
    請求項26に記載のスコアリング方法。
  28. 前記典型度スコアリング段階においては、前記典型度付与対象テキストを構成する複数の語の組み合わせを共起関係として収集する
    請求項26に記載のスコアリング方法。
  29. 前記典型度スコアリング段階においては、前記典型度付与対象テキストを構成する対象物を示すと、当該対象物の属性を示す語と、当該属性に対する何らかの値を示す語とのうち、いずれか2つの語の組み合わせを共起関係として収集する
    請求項26に記載のスコアリング方法。
  30. 前記典型度スコアリング段階においては、前記典型度付与対象テキストに初期スコアが付与されている場合、前記共起辞書から取得した共起スコアと前記初期スコアとから前記典型度スコアを計算する
    請求項26に記載のスコアリング方法。
  31. コンピュータを、
    テキストを形態素解析して文節を同定して文節間の係り受けを解析する言語解析
    前記言語解析部が解析した解析結果から、文節単位で一定範囲のテキスト内の名詞の共起、名詞と用言の係り受け、及び用言と用言の係り受けを共起関係として収集すると共に、各共起関係の頻度を取得する共起関係収集
    前記共起関係収集部が収集た共起関係の頻度に基づき共起関係の共起スコアを計算する共起スコア計算
    前記共起スコア計算部が計算た共起スコアと、前記共起関係収集部が収集した共起関係との対応を記述した共起辞書を記憶する共起辞書記憶
    として機能させるプログラム。
  32. 前記共起スコア計算は、前記共起関係収集部が収集た共起関係とその頻度とに基づき、収集された共起関係を構成する任意の2語の共起確率を推定して共起スコアとする
    請求項31に記載のプログラム。
  33. 前記共起スコア計算は、前記共起関係収集部が収集た共起関係とその頻度とに基づき、共起関係を構成する2つの語の1つ、または両方の出現頻度を用いて共起関係の頻度を正規化したものを共起スコアとする
    請求項31に記載のプログラム。
  34. 前記共起スコア計算は、前記共起関係収集部が収集た共起関係の頻度を共起スコアとする
    請求項31に記載のプログラム。
  35. コンピュータを、
    前記言語解析部が解析した解析結果に基づいて前記テキストのトピックの変化点を検出して前記解析結果を分割するトピック分割
    として更機能させ
    前記共起関係収集は、前記トピックの変化点で分割された解析結果ごとに共起関係を収集する
    請求項31に記載のプログラム。
  36. コンピュータを、
    典型度付与対象テキスト内の共起関係を収集し、当該収集した共起関係に対応する共起スコアを前記共起辞書記憶部から取得して、前記共起スコアが高いほど高くなるように、前記典型度付与対象テキストの内容の典型度スコアを計算する典型度スコアリング
    として更機能させる請求項31に記載のプログラム。
  37. 前記典型度スコアリングは、前記典型度付与対象テキストを形態素解析して文節を同定して文節間の係り受けを解析し当該解析結果から文節単位で前記典型度付与対象の一定範囲のテキスト内の名詞の共起、名詞と用言の係り受け、及び用言と用言の係り受けを共起関係として収集する
    請求項36に記載のプログラム。
  38. 前記典型度スコアリングは、前記典型度付与対象テキストを構成する複数の語の組み合わせを共起関係として収集する
    請求項36に記載のプログラム。
  39. 前記典型度スコアリングは、前記典型度付与対象テキストを構成する対象物を示すと、当該対象物の属性を示す語と、当該属性に対する何らかの値を示す語とのうち、いずれか2つの語の組み合わせを共起関係として収集する
    請求項36に記載のプログラム。
  40. 前記典型度スコアリングは、前記典型度付与対象テキストに初期スコアが付与されている場合、前記共起辞書記憶部から取得した共起スコアと前記初期スコアとから前記典型度スコアを計算する
    請求項36に記載のプログラム。
  41. コンピュータを、
    テキストが形態素解析されて文節を固定して文節間の係り受けが解析された解析結果から、一定範囲のテキスト内で収集された名詞の共起、名詞と用言の係り受け、及び用言と用言の係り受けである共起関係と、前記共起関係と共に取得された各共起関係の頻度に基づいて計算された値である共起スコアとの対応を記述した共起辞書を記憶する共起辞書記憶部
    典型度付与対象テキスト内の共起関係を収集し、当該収集した共起関係に対応する共起スコアを前記共起辞書記憶部から取得して、前記共起スコアが高いほど高くなるように、前記典型度付与対象テキストの内容の典型度スコアを計算する典型度スコアリング
    として機能させるプログラム。
  42. 前記典型度スコアリングは、前記典型度付与対象テキストを形態素解析して文節を同定して文節間の係り受けを解析し当該解析結果から文節単位で前記典型度付与対象の一定範囲のテキスト内の名詞の共起、名詞と用言の係り受け、及び用言と用言の係り受けを共起関係として収集する
    請求項41に記載のプログラム。
  43. 前記典型度スコアリングは、前記典型度付与対象テキストを構成する複数の語の組み合わせを共起関係として収集する
    請求項41に記載のプログラム。
  44. 前記典型度スコアリングは、前記典型度付与対象テキストを構成する対象物を示すと、当該対象物の属性を示す語と、当該属性に対する何らかの値を示す語とのうち、いずれか2つの語の組み合わせを共起関係として収集する
    請求項41に記載のプログラム。
  45. 前記典型度スコアリングは、前記典型度付与対象テキストに初期スコアが付与されている場合、前記共起辞書記憶部から取得した共起スコアと前記初期スコアとから前記典型度スコアを計算する
    請求項41に記載のプログラム。
JP2010505973A 2008-04-01 2009-04-01 共起辞書生成システム、スコアリングシステム、共起辞書生成方法、スコアリング方法及びプログラム Active JP5321583B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010505973A JP5321583B2 (ja) 2008-04-01 2009-04-01 共起辞書生成システム、スコアリングシステム、共起辞書生成方法、スコアリング方法及びプログラム

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
JP2008094980 2008-04-01
JP2008094980 2008-04-01
JP2008124254 2008-05-12
JP2008124254 2008-05-12
PCT/JP2009/056804 WO2009123260A1 (ja) 2008-04-01 2009-04-01 共起辞書作成システムおよびスコアリングシステム
JP2010505973A JP5321583B2 (ja) 2008-04-01 2009-04-01 共起辞書生成システム、スコアリングシステム、共起辞書生成方法、スコアリング方法及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2009123260A1 JPWO2009123260A1 (ja) 2011-07-28
JP5321583B2 true JP5321583B2 (ja) 2013-10-23

Family

ID=41135627

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010505973A Active JP5321583B2 (ja) 2008-04-01 2009-04-01 共起辞書生成システム、スコアリングシステム、共起辞書生成方法、スコアリング方法及びプログラム

Country Status (3)

Country Link
US (1) US8443008B2 (ja)
JP (1) JP5321583B2 (ja)
WO (1) WO2009123260A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101818717B1 (ko) * 2011-09-27 2018-01-15 네이버 주식회사 컨셉 키워드 확장 데이터 셋을 이용한 검색방법, 장치 및 컴퓨터로 판독 가능한 기록매체
JP5891837B2 (ja) * 2012-02-20 2016-03-23 日本電気株式会社 共起辞書作成装置
JP5870790B2 (ja) * 2012-03-19 2016-03-01 富士通株式会社 文章校正装置、及び文章校正方法
CN104685493A (zh) * 2012-09-27 2015-06-03 日本电气株式会社 用于监视文本信息的字典创建装置、用于监视文本信息的字典创建方法和用于监视文本信息的字典创建程序
JP6237168B2 (ja) * 2013-12-02 2017-11-29 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP2015138414A (ja) 2014-01-22 2015-07-30 富士通株式会社 機械翻訳装置、翻訳方法、及び、そのプログラム
US9684694B2 (en) 2014-09-23 2017-06-20 International Business Machines Corporation Identifying and scoring data values
GB2537927A (en) * 2015-04-30 2016-11-02 Fujitsu Ltd Term Probabilistic Model For Co-occurrence Scores
WO2018029791A1 (ja) * 2016-08-09 2018-02-15 楽天株式会社 キーワード抽出システム、キーワード抽出方法およびプログラム
JP6718345B2 (ja) * 2016-09-21 2020-07-08 日本電信電話株式会社 テキスト分析方法、テキスト分析装置、及びプログラム
US11531811B2 (en) 2020-07-23 2022-12-20 Hitachi, Ltd. Method and system for extracting keywords from text
JP7032582B1 (ja) 2021-01-29 2022-03-08 Kpmgコンサルティング株式会社 情報解析プログラム、情報解析方法及び情報解析装置
CN118467741B (zh) * 2024-07-09 2024-11-26 厦门众联世纪股份有限公司 一种数据违规风险智能检测方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08329090A (ja) * 1995-05-30 1996-12-13 Oki Electric Ind Co Ltd 共起辞書装置、共起辞書データ作成方法及び文解析システム
JP2003132059A (ja) * 2001-10-19 2003-05-09 Seiko Epson Corp 言語文を用いた検索装置、検索システム、検索方法、プログラム、および記録媒体
JP2006072483A (ja) * 2004-08-31 2006-03-16 Toshiba Corp プログラム及び文書処理装置並びに文書処理方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1049549A (ja) * 1996-05-29 1998-02-20 Matsushita Electric Ind Co Ltd 文書検索装置
JP2006215850A (ja) 2005-02-04 2006-08-17 Nippon Telegr & Teleph Corp <Ntt> 概念情報データベース作成装置、概念情報データベース作成方法、プログラムおよび記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08329090A (ja) * 1995-05-30 1996-12-13 Oki Electric Ind Co Ltd 共起辞書装置、共起辞書データ作成方法及び文解析システム
JP2003132059A (ja) * 2001-10-19 2003-05-09 Seiko Epson Corp 言語文を用いた検索装置、検索システム、検索方法、プログラム、および記録媒体
JP2006072483A (ja) * 2004-08-31 2006-03-16 Toshiba Corp プログラム及び文書処理装置並びに文書処理方法

Also Published As

Publication number Publication date
WO2009123260A1 (ja) 2009-10-08
US20110055228A1 (en) 2011-03-03
JPWO2009123260A1 (ja) 2011-07-28
US8443008B2 (en) 2013-05-14

Similar Documents

Publication Publication Date Title
JP5321583B2 (ja) 共起辞書生成システム、スコアリングシステム、共起辞書生成方法、スコアリング方法及びプログラム
Singh et al. Text stemming: Approaches, applications, and challenges
US8346795B2 (en) System and method for guiding entity-based searching
JP4571404B2 (ja) データ処理方法、データ処理システムおよびプログラム
JP4701292B2 (ja) テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
US20070073745A1 (en) Similarity metric for semantic profiling
EP1661031A4 (en) SYSTEM AND METHOD FOR PROCESSING TEXT USING A FOLLOWING OF DESAMBIGUIZATION TECHNIQUES
Beck et al. Representation problems in linguistic annotations: Ambiguity, variation, uncertainty, error and bias
JP4534666B2 (ja) テキスト文検索装置及びテキスト文検索プログラム
JPH03172966A (ja) 類似文書検索装置
JP2014120053A (ja) 質問応答装置、方法、及びプログラム
JP2014106665A (ja) 文書検索装置、文書検索方法
Basha et al. Evaluating the impact of feature selection on overall performance of sentiment analysis
US9164981B2 (en) Information processing apparatus, information processing method, and program
JP7312841B2 (ja) 法律分析装置、及び法律分析方法
Truica et al. Automatic language identification for romance languages using stop words and diacritics
JP2003263441A (ja) キーワード決定データベース作成方法、キーワード決定方法、装置、プログラム、および記録媒体
Tadesse et al. Event extraction from unstructured amharic text
Patel et al. Influence of Gujarati STEmmeR in supervised learning of web page categorization
Krishna et al. A hybrid method for query based automatic summarization system
Srinivas et al. Heuristics and parse ranking
JP6689466B1 (ja) 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム
Wattiheluw et al. Developing word sense disambiguation corpuses using Word2vec and Wu Palmer for disambiguation
Pan et al. Performance evaluation of part-of-speech tagging for Bengali text
Ullah et al. Pattern and semantic analysis to improve unsupervised techniques for opinion target identification

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120308

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130402

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130523

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130618

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130701

R150 Certificate of patent or registration of utility model

Ref document number: 5321583

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150