JP5321583B2 - 共起辞書生成システム、スコアリングシステム、共起辞書生成方法、スコアリング方法及びプログラム - Google Patents
共起辞書生成システム、スコアリングシステム、共起辞書生成方法、スコアリング方法及びプログラム Download PDFInfo
- Publication number
- JP5321583B2 JP5321583B2 JP2010505973A JP2010505973A JP5321583B2 JP 5321583 B2 JP5321583 B2 JP 5321583B2 JP 2010505973 A JP2010505973 A JP 2010505973A JP 2010505973 A JP2010505973 A JP 2010505973A JP 5321583 B2 JP5321583 B2 JP 5321583B2
- Authority
- JP
- Japan
- Prior art keywords
- occurrence
- score
- unit
- relationship
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本願は、2008年4月1日に、日本に出願された特願2008−094980号と、2008年5月12日に、日本に出願された特願2008−124254号とに基づき優先権を主張し、その内容をここに援用する。
2、9、10・・・記憶装置、
3、5、7、11・・・データ処理装置、
8・・・テキストデータ表示部、
20・・・コーパス記憶部、
21・・・共起辞書記憶部、
22・・・テキストデータ記憶部、
23・・・典型度スコア付きテキストデータ記憶部、
30、70・・・共起辞書生成部、
71・・・典型度スコアリング部、
72・・・テキストデータ選別部、
300・・・言語解析部、
301・・・共起関係収集部、
302・・・共起スコア計算部、
500・・・トピック分割部、
3000・・・プロセッサ、
3001・・・プログラムメモリ、
3002・・・記憶媒体
本発明を実施するための、第1の実施の形態について図面を参照して詳細に説明する。
本発明の第1の実施の形態は、共起関係の収集元となるテキストを入力するコーパス入力部1と、テキストや生成された共起辞書を記憶する記憶装置2と、プログラム制御により動作するデータ処理装置3と、生成した共起辞書の内容を表示する共起辞書表示部4とを有する。
また、偏って共起する関係は、意味的関連が深いと考えられる。そのため、共起スコアを、共起関係の2語の片方の頻度、もしくは両方の頻度の合計で共起関係の頻度を割った値としてもよい。
なお、意味的関連は、意味的に同時に使われやすい語同士ほど高く、逆に同時に使われにくい語同士は低い。
図4は、図3のIDが2のテキストである「江戸時代の城らしいが、構造が昔のままなのか、妙に急な階段が多い。」というテキストを言語解析した結果を示している。
次に、形態素解析の結果を、文節単位にまとめ上げ、各文節が名詞文節か用言文節であるかを同定する(ステップS102)。このステップS102の処理を、文節同定とも称する。ここで、各文節が名詞文節であるか用言文節であるかは、文節の後ろから形態素を探索し、最初に発見した自立語の品詞の種類により決定する。最初に名詞が見つかれば名詞文節、用言が見つかれば用言文節となる。
最後に文節の係り受け関係を解析する(ステップS103)。このステップS103の処理を、係り受け解析とも称する。
ステップS103の処理結果を示す図(図4の一番下の図)では、係り受け関係を矢印で表している。例えば、「江戸時代の」は「城らしいが」に係り、「階段が」は「多い。」に係る。
図5は、図4の結果から、名詞、用言、共起関係を収集した例である。共起関係収集部301は、共起関係を収集する際に、文節から付属語を除く。例えば、「江戸時代の」の「の」は助詞であるため、「江戸時代」となる。
また、用言は形態素解析の結果から原形に戻す。例えば、「妙に」は「妙だ」となる。これらの処理の後、名詞同士の共起、名詞と用言の係り受け関係、用言同士の係り受け関係を収集し頻度を数える。
また、共起スコアの計算時に必要になる場合には、名詞、用言単独の頻度も記録する。ここで、本発明の実施の形態では、共起関係には方向を定めていない。つまり、2つの語の順序関係を文字コードの値の大小で決めるなどして、同じ語から構成される共起関係が1種類になるようにしている。
図6は、共起関係収集部301の出力結果の例である。図6のデータを例に共起スコア計算部302の動作を説明する。本例では、共起スコアの計算法として、ダイス係数を採用する。具体的には、図6のデータにおいて、「江戸時代,城」のダイス係数は、「江戸時代,城」の頻度が30、「江戸時代」の頻度が66、「城」の頻度が110であることから、2×30/(66+110)≒0.34と計算できる。共起スコア計算部302は、全ての共起関係について同様の処理を行う。共起スコア計算部302は、共起関係を構成する2つの語と、計算した共起スコアとを対応付けて、共起辞書記憶部21に記憶させる。
図7は、共起辞書記憶部21に記憶されたデータの表示例である。図7は、「江戸時代」を持つ全ての共起関係を表示している。図7を参照すると、「江戸時代,城」の共起スコアは0.34であることがわかる。また、「江戸時代,城」と、「江戸時代,構造」の共起スコアとを比べると、「江戸時代,城」の意味的関連のほうが強いことがわかる。
一方、文節は「検索エンジンは/高速に/キーワードを/含む/文書を/探す/ことが/できる」となる。単語連鎖を基本単位とすると「は高速」、「含む文書」など、意味をなさない複合表現が収集される。
また、単語単位では、「エンジン、文書」、「エンジン、キーワード」といった意味的関連が低い共起が収集される。一方、文節単位では「検索エンジン、文書」、「検索エンジン、キーワード」など、文意を適切に反映した共起関係が収集できる。
次に、本発明の第2の実施の形態について図面を参照して詳細に説明する。
本発明の第2の実施の形態は、第1の実施の形態(図1)と比較して、データ処理装置3の代わりにデータ処理装置5を備えている点で相違する。データ処理装置5は、データ処理装置3と比較して、共起辞書生成部30の代わりに共起辞書生成部50を備えている点で相違する。共起辞書生成部50は、共起辞書生成部30と比較して、言語解析部300、共起関係収集部301および共起スコア計算部302に加えてさらに、トピック分割部500を備えている点で相違する。
本例では、トピック分割部500は、前後の文で、名詞が2種類以上重ならなければ分割する。例えば、分割対象のテキストを、「1)最近投資に興味が出てきたため日経平均をチェックするようになった。2)昨日、日経平均が暴落していたが、海外投資家の影響であろうか。3)なんか腹が減ってきた。4)コンビニいってこよう。」として以下説明する。なお、1)から4)は説明のためにつけた各文の番号であり、実際にはテキストには書かれていない。
次に、本発明の第3の実施の形態について図面を参照して詳細に説明する。
本発明の第3の実施の形態は、第1の実施の形態(図1)と比較して、記憶装置2、データ処理装置3および共起辞書表示部4の代わりに、記憶装置9、データ処理装置7およびテキストデータ表示部8を備えている点において相違する。また、第3の実施の形態は、テキストデータ入力部6を備えている点で、第1の実施の形態と相違する。
「ID」は、あらかじめ指定しても良いし、入力順に整数の連番となるようIDを付与するなど、自動的に付けても良い。また、「テキスト」は文書であっても、なんらかの方法によって抽出された複数語からなる関係でもよい。
ここで、典型度スコアの計算は、各共起スコアと初期スコアとが高いほど高くなるように計算する。例えば、典型度スコアは、各共起スコアと初期スコアとの和、もしくは積、もしくは和と積の組み合わせとすることが考えられる。
図12A及び図12Bは、テキストデータ入力部6によりテキストデータ記憶部22に記憶されるデータの例である。図12Aは、情報抽出装置の抽出結果の一例を示す図である。図12Bは、かな漢字変換の候補の一例を示す図である。図12Aは、テキストデータから、何の(対象物)、どういった点が(属性)、どうであったか(評価)、の3語からなる関係を抽出した情報抽出結果を示している。図12Bは、「遊園地Aにいった」の「いった」のかな漢字変換の候補を示している。
図13は、共起辞書記憶部21に記憶された共起辞書の一例を示す図である。ここで、共起辞書記憶部21のデータは、本発明の第1又は第2の実施の形態の何れかで作成されたものである。
典型度スコアリング部71は、テキストデータ記憶部22が記憶している図12A及び図12Bのデータと、共起辞書記憶部21が記憶している図13のデータとから典型度スコアを計算する。典型度スコアリング部71は、典型度スコアと、テキストデータとを典型度スコア付きテキストデータ記憶部23に記憶させる。
なお、組み合わせに意味のある語同士の組み合わせに限定しなくてもよい。この場合であっても、意味的関連が高い共起関係に絞って生成された共起辞書を用いているため、ある程度の精度は得られる。
次に、本発明の第4の実施の形態について図面を参照して詳細に説明する。
本発明の第4の実施の形態は、第3の実施の形態(図10)と比較して、記憶装置9およびデータ処理装置7の代わりに、記憶装置10およびデータ処理装置11を備えている点において相違する。また、第4の実施の形態は、コーパス入力部1を備えていない点で、第3の実施の形態と相違する。
Claims (45)
- テキストを形態素解析して文節を同定して文節間の係り受けを解析する言語解析部と、
前記言語解析部が解析した解析結果から、文節単位で一定範囲のテキスト内の名詞の共起、名詞と用言の係り受け、及び用言と用言の係り受けを共起関係として収集すると共に、各共起関係の頻度を取得する共起関係収集部と、
前記共起関係収集部が収集した共起関係の頻度に基づき共起関係の共起スコアを計算する共起スコア計算部と、
前記共起スコア計算部が計算した共起スコアと、前記共起関係収集部が収集した共起関係との対応を記述した共起辞書を記憶する共起辞書記憶部と
を備える共起辞書生成システム。 - 前記共起スコア計算部は、前記共起関係収集部が収集した共起関係とその頻度とに基づき、収集された共起関係を構成する任意の2語の共起確率を推定して共起スコアとする
請求項1に記載の共起辞書生成システム。 - 前記共起スコア計算部は、前記共起関係収集部が収集した共起関係とその頻度とに基づき、共起関係を構成する2つの語の1つ、または両方の出現頻度を用いて共起関係の頻度を正規化したものを共起スコアとする
請求項1に記載の共起辞書生成システム。 - 前記共起スコア計算部は、前記共起関係収集部が収集した共起関係の頻度を共起スコアとする
請求項1に記載の共起辞書生成システム。 - 前記言語解析部が解析した解析結果に基づいて前記テキストのトピックの変化点を検出して前記解析結果を分割するトピック分割部
を更に備え、
前記共起関係収集部は、前記トピックの変化点で分割された解析結果ごとに共起関係を収集する
請求項1に記載の共起辞書生成システム。 - 典型度付与対象テキスト内の共起関係を収集し、当該収集した共起関係に対応する共起スコアを前記共起辞書記憶部から取得して、前記共起スコアが高いほど高くなるように、前記典型度付与対象テキストの内容の典型度スコアを計算する典型度スコアリング部
を更に備える請求項1に記載の共起辞書生成システム。 - 前記典型度スコアリング部は、前記典型度付与対象テキストを形態素解析して文節を同定して文節間の係り受けを解析して、当該解析結果から文節単位で前記典型度付与対象の一定範囲のテキスト内の名詞の共起、名詞と用言の係り受け、及び用言と用言の係り受けを共起関係として収集する
請求項6に記載の共起辞書生成システム。 - 前記典型度スコアリング部は、前記典型度付与対象テキストを構成する複数の語の組み合わせを共起関係として収集する
請求項6に記載の共起辞書生成システム。 - 前記典型度スコアリング部は、前記典型度付与対象テキストを構成する対象物を示す語と、当該対象物の属性を示す語と、当該属性に対する何らかの値を示す語とのうち、いずれか2つの語の組み合わせを共起関係として収集する
請求項6に記載の共起辞書生成システム。 - 前記典型度スコアリング部は、前記典型度付与対象テキストに初期スコアが付与されている場合、前記共起辞書記憶部から取得した共起スコアと前記初期スコアとから前記典型度スコアを計算する
請求項6に記載の共起辞書生成システム。 - テキストが形態素解析されて文節を固定して文節間の係り受けが解析された解析結果から、一定範囲のテキスト内で収集された名詞の共起、名詞と用言の係り受け、及び用言と用言の係り受けである共起関係と、前記共起関係と共に取得された各共起関係の頻度に基づいて計算された値である共起スコアとの対応を記述した共起辞書を記憶する共起辞書記憶部と、
典型度付与対象テキスト内の共起関係を収集し、当該収集した共起関係に対応する共起スコアを前記共起辞書記憶部から取得して、前記共起スコアが高いほど高くなるように、前記典型度付与対象テキストの内容の典型度スコアを計算する典型度スコアリング部と
を備えるスコアリングシステム。 - 前記典型度スコアリング部は、前記典型度付与対象テキストを形態素解析して文節を同定して文節間の係り受けを解析して、当該解析結果から文節単位で前記典型度付与対象の一定範囲のテキスト内の名詞の共起、名詞と用言の係り受け、及び用言と用言の係り受けを共起関係として収集する
請求項11に記載のスコアリングシステム。 - 前記典型度スコアリング部は、前記典型度付与対象テキストを構成する複数の語の組み合わせを共起関係として収集する
請求項11に記載のスコアリングシステム。 - 前記典型度スコアリング部は、前記典型度付与対象テキストを構成する対象物を示す語と、当該対象物の属性を示す語と、当該属性に対する何らかの値を示す語とのうち、いずれか2つの語の組み合わせを共起関係として収集する
請求項11に記載のスコアリングシステム。 - 前記典型度スコアリング部は、前記典型度付与対象テキストに初期スコアが付与されている場合、前記共起辞書記憶部から取得した共起スコアと前記初期スコアとから前記典型度スコアを計算する
請求項11に記載のスコアリングシステム。 - 情報処理装置が、テキストを形態素解析して文節を同定して文節間の係り受けを解析する言語解析段階と、
前記情報処理装置が、前記言語解析段階において解析された解析結果から、文節単位で一定範囲のテキスト内の名詞の共起、名詞と用言の係り受け、及び用言と用言の係り受けを共起関係として収集すると共に、各共起関係の頻度を取得する共起関係収集段階と、
前記情報処理装置が、前記共起関係収集段階において収集された共起関係の頻度に基づき共起関係の共起スコアを計算する共起スコア計算段階と、
前記情報処理装置が、前記共起スコア計算段階において計算された共起スコアと、前記共起関係収集段階において収集された共起関係との対応を記述した共起辞書を共起辞書記憶部に記憶させる共起辞書記憶段階と
を備える共起辞書生成方法。 - 前記共起スコア計算段階においては、前記共起関係収集段階で収集された共起関係とその頻度とに基づき、収集された共起関係を構成する任意の2語の共起確率を推定して共起スコアとする
請求項16に記載の共起辞書生成方法。 - 前記共起スコア計算段階においては、前記共起関係収集段階で収集された共起関係とその頻度とに基づき、共起関係を構成する2つの語の1つ、または両方の出現頻度を用いて共起関係の頻度を正規化したものを共起スコアとする
請求項16に記載の共起辞書生成方法。 - 前記共起スコア計算段階においては、前記共起関係収集段階で収集された共起関係の頻度を共起スコアとする
請求項16に記載の共起辞書生成方法。 - 前記情報処理装置が、前記言語解析段階において解析された解析結果に基づいて前記テキストのトピックの変化点を検出して前記解析結果を分割するトピック分割段階
を更に備え、
前記共起関係収集段階においては、前記トピックの変化点で分割された解析結果ごとに共起関係を収集する
請求項16に記載の共起辞書生成方法。 - 前記情報処理装置が、典型度付与対象テキスト内の共起関係を収集し、当該収集した共起関係に対応する共起スコアを前記共起辞書記憶部から取得して、前記共起スコアが高いほど高くなるように、前記典型度付与対象テキストの内容の典型度スコアを計算する典型度スコアリング段階
を更に備える請求項16に記載の共起辞書生成方法。 - 前記典型度スコアリング段階においては、前記典型度付与対象テキストを形態素解析して文節を同定して文節間の係り受けを解析して、当該解析結果から文節単位で前記典型度付与対象の一定範囲のテキスト内の名詞の共起、名詞と用言の係り受け、及び用言と用言の係り受けを共起関係として収集する
請求項21に記載の共起辞書生成方法。 - 前記典型度スコアリング段階においては、前記典型度付与対象テキストを構成する複数の語の組み合わせを共起関係として収集する
請求項21に記載の共起辞書生成方法。 - 前記典型度スコアリング段階においては、前記典型度付与対象テキストを構成する対象物を示す語と、当該対象物の属性を示す語と、当該属性に対する何らかの値を示す語とのうち、いずれか2つの語の組み合わせを共起関係として収集する
請求項21に記載の共起辞書生成方法。 - 前記典型度スコアリング段階においては、前記典型度付与対象テキストに初期スコアが付与されている場合、前記共起辞書から取得した共起スコアと前記初期スコアとから前記典型度スコアを計算する
請求項21に記載の共起辞書生成方法。 - テキストが形態素解析されて文節を固定して文節間の係り受けが解析された解析結果から、一定範囲のテキスト内で収集された名詞の共起、名詞と用言の係り受け、及び用言と用言の係り受けである共起関係と、前記共起関係と共に取得された各共起関係の頻度に基づいて計算された値である共起スコアとの対応を記述した共起辞書を記憶する共起辞書記憶部を備える情報処理装置が、典型度付与対象テキスト内の共起関係を収集し、当該収集した共起関係に対応する共起スコアを前記共起辞書記憶部から取得して、前記共起スコアが高いほど高くなるように、前記典型度付与対象テキストの内容の典型度スコアを計算する典型度スコアリング段階
を備えるスコアリング方法。 - 前記典型度スコアリング段階においては、前記典型度付与対象テキストを形態素解析して文節を同定して文節間の係り受けを解析して、当該解析結果から文節単位で前記典型度付与対象の一定範囲のテキスト内の名詞の共起、名詞と用言の係り受け、及び用言と用言の係り受けを共起関係として収集する
請求項26に記載のスコアリング方法。 - 前記典型度スコアリング段階においては、前記典型度付与対象テキストを構成する複数の語の組み合わせを共起関係として収集する
請求項26に記載のスコアリング方法。 - 前記典型度スコアリング段階においては、前記典型度付与対象テキストを構成する対象物を示す語と、当該対象物の属性を示す語と、当該属性に対する何らかの値を示す語とのうち、いずれか2つの語の組み合わせを共起関係として収集する
請求項26に記載のスコアリング方法。 - 前記典型度スコアリング段階においては、前記典型度付与対象テキストに初期スコアが付与されている場合、前記共起辞書から取得した共起スコアと前記初期スコアとから前記典型度スコアを計算する
請求項26に記載のスコアリング方法。 - コンピュータを、
テキストを形態素解析して文節を同定して文節間の係り受けを解析する言語解析部、
前記言語解析部が解析した解析結果から、文節単位で一定範囲のテキスト内の名詞の共起、名詞と用言の係り受け、及び用言と用言の係り受けを共起関係として収集すると共に、各共起関係の頻度を取得する共起関係収集部、
前記共起関係収集部が収集した共起関係の頻度に基づき共起関係の共起スコアを計算する共起スコア計算部、
前記共起スコア計算部が計算した共起スコアと、前記共起関係収集部が収集した共起関係との対応を記述した共起辞書を記憶する共起辞書記憶部
として機能させるプログラム。 - 前記共起スコア計算部は、前記共起関係収集部が収集した共起関係とその頻度とに基づき、収集された共起関係を構成する任意の2語の共起確率を推定して共起スコアとする
請求項31に記載のプログラム。 - 前記共起スコア計算部は、前記共起関係収集部が収集した共起関係とその頻度とに基づき、共起関係を構成する2つの語の1つ、または両方の出現頻度を用いて共起関係の頻度を正規化したものを共起スコアとする
請求項31に記載のプログラム。 - 前記共起スコア計算部は、前記共起関係収集部が収集した共起関係の頻度を共起スコアとする
請求項31に記載のプログラム。 - コンピュータを、
前記言語解析部が解析した解析結果に基づいて前記テキストのトピックの変化点を検出して前記解析結果を分割するトピック分割部
として更に機能させて、
前記共起関係収集部は、前記トピックの変化点で分割された解析結果ごとに共起関係を収集する
請求項31に記載のプログラム。 - コンピュータを、
典型度付与対象テキスト内の共起関係を収集し、当該収集した共起関係に対応する共起スコアを前記共起辞書記憶部から取得して、前記共起スコアが高いほど高くなるように、前記典型度付与対象テキストの内容の典型度スコアを計算する典型度スコアリング部
として更に機能させる請求項31に記載のプログラム。 - 前記典型度スコアリング部は、前記典型度付与対象テキストを形態素解析して文節を同定して文節間の係り受けを解析して、当該解析結果から文節単位で前記典型度付与対象の一定範囲のテキスト内の名詞の共起、名詞と用言の係り受け、及び用言と用言の係り受けを共起関係として収集する
請求項36に記載のプログラム。 - 前記典型度スコアリング部は、前記典型度付与対象テキストを構成する複数の語の組み合わせを共起関係として収集する
請求項36に記載のプログラム。 - 前記典型度スコアリング部は、前記典型度付与対象テキストを構成する対象物を示す語と、当該対象物の属性を示す語と、当該属性に対する何らかの値を示す語とのうち、いずれか2つの語の組み合わせを共起関係として収集する
請求項36に記載のプログラム。 - 前記典型度スコアリング部は、前記典型度付与対象テキストに初期スコアが付与されている場合、前記共起辞書記憶部から取得した共起スコアと前記初期スコアとから前記典型度スコアを計算する
請求項36に記載のプログラム。 - コンピュータを、
テキストが形態素解析されて文節を固定して文節間の係り受けが解析された解析結果から、一定範囲のテキスト内で収集された名詞の共起、名詞と用言の係り受け、及び用言と用言の係り受けである共起関係と、前記共起関係と共に取得された各共起関係の頻度に基づいて計算された値である共起スコアとの対応を記述した共起辞書を記憶する共起辞書記憶部、
典型度付与対象テキスト内の共起関係を収集し、当該収集した共起関係に対応する共起スコアを前記共起辞書記憶部から取得して、前記共起スコアが高いほど高くなるように、前記典型度付与対象テキストの内容の典型度スコアを計算する典型度スコアリング部
として機能させるプログラム。 - 前記典型度スコアリング部は、前記典型度付与対象テキストを形態素解析して文節を同定して文節間の係り受けを解析して、当該解析結果から文節単位で前記典型度付与対象の一定範囲のテキスト内の名詞の共起、名詞と用言の係り受け、及び用言と用言の係り受けを共起関係として収集する
請求項41に記載のプログラム。 - 前記典型度スコアリング部は、前記典型度付与対象テキストを構成する複数の語の組み合わせを共起関係として収集する
請求項41に記載のプログラム。 - 前記典型度スコアリング部は、前記典型度付与対象テキストを構成する対象物を示す語と、当該対象物の属性を示す語と、当該属性に対する何らかの値を示す語とのうち、いずれか2つの語の組み合わせを共起関係として収集する
請求項41に記載のプログラム。 - 前記典型度スコアリング部は、前記典型度付与対象テキストに初期スコアが付与されている場合、前記共起辞書記憶部から取得した共起スコアと前記初期スコアとから前記典型度スコアを計算する
請求項41に記載のプログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2010505973A JP5321583B2 (ja) | 2008-04-01 | 2009-04-01 | 共起辞書生成システム、スコアリングシステム、共起辞書生成方法、スコアリング方法及びプログラム |
Applications Claiming Priority (6)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2008094980 | 2008-04-01 | ||
| JP2008094980 | 2008-04-01 | ||
| JP2008124254 | 2008-05-12 | ||
| JP2008124254 | 2008-05-12 | ||
| PCT/JP2009/056804 WO2009123260A1 (ja) | 2008-04-01 | 2009-04-01 | 共起辞書作成システムおよびスコアリングシステム |
| JP2010505973A JP5321583B2 (ja) | 2008-04-01 | 2009-04-01 | 共起辞書生成システム、スコアリングシステム、共起辞書生成方法、スコアリング方法及びプログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPWO2009123260A1 JPWO2009123260A1 (ja) | 2011-07-28 |
| JP5321583B2 true JP5321583B2 (ja) | 2013-10-23 |
Family
ID=41135627
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2010505973A Active JP5321583B2 (ja) | 2008-04-01 | 2009-04-01 | 共起辞書生成システム、スコアリングシステム、共起辞書生成方法、スコアリング方法及びプログラム |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US8443008B2 (ja) |
| JP (1) | JP5321583B2 (ja) |
| WO (1) | WO2009123260A1 (ja) |
Families Citing this family (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR101818717B1 (ko) * | 2011-09-27 | 2018-01-15 | 네이버 주식회사 | 컨셉 키워드 확장 데이터 셋을 이용한 검색방법, 장치 및 컴퓨터로 판독 가능한 기록매체 |
| JP5891837B2 (ja) * | 2012-02-20 | 2016-03-23 | 日本電気株式会社 | 共起辞書作成装置 |
| JP5870790B2 (ja) * | 2012-03-19 | 2016-03-01 | 富士通株式会社 | 文章校正装置、及び文章校正方法 |
| CN104685493A (zh) * | 2012-09-27 | 2015-06-03 | 日本电气株式会社 | 用于监视文本信息的字典创建装置、用于监视文本信息的字典创建方法和用于监视文本信息的字典创建程序 |
| JP6237168B2 (ja) * | 2013-12-02 | 2017-11-29 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
| JP2015138414A (ja) | 2014-01-22 | 2015-07-30 | 富士通株式会社 | 機械翻訳装置、翻訳方法、及び、そのプログラム |
| US9684694B2 (en) | 2014-09-23 | 2017-06-20 | International Business Machines Corporation | Identifying and scoring data values |
| GB2537927A (en) * | 2015-04-30 | 2016-11-02 | Fujitsu Ltd | Term Probabilistic Model For Co-occurrence Scores |
| WO2018029791A1 (ja) * | 2016-08-09 | 2018-02-15 | 楽天株式会社 | キーワード抽出システム、キーワード抽出方法およびプログラム |
| JP6718345B2 (ja) * | 2016-09-21 | 2020-07-08 | 日本電信電話株式会社 | テキスト分析方法、テキスト分析装置、及びプログラム |
| US11531811B2 (en) | 2020-07-23 | 2022-12-20 | Hitachi, Ltd. | Method and system for extracting keywords from text |
| JP7032582B1 (ja) | 2021-01-29 | 2022-03-08 | Kpmgコンサルティング株式会社 | 情報解析プログラム、情報解析方法及び情報解析装置 |
| CN118467741B (zh) * | 2024-07-09 | 2024-11-26 | 厦门众联世纪股份有限公司 | 一种数据违规风险智能检测方法及系统 |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH08329090A (ja) * | 1995-05-30 | 1996-12-13 | Oki Electric Ind Co Ltd | 共起辞書装置、共起辞書データ作成方法及び文解析システム |
| JP2003132059A (ja) * | 2001-10-19 | 2003-05-09 | Seiko Epson Corp | 言語文を用いた検索装置、検索システム、検索方法、プログラム、および記録媒体 |
| JP2006072483A (ja) * | 2004-08-31 | 2006-03-16 | Toshiba Corp | プログラム及び文書処理装置並びに文書処理方法 |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH1049549A (ja) * | 1996-05-29 | 1998-02-20 | Matsushita Electric Ind Co Ltd | 文書検索装置 |
| JP2006215850A (ja) | 2005-02-04 | 2006-08-17 | Nippon Telegr & Teleph Corp <Ntt> | 概念情報データベース作成装置、概念情報データベース作成方法、プログラムおよび記録媒体 |
-
2009
- 2009-04-01 JP JP2010505973A patent/JP5321583B2/ja active Active
- 2009-04-01 WO PCT/JP2009/056804 patent/WO2009123260A1/ja not_active Ceased
- 2009-04-01 US US12/922,320 patent/US8443008B2/en active Active
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH08329090A (ja) * | 1995-05-30 | 1996-12-13 | Oki Electric Ind Co Ltd | 共起辞書装置、共起辞書データ作成方法及び文解析システム |
| JP2003132059A (ja) * | 2001-10-19 | 2003-05-09 | Seiko Epson Corp | 言語文を用いた検索装置、検索システム、検索方法、プログラム、および記録媒体 |
| JP2006072483A (ja) * | 2004-08-31 | 2006-03-16 | Toshiba Corp | プログラム及び文書処理装置並びに文書処理方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| WO2009123260A1 (ja) | 2009-10-08 |
| US20110055228A1 (en) | 2011-03-03 |
| JPWO2009123260A1 (ja) | 2011-07-28 |
| US8443008B2 (en) | 2013-05-14 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP5321583B2 (ja) | 共起辞書生成システム、スコアリングシステム、共起辞書生成方法、スコアリング方法及びプログラム | |
| Singh et al. | Text stemming: Approaches, applications, and challenges | |
| US8346795B2 (en) | System and method for guiding entity-based searching | |
| JP4571404B2 (ja) | データ処理方法、データ処理システムおよびプログラム | |
| JP4701292B2 (ja) | テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム | |
| US20070073745A1 (en) | Similarity metric for semantic profiling | |
| EP1661031A4 (en) | SYSTEM AND METHOD FOR PROCESSING TEXT USING A FOLLOWING OF DESAMBIGUIZATION TECHNIQUES | |
| Beck et al. | Representation problems in linguistic annotations: Ambiguity, variation, uncertainty, error and bias | |
| JP4534666B2 (ja) | テキスト文検索装置及びテキスト文検索プログラム | |
| JPH03172966A (ja) | 類似文書検索装置 | |
| JP2014120053A (ja) | 質問応答装置、方法、及びプログラム | |
| JP2014106665A (ja) | 文書検索装置、文書検索方法 | |
| Basha et al. | Evaluating the impact of feature selection on overall performance of sentiment analysis | |
| US9164981B2 (en) | Information processing apparatus, information processing method, and program | |
| JP7312841B2 (ja) | 法律分析装置、及び法律分析方法 | |
| Truica et al. | Automatic language identification for romance languages using stop words and diacritics | |
| JP2003263441A (ja) | キーワード決定データベース作成方法、キーワード決定方法、装置、プログラム、および記録媒体 | |
| Tadesse et al. | Event extraction from unstructured amharic text | |
| Patel et al. | Influence of Gujarati STEmmeR in supervised learning of web page categorization | |
| Krishna et al. | A hybrid method for query based automatic summarization system | |
| Srinivas et al. | Heuristics and parse ranking | |
| JP6689466B1 (ja) | 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム | |
| Wattiheluw et al. | Developing word sense disambiguation corpuses using Word2vec and Wu Palmer for disambiguation | |
| Pan et al. | Performance evaluation of part-of-speech tagging for Bengali text | |
| Ullah et al. | Pattern and semantic analysis to improve unsupervised techniques for opinion target identification |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120308 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130402 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130523 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130618 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130701 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5321583 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |