JP2008152774A - 固有表現抽出装置、方法、及びプログラム - Google Patents
固有表現抽出装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2008152774A JP2008152774A JP2007318956A JP2007318956A JP2008152774A JP 2008152774 A JP2008152774 A JP 2008152774A JP 2007318956 A JP2007318956 A JP 2007318956A JP 2007318956 A JP2007318956 A JP 2007318956A JP 2008152774 A JP2008152774 A JP 2008152774A
- Authority
- JP
- Japan
- Prior art keywords
- extraction
- specific expression
- order
- text
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Television Signal Processing For Recording (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
【解決手段】固有表現をテキストから抽出する順序を設定できるようにすることで、ユーザに適応した固有表現を抽出する固有表現抽出装置は、抽出順序記憶部102に抽出順序に対応付けて記憶されている固有表現パターン名を取得する抽出順序読込部103と、抽出順序読込部103で取得した固有表現パターン名に対応する固有表現パターンを用いて入力テキストから固有表現を抽出する固有表現抽出部105と、抽出が終了していない場合は、抽出順序読込部103に抽出途中のテキストを出力し、固有表現抽出処理を続行する抽出終了判定部106とを備える。
【選択図】図1
Description
る固有表現の入れ子構造において、ユーザは抽出された固有表現が表示される場合、ユーザにとって冗長な文字列を含む固有表現や意味を理解するには短すぎる固有表現を読まなければならなかった。例えば、テレビ番組情報において、本題と副題を合わせて番組名とする番組に対し、本題のみで番組を識別できるユーザにとっては、副題は冗長な情報である。逆に本題のみで番組を識別できないユーザにとっては、副題は必要な情報であり、本題と副題を合わせてユーザに提示する必要がある。
合に好適である。具体例として、番組情報から番組タイトルを固有表現として抽出する際に、その番組に慣れ親しんだユーザには本題のみからなる比較的短い固有表現を抽出して提示し、そうでないユーザには本題と副題とからなる比較的長い固有表現を抽出して提示すれば、ユーザに応じて最適な内容を反映した長さの番組タイトルを提示することができる。
記抽出順序記憶手段に記憶されている固有表現パターンの順序を、前記抽出順序として定めてもよい。
固有表現の区別を容易とするために、より長い固有表現を抽出することが望ましく、この構成によってそのような要請に応えることができる。
以下、本発明の実施形態1による固有表現抽出装置について図面を参照しながら説明する。図1は本発明の実施形態1による固有表現抽出装置の構成図である。この固有表現抽出装置は、抽出条件に応じて、抽出に用いられる一つ以上の固有表現パターンの使用順序を設定し、設定された順序で固有表現パターンを用いて入力テキストから固有表現を抽出する固有表現抽出装置であり、入力部101、抽出順序記憶部102、抽出順序読込部103、固有表現パターン記憶部104、固有表現抽出部105、抽出終了判定部106を含んで構成される。
入力部101は、キーボードやマウス、リモコン等の入力装置で構成され、ユーザが固有表現を含むテキストを入力すると、この入力されるテキストと処理する抽出順序の初期値として値1を出力する。また、入力部101は、テレビ放送番組に関する情報やハードディスクレコーダ等に蓄積されたコンテンツに関する情報、または、インターネット上に存在するコンテンツを記憶するデータベースからユーザに提示するテキストを取得し、この取得するテキストと処理する抽出順序の初期値として値1を出力するようにしてもよい。
て記憶し、さらに抽出順序の総数である抽出順序総数も記憶する。図2は、抽出順序記憶部102に記憶される抽出順序の一例を示すものであり、(抽出順序総数、(抽出順序、使用する固有表現パターン名))として、(3、(1、固有表現Aパターン)、(2、固有表現Bパターン)、(3、固有表現Cパターン)、…)が記憶される。
−誕生−」に相当するテキストとする場合、固有表現Aを小タイトル、固有表現Bを中タイトル、固有表現Cを大タイトルとすると、固有表現Aパターン104Aは小タイトルを抽出するためのルール、固有表現Bパターン104Bは中タイトルを抽出するためのルール、固有表現Cパターン104Cは大タイトルを抽出するためのルールとなる。ここでいうルールとは、抽出する文字列そのものや抽出する文字列とその前後の文字列を対応付けて記憶するものや抽出する文字列とその前後の文字列との連接確率などである。
数と固有表現パターン名が入力されると、入力される固有表現パターン名に対応する固有表現パターンを固有表現パターン記憶部104から読み込み、この読み込んだ固有表現パターンを使用して入力されるテキストから固有表現を抽出する。そして、抽出した固有表現を含むテキストと抽出順序読込部103から入力される抽出順序総数と抽出順序とを出力する。
小タイトル>松上電器創業記</小タイトル>(1) −誕生−」のように、抽出される固有表現を「<固有表現の種類>」と「</固有表現の種類>」で囲む。そして、固有表現抽出部105は、抽出した固有表現を含むテキスト「<小タイトル>松上電器創業記</小タイトル>(1) −誕生−」と抽出順序総数の値3と抽出順序の値1とを抽出終了判定部106に出力する(図8の抽出結果(1回目))。
−誕生−」が入力されると、抽出順序の値1が抽出順序総数の値3よりも小さいので、抽出順序の値1に数値1を加算して値を2にし、抽出順序の値2とテキスト「<小タイトル>松上電器創業記</小タイトル>(1) −誕生−」とを抽出順序読込部103に出力する。
この場合、固有表現抽出部105と抽出終了判定部106は、上記実施例での動作以外にさらに抽出順序読込部103から出力されるユーザ識別子をそのまま出力するようにする。具体的な一例として、抽出順序記憶部102は、(ユーザ識別子、抽出順序総数、(抽出順序、固有表現パターン名))のセットとして、(01、3、(1、固有表現Aパターン)、(2、固有表現Bパターン)、(3、固有表現Cパターン)、…)、(02、2、(1、固有表現Iパターン)、(2、固有表現Jパターン)、(3、固有表現Kパターン)、…)、…、が記憶されるとする。この場合の抽出順序記憶部102の内容は図9のようになる。さらに、抽出順序読込部103は、入力部101からユーザ識別子「01」とテキスト「松上電器創業記(1) −誕生−」と抽出順序の値1が入力されると、入力されるユーザ識別子「01」に対応する(ユーザ識別子、抽出順序総数、(抽出順序、固有表現パターン名))のセットである(01、3、(1、固有表現Aパターン)、(2、固有表現Bパターン)、(3、固有表現Cパターン)、…)を対象に、入力される抽出順序の値1に対応した固有表現パターン名「固有表現Aパターン」と抽出順序総数の値3とを抽出順序記憶部102から読み込み、入力されるテキスト「松上電器創業記(1) −誕生−」と抽出順序の値1とユーザ識別子「01」と抽出順序総数の値3と固有表現パターン名「固有表現Aパターン」とを固有表現抽出部105に出力する。以降の固有表現抽出部105と抽出終了判定部106においては、上記実施例の動作以外にユーザ識別子「01」をさらに出力する。こうすることで、ユーザ毎に固有表現の抽出する順序や抽出する固有表現を変更することができ、ユーザに適応した固有表現を抽出することができる。
抽出順序記憶部102は、抽出順序総数と抽出順序と抽出順序に対応付けて固有表現パターン名とをセットにし、このセットを複数保持し、セット毎に抽出する固有表現の種類に対応するセットIDを付与して管理するようにし、抽出順序読込部103は、入力部101からセットIDとテキストと抽出順序が入力されると、入力されるセットIDに対応する抽出順序総数と抽出順序と固有表現パターン名のセットを対象に入力される抽出順序に対応する固有表現パターン名と抽出順序総数とを抽出順序記憶部102から読み込み、入力されるテキストと抽出順序とセットIDと抽出順序記憶部102から読み込んだ抽出順序総数と固有表現パターン名とを出力するようにしてもよい。
検索結果テキストはそのまま表示部309に表示され、類似テキスト群に関しては、ユーザにとってテキストを識別するために必要となる最少の固有表現を表示部309に表示できるので、表示部に検索結果テキストを表示する際、表示部に表示できる文字数も考慮してユーザにとってテキストを識別するために必要となる最少の固有表現を抽出することができる。
現抽出部105から入力されるテキストを固有表現抽出結果である結果テキストとして出力する。
次に、本発明に係る実施の形態2の固有表現抽出装置について、図面を参照しながら説明する。
ュメント</小タイトル> 松下太郎の足跡(2)」と抽出順序総数2と抽出順序の値2とセットIDの値1とセットIDの最大値2を抽出終了判定部404に出力する。
−<小タイトル>松上電器の誕生</小タイトル>−」、「ドキュメンタリー(2) −<小タイトル>松上電器の発展</小タイトル>−」、「人間ドキュメント <中タイトル><小タイトル>松下太郎の足跡</小タイトル>(1)</中タイトル>」、「人間ドキュメント <中タイトル><小タイトル>松下太郎の足跡</小タイトル>(2)</中タイトル>」と抽出順序総数2と抽出順序の値2とセットIDの値2とセットIDの最大値2を抽出終了判定部404に出力する。
数より大きいので(ステップS408)、固有表現決定部405にセットIDの値2とセットIDの最大値2とテキスト「ドキュメンタリー(1) −<小タイトル>松上電器の誕生</小タイトル>−」、「ドキュメンタリー(2) −<小タイトル>松上電器の発展</小タイトル>−」、「人間ドキュメント <小タイトル>松下太郎の足跡</小タイトル>(1)」、「人間ドキュメント <小タイトル>松下太郎の足跡</小タイトル>(2)」とを固有表現決定部405に出力する。
トと一覧性を高めた表示フォーマットとを使い分けて、同じ表示部に表示されることを想定している。
次に、本発明に係る実施の形態3の固有表現抽出装置について、図面を参照しながら説明する。
に示すように、入力部101、抽出順序記憶部102、抽出順序読込部103、固有表現パターン記憶部104、固有表現抽出部105、固有表現記憶部501、抽出終了判定部502、表示条件取得部503、固有表現取得部504、重複削除部505、表示部506を含んで構成される。
最初、表示条件取得部503は、ユーザから指定を受け付けることなしに、抽出順序の初期値である値1を固有表現取得部504へ入力する。
が存在するタイトル一覧から目的のタイトルを探す必要なく、メニュー階層を辿っていくだけで目的のタイトルを発見することができる。
ここまで、入力テキスト及び抽出される固有表現が日本語である例を用いて説明してきたが、入力テキスト及び抽出される固有表現が日本語に限定されないことは言うまでもない。例えば中国語(簡字体)で表された入力テキストから固有表現を抽出することも、もちろん可能である。
102 抽出順序記憶部
103 抽出順序読込部
104 固有表現パターン記憶部
104A 固有表現Aパターン
104B 固有表現Bパターン
104C 固有表現Cパターン
105 固有表現抽出部
106 抽出終了判定部
201 判定部
202 抽出回数記憶部
203 抽出回数更新部
204 抽出順序変更部
301 利用パターンデータベース
302 抽出順序データベース
303 テキスト検索部
304 順序総数取得部
305 利用パターン取得部
306 情報データベース
308 類似テキスト取得部
309 表示部
401 利用パターンデータベース
402 抽出順序データベース
403 順序総数取得部
404 抽出終了判定部
405 固有表現決定部
501 固有表現記憶部
502 抽出終了判定部
503 表示条件取得部
504 固有表現取得部
505 重複削除部
506 表示部
Claims (14)
- テキストに含まれる固有表現部分の判断基準を示す一つ以上の固有表現パターンを順次用いて、一つ以上の入力テキストから固有表現を抽出する固有表現抽出装置であって、
入力テキストが入力される度に、抽出される固有表現を利用するユーザ、抽出される固有表現を表示する表示端末、入力テキストの属性、入力テキストの数、及び過去に固有表現が抽出された回数のうちの少なくとも一つを用いて表される抽出条件に応じて、固有表現の抽出に使用されるべき固有表現パターンの抽出順序を設定し直す抽出順序設定手段と、
前記設定された抽出順序に示される順序で固有表現パターンを用いて、前記一つ以上の入力テキストから固有表現を抽出する固有表現抽出手段と
を備えることを特徴とする固有表現抽出装置。 - 前記固有表現抽出装置は、さらに、
前記抽出される固有表現を表示する表示手段を備える
ことを特徴とする請求項1に記載の固有表現抽出装置。 - 前記入力テキストは、電子番組ガイドを構成する、副題と主題とから構成される番組名を含む番組情報を表す
ことを特徴とする請求項1に記載の固有表現抽出装置。 - 前記固有表現抽出装置は、さらに、
複数の固有表現パターンを記憶している固有表現パターン記憶手段と、
複数の抽出条件のそれぞれについて、前記固有表現パターン記憶手段に記憶されている一つ以上の固有表現パターンの固有表現の抽出に使用されるべき順序を記憶している抽出順序記憶手段と
を備え、
前記抽出順序設定手段は、前記複数の抽出条件の一つが与えられると、与えられた抽出条件について前記抽出順序記憶手段に記憶されている固有表現パターンの順序を、前記抽出順序として定める
ことを特徴とする請求項1に記載の固有表現抽出装置。 - 前記固有表現抽出装置は、ユーザを識別するユーザ識別子を抽出条件とし、さらに、
前記ユーザ識別子を取得するユーザ識別手段を備え、
前記抽出順序記憶手段は、複数のユーザ識別子のそれぞれについて、前記固有表現パターン記憶手段に記憶されている一つ以上の固有表現パターンの順序を記憶しており、
前記抽出順序設定手段は、取得されたユーザ識別子について前記抽出順序記憶手段に記憶されている固有表現パターンの順序を、前記抽出順序として定める
ことを特徴とする請求項4に記載の固有表現抽出装置。 - 前記固有表現抽出装置は、抽出される固有表現を表示する端末装置の端末識別子を抽出条件とし、さらに、
前記端末識別子を取得する端末識別子取得手段を備え、
前記抽出順序記憶手段は、複数の端末識別子のそれぞれについて、前記固有表現パターン記憶手段に記憶されている一つ以上の固有表現パターンの順序を記憶しており、
前記抽出順序設定手段は、取得された端末識別子について前記抽出順序記憶手段に記憶されている固有表現パターンの順序を、前記抽出順序として定める
ことを特徴とする請求項4に記載の固有表現抽出装置。 - 前記固有表現抽出装置は、前記入力テキストの属性を抽出条件とし、さらに、
前記入力テキストの属性を取得する属性取得手段を備え、
前記抽出順序記憶手段は、複数の属性のそれぞれについて、前記固有表現パターン記憶手段に記憶されている一つ以上の固有表現パターンの順序を記憶しており、
前記抽出順序設定手段は、取得された属性について前記抽出順序記憶手段に記憶されて
いる固有表現パターンの順序を、前記抽出順序として定める
ことを特徴とする請求項4に記載の固有表現抽出装置。 - 前記固有表現抽出装置は、前記入力テキストの数を抽出条件とし、さらに、
複数のテキストが格納されている情報データベースと、
前記入力テキストとなるべき一つ以上のテキストを前記情報データベースから検索するテキスト検索手段と
を備え、
前記抽出順序記憶手段は、テキストの数を示す複数の値のそれぞれについて、前記固有表現パターン記憶手段に記憶されている一つ以上の固有表現パターンの順序を記憶しており、
前記抽出順序設定手段は、検索されたテキストの数について前記抽出順序記憶手段に記憶されている固有表現パターンの順序を、前記抽出順序として定め、
前記固有表現抽出手段は、前記定められた抽出順序に示される順序で固有表現パターンを用いて、前記検索されたテキストから固有表現を抽出する
ことを特徴とする請求項4に記載の固有表現抽出装置。 - 前記固有表現抽出装置は、前記入力テキストの数を抽出条件とし、さらに、
複数のテキストが格納されている情報データベースと、
複数のテキストを前記情報データベースから取得するテキスト取得手段と、
テキストを表示する表示手段と、
前記テキスト取得手段で取得される複数のテキストから、前記表示手段に表示された際に類似する複数のテキストを前記入力テキストとして取得する類似テキスト取得手段と
を備え、
前記抽出順序記憶手段は、テキストの数を示す複数の値のそれぞれについて、前記固有表現パターン記憶手段に記憶されている一つ以上の固有表現パターンの順序を記憶してお
り、
前記抽出順序設定手段は、前記類似テキスト取得手段によって取得されたテキストの数について前記抽出順序記憶手段に記憶されている固有表現パターンの順序を、前記抽出順序として定め、
前記固有表現抽出手段は、前記定められた抽出順序に示される順序で固有表現パターンを用いて、前記類似テキスト取得手段によって取得されたテキストから固有表現を抽出する
ことを特徴とする請求項4に記載の固有表現抽出装置。 - 前記固有表現抽出装置は、さらに、
複数の固有表現パターンを記憶している固有表現パターン記憶手段と、
前記固有表現パターン記憶手段に記憶されている一つ以上の固有表現パターンの固有表現の抽出に使用されるべき順序を記憶している抽出順序記憶手段と、
前記抽出順序記憶手段に記憶されている固有表現パターンの順序を、抽出条件に応じて変更する抽出順序変更手段と
を備え、
前記抽出順序設定手段は、変更後の固有表現パターンの順序を、前記抽出順序として定める
ことを特徴とする請求項1に記載の固有表現抽出装置。 - 前記固有表現抽出装置は、過去に固有表現が抽出された回数を抽出条件とし、さらに、
前記抽出順序記憶手段に記憶されている固有表現パターンのそれぞれについて、その固有表現パターンを用いて過去に固有表現が抽出された回数を計数する抽出回数計数手段を備え、
前記抽出順序変更手段は、前記抽出順序記憶手段に記憶されている固有表現パターンの順序を、前記計数された数に応じて変更する
ことを特徴とする請求項10に記載の固有表現抽出装置。 - 前記抽出順序は、複数の固有表現パターンを、順次使用された場合に使用ごとにより長い固有表現の抽出が期待される順序で示し、
前記固有表現抽出装置は、さらに、
予め定められたしきい値を上回る長さの固有表現が抽出された場合、それ以降の固有表現パターンを用いて行われる抽出を打ち切る抽出打ち切り手段を備える
ことを特徴とする請求項1に記載の固有表現抽出装置。 - テキストに含まれる固有表現部分の判断基準を示す一つ以上の固有表現パターンを順次用いて、一つ以上の入力テキストから固有表現を抽出する固有表現抽出方法であって、
入力テキストが入力される度に、抽出される固有表現を利用するユーザ、抽出される固有表現を表示する表示端末、入力テキストの属性、入力テキストの数、及び過去に固有表現が抽出された回数のうちの少なくとも一つを用いて表される抽出条件に応じて、固有表現の抽出に使用されるべき固有表現パターンの抽出順序を設定し直す抽出順序設定ステップと、
前記設定された抽出順序に示される順序で固有表現パターンを用いて、前記一つ以上の入力テキストから固有表現を抽出する固有表現抽出ステップと
を含むことを特徴とする固有表現抽出方法。 - テキストに含まれる固有表現部分の判断基準を示す一つ以上の固有表現パターンを順次用いて、一つ以上の入力テキストから固有表現を抽出する固有表現抽出装置に用いられるコンピュータ実行可能なプログラムであって、
入力テキストが入力される度に、抽出される固有表現を利用するユーザ、抽出される固有表現を表示する表示端末、入力テキストの属性、入力テキストの数、及び過去に固有表現が抽出された回数のうちの少なくとも一つを用いて表される抽出条件に応じて、固有表現の抽出に使用されるべき固有表現パターンの抽出順序を設定し直す抽出順序設定ステップと、
前記設定された抽出順序に示される順序で固有表現パターンを用いて、前記一つ以上の入力テキストから固有表現を抽出する固有表現抽出ステップと
をコンピュータに実行させることを特徴とするプログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2007318956A JP4977589B2 (ja) | 2005-06-15 | 2007-12-10 | 固有表現抽出装置、固有表現抽出方法、及びプログラム |
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2005175678 | 2005-06-15 | ||
| JP2005175678 | 2005-06-15 | ||
| JP2007318956A JP4977589B2 (ja) | 2005-06-15 | 2007-12-10 | 固有表現抽出装置、固有表現抽出方法、及びプログラム |
Related Parent Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2007521081A Division JP4129048B2 (ja) | 2005-06-15 | 2005-12-26 | 固有表現抽出装置、方法、及びプログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2008152774A true JP2008152774A (ja) | 2008-07-03 |
| JP4977589B2 JP4977589B2 (ja) | 2012-07-18 |
Family
ID=37532053
Family Applications (2)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2007521081A Expired - Fee Related JP4129048B2 (ja) | 2005-06-15 | 2005-12-26 | 固有表現抽出装置、方法、及びプログラム |
| JP2007318956A Expired - Fee Related JP4977589B2 (ja) | 2005-06-15 | 2007-12-10 | 固有表現抽出装置、固有表現抽出方法、及びプログラム |
Family Applications Before (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2007521081A Expired - Fee Related JP4129048B2 (ja) | 2005-06-15 | 2005-12-26 | 固有表現抽出装置、方法、及びプログラム |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US7761437B2 (ja) |
| JP (2) | JP4129048B2 (ja) |
| CN (1) | CN101167075B (ja) |
| WO (1) | WO2006134682A1 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP2025523A1 (en) | 2007-07-26 | 2009-02-18 | Brother Kogyo Kabushiki Kaisha | Sheet processing apparatus |
Families Citing this family (18)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN101075228B (zh) * | 2006-05-15 | 2012-05-23 | 松下电器产业株式会社 | 识别自然语言中的命名实体的方法和装置 |
| US20080215577A1 (en) * | 2007-03-01 | 2008-09-04 | Sony Corporation | Information processing apparatus and method, program, and storage medium |
| US7917489B2 (en) * | 2007-03-14 | 2011-03-29 | Yahoo! Inc. | Implicit name searching |
| JP2009094658A (ja) * | 2007-10-05 | 2009-04-30 | Hitachi Ltd | 関連情報提供装置、及び関連情報提供方法 |
| US7987416B2 (en) * | 2007-11-14 | 2011-07-26 | Sap Ag | Systems and methods for modular information extraction |
| US9519636B2 (en) * | 2008-10-15 | 2016-12-13 | Business Objects S.A. | Deduction of analytic context based on text and semantic layer |
| US20100138402A1 (en) * | 2008-12-02 | 2010-06-03 | Chacha Search, Inc. | Method and system for improving utilization of human searchers |
| JP4645731B2 (ja) * | 2008-12-10 | 2011-03-09 | コニカミノルタビジネステクノロジーズ株式会社 | 画像処理装置、画像データ管理方法、およびコンピュータプログラム |
| JP2010149537A (ja) * | 2008-12-23 | 2010-07-08 | Autonetworks Technologies Ltd | 制御装置、制御方法及びコンピュータプログラム |
| JP5540537B2 (ja) * | 2009-03-24 | 2014-07-02 | 株式会社オートネットワーク技術研究所 | 制御装置、制御方法及びコンピュータプログラム |
| US8290968B2 (en) | 2010-06-28 | 2012-10-16 | International Business Machines Corporation | Hint services for feature/entity extraction and classification |
| CN102737030A (zh) * | 2011-04-06 | 2012-10-17 | 上海量明科技发展有限公司 | 专利文档的数据输出方法、终端及系统 |
| JP2016133861A (ja) * | 2015-01-16 | 2016-07-25 | 株式会社ぐるなび | 情報多言語変換システム |
| US10776424B2 (en) * | 2016-07-29 | 2020-09-15 | Newswhip Media Limited | System and method for identifying and ranking trending named entities in digital content objects |
| US10803057B1 (en) | 2019-08-23 | 2020-10-13 | Capital One Services, Llc | Utilizing regular expression embeddings for named entity recognition systems |
| US11586812B2 (en) | 2019-10-31 | 2023-02-21 | International Business Machines Corporation | Unsupervised generation of rules for an adapter grammar |
| US10904027B1 (en) | 2020-03-31 | 2021-01-26 | Amazon Technologies, Inc. | Usage-based device naming and grouping |
| CN116737924B (zh) * | 2023-04-27 | 2024-06-25 | 百洋智能科技集团股份有限公司 | 一种医疗文本数据处理方法及装置 |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH1185766A (ja) * | 1997-09-10 | 1999-03-30 | Nippon Telegr & Teleph Corp <Ntt> | キーワード抽出方法及び装置及びキーワード抽出プログラムを格納した記憶媒体 |
| JP2001318792A (ja) * | 2000-05-10 | 2001-11-16 | Nippon Telegr & Teleph Corp <Ntt> | 固有表現抽出規則生成システムと方法およびその処理プログラムを記録した記録媒体ならびに固有表現抽出装置 |
Family Cites Families (12)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0652221A (ja) | 1992-05-08 | 1994-02-25 | Fujitsu Ltd | 固有名詞の自動抽出方式 |
| JPH10283355A (ja) | 1997-04-02 | 1998-10-23 | Nippon Telegr & Teleph Corp <Ntt> | 企業名解析方法及び装置 |
| JP2000099501A (ja) * | 1998-09-17 | 2000-04-07 | Internatl Business Mach Corp <Ibm> | 文書データへの情報の埋め込み方法およびシステム |
| JP2001134600A (ja) | 1999-11-08 | 2001-05-18 | Nec Corp | 情報抽出システム、情報抽出方法および情報抽出用プログラムを記録した記録媒体 |
| US7490092B2 (en) * | 2000-07-06 | 2009-02-10 | Streamsage, Inc. | Method and system for indexing and searching timed media information based upon relevance intervals |
| JP2002334076A (ja) * | 2001-05-10 | 2002-11-22 | Communication Research Laboratory | テキスト処理方法 |
| JP4106889B2 (ja) | 2001-09-25 | 2008-06-25 | 沖電気工業株式会社 | 情報検索システム |
| US7315810B2 (en) | 2002-01-07 | 2008-01-01 | Microsoft Corporation | Named entity (NE) interface for multiple client application programs |
| CA2475267C (en) * | 2002-02-04 | 2014-08-05 | Cataphora, Inc. | A method and apparatus for sociological data mining |
| JP4005477B2 (ja) * | 2002-05-15 | 2007-11-07 | 日本電信電話株式会社 | 固有表現抽出装置及び方法並びに固有表現抽出プログラム |
| JP4130754B2 (ja) * | 2002-08-27 | 2008-08-06 | 日本電信電話株式会社 | 時系列情報からの固有情報抽出装置,並びに時系列情報からの固有情報抽出プログラムおよびそのプログラムを記録した記録媒体 |
| JP2004312627A (ja) * | 2003-04-10 | 2004-11-04 | Matsushita Electric Ind Co Ltd | テレビジョン受像装置およびその番組情報検索方法 |
-
2005
- 2005-12-26 JP JP2007521081A patent/JP4129048B2/ja not_active Expired - Fee Related
- 2005-12-26 CN CN2005800496646A patent/CN101167075B/zh not_active Expired - Fee Related
- 2005-12-26 US US11/916,222 patent/US7761437B2/en active Active
- 2005-12-26 WO PCT/JP2005/023768 patent/WO2006134682A1/ja not_active Ceased
-
2007
- 2007-12-10 JP JP2007318956A patent/JP4977589B2/ja not_active Expired - Fee Related
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH1185766A (ja) * | 1997-09-10 | 1999-03-30 | Nippon Telegr & Teleph Corp <Ntt> | キーワード抽出方法及び装置及びキーワード抽出プログラムを格納した記憶媒体 |
| JP2001318792A (ja) * | 2000-05-10 | 2001-11-16 | Nippon Telegr & Teleph Corp <Ntt> | 固有表現抽出規則生成システムと方法およびその処理プログラムを記録した記録媒体ならびに固有表現抽出装置 |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP2025523A1 (en) | 2007-07-26 | 2009-02-18 | Brother Kogyo Kabushiki Kaisha | Sheet processing apparatus |
Also Published As
| Publication number | Publication date |
|---|---|
| JP4977589B2 (ja) | 2012-07-18 |
| CN101167075B (zh) | 2010-05-12 |
| US20090119274A1 (en) | 2009-05-07 |
| US7761437B2 (en) | 2010-07-20 |
| CN101167075A (zh) | 2008-04-23 |
| WO2006134682A1 (ja) | 2006-12-21 |
| JPWO2006134682A1 (ja) | 2009-01-08 |
| JP4129048B2 (ja) | 2008-07-30 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4977589B2 (ja) | 固有表現抽出装置、固有表現抽出方法、及びプログラム | |
| CN101809575A (zh) | 检索辞典数据的标题字的电子设备及其制造方法和程序产品 | |
| CN103970826B (zh) | 检索装置及检索方法 | |
| JP2011529600A (ja) | 意味ベクトルおよびキーワード解析を使用することによるデータセットを関係付けるための方法および装置 | |
| CN106326413A (zh) | 一种个性化视频推荐系统及方法 | |
| KR101607468B1 (ko) | 콘텐츠에 대한 키워드 태깅 방법 및 시스템 | |
| JP5302614B2 (ja) | 施設関連情報の検索データベース形成方法および施設関連情報検索システム | |
| JP7395377B2 (ja) | コンテンツ検索方法、装置、機器、および記憶媒体 | |
| CN101213542B (zh) | 信息处理设备、信息处理方法和信息处理程序 | |
| CN103257995A (zh) | 文本检索装置以及文本检索方法 | |
| JP2002175330A (ja) | 情報検索装置,スコア決定装置,情報検索方法,スコア決定方法及びプログラム記録媒体 | |
| JP2010061587A (ja) | 類似文書判定装置、類似判定方法およびそのプログラム | |
| JP5179564B2 (ja) | クエリセグメント位置決定装置 | |
| CN101089853A (zh) | 用于浏览内容的设备和方法 | |
| JP2011100191A (ja) | 文書検索装置、文書検索方法、及び文書検索プログラム | |
| JP2005128872A (ja) | 文書検索システム及び文書検索プログラム | |
| JP2008225584A (ja) | 物品推薦装置、物品推薦システム、物品推薦方法及び物品推薦プログラム | |
| JP5415550B2 (ja) | 類似コンテンツ検索装置及びプログラム | |
| JP2022187527A (ja) | 技術調査支援装置、技術調査支援方法、および技術調査支援プログラム | |
| JPH07302347A (ja) | グラフ生成装置 | |
| JP2013145448A (ja) | 文書検索システム、文書検索方法 | |
| JP2006024071A (ja) | 自動回答検索装置 | |
| JP2007293891A (ja) | 情報処理装置,情報処理方法および情報処理プログラム | |
| JP5370079B2 (ja) | 文字列検索装置、プログラム、及び文字列検索方法 | |
| CN115221264A (zh) | 一种文本处理方法、装置及可读存储介质 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20081203 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110517 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110719 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120131 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120229 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120327 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120416 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 4977589 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150420 Year of fee payment: 3 |
|
| LAPS | Cancellation because of no payment of annual fees |