JP4972271B2 - 検索結果提示装置 - Google Patents
検索結果提示装置 Download PDFInfo
- Publication number
- JP4972271B2 JP4972271B2 JP2004167287A JP2004167287A JP4972271B2 JP 4972271 B2 JP4972271 B2 JP 4972271B2 JP 2004167287 A JP2004167287 A JP 2004167287A JP 2004167287 A JP2004167287 A JP 2004167287A JP 4972271 B2 JP4972271 B2 JP 4972271B2
- Authority
- JP
- Japan
- Prior art keywords
- subtopic
- word list
- related word
- classification
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明に係る第1の実施の形態について図1乃至図9を用いて説明する。
システム制御プログラム110は、登録制御プログラム120および検索制御プログラム130で構成される。
登録制御プログラム120は、文書ファイル取得プログラム121およびテキスト登録プログラム122で構成される。
サブトピック生成制御プログラム150は、ラベル用特徴語抽出プログラム151で構成される。
また、さらにはネットワーク107に直接接続された記憶媒体に格納されるものとしても構わない。
以上が、本第1の実施の形態における文書検索システムの構成の説明である。
システム制御部102−110は、システム制御プログラム110に基づいて、まずキーボード101から入力されたコマンドを解析する。この結果が登録実行のコマンドであると解析された場合には、システム制御部102−110は、登録制御プログラム120を起動して、文書の登録を行なう。
以上が、システム制御プログラム110に基づく処理手順である。
以上が、登録制御プログラム120に基づく処理手順である。
次に、検索結果分類制御部102−140は、サブトピック抽出プログラム141により抽出されたすべてのサブトピックに対して、ステップ321〜ステップ322を繰り返し実行する(ステップ320)。
次に、分類判定プログラム142を起動し、前記適合度算出プログラム161によって算出されたサブトピック別適合度504を、該サブトピックに対する適合性を判定する際の適合性判定基準値(以下、サブトピック適合性判定閾値と呼ぶ)505と比較する。この結果、サブトピック適合性判定閾値以上であった場合は、該適合テキストを該サブトピックの分類に属するものと判定し、その分類判定結果506をワークエリア170に格納する(ステップ322)。
そして、図6に示す出現パターン生成処理600により、すべての適合テキスト(文書1、文書2、…)501における特徴語(H-company, satellite, digital, plasma, television, broadcast, …)500の出現の有無を“1”or“0”で表した出現パターン610を生成し、ワークエリア170に格納する(ステップ401)。
まず、特徴語Bを特徴語Aに関する単語リスト(以下、関連単語リストと呼ぶ)に入れ、ワークエリア170に格納する(ステップ413)。
次に、特徴語Aを特徴語Bに関する関連単語リストに入れ、ワークエリア170に格納する(ステップ414)。
また、サブトピック抽出プログラム141では特徴語間のグルーピングを行なうために、適合テキストにおける特徴語の出現パターンから特徴語間の単語間関連度を算出したが、検索条件がキーワードを用いた論理演算式の場合は、論理演算式からand関係やor関係などの特徴語間の論理関係を解析することで、特徴語間の単語間関連度算出およびグルーピングを行なってもよい。また、検索条件が種文章の場合は、特徴語間の出現位置や修飾関係を解析することで、特徴語間の単語間関連度算出およびグルーピングを行なってもよい。また、検索条件や適合テキストだけでなく、関連語辞書を用いて特徴語間の単語関連度算出およびグルーピングを行なってもよい。
まず、出現パターン生成処理600により、適合テキスト501における特徴語500の出現パターン610を生成する。例えば文書1〜文書6に対して、特徴語「plasma」は文書1、文書3および文書6に出現している場合、出現パターンとして次に示す(2)式を生成する。また、特徴語「television」は文書1、文書3、文書4、文書5および文書6に出現している場合、出現パターンとして次に示す(3)式を生成する。
「television」の出現パターン=(1,0,1,1,1,1) (3)
次に、単語間関連度算出処理601により、出現パターン610から各特徴語間の関連度611を算出する。特徴語間の関連度算出方法は、各特徴語の出現パターンを特徴ベクトルと考えて、余弦尺度より算出する。例えば、特徴語「plasma」と特徴語「television」の出現パターンがそれぞれ(2)式、(3)式であった場合、特徴語「plasma」と特徴語「television」間の単語間関連度は次の(4)式より“0.77”となる。
なお、検索条件がキーワードを用いた論理演算式の場合は、and関係又はor関係のキーワードをまとめて、単語関連リストを生成してもよい。(5)式の例では、and関係のキーワードをまとめて、それぞれ「H-company」「plasma」「television」、「satellite」「digital」「broadcast」および「plasma」「display」「panel」の3つの関連単語リストが生成される。
(“H-company” and “plasma” and “television”) or (“plasma” and “display” and “panel”) or (“satellite” and “digital” and “broadcast”) (5)
以下、本実施の形態における文書検索システムにおいて、検索結果出力プログラム134によって提示される検索結果の具体的な提示例を図7〜図9を用いて説明する。
また、図7に示した実施例では、各適合テキストの出力順を種文章に対する適合度の降順で出力するものとしたが、サブトピック別適合度の降順で出力するものとしてもよいし、これらを図8に示すように表示オプションで選択できるようにしておいてもよい(800)。
[第2の実施の形態]
次に、本発明に係る第2の実施の形態について図10および図11を用いて説明する。
以下、第2の実施の形態である第1の実施の形態とは異なるサブトピック抽出プログラム141aの処理手順について図10に示すPAD図を用いて説明する。
まず、検索結果分類制御部102−140は、すべての特徴語の中から2つの特徴語の組み合わせを重複なく生成し、各組み合わせについてステップ1011〜ステップ1014を繰り返し実行する(ステップ1010)。ここで、各組み合わせに含まれる特徴語を、それぞれ特徴語Aと特徴語Bとして、以下説明する。
まず、特徴語Bを特徴語Aに関する関連単語リストに入れ、ワークエリア170に格納する(ステップ1013)。
次に、特徴語Aを特徴語Bに関する関連単語リストに入れ、ワークエリア170に格納する(ステップ1014)。
次に、本発明に係る第3の実施の形態について図12、図13および図14を用いて説明する。
次に、該サブトピックに分類されたすべての適合テキストについて、ステップ1311〜ステップ1312を繰り返し実行する(ステップ1310)。
次に、ラベル用ブロック抽出プログラム1202を起動し、該サブトピックについてブロック別適合度が最も高く付与されたブロックを該サブトピックのサブトピックラベルとする(ステップ1320)。
なお、上記ステップ1313におけるブロック別適合度の算出方法については(6)式を用いたが、ベクトル空間法における余弦尺度など他の適合度算出式を適用してもよい。
110…システム制御プログラム、120…登録制御プログラム、130…検索制御プログラム、121…文書ファイル取得ファイル、122…テキスト登録プログラム、131…検索条件取得プログラム、132…特徴語抽出プログラム、133…テキスト読込プログラム、134…検索結果出力プログラム、140…検索結果分類制御プログラム、141…サブトピック抽出プログラム、142…分類判定プログラム、150…サブトピックラベル生成制御プログラム、151…ラベル用特徴語抽出プログラム、160…共有ライブラリ、161…適合度算出プログラム、170…ワークエリア、180…テキスト、150a…サブトピックラベル生成制御プログラム、500…特徴語、501…適合テキスト、502…サブトピックプロファイル、503…サブトピックラベル、504…サブトピック別適合度、505…サブトピック適合性判定閾値、506…分類判定結果、510…種文章、600…出現パターン生成処理、601…単語間関連度算出処理、602…グルーピング処理、603…重複排除処理、610…出現パターン、611…単語間関連度、612…関連単語リスト、613…サブトピックプロファイル、700、800…検索結果一覧表示、900…検索結果、901…サブトピック1の検索結果一覧表示、1101…単語間関連度取得、1111…関連語辞書、1201…ブロック分割プログラム、1202…ラベル用ブロック抽出プログラム、1410…ブロック分割結果、1411…ブロック別適合度結果、1412…サブトピック1のサブトピックラベル、1413…選択されたサブトピックプロファイル、1414…選択された文書2の適合テキスト。
Claims (7)
- 検索条件に対する検索結果を分類して表示する検索結果提示装置において、
前記検索条件として入力された文書から複数の特徴語を抽出する特徴語抽出手段と、
前記特徴語抽出手段から抽出された前記特徴語を用いて検索対象文書を検索し、その結果、前記特徴語が含まれた複数の適合文書を取得し、取得した前記複数の適合文書のそれぞれに対して前記特徴語抽出手段で抽出された複数の前記特徴語からなる組み合わせの出現有無を判定し、該出現有無の判定結果に基づいて前記特徴語間の関連性を判定し、関連する特徴語間をまとめた関連単語リストを生成する関連単語リスト生成手段と、
前記関連単語リスト生成手段で生成された各関連単語リストに対する適合文書の関連単語リスト適合度を算出する関連単語リスト適合度算出手段と、
前記関連単語リスト適合度算出手段で算出された関連単語リスト適合度から、該適合文書の該関連単語リストに対する適合度を判定し、該適合度が高いと判定された場合には該適合文書を該関連単語リストに関連付けて保持する分類判定手段と、
前記分類判定手段で各関連単語リストに関連付けられた適合文書集合に対して、分類の識別情報を付与する分類識別情報付与手段と、
前記分類識別情報付与手段で生成された識別情報を各分類に付与して、前記文書集合を表示する検索結果表示手段と
を有することを特徴とする検索結果提示装置。 - 請求項1記載の検索結果提示装置において、
さらに、前記指定された検索条件に対する適合文書の検索条件適合度を算出する検索条件適合度算出手段と、
検索結果の表示時に、前記分類判定手段で判定された結果に基づいて各関連単語リスト別に適合文書を、前記検索条件適合度算出手段で算出された検索条件適合度あるいは前記関連単語リスト適合度算出手段で算出された関連単語リスト適合度のいずれかの降順で表示する手段
を有することを特徴とする検索結果提示装置。 - 請求項1記載の検索結果提示装置において、
さらに、前記分類判定手段で判定された結果に基づいて、各関連単語リスト別にそれぞれ関連付けられた適合文書の件数を表示する関連単語リスト別文書件数表示手段を有することを特徴とする検索結果提示装置。 - 請求項1記載の検索結果提示装置において、
前記分類識別情報付与手段は、前記関連単語リスト生成手段で生成された各関連単語リストに含まれる特徴語を各分類の識別情報とする手段を有することを特徴とする検索結果提示装置。 - 請求項1記載の検索結果提示装置において、
前記分類識別情報付与手段は、
前記分類判定手段により前記関連単語リストに関連付けられた適合文書に含まれる文、段落、節および章の要素に対して、該関連単語リストに対する要素別適合度を算出する要素別適合度算出手段と、
前記要素別適合度算出手段により算出された該関連単語リストに対する要素別適合度から、各分類の識別情報として用いる要素を判定する分類識別情報要素判定手段
を有することを特徴とする検索結果提示装置。 - 請求項1記載の検索結果提示装置において、
前記分類識別情報付与手段は、
検索条件が種文章の場合は、種文章に含まれる文、段落、節および章の要素に対して、該関連単語リストに対する要素別適合度を算出する要素別適合度算出手段と、
前記要素別適合度算出手段により算出された該関連単語リストに対する要素別適合度から、各分類の識別情報として用いる要素を判定する分類識別情報要素判定手段
を有することを特徴とする検索結果提示装置。 - 請求項1記載の検索結果提示装置において、
前記関連単語リスト生成手段は、前記検索条件が特徴語及び前記特徴語の論理関係を含む論理演算式の場合に、前記論理演算式を積和標準形に変換し、変換された前記積和標準形の積で関連付けられたキーワード集合をまとめた関連単語リストを生成することを特徴とする検索結果提示装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2004167287A JP4972271B2 (ja) | 2004-06-04 | 2004-06-04 | 検索結果提示装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2004167287A JP4972271B2 (ja) | 2004-06-04 | 2004-06-04 | 検索結果提示装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2005346560A JP2005346560A (ja) | 2005-12-15 |
| JP4972271B2 true JP4972271B2 (ja) | 2012-07-11 |
Family
ID=35498856
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2004167287A Expired - Fee Related JP4972271B2 (ja) | 2004-06-04 | 2004-06-04 | 検索結果提示装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4972271B2 (ja) |
Families Citing this family (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4547500B2 (ja) * | 2006-07-21 | 2010-09-22 | 国立大学法人群馬大学 | 検索装置及びプログラム |
| JP5347334B2 (ja) * | 2008-05-29 | 2013-11-20 | 富士通株式会社 | まとめ上げ作業支援処理方法、装置及びプログラム |
| WO2011004524A1 (ja) * | 2009-07-07 | 2011-01-13 | 日本電気株式会社 | テキストマイニング装置 |
| JP6230190B2 (ja) * | 2014-01-09 | 2017-11-15 | 日本放送協会 | 重要語抽出装置、及びプログラム |
| JP7284371B2 (ja) * | 2018-12-13 | 2023-05-31 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、情報処理方法、及びプログラム |
| CN114358814B (zh) * | 2021-11-29 | 2024-10-18 | 国网北京市电力公司 | 数据处理方法、装置、电子设备及计算机可读存储介质 |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH1115841A (ja) * | 1997-06-24 | 1999-01-22 | Fuji Xerox Co Ltd | 情報検索装置及び情報検索プログラムを記録した媒体 |
| JPH11154164A (ja) * | 1997-11-21 | 1999-06-08 | Hitachi Ltd | 全文検索処理における適合度算出方法および該方法に係るプログラムを格納した記憶媒体 |
| JP3918374B2 (ja) * | 1999-09-10 | 2007-05-23 | 富士ゼロックス株式会社 | 文書検索装置および方法 |
| JP2002183194A (ja) * | 2000-12-15 | 2002-06-28 | Ricoh Co Ltd | 検索式生成装置およびその方法 |
-
2004
- 2004-06-04 JP JP2004167287A patent/JP4972271B2/ja not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2005346560A (ja) | 2005-12-15 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN107122400B (zh) | 使用视觉提示细化查询结果的方法、计算系统及存储介质 | |
| JP3820242B2 (ja) | 質問応答型文書検索システム及び質問応答型文書検索プログラム | |
| KR101160597B1 (ko) | 의미 연관성에 기초한 콘텐츠 검색 | |
| CN102016837B (zh) | 中文型文字及文字偏旁的分类及检索的系统与方法 | |
| US7769771B2 (en) | Searching a document using relevance feedback | |
| US8332208B2 (en) | Information processing apparatus, information processing method, and program | |
| US8024175B2 (en) | Computer program, apparatus, and method for searching translation memory and displaying search result | |
| US20040070624A1 (en) | Program and method for displaying a radar chart | |
| US20050081146A1 (en) | Relation chart-creating program, relation chart-creating method, and relation chart-creating apparatus | |
| US20050267734A1 (en) | Translation support program and word association program | |
| JP5587821B2 (ja) | 文書トピック抽出装置及び方法及びプログラム | |
| JP2003223437A (ja) | 正解語の候補の表示方法、スペルチェック方法、コンピュータ装置、プログラム | |
| KR20060095572A (ko) | 검색 결과들의 스크린―식 제시 | |
| JP5577546B2 (ja) | 計算機システム | |
| JP4972271B2 (ja) | 検索結果提示装置 | |
| US10055097B2 (en) | Grasping contents of electronic documents | |
| CN119066179B (zh) | 问答处理方法、计算机程序产品、设备及介质 | |
| JP5112027B2 (ja) | 文書群提示装置および文書群提示プログラム | |
| WO2010103916A1 (ja) | 文書の特徴語提示装置及び特徴語の優先度付与プログラム | |
| JP5219543B2 (ja) | 情報処理装置及び情報処理方法及びプログラム | |
| JP2008276561A (ja) | 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体 | |
| JP3558854B2 (ja) | データ検索装置及びコンピュータ読み取り可能な記録媒体 | |
| JP2010009237A (ja) | 多言語間類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 | |
| JP2022178243A (ja) | 画像生成装置、画像生成方法およびプログラム | |
| Yeh et al. | A case for query by image and text content: searching computer help using screenshots and keywords |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060811 |
|
| RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20060811 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090501 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090519 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090717 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090825 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091021 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20091117 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100216 |
|
| A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20100302 |
|
| A912 | Removal of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20100326 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120220 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120409 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150413 Year of fee payment: 3 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| LAPS | Cancellation because of no payment of annual fees |