JP2012018510A - 文書処理装置、文書処理方法、文書処理プログラム、及び文書処理プログラムを記録したコンピュータ読み取り可能な記録媒体 - Google Patents
文書処理装置、文書処理方法、文書処理プログラム、及び文書処理プログラムを記録したコンピュータ読み取り可能な記録媒体 Download PDFInfo
- Publication number
- JP2012018510A JP2012018510A JP2010154764A JP2010154764A JP2012018510A JP 2012018510 A JP2012018510 A JP 2012018510A JP 2010154764 A JP2010154764 A JP 2010154764A JP 2010154764 A JP2010154764 A JP 2010154764A JP 2012018510 A JP2012018510 A JP 2012018510A
- Authority
- JP
- Japan
- Prior art keywords
- document
- partial character
- character string
- unnecessary
- url
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 複数の文書に含まれる文字列から、この文字列の一部をなす部分文字列を文書毎に生成する部分文字列生成手段と、前記部分文字列生成手段により生成された前記部分文字列の内、自らが生成された文書以外の文書に含まれない部分文字列を一意部分文字列として判定する一意部分文字列判定手段と、文書毎の総部分文字列数と前記一意部分文字列判定手段により判定された前記一意部分文字列数との比が所定の範囲にある文書を不要文書として検出する不要文書検出手段とを備える。
【選択図】 図1
Description
一方、ディジタルデータは、入手が容易であると同時に、引用・編集・改変して再発信することも容易であり、インターネット上の文書には、こうした二次情報も多く含まれていると言われている。オリジナルな一次情報とその流用による二次情報が混在していると、同様なデータが重複して格納されることによる記憶効率の低下や、検索問い合わせに対して同様な結果が繰り返し提示されることによる一覧性の低下といった問題が生じる。そこで、各文書データから部分文字列を取り出し、部分文字列毎に出現文書の一覧を管理することで、重複部分を含む文書の提示を可能にするシステムが提案されている(例えば、特許文献1及び2参照)。
図1は、この発明の実施の形態1に係る文書処理装置の一例を示す構成図である。
図1において、文書処理装置1は、サーバA〜C等の外部サーバ上の文書を取得する文書取得手段2と、不要文書を除去する不要文書除去手段3とを備え、文書URLリスト4、取得文書データ5、部分文字列テーブル6、及び文書属性テーブル7によって構成される。不要文書除去手段3は、文書中の文字列から部分文字列を生成する部分文字列生成手段8と、生成された部分文字列の内、他の文書には出現せずに一意に定まる部分文字列(一意部分文字列)を判定する一意部分文字列判定手段9と、一意部分文字列数と総部分文字列数との比により、不要文書を検出する不要文書検出手段10とを備える。文書URLリスト4は、文書取得手段2が取得すべき外部サーバ上の文書を特定するアドレス、例えば、URL(Uniform Resource Locator)の一覧を保持する。取得文書データ5は、文書取得手段2が取得した複数の文書データを格納する。部分文字列テーブル6は、不要文書除去手段3による処理の中間状態を格納する。文書属性テーブル7は、不要文書除去手段3による処理結果を格納する。
取得文書データ5は、複数のエントリからなり、各エントリは、1つの文書の文書URL51、取得日時52、及び文書内容53を格納する。文書URL51は、文書URLリスト4に記憶されていた取得対象文書のアドレスの1つであり、取得日時52は、文書取得手段2が実際に当該文書データを取得した日時である。また、文書内容53は、文書取得手段2が取得した文書の内容データである。ここで、外部サーバ上の文書のアドレスは、文書URL51により一意に識別されるが、同一の文書URL51から異なる時点で取得した文書内容は異なることもあり得る。そのため、取得文書データ5においては、文書URL51が共通で、取得日時52が異なる複数のエントリが存在しても良い。また、取得文書データ5における各エントリの格納位置には特段の制約を設けず、任意とする。
部分文字列テーブル6は、複数のエントリからなり、各エントリは、1つの部分文字列に関するハッシュ値61、文書URL62、取得日時63、及び重複フラグ64を格納する。ここでいう部分文字列とは、図2に示す取得文書データ5の文書内容53から取り出した固定単語数の文字列である。ここでは、単語の数をkとする(例えばk=5)。
文書属性テーブル7は、複数のエントリからなり、各エントリは、1つの文書の文書URL71、取得日時72、部分文字列数73、一意部分文字列数74、及び除去フラグ75を格納する。文書属性テーブル7の各エントリは、取得文書データ5のエントリと1対1に対応しており、文書URL71及び取得日時72は、それぞれ取得文書データ5の文書URL51及び取得日時52に対応する。文書属性テーブル7の各エントリの格納位置は、文書URL71及び取得日時72により一意に定まる必要がある。また、部分文字列数73は、当該エントリに対応する取得文書データ5の文書内容53に含まれる部分文字列の総数を表し、一意部分文字列数74は、当該部分文字列の内、他のエントリの文書内容53に含まれない部分文字列の数を表す。除去フラグ75には、当該エントリに対応する文書が自動引用により生成されたものであり、不要とみなされる場合に、1が格納され、そうでない場合に、0が格納される。
図5において、文書処理装置1は、CPU11、RAM12、磁気ディスク装置13により構成されるコンピュータシステムとして示されている。
文書取得手段2は、文書URLリスト4から文書URLを読み込み、当該URL中のサーバ名に従って外部サーバへの接続を行ない、公知のHTTP(Hyper‐Text Transfer Protocol)に従って当該URLを送付して文書データを要求する。次いで文書取得手段2は、当該外部サーバからの応答を受信し、前記URLを文書URL51、現在時刻を取得日時52、受信内容を文書内容53として取得文書データ5の末尾に追記する。この処理を文書URLリスト4の全てのURLに対して繰り返す。各文書の取得は逐次に行なう必要はなく、複数文書を同時に並行して取得して所要時間を短縮しても良い。
図6は、不要文書除去手段3の動作を示す概略フローチャートである。
始めに、ステップS1において、不要文書除去手段3は、取得文書データ5に格納された全てのエントリを処理し、部分文字列テーブル6及び文書属性テーブル7の設定を行なう。
次に、ステップS2で、不要文書除去手段3は、部分文字列テーブル6の各エントリに基づいて文書属性テーブル7を更新し、各文書に対する最終的な処理結果を格納する。
図7は、ステップS1の詳細を示すフローチャートである。
ステップS17では、変数iをnd−k+1と比較し、両者が等しければステップS18に進み、そうでなければステップS15に戻る。
図8は、ステップS16の動作の詳細を示すフローチャートである。
始めに、ステップS101において、部分文字列生成手段8は、第i部分文字列(Wi、Wi+1、...、Wi+k−1)のハッシュ値Siを計算する。
図9は、ステップS19の動作の詳細を示すフローチャートである。
始めに、ステップS21において、不要文書除去手段3は、部分文字列生成手段8により、統合対象の部分文字列テーブル片のそれぞれの先頭エントリを調べ、ハッシュ値の最小値を求める。次に、先頭エントリのハッシュ値が最小値である部分文字列テーブル片の全てから先頭エントリを取得し、当該部分文字列テーブル片から先頭エントリを除去する。
ければステップS24に進む。
以上が、図6のステップS1の詳細な動作の説明である。
図10は、ステップS2の詳細を示すフローチャートである。
始めに、ステップS31において、不要文書除去手段3は、不要文書検出手段10により、部分文字列テーブル6の未処理エントリの1つを処理対象として選択し、当該エントリの文書URL62及び取得日時63で指定される文書属性テーブル7のエントリに対し、一意部分文字列数74に1を加える。ここで、当該エントリの重複フラグに1が設定されている場合であっても、重複文書中で最も古い取得日時を持つ文書においては当該エントリに対応する部分文字列を一意部分文字列として扱う。これは、重複文書を全て除去対象とすると引用元文書も除去され、当該文書の内容が存在しなかったものとみなされてしまうためである。
始めに、ステップS33において、不要文書検出手段10は、文書属性テーブル7の未処理エントリの1つを処理対象として選択し、部分文字列数73に対する一意部分文字列数74の割合が所定値以上(例えば60%以上)であれば、当該エントリの除去フラグ75を0に設定する。
以上の実施の形態1では、一意部分文字列の割合が低い文書を、他の1つ以上の文書の引用を中心とする有用性の低い文書として除去することにより、統計的な処理に適した文書集合を得ることができる文書処理装置を説明したが、次に、同一文書URLからの文書の取得を繰り返す際に、統計的に有用な文書が得られない見込みが高い文書URLを取得対象から取り除くことにより、不要な文書の取得を避け、外部サーバからの文書取得を効率化する文書処理装置に関する実施の形態2を示す。
図11において、文書処理装置1から不要文書検出手段10までは、図1の同一番号の構成要素に対応するものであり、不要URL除去手段14が、実施形態1に対して実施形態2で追加された部分である。不要URL除去手段14は、不要文書除去手段3の動作に引き続いて動作する。
不要URL除去手段14は、文書属性テーブル7の全てのエントリに対して、同一文書URL71を持つエントリ同士をまとめて順に処理する。
以上の実施の形態2では、統計的に有用な文書が得られない見込みが高い文書URLを取得対象から取り除くことにより、不要な文書の取得を避け、外部サーバからの文書取得を効率化する文書処理装置を説明したが、次に、出現頻度の高い語句を不自然に多く含む文書を検出して、この文書を除去することにより、統計的な処理に適した文書集合を得ることができる文書処理装置に関する実施の形態3を示す。
図13において、文書処理装置1から不要文書検出手段10までは、図1の同一番号の構成要素に対応するものであり、最長頻出部分文字列テーブル15が、実施形態1に対して実施形態3で追加された部分である。
図14は、q=3の場合のq単語列を格納する頻出q単語列テーブル90を示したものである。
頻出q単語列テーブル90は、単語列91と出現回数92からなる。頻出q単語列テーブル90はRAM12上に配置され、単語列91を一意なキーとして検索可能な構造を有する。出現回数92は、対応する単語列91が出現する文書の数を保持する。
図15は、不要文書除去手段3の動作の内、実施の形態1に対して実施の形態3で加わった部分を示すフローチャートである。
ステップS3からステップS5は、図6のステップS1及びステップS2に引き続いて実行する。
図16は、ステップS3の動作の内、特定のq(q>1)に対応する動作の詳細を示すフローチャートである。
Claims (11)
- 複数の文書に含まれる文字列から、この文字列の一部をなす部分文字列を文書毎に生成する部分文字列生成手段と、
前記部分文字列生成手段により生成された前記部分文字列の内、自らが生成された文書以外の文書に含まれない部分文字列を一意部分文字列として判定する一意部分文字列判定手段と、
文書毎の総部分文字列数と前記一意部分文字列判定手段により判定された前記一意部分文字列数との比が所定の範囲にある文書を不要文書として検出する不要文書検出手段と
を備える文書処理装置。 - 前記部分文字列生成手段により生成された前記部分文字列と、この部分文字列が最初に生成された文書の識別情報と、前記部分文字列が異なる文書間で重複しているか否かを示す重複フラグとを対応付けて記憶する部分文字列テーブルを備え、
前記一意部分文字列判定手段は、前記部分文字列テーブルに記憶された前記重複フラグが重複していることを示す場合、前記最初に生成された文書においては当該部分文字列を一意部分文字列として判定し、それ以外の文書においては一意部分文字列としないと判定する請求項1記載の文書処理装置。 - URL(Uniform Resource Locator)で指定される外部サーバ上の文書をネットワーク経由で取得し、前記URLと取得日時と共に前記取得文書データに格納する文書取得手段と、
前記部分文字列生成手段により生成された前記部分文字列と、この部分文字列を含む文書の内、前記取得日時が最も古い文書の前記URLと、前記取得日時と、前記部分文字列が異なる文書間で重複しているか否かを示す重複フラグとを対応付けて記憶する部分文字列テーブルとを備え、
前記一意部分文字列判定手段は、前記部分文字列テーブルに記憶された前記重複フラグが重複していることを示す場合、前記取得日時が最も古い文書においては当該部分文字列を一意部分文字列として判定し、それ以外の文書においては一意部分文字列としないと判定する請求項1記載の文書処理装置。 - 前記文書取得手段により文書を取得する前記URLを取得対象URLとして格納する文書URLリストを備え、
前記不要文書検出手段により検出した前記不要文書の前記URLに基づいて、前記文書URLリストに格納された前記取得対象URLの削除を行なう不要URL除去手段を備えた請求項3記載の文書処理装置。 - 前記不要URL除去手段は、前記不要文書検出手段により検出した前記不要文書が、所定数以上の取得日時において繰り返して不要文書として検出されている場合、この不要文書のURLを前記文書URLリストに格納された前記取得対象URLから削除する請求項4記載の文書処理装置。
- 前記不要URL除去手段は、前記不要文書検出手段により検出した前記不要文書の前記URLのホスト名または上位ドメイン名が一致するURLを持つ文書の内、所定割合以上が不要文書として検出されている場合、このホスト名または上位ドメイン名が一致する全てのURLを前記文書URLリストに格納された前記取得対象URLから削除する請求項4記載の文書処理装置。
- 前記部分文字列生成手段は、前記部分文字列テーブルをRAM(Random Access Memory)に記憶させ、前記部分文字列テーブルが前記RAMの容量に応じた所定の容量に達すると前記RAMに記憶された前記部分文字列テーブルの断片を磁気ディスク装置に書き出して前記RAMに記憶された前記部分文字列テーブルを空にし、前記取得文書データの全てについて前記不要文書の検出を行なった後に、前記RAM及び前記磁気ディスク装置に記憶された前記部分文字列テーブルの断片を部分文字列に基づいて統合する請求項2から6のいずれかに記載の文書処理装置。
- 前記不要文書検出手段は、所定の長さ以内の部分文字列の出現文書数に基づき、所定数以上の文書に出現する頻出部分文字列の内、より長い頻出部分文字列に含まれない最長の頻出部分文字列である最長頻出部分文字列を求め、この最長頻出部分文字列を所定種類以上含む文書を不要文書として検出する請求項1から7のいずれかに記載の文書処理装置。
- 部分文字列生成手段が、複数の文書に含まれる文字列から、この文字列の一部をなす部分文字列を文書毎に生成する部分文字列生成ステップと、
一意部分文字列判定手段が、前記部分文字列生成手段により生成された前記部分文字列の内、自らが生成された文書以外の文書に含まれない部分文字列を一意部分文字列として判定する一意部分文字列判定ステップと、
不要文書検出手段が、文書毎の総部分文字列数と前記一意部分文字列判定手段により判定された前記一意部分文字列数との比が所定の範囲にある文書を不要文書として検出する不要文書検出ステップとを備える文書処理方法。 - コンピュータを、
複数の文書に含まれる文字列から、この文字列の一部をなす部分文字列を文書毎に生成する部分文字列生成手段と、
前記部分文字列生成手段により生成された前記部分文字列の内、自らが生成された文書以外の文書に含まれない部分文字列を一意部分文字列として判定する一意部分文字列判定手段と、
文書毎の総部分文字列数と前記一意部分文字列判定手段により判定された前記一意部分文字列数との比が所定の範囲にある文書を不要文書として検出する不要文書検出手段として機能させるための文書処理プログラム。 - コンピュータを、
複数の文書に含まれる文字列から、この文字列の一部をなす部分文字列を文書毎に生成する部分文字列生成手段と、
前記部分文字列生成手段により生成された前記部分文字列の内、自らが生成された文書以外の文書に含まれない部分文字列を一意部分文字列として判定する一意部分文字列判定手段と、
文書毎の総部分文字列数と前記一意部分文字列判定手段により判定された前記一意部分文字列数との比が所定の範囲にある文書を不要文書として検出する不要文書検出手段として機能させるための文書処理プログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2010154764A JP5464082B2 (ja) | 2010-07-07 | 2010-07-07 | 文書処理装置、文書処理方法、文書処理プログラム、及び文書処理プログラムを記録したコンピュータ読み取り可能な記録媒体 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2010154764A JP5464082B2 (ja) | 2010-07-07 | 2010-07-07 | 文書処理装置、文書処理方法、文書処理プログラム、及び文書処理プログラムを記録したコンピュータ読み取り可能な記録媒体 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2012018510A true JP2012018510A (ja) | 2012-01-26 |
| JP5464082B2 JP5464082B2 (ja) | 2014-04-09 |
Family
ID=45603722
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2010154764A Expired - Fee Related JP5464082B2 (ja) | 2010-07-07 | 2010-07-07 | 文書処理装置、文書処理方法、文書処理プログラム、及び文書処理プログラムを記録したコンピュータ読み取り可能な記録媒体 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5464082B2 (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2015090528A (ja) * | 2013-11-05 | 2015-05-11 | 日本電信電話株式会社 | 連続引用判定装置及び方法 |
| JP2015090527A (ja) * | 2013-11-05 | 2015-05-11 | 日本電信電話株式会社 | 自動構成文書判定装置及び方法 |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0855013A (ja) * | 1994-08-16 | 1996-02-27 | Fujitsu Ltd | ソート処理方法および装置 |
| JP2006350500A (ja) * | 2005-06-14 | 2006-12-28 | Sharp Corp | 情報チャンネル登録システム,プログラム及び記録媒体 |
| JP2007122398A (ja) * | 2005-10-27 | 2007-05-17 | Kenichi Nakamura | フラグメントの同一性判定方法およびコンピュータプログラム |
| JP2008033728A (ja) * | 2006-07-31 | 2008-02-14 | Fujitsu Ltd | 重複データ検出プログラム、重複データ検出方法および重複データ検出装置 |
| JP2008077543A (ja) * | 2006-09-25 | 2008-04-03 | Fujitsu Ltd | レポート引用元情報取得装置、レポート引用元情報取得方法及びレポート引用元情報取得プログラム |
-
2010
- 2010-07-07 JP JP2010154764A patent/JP5464082B2/ja not_active Expired - Fee Related
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0855013A (ja) * | 1994-08-16 | 1996-02-27 | Fujitsu Ltd | ソート処理方法および装置 |
| JP2006350500A (ja) * | 2005-06-14 | 2006-12-28 | Sharp Corp | 情報チャンネル登録システム,プログラム及び記録媒体 |
| JP2007122398A (ja) * | 2005-10-27 | 2007-05-17 | Kenichi Nakamura | フラグメントの同一性判定方法およびコンピュータプログラム |
| JP2008033728A (ja) * | 2006-07-31 | 2008-02-14 | Fujitsu Ltd | 重複データ検出プログラム、重複データ検出方法および重複データ検出装置 |
| JP2008077543A (ja) * | 2006-09-25 | 2008-04-03 | Fujitsu Ltd | レポート引用元情報取得装置、レポート引用元情報取得方法及びレポート引用元情報取得プログラム |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2015090528A (ja) * | 2013-11-05 | 2015-05-11 | 日本電信電話株式会社 | 連続引用判定装置及び方法 |
| JP2015090527A (ja) * | 2013-11-05 | 2015-05-11 | 日本電信電話株式会社 | 自動構成文書判定装置及び方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP5464082B2 (ja) | 2014-04-09 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN102693271B (zh) | 一种网络信息推荐方法及系统 | |
| KR100996311B1 (ko) | 스팸 ucc를 감지하기 위한 방법 및 시스템 | |
| US9122769B2 (en) | Method and system for processing information of a stream of information | |
| CN101826099B (zh) | 一种相似文档识别、文档扩散度确定的方法及系统 | |
| WO2008014702A1 (en) | Method and system of extracting new words | |
| JP3802813B2 (ja) | ウェブページ検索方法、ウェブページ検索装置、プログラム、および記録媒体 | |
| JP2011134334A (ja) | ショートテキスト通信のトピックを識別するためのシステムおよび方法 | |
| JP5968744B2 (ja) | コンセプトキーワード拡張データセットを利用した検索方法、装置、及びコンピュータ読み取り可能な記録媒体 | |
| CN105095211A (zh) | 多媒体数据的获取方法和装置 | |
| CN101477527A (zh) | 一种检索多媒体资源的方法及装置 | |
| US7765204B2 (en) | Method of finding candidate sub-queries from longer queries | |
| JP7395377B2 (ja) | コンテンツ検索方法、装置、機器、および記憶媒体 | |
| WO2014059848A1 (zh) | 一种网页搜索设备和方法 | |
| CN111460255A (zh) | 一种音乐作品信息数据采集及存储方法 | |
| CN107743128A (zh) | 一种基于首页关联域名和同服务ip的非法网站挖掘方法 | |
| JP2010061587A (ja) | 類似文書判定装置、類似判定方法およびそのプログラム | |
| CN105389330A (zh) | 一种跨社区开源资源匹配关联方法 | |
| JP5464082B2 (ja) | 文書処理装置、文書処理方法、文書処理プログラム、及び文書処理プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
| WO2012119339A1 (zh) | 搜索方法及装置 | |
| CN114491232B (zh) | 信息查询方法、装置、电子设备和存储介质 | |
| CN101310277B (zh) | 获得文本的表示的方法和系统 | |
| CN103853771A (zh) | 一种搜索结果的推送方法及系统 | |
| TWI234720B (en) | Related document linking managing system, method and recording medium | |
| CN110851560A (zh) | 信息检索方法、装置及设备 | |
| CN103646034A (zh) | 一种基于内容可信的Web搜索引擎系统及搜索方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121203 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131021 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131029 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131205 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131224 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140106 |
|
| LAPS | Cancellation because of no payment of annual fees |