JP2012018510A - Document processor, document processing method, document processing program, and computer readable recording medium recorded with document processing program - Google Patents
Document processor, document processing method, document processing program, and computer readable recording medium recorded with document processing program Download PDFInfo
- Publication number
- JP2012018510A JP2012018510A JP2010154764A JP2010154764A JP2012018510A JP 2012018510 A JP2012018510 A JP 2012018510A JP 2010154764 A JP2010154764 A JP 2010154764A JP 2010154764 A JP2010154764 A JP 2010154764A JP 2012018510 A JP2012018510 A JP 2012018510A
- Authority
- JP
- Japan
- Prior art keywords
- document
- partial character
- character string
- unnecessary
- url
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】 インターネット上の文書から、正当な引用を行なっている文書を含めたオリジナルな文書の抽出を可能にする。
【解決手段】 複数の文書に含まれる文字列から、この文字列の一部をなす部分文字列を文書毎に生成する部分文字列生成手段と、前記部分文字列生成手段により生成された前記部分文字列の内、自らが生成された文書以外の文書に含まれない部分文字列を一意部分文字列として判定する一意部分文字列判定手段と、文書毎の総部分文字列数と前記一意部分文字列判定手段により判定された前記一意部分文字列数との比が所定の範囲にある文書を不要文書として検出する不要文書検出手段とを備える。
【選択図】 図1PROBLEM TO BE SOLVED: To extract an original document including a document that is properly cited from a document on the Internet.
A partial character string generation unit that generates a partial character string that forms a part of the character string for each document from character strings included in a plurality of documents, and the portion generated by the partial character string generation unit Unique partial character string determination means for determining a partial character string that is not included in a document other than the document in which it is generated as a unique partial character string, the total number of partial character strings for each document, and the unique partial character Unnecessary document detecting means for detecting, as an unnecessary document, a document whose ratio with the number of unique partial character strings determined by the column determining means is within a predetermined range.
[Selection] Figure 1
Description
本発明は、インターネット上に存在する文書、例えば、ブログ等の文書から、分析対象とする目的の文書を抽出する文書処理装置に関する。 The present invention relates to a document processing apparatus that extracts a target document to be analyzed from a document existing on the Internet, for example, a document such as a blog.
インターネットの発展により、入手可能な文書データの量は、飛躍的に増大した。これらの文書データの中には、ブログ等を通じて、個人が自発的に興味の対象や、社会事象に対する意見等を述べたものも数多く含まれるようになった。そこで、このような意見等を述べた文書データを収集して分析することにより、従来は、回答者を募集してアンケートを実施する必要があった社会風潮や消費者動向の把握が、網羅的、かつリアルタイムに実施可能になると期待されている。
一方、ディジタルデータは、入手が容易であると同時に、引用・編集・改変して再発信することも容易であり、インターネット上の文書には、こうした二次情報も多く含まれていると言われている。オリジナルな一次情報とその流用による二次情報が混在していると、同様なデータが重複して格納されることによる記憶効率の低下や、検索問い合わせに対して同様な結果が繰り返し提示されることによる一覧性の低下といった問題が生じる。そこで、各文書データから部分文字列を取り出し、部分文字列毎に出現文書の一覧を管理することで、重複部分を含む文書の提示を可能にするシステムが提案されている(例えば、特許文献1及び2参照)。
With the development of the Internet, the amount of available document data has increased dramatically. In these document data, there are now many cases where individuals voluntarily stated their interests and opinions on social events through blogs. Therefore, by collecting and analyzing document data describing such opinions, it is possible to comprehensively grasp the social trends and consumer trends that previously required recruiting respondents and conducting questionnaires. It is expected to be possible to implement in real time.
Digital data, on the other hand, is easy to obtain, and at the same time, it is easy to quote, edit, modify, and retransmit, and it is said that Internet documents contain a lot of such secondary information. ing. If the original primary information and secondary information by diversion are mixed, storage efficiency decreases due to duplicate storage of similar data, and similar results are repeatedly presented for search queries. Problems such as a drop in the listability due to. In view of this, a system has been proposed in which a partial character string is extracted from each document data and a list of appearing documents is managed for each partial character string so that a document including an overlapping portion can be presented (for example, Patent Document 1). And 2).
ブログ等の中には、記事本体よりも、記事に付随する広告の発信を主眼としたものも存在する。このような広告記事の作成者は、なるべく労力をかけずに記事を作成するために、他のブログ記事を取得して引用するコンピュータプログラムを利用して、広告記事を自動生成することが多い。スパムブログと呼ばれるこのようなブログ記事が大量に存在すると、前述の社会風潮や消費者動向の把握を目的として、全文書データの統計処理を行なった際に、自動引用された情報の出現頻度が増加し、現実において話題とされる頻度の実態と大きく乖離してしまうという問題が生じる。 Some blogs, etc., focus on sending advertisements attached to articles rather than the article itself. In many cases, the creator of such an advertisement article automatically generates an advertisement article using a computer program that obtains and quotes other blog articles in order to create an article with as little effort as possible. If there are a large number of such blog articles called spam blogs, the frequency of appearance of automatically quoted information when statistical processing of all document data is performed for the purpose of grasping the social trends and consumer trends described above. A problem arises in that the frequency increases, and the actual frequency of the topic is greatly deviated.
従来の文書処理装置においては、例えば、特許文献1では、重複の可能性のある文書の検出に止まっており、文書の削除などの最終的な処置は、文書処理装置の利用者が文書の内容を判断した上で実施する必要がある。なぜなら、ブログにおいては、ニュース記事などの一次情報に対する所感を述べる際に、正当な引用が行なわれることもあるため、重複が検出された文書を全て一律に削除するのは不適当であり、利用者が一つ一つの記事を精査しなくてはならないからである。特許文献1の技術は、データベースを管理する際に意図せずに生じてしまう重複の検出を目的としており、他者により意図的にデータが引用・複製される状況には対処することができない。
In a conventional document processing apparatus, for example, in
また、特許文献2はインターネット上の文書を想定したものであるが、2つの文書の組に対して、文書単位での重複の有無を判定する技術である。このため、文書集合から2つ以上の文書の一部を切り出して合成された文書に対しては、切り出された文書の一部を単位として重複の検出を行なうことができず、このような合成された文書を排除することができない。 Japanese Patent Application Laid-Open No. 2004-228561 assumes a document on the Internet, but is a technique for determining whether or not there is duplication in document units for a set of two documents. For this reason, it is not possible to detect duplication of a part of two or more documents cut out from a document set as a unit. Cannot be excluded.
この発明は、上記のような課題を解決するためになされたもので、文書集合に対し、他の文書にも出現する部分文字列を一定割合以上含む文書を、自動引用により生成された文書として排除することで、正当な引用を行なっている文書を含めたオリジナルな文書データの抽出を可能にするものである。 The present invention has been made to solve the above-described problems, and a document including a certain percentage or more of a partial character string appearing in another document with respect to a document set is a document generated by automatic citation. By excluding it, it is possible to extract original document data including a document that is properly cited.
上記で述べた課題を解決するため、本発明に係る文書処理装置は、複数の文書に含まれる文字列から、この文字列の一部をなす部分文字列を文書毎に生成する部分文字列生成手段と、前記部分文字列生成手段により生成された前記部分文字列の内、自らが生成された文書以外の文書に含まれない部分文字列を一意部分文字列として判定する一意部分文字列判定手段と、文書毎の総部分文字列数と前記一意部分文字列判定手段により判定された前記一意部分文字列数との比が所定の範囲にある文書を不要文書として検出する不要文書検出手段とを備えることとしたものである。 In order to solve the problems described above, the document processing apparatus according to the present invention generates a partial character string that generates a partial character string that forms a part of the character string for each document from character strings included in a plurality of documents. And a partial character string determination unit that determines, among the partial character strings generated by the partial character string generation unit, a partial character string that is not included in a document other than the document in which the partial character string is generated as a unique partial character string And unnecessary document detection means for detecting a document whose ratio between the total number of partial character strings for each document and the number of unique partial character strings determined by the unique partial character string determination means is within a predetermined range as an unnecessary document. It is to be prepared.
また、本発明に係る文書処理方法は、部分文字列生成手段が、複数の文書に含まれる文字列から、この文字列の一部をなす部分文字列を文書毎に生成する部分文字列生成ステップと、一意部分文字列判定手段が、前記部分文字列生成手段により生成された前記部分文字列の内、自らが生成された文書以外の文書に含まれない部分文字列を一意部分文字列として判定する一意部分文字列判定ステップと、不要文書検出手段が、文書毎の総部分文字列数と前記一意部分文字列判定手段により判定された前記一意部分文字列数との比が所定の範囲にある文書を不要文書として検出する不要文書検出ステップとを備えることとしたものである。 In the document processing method according to the present invention, the partial character string generation unit generates a partial character string that forms a part of the character string for each document from the character strings included in the plurality of documents. And the unique partial character string determination means determines, as the unique partial character string, a partial character string that is not included in a document other than the document in which the partial character string is generated by the partial character string generation means. The unique partial character string determination step and the unnecessary document detection means have a ratio between the total number of partial character strings for each document and the number of the unique partial character strings determined by the unique partial character string determination means within a predetermined range. And an unnecessary document detection step of detecting a document as an unnecessary document.
また、本発明に係る文書処理プログラムは、コンピュータを、複数の文書に含まれる文字列から、この文字列の一部をなす部分文字列を文書毎に生成する部分文字列生成手段と、前記部分文字列生成手段により生成された前記部分文字列の内、自らが生成された文書以外の文書に含まれない部分文字列を一意部分文字列として判定する一意部分文字列判定手段と、文書毎の総部分文字列数と前記一意部分文字列判定手段により判定された前記一意部分文字列数との比が所定の範囲にある文書を不要文書として検出する不要文書検出手段として機能させることとしたものである。 Further, the document processing program according to the present invention includes a partial character string generation unit that generates, for each document, a partial character string that forms a part of the character string from character strings included in a plurality of documents. Of the partial character strings generated by the character string generating means, a unique partial character string determining means for determining a partial character string that is not included in a document other than the document generated by itself as a unique partial character string, and for each document The document is made to function as an unnecessary document detection unit that detects a document whose ratio between the total number of partial character strings and the number of unique partial character strings determined by the unique partial character string determination unit is within a predetermined range as an unnecessary document. It is.
また、本発明に係る文書処理プログラムを記録したコンピュータ読み取り可能な記録媒体は、コンピュータを、複数の文書に含まれる文字列から、この文字列の一部をなす部分文字列を文書毎に生成する部分文字列生成手段と、前記部分文字列生成手段により生成された前記部分文字列の内、自らが生成された文書以外の文書に含まれない部分文字列を一意部分文字列として判定する一意部分文字列判定手段と、文書毎の総部分文字列数と前記一意部分文字列判定手段により判定された前記一意部分文字列数との比が所定の範囲にある文書を不要文書として検出する不要文書検出手段として機能させる文書処理プログラムを記録させることとしたものである。 The computer-readable recording medium recording the document processing program according to the present invention generates, for each document, a partial character string that forms part of the character string from character strings included in a plurality of documents. A unique part for determining, as a unique partial character string, a partial character string that is not included in a document other than a document in which the partial character string is generated by the partial character string generating unit and the partial character string generated by the partial character string generating unit An unnecessary document for detecting a document having a ratio between the total number of partial character strings for each document and the number of the unique partial character strings determined by the unique partial character string determining unit as a unnecessary document. A document processing program that functions as detection means is recorded.
本発明によれば、複数の文書に含まれる文字列から部分文字列を文書毎に生成し、文書毎に当該文書固有の一意部分文字列の割合を求め、一意部分文字列の割合が低いものを、他の1つ以上の文書の引用を中心とする有用性の低い文書として検出し、これらの文書を除去可能にすることにより、統計的な処理に適した文書集合を得ることができるという効果がある。 According to the present invention, a partial character string is generated for each document from character strings included in a plurality of documents, a ratio of the unique partial character string unique to the document is obtained for each document, and a ratio of the unique partial character string is low. Is detected as a less useful document centered on the citation of one or more other documents, and these documents can be removed, thereby obtaining a document set suitable for statistical processing. effective.
実施の形態1.
図1は、この発明の実施の形態1に係る文書処理装置の一例を示す構成図である。
図1において、文書処理装置1は、サーバA〜C等の外部サーバ上の文書を取得する文書取得手段2と、不要文書を除去する不要文書除去手段3とを備え、文書URLリスト4、取得文書データ5、部分文字列テーブル6、及び文書属性テーブル7によって構成される。不要文書除去手段3は、文書中の文字列から部分文字列を生成する部分文字列生成手段8と、生成された部分文字列の内、他の文書には出現せずに一意に定まる部分文字列(一意部分文字列)を判定する一意部分文字列判定手段9と、一意部分文字列数と総部分文字列数との比により、不要文書を検出する不要文書検出手段10とを備える。文書URLリスト4は、文書取得手段2が取得すべき外部サーバ上の文書を特定するアドレス、例えば、URL(Uniform Resource Locator)の一覧を保持する。取得文書データ5は、文書取得手段2が取得した複数の文書データを格納する。部分文字列テーブル6は、不要文書除去手段3による処理の中間状態を格納する。文書属性テーブル7は、不要文書除去手段3による処理結果を格納する。
FIG. 1 is a block diagram showing an example of a document processing apparatus according to
In FIG. 1, a
文書処理装置1は、CPU、RAM、磁気ディスク装置、及びネットワークインタフェース等のハードウェアと、ハードウェアを制御するオペレーティングシステムソフトウェアを備える一般的なコンピュータシステムと、CPUの動作を規定するプログラムを用いて実現することができる。この場合、文書取得手段2と不要文書除去手段3とは、磁気ディスク装置からRAMに読み込まれてCPUにより実行されるプログラムとして実現され、文書URLリスト4、取得文書データ5、部分文字列テーブル6、及び文書属性テーブル7は、RAM、または、磁気ディスク装置上の固有の格納領域として実現される。
The
図2は、取得文書データ5の詳細な格納形式の一例を示す図である。
取得文書データ5は、複数のエントリからなり、各エントリは、1つの文書の文書URL51、取得日時52、及び文書内容53を格納する。文書URL51は、文書URLリスト4に記憶されていた取得対象文書のアドレスの1つであり、取得日時52は、文書取得手段2が実際に当該文書データを取得した日時である。また、文書内容53は、文書取得手段2が取得した文書の内容データである。ここで、外部サーバ上の文書のアドレスは、文書URL51により一意に識別されるが、同一の文書URL51から異なる時点で取得した文書内容は異なることもあり得る。そのため、取得文書データ5においては、文書URL51が共通で、取得日時52が異なる複数のエントリが存在しても良い。また、取得文書データ5における各エントリの格納位置には特段の制約を設けず、任意とする。
FIG. 2 is a diagram illustrating an example of a detailed storage format of the acquired
The acquired
図3は、部分文字列テーブル6の詳細な格納形式を示す図である。
部分文字列テーブル6は、複数のエントリからなり、各エントリは、1つの部分文字列に関するハッシュ値61、文書URL62、取得日時63、及び重複フラグ64を格納する。ここでいう部分文字列とは、図2に示す取得文書データ5の文書内容53から取り出した固定単語数の文字列である。ここでは、単語の数をkとする(例えばk=5)。
FIG. 3 is a diagram showing a detailed storage format of the partial character string table 6.
The partial character string table 6 includes a plurality of entries, and each entry stores a
ハッシュ値61には、当該エントリに対応する部分文字列に対し、CRC(Cyclic Redundancy Code)やSHA‐256(Secure Hash Algorithm 256‐bit)などの公知の一方向性ハッシュ関数により計算したハッシュ値を格納する。このようなハッシュ値は、実用上、元の部分文字列と1対1に対応すると考えることができるので、部分文字列テーブル6のエントリを一意に識別するキーとして用いる。
The
ここで、ハッシュ値61の一意性を維持するため、部分文字列テーブル6における各エントリの格納位置は、ハッシュ値61に基づいて一意に定まる必要がある。しかし、同一の部分文字列であっても、取得文書データ5には、文書URL51や取得日時52が異なる複数のエントリが存在するため、文書URL62及び取得日時63の組み合わせが一意に定まらない。そこで、部分文字列テーブル6の各エントリに重複フラグ64を設け、次のようにして、部分文字列テーブル6における各エントリの一意性を維持する。
Here, in order to maintain the uniqueness of the
文書URL62及び取得日時63には、当該エントリに対応する部分文字列が取り出された取得文書データ5のエントリの文書URL52及び取得日時53の組み合わせを、1つ指定する。指定する文書URL52及び取得日時53の組み合わせは、当該エントリに対応する部分文字列を含む文書の内、取得日時が最も古い文書の文書URL52と取得日時53を用いるものとする。あるいは、文書取得手段2によらずに収集された文書集合を分析対象にする場合は、文書URL52と取得日時53の代わりに、当該エントリに対応する部分文字列が最初に生成された文書の識別情報と、文書が作成・更新された日時を用いるものとする。
In the
重複フラグ64には、当該エントリに対応する部分文字列が、文書URL62及び取得日時63の組み合わせで指定される文書だけに含まれる場合に、例えば、0が格納され、そうでない場合には、1が格納される。
For example, 0 is stored in the duplicate flag 64 when the partial character string corresponding to the entry is included only in the document specified by the combination of the
図4は、文書属性テーブル7の詳細な格納形式を示す図である。
文書属性テーブル7は、複数のエントリからなり、各エントリは、1つの文書の文書URL71、取得日時72、部分文字列数73、一意部分文字列数74、及び除去フラグ75を格納する。文書属性テーブル7の各エントリは、取得文書データ5のエントリと1対1に対応しており、文書URL71及び取得日時72は、それぞれ取得文書データ5の文書URL51及び取得日時52に対応する。文書属性テーブル7の各エントリの格納位置は、文書URL71及び取得日時72により一意に定まる必要がある。また、部分文字列数73は、当該エントリに対応する取得文書データ5の文書内容53に含まれる部分文字列の総数を表し、一意部分文字列数74は、当該部分文字列の内、他のエントリの文書内容53に含まれない部分文字列の数を表す。除去フラグ75には、当該エントリに対応する文書が自動引用により生成されたものであり、不要とみなされる場合に、1が格納され、そうでない場合に、0が格納される。
FIG. 4 is a diagram showing a detailed storage format of the document attribute table 7.
The document attribute table 7 includes a plurality of entries, and each entry stores a
図5は、部分文字列テーブル6のコンピュータシステムにおける格納方法の詳細を説明する図である。
図5において、文書処理装置1は、CPU11、RAM12、磁気ディスク装置13により構成されるコンピュータシステムとして示されている。
FIG. 5 is a diagram for explaining the details of the method of storing the partial character string table 6 in the computer system.
In FIG. 5, the
部分文字列テーブル6は、ハッシュ値61に基づいてランダムにアクセスされるため、RAM12に格納することが望ましいが、部分文字列テーブル6のエントリ数、すなわち部分文字列の種類は非常に多く、RAM12に部分文字列テーブル6の全体を格納するだけの容量がない場合が生じる。そこで、部分文字列テーブル6を複数の断片に分割し、RAM12に格納される部分文字列テーブル片(0)と、必要に応じて磁気ディスク装置13に格納される部分文字列テーブル片(1)、部分文字列テーブル片(2)、部分文字列テーブル片(3)、...を設ける。RAM12上の部分文字列テーブル片(0)は、ハッシュ値61をキーとする赤黒木や、ハッシュテーブル等の公知の探索構造により実現する。また、磁気ディスク装置13上の部分文字列テーブル片(j)(j=1,2,...)においては、各エントリをハッシュ値61の順に配置するものとする。
Since the partial character string table 6 is randomly accessed based on the
また、文書属性テーブル7は、文書URL71及び取得日時72に基づいてランダムにアクセスされるが、多くの場合、RAM12に格納可能と想定されるため、文書URL71及び取得日時72をキーとするRAM12上の赤黒木や、ハッシュテーブルとして実現し、処理終了時に磁気ディスク装置13に内容を書き出せば良い。
Further, the document attribute table 7 is randomly accessed based on the
取得文書データ5は、各エントリの書き込みと読み出しが一度ずつ行なわれるだけであり、容量も大きいため、磁気ディスク装置13上に格納する。
The acquired
次に、文書処理装置1の動作を説明する。
文書取得手段2は、文書URLリスト4から文書URLを読み込み、当該URL中のサーバ名に従って外部サーバへの接続を行ない、公知のHTTP(Hyper‐Text Transfer Protocol)に従って当該URLを送付して文書データを要求する。次いで文書取得手段2は、当該外部サーバからの応答を受信し、前記URLを文書URL51、現在時刻を取得日時52、受信内容を文書内容53として取得文書データ5の末尾に追記する。この処理を文書URLリスト4の全てのURLに対して繰り返す。各文書の取得は逐次に行なう必要はなく、複数文書を同時に並行して取得して所要時間を短縮しても良い。
Next, the operation of the
The document acquisition means 2 reads the document URL from the
次に、不要文書除去手段3の動作を、フローチャートを用いて説明する。
図6は、不要文書除去手段3の動作を示す概略フローチャートである。
始めに、ステップS1において、不要文書除去手段3は、取得文書データ5に格納された全てのエントリを処理し、部分文字列テーブル6及び文書属性テーブル7の設定を行なう。
次に、ステップS2で、不要文書除去手段3は、部分文字列テーブル6の各エントリに基づいて文書属性テーブル7を更新し、各文書に対する最終的な処理結果を格納する。
Next, the operation of the unnecessary
FIG. 6 is a schematic flowchart showing the operation of the unnecessary
First, in
Next, in step S2, the unnecessary
以下、図6のステップS1における動作の詳細を、フローチャートを用いて説明する。
図7は、ステップS1の詳細を示すフローチャートである。
Hereinafter, details of the operation in step S1 of FIG. 6 will be described using a flowchart.
FIG. 7 is a flowchart showing details of step S1.
始めに、ステップS11において、不要文書除去手段3は、部分文字列生成手段8により、磁気ディスク装置13上の部分文字列テーブル片の数を表す変数fを0に初期化する。
First, in step S <b> 11, the unnecessary
次に、ステップS12において、部分文字列生成手段8は、取得文書データ5から未処理エントリを1つ選択して処理対象とし、その文書内容53に公知の形態素解析処理を施して、単一文字列を複数の単語列に分割する。ここで、当該エントリの文書URL51と取得日時52の組で識別される文書データをdとし、文書dの文書内容53を形態素解析して得られる単語列の要素数をnd、単語列をW1、W2、...、Wndとする。なお、取得文書データ5の各エントリの処理順序は任意であり、例えば、先頭エントリから順に処理対象とすれば良い。
Next, in step S12, the partial character string generation means 8 selects one unprocessed entry from the acquired
次に、ステップS13において、部分文字列生成手段8は、文書dの文書URL51と取得日時52に対応する文書属性テーブル7のエントリを生成し、文書URL71と取得日時72をそれぞれ文書URL51と取得日時52に、部分文字列数73をnd−k+1(kは部分文字列の単語数)に、一意部分文字列数74を0に、除去フラグを1に、それぞれ設定する。
Next, in step S13, the partial character
次に、ステップS14において、部分文字列生成手段8は、文書dにおける部分文字列を識別する変数iを0に設定し、続くステップS15で変数iに1を加える。 Next, in step S14, the partial character string generation means 8 sets a variable i for identifying a partial character string in the document d to 0, and adds 1 to the variable i in a subsequent step S15.
次に、ステップS16において、部分文字列生成手段8は、後述する手順により、文書dの形態素解析結果の単語列の内、i番目以降の連続するk個の単語列(Wi、Wi+1、...、Wi+k−1)からなる第i部分文字列のハッシュ値Siに基づき、部分文字列テーブル片の更新を行なう。
ステップS17では、変数iをnd−k+1と比較し、両者が等しければステップS18に進み、そうでなければステップS15に戻る。
Next, in step S16, the partial character string generation means 8 performs the i-th and subsequent consecutive k word strings (Wi, Wi + 1,...) Among the word strings of the morphological analysis result of the document d according to the procedure described later. ., Wi + k−1), the partial character string table piece is updated based on the hash value Si of the i-th partial character string.
In step S17, the variable i is compared with nd−
次に、ステップS18において、部分文字列生成手段8は、取得文書データ5の全てのエントリが処理されたかどうか判定し、未処理のエントリが残っていればステップS12に戻り、全て処理されていればステップS19に進む。
Next, in step S18, the partial character string generation means 8 determines whether or not all entries of the acquired
最後に、ステップS19において、部分文字列生成手段8は、後述する手順により、f+1個の部分文字列テーブル片を統合し、単一の部分文字列テーブル6を生成して処理を終了する。 Finally, in step S19, the partial character string generation means 8 integrates f + 1 partial character string table pieces according to the procedure described later, generates a single partial character string table 6, and ends the process.
次に、図7のステップS16における動作の詳細を、フローチャートを用いて説明する。
図8は、ステップS16の動作の詳細を示すフローチャートである。
始めに、ステップS101において、部分文字列生成手段8は、第i部分文字列(Wi、Wi+1、...、Wi+k−1)のハッシュ値Siを計算する。
Next, details of the operation in step S16 in FIG. 7 will be described using a flowchart.
FIG. 8 is a flowchart showing details of the operation in step S16.
First, in step S101, the partial character string generation means 8 calculates a hash value Si of the i-th partial character string (Wi, Wi + 1,..., Wi + k−1).
次に、ステップS102において、部分文字列生成手段8は、部分文字列テーブル片(0)を検索し、ハッシュ値61がSiと等しいエントリが存在するかどうか判定する。エントリが存在する場合はステップS107に進み、そうでない場合はステップS103に進む。
Next, in step S102, the partial character string generation means 8 searches the partial character string table piece (0) and determines whether there is an entry having the
次に、ステップS103において、部分文字列生成手段8は、部分文字列テーブル片(0)の現在のエントリ数を調べ、その値が所定値未満であるかどうか判定する。所定値未満である場合は、ステップS106に進み、そうでない場合は、ステップS104に進む。ここで、所定値とは、例えば、RAM12の容量に格納可能な部分文字列テーブル片(0)のエントリ数の上限値を意味するものとする。
Next, in step S103, the partial character string generation means 8 checks the current number of entries in the partial character string table piece (0) and determines whether or not the value is less than a predetermined value. If it is less than the predetermined value, the process proceeds to step S106, and if not, the process proceeds to step S104. Here, the predetermined value means an upper limit value of the number of entries of the partial character string table piece (0) that can be stored in the capacity of the
次に、ステップS104において、部分文字列生成手段8は、部分文字列テーブル片(0)に新たなエントリを生成できないため、RAM12上の部分文字列テーブル片(0)を磁気ディスク装置13上の新たな部分文字列テーブル片(f+1)に書き出し、部分文字列テーブル片(0)を空にする処理を行なう。この時、部分文字列テーブル片(0)のエントリをハッシュ値61の順に出力するようにする。部分文字列テーブル片(0)を木構造として実現していればこれは容易であり、部分文字列テーブル片(0)をハッシュテーブルとして実現している場合は、全エントリのソート処理を行なえば良い。
Next, in step S104, the partial character string generation means 8 cannot generate a new entry in the partial character string table fragment (0), so the partial character string table fragment (0) on the
続いて、ステップS105で、部分文字列生成手段8は、磁気ディスク装置13上の部分文字列テーブル片の数を表す変数fに1を加える。
Subsequently, in step S105, the partial character string generating means 8 adds 1 to the variable f representing the number of partial character string table pieces on the
次に、ステップS106において、部分文字列生成手段8は、部分文字列テーブル片(0)に新たなエントリを割り当て、当該エントリのハッシュ値61をSiに、文書URL62及び取得日時63を現在処理中の文書dに対応する文書URL51及び取得日時52に、重複フラグ64を0に設定し、処理を終了する。
Next, in step S106, the partial character string generating means 8 assigns a new entry to the partial character string table piece (0), the
一方、ステップS107においては、不要文書除去手段3は、一意部分文字列判定手段9により、部分文字列テーブル片(0)上の既存のエントリの文書URL62及び取得日時63を調べ、文書dの文書URL51及び取得日時52とそれぞれ一致するかどうか判定する。一致する場合は、同一文書内に部分文字列が複数回含まれていることを示しており、文書間の引用を示唆しないので、処理を終了する。そうでない場合は、ステップS108に進む。
On the other hand, in step S107, the unnecessary
次に、ステップS108において、一意部分文字列判定手段9は、前記既存エントリの重複フラグを1に設定し、当該部分文字列が複数文書に重複して存在することを記録する。 Next, in step S108, the unique partial character string determination means 9 sets the duplication flag of the existing entry to 1, and records that the partial character string exists in a plurality of documents.
続いて、ステップS109において、一意部分文字列判定手段9は、当該既存エントリの取得日時63が文書dの取得日時52より新しいかどうか判定し、新しければステップS110に進み、そうでなければ処理を終了する。
Subsequently, in step S109, the unique partial character
最後に、ステップS110において、一意部分文字列判定手段9は、当該既存エントリの文書URL62及び取得日時63を、文書dの文書URL51及び取得日時52にそれぞれ設定し、処理を終了する。
Finally, in step S110, the unique partial character
次に、図7のステップS19の動作の詳細を、フローチャートを用いて説明する。
図9は、ステップS19の動作の詳細を示すフローチャートである。
始めに、ステップS21において、不要文書除去手段3は、部分文字列生成手段8により、統合対象の部分文字列テーブル片のそれぞれの先頭エントリを調べ、ハッシュ値の最小値を求める。次に、先頭エントリのハッシュ値が最小値である部分文字列テーブル片の全てから先頭エントリを取得し、当該部分文字列テーブル片から先頭エントリを除去する。
Next, details of the operation in step S19 in FIG. 7 will be described using a flowchart.
FIG. 9 is a flowchart showing details of the operation in step S19.
First, in step S21, the unnecessary
次に、ステップS22において、部分文字列生成手段8は、取得したエントリが単一であったかどうか判定し、単一であればステップS26に進み、そうでなければステップS23に進む。 Next, in step S22, the partial character string generation means 8 determines whether or not the acquired entry is single. If it is single, the process proceeds to step S26, and if not, the process proceeds to step S23.
次に、ステップS23において、不要文書除去手段3は、一意部分文字列判定手段9により、取得した複数エントリにおいて、文書URL62と取得日時63が全て同一かどうか判定し、同一であればステップS25に進み、そうでなければステップS24に進む。
Next, in step S23, the unnecessary
次に、ステップS24において、一意部分文字列判定手段9は、同一ハッシュ値に対して複数文書が対応していることが明らかであるため、重複フラグ64を1とし、ハッシュ値61、文書URL62、及び取得日時63のそれぞれを、取得したエントリ中で取得日時63が最小のエントリのハッシュ値61、文書URL62、及び取得日時63に設定して出力し、ステップS27に進む。
ければステップS24に進む。
Next, in step S24, the unique partial character string determination means 9 clearly shows that a plurality of documents correspond to the same hash value, so the duplication flag 64 is set to 1, a
If so, the process proceeds to step S24.
一方、ステップS25では、一意部分文字列判定手段9は、取得したエントリは全て同一文書に対応しているため、取得エントリ中で重複フラグ64が1になっているものが存在する場合は重複フラグ64を1に、そうでない場合は重複フラグ64を0とし、ハッシュ値61、文書URL62、及び取得日時63のそれぞれを、取得した任意エントリのハッシュ値61、文書URL62、及び取得日時63に設定して出力し、ステップS27に進む。
On the other hand, in step S25, the unique partial character string determination means 9 determines that the duplicate entry 64 has a duplicate flag 64 if all of the obtained entries correspond to the same document. 64 is set to 1; otherwise, the duplication flag 64 is set to 0, and the
また、ステップS26では、部分文字列生成手段8は、取得した単一のエントリ自体の内容を出力し、ステップS27に進む。 In step S26, the partial character string generation means 8 outputs the content of the acquired single entry itself, and proceeds to step S27.
最後に、ステップS27において、部分文字列生成手段8は、統合対象の部分文字列テーブル片が全て空になったか判定し、空であれば処理を終了し、そうでなければステップS21に戻って処理を繰り返す。 Finally, in step S27, the partial character string generation means 8 determines whether all the partial character string table pieces to be integrated are empty. If empty, the process ends. If not, the process returns to step S21. Repeat the process.
なお、図9の処理は、部分文字列テーブル片の数(f)が非常に大きい場合、所定数(例えば16個)の部分文字列テーブル片を中間的な部分文字列テーブル片に統合し、次に中間的な部分文字列テーブル片の統合を行なうというように、次第に部分文字列テーブル片の数を減少させるようにして適用することもできる。これにより、磁気ディスク装置13に対する入出力性能の低下を抑えることが可能となる。
以上が、図6のステップS1の詳細な動作の説明である。
In the process of FIG. 9, when the number of partial character string table pieces (f) is very large, a predetermined number (for example, 16 pieces) of partial character string table pieces are integrated into an intermediate partial character string table piece. Next, it is also possible to apply by gradually reducing the number of partial character string table pieces, such as integration of intermediate partial character string table pieces. Thereby, it is possible to suppress a decrease in input / output performance with respect to the
The above is the detailed operation of step S1 in FIG.
次に、図6のステップS2の詳細な動作を、フローチャートを用いて説明する。
図10は、ステップS2の詳細を示すフローチャートである。
Next, the detailed operation of step S2 in FIG. 6 will be described using a flowchart.
FIG. 10 is a flowchart showing details of step S2.
まず、ステップS31からステップS32を繰り返すことで、部分文字列テーブル6の全てのエントリを順に処理する。
始めに、ステップS31において、不要文書除去手段3は、不要文書検出手段10により、部分文字列テーブル6の未処理エントリの1つを処理対象として選択し、当該エントリの文書URL62及び取得日時63で指定される文書属性テーブル7のエントリに対し、一意部分文字列数74に1を加える。ここで、当該エントリの重複フラグに1が設定されている場合であっても、重複文書中で最も古い取得日時を持つ文書においては当該エントリに対応する部分文字列を一意部分文字列として扱う。これは、重複文書を全て除去対象とすると引用元文書も除去され、当該文書の内容が存在しなかったものとみなされてしまうためである。
First, by repeating step S31 to step S32, all entries in the partial character string table 6 are processed in order.
First, in step S31, the unnecessary
なお、文書取得手段2によらずに収集された文書集合を分析対象にする場合は、上記の取得日時の情報を持たないため、文書が作成・更新された日時に基づいて、重複文書中で、重複する部分文字列が最初に生成された文書において当該エントリに対応する部分文字列を一意部分文字列として扱っても良い。
Note that, when a collection of documents collected without using the
次に、ステップS32において、不要文書検出手段10は、未処理のエントリの有無を調べ、部分文字列テーブル6の全てのエントリを処理した場合はステップS33に進み、そうでない場合はステップS31に戻る。
Next, in step S32, the unnecessary
続いて、ステップS33からステップS34を繰り返すことで、文書属性テーブル7の全てのエントリを順に処理する。
始めに、ステップS33において、不要文書検出手段10は、文書属性テーブル7の未処理エントリの1つを処理対象として選択し、部分文字列数73に対する一意部分文字列数74の割合が所定値以上(例えば60%以上)であれば、当該エントリの除去フラグ75を0に設定する。
Subsequently, by repeating steps S33 to S34, all entries in the document attribute table 7 are processed in order.
First, in step S33, the unnecessary
次に、ステップS34において、不要文書検出手段10は、未処理のエントリの有無を調べ、文書属性テーブル7の全てのエントリを処理した場合は処理を終了し、そうでない場合はステップS33に戻る。
Next, in step S34, the unnecessary
なお、以上の説明においては、文書属性テーブル7はRAM12上に存在し、効率的にランダムアクセスできるものと想定したが、文書属性テーブル7のデータ量がRAM12の容量を上回る場合には、次のようにすれば良い。すなわち、図7のステップS13において、文書属性テーブル7の新規エントリを磁気ディスク装置13上の文書属性テーブル7の末尾に追記しておき、図10の処理に先立って文書属性テーブル7のエントリを文書URL71及び取得日時72の順にソートして、入力側文書属性テーブルとする。同様に、部分文字列テーブル6のエントリも文書URL62及び取得日時63の順にソートしておく。
In the above description, it is assumed that the document attribute table 7 exists on the
ステップS31では、入力側文書属性テーブルのエントリを先頭から処理し、文書URL及び取得日時が一致するエントリが部分文字列テーブル6から読み込まれる限り、当該文書属性テーブルエントリの一意部分文字列数74に1を加え、文書URL及び取得日時が一致しないエントリが部分文字列テーブル6から読み込まれた時点で該文書属性テーブルエントリを出力文書属性テーブルに追記する。 In step S31, the entry on the input side document attribute table is processed from the beginning, and as long as the entry having the same document URL and acquisition date / time is read from the partial character string table 6, the number of unique partial character strings in the document attribute table entry is set to 74. 1 is added, and when an entry whose document URL and acquisition date and time do not match is read from the partial character string table 6, the document attribute table entry is added to the output document attribute table.
また、以上の説明においては、部分文字列をk個の単語の列としたが、形態素解析処理による単語分割を行なわず、部分文字列をk’個の文字の列としても良い。 In the above description, the partial character string is a string of k words. However, the partial character string may be a string of k ′ characters without performing word division by morphological analysis processing.
以上のように、この発明の実施の形態1によれば、複数の文書に含まれる文字列から部分文字列を文書毎に生成し、文書毎に当該文書固有の一意部分文字列の割合を求め、一意部分文字列の割合が低いものを、他の1つ以上の文書の引用を中心とする有用性の低い文書として検出し、これらの文書を除去可能にすることにより、統計的な処理に適した文書集合を得ることができるという効果がある。 As described above, according to the first embodiment of the present invention, partial character strings are generated for each document from character strings included in a plurality of documents, and the ratio of unique partial character strings unique to the document is obtained for each document. Detecting a low percentage of unique substrings as less useful documents centered on citations of one or more other documents, and enabling these documents to be removed for statistical processing There is an effect that a suitable document set can be obtained.
また、複数文書に出現する部分文字列を、最も古い取得日時の文書においては一意部分文字列として扱うことにより、引用元である可能性が高い文書を除去してしまうことを防ぐという効果がある。 In addition, by treating partial character strings appearing in a plurality of documents as unique partial character strings in the document with the oldest acquisition date and time, there is an effect of preventing the removal of a document that is highly likely to be a citation source. .
さらに、一定割合までは他の文書と重複する部分文字列の存在を許すことにより、正当な引用を行なって固有の記述を加えている文書まで除去してしまうことを防ぐという効果がある。 Further, by allowing the presence of partial character strings that overlap with other documents up to a certain ratio, there is an effect of preventing the removal of documents that have been properly quoted and added a unique description.
実施の形態2.
以上の実施の形態1では、一意部分文字列の割合が低い文書を、他の1つ以上の文書の引用を中心とする有用性の低い文書として除去することにより、統計的な処理に適した文書集合を得ることができる文書処理装置を説明したが、次に、同一文書URLからの文書の取得を繰り返す際に、統計的に有用な文書が得られない見込みが高い文書URLを取得対象から取り除くことにより、不要な文書の取得を避け、外部サーバからの文書取得を効率化する文書処理装置に関する実施の形態2を示す。
In the first embodiment described above, it is suitable for statistical processing by removing a document with a low ratio of unique partial character strings as a less useful document centered on citation of one or more other documents. The document processing apparatus capable of obtaining a document set has been described. Next, when iteratively obtaining a document from the same document URL, a document URL that is highly likely not to be statistically useful is obtained from the acquisition target. A second embodiment relating to a document processing apparatus that eliminates unnecessary document acquisition and improves the efficiency of document acquisition from an external server will be described.
図11は、この発明の第2の実施の形態に係る文書処理装置の構成図である。
図11において、文書処理装置1から不要文書検出手段10までは、図1の同一番号の構成要素に対応するものであり、不要URL除去手段14が、実施形態1に対して実施形態2で追加された部分である。不要URL除去手段14は、不要文書除去手段3の動作に引き続いて動作する。
FIG. 11 is a block diagram of a document processing apparatus according to the second embodiment of the present invention.
In FIG. 11, the
図12は、不要URL除去手段14の動作を示すフローチャートである。
不要URL除去手段14は、文書属性テーブル7の全てのエントリに対して、同一文書URL71を持つエントリ同士をまとめて順に処理する。
FIG. 12 is a flowchart showing the operation of the unnecessary URL removing unit 14.
The unnecessary URL removing unit 14 processes the entries having the
始めに、ステップS41において、不要URL除去手段14は、文書属性テーブル7の未処理文書URL71を1つ選択し、当該文書URL71に対応する全てのエントリを取得する。取得したエントリ数が所定値を超え、かつ取得したエントリ中で除去フラグ75が1に設定されたエントリの割合(除去率)が所定値を超える場合、当該文書URLからは重複文書しか得られない可能性が高いと考えられるため、当該文書URLを文書URLリスト4から削除し、次回以降は文書の取得を行なわないようにする。
First, in step S41, the unnecessary URL removing unit 14 selects one
続いて、ステップS42において、不要URL除去手段14は、文書属性テーブル7の全ての文書URLが処理されたか判定し、処理済みでなければステップS41に戻り、処理済みであれば終了する。 Subsequently, in step S42, the unnecessary URL removing unit 14 determines whether all document URLs in the document attribute table 7 have been processed. If not, the process returns to step S41.
なお、ここでは、同一文書URLの複数バージョンを対象に除去率を求めたが、URL中のホスト名毎、あるいは上位ドメイン名(例えば、http://blog.foo.com/をURLとした場合のfoo.comなど)毎に除去率を求め、重複文書が多く発生するURL群を一括して文書URLリスト4から除去するようにしても良い。
Here, the removal rate is obtained for a plurality of versions of the same document URL, but for each host name in the URL or an upper domain name (for example, http://blog.foo.com/) as the URL The removal rate may be obtained for each of the foo.com, etc.), and URL groups in which many duplicate documents are generated may be collectively removed from the
以上のように、この発明の実施の形態2によれば、同一文書URLからの文書の取得を繰り返す際に、統計的に有用な文書が得られない見込みが高い文書URLを取得対象から取り除くことにより、不要な文書の取得を避け、外部サーバからの文書取得を効率化することが可能になるという効果がある。 As described above, according to the second embodiment of the present invention, when a document is repeatedly acquired from the same document URL, a document URL that is highly unlikely to be a statistically useful document is removed from the acquisition target. Thus, there is an effect that it is possible to avoid the acquisition of unnecessary documents and to improve the efficiency of document acquisition from an external server.
実施の形態3.
以上の実施の形態2では、統計的に有用な文書が得られない見込みが高い文書URLを取得対象から取り除くことにより、不要な文書の取得を避け、外部サーバからの文書取得を効率化する文書処理装置を説明したが、次に、出現頻度の高い語句を不自然に多く含む文書を検出して、この文書を除去することにより、統計的な処理に適した文書集合を得ることができる文書処理装置に関する実施の形態3を示す。
In the second embodiment described above, a document URL that avoids unnecessary document acquisition and improves document acquisition efficiency from an external server by removing a document URL that is highly unlikely to obtain a statistically useful document from the acquisition target. The processing apparatus has been described. Next, a document that can detect a document including an unnaturally high number of frequently occurring words and phrases and remove the document can obtain a document set suitable for statistical processing.
図13は、この発明の第3の実施の形態に係る文書処理装置の構成図である。
図13において、文書処理装置1から不要文書検出手段10までは、図1の同一番号の構成要素に対応するものであり、最長頻出部分文字列テーブル15が、実施形態1に対して実施形態3で追加された部分である。
FIG. 13 is a block diagram of a document processing apparatus according to the third embodiment of the present invention.
In FIG. 13, the
まず、最長頻出部分文字列テーブル15の格納形式について、詳細に説明する。部分文字列テーブル6においては、固定単語数k個の単語の列を部分文字列としたが、最長頻出部分文字列テーブル15には、1つの単語からQ個の単語の列までの部分文字列が含まれる(例えばQ=10)。ここで、取得文書データ5の文書内容53に含まれる部分文字列の内、所定数以上(例えば500以上)の文書に出現する部分文字列を、頻出部分文字列と定義すれば、最長頻出部分文字列テーブル15は、頻出部分文字列の内、最長の頻出部分文字列を格納するテーブルである。
First, the storage format of the longest frequent partial character string table 15 will be described in detail. In the partial character string table 6, a word string of k fixed words is a partial character string. However, the longest frequent partial character string table 15 includes a partial character string from one word to a Q word string. (For example, Q = 10). Here, if a partial character string appearing in a predetermined number or more (for example, 500 or more) of partial character strings included in the document content 53 of the acquired
上記の最長の頻出部分文字列を、以下では、最長頻出q単語列(qは単語の数)と表現する。最長頻出q単語列は、所定数以上の文書に出現するq個の単語の列(q単語列)であって、かつ当該q単語列を含む最長頻出q+1単語列が存在しないものを指す。 Hereinafter, the longest frequent partial character string is expressed as the longest frequent q word string (q is the number of words). The longest frequent q word string indicates a string of q words (q word string) appearing in a predetermined number or more of documents, and the longest frequent q + 1 word string including the q word string does not exist.
このような最長頻出部分文字列テーブル15を生成するためには、最長頻出部分文字列の候補をq単語列として格納する頻出q単語列テーブルを利用する。
図14は、q=3の場合のq単語列を格納する頻出q単語列テーブル90を示したものである。
頻出q単語列テーブル90は、単語列91と出現回数92からなる。頻出q単語列テーブル90はRAM12上に配置され、単語列91を一意なキーとして検索可能な構造を有する。出現回数92は、対応する単語列91が出現する文書の数を保持する。
In order to generate such a longest frequent partial character string table 15, a frequent q word string table that stores candidates for the longest frequent partial character string as a q word string is used.
FIG. 14 shows a frequent q word string table 90 for storing q word strings when q = 3.
The frequent q word string table 90 includes a
次に、最長頻出部分文字列テーブル15を用いた不要文書除去手段3の動作を、フローチャートを用いて説明する。
図15は、不要文書除去手段3の動作の内、実施の形態1に対して実施の形態3で加わった部分を示すフローチャートである。
ステップS3からステップS5は、図6のステップS1及びステップS2に引き続いて実行する。
Next, the operation of the unnecessary
FIG. 15 is a flowchart showing a part of the operation of the unnecessary
Steps S3 to S5 are executed subsequent to steps S1 and S2 in FIG.
まず、ステップS3において、不要文書除去手段3は、不要文書検出手段10により、後述する処理に従って、q=1、2、3、...、Qの順に、取得文書データ5の文書内容53に含まれるq単語列(q=1の場合は単語)の出現文書数を求め、所定数以上の文書に出現したq単語列を、頻出q単語列テーブル90に格納する。
First, in step S3, the unnecessary
続いて、ステップS4において、不要文書検出手段10は、q=Q、Q−1、...、2、1の順に、頻出q単語列テーブルの各エントリのq単語列に含まれる部分文字列群、すなわちq−1単語列、q−2単語列、...、単語に対して、対応する頻出単語列テーブルのエントリを削除する。各頻出q単語列に残ったエントリは最長頻出q単語列であり、これらを最長頻出部分文字列テーブルとする。 Subsequently, in step S4, the unnecessary document detection means 10 determines that q = Q, Q-1,. . . 2, 1, partial character string groups included in the q word string of each entry of the frequent q word string table, that is, q-1 word string, q-2 word string,. . . For a word, the corresponding frequent word string table entry is deleted. The entries remaining in each frequent q word string are the longest frequent q word strings, and these are the longest frequent partial character string table.
最後に、ステップS5において、不要文書検出手段10は、ステップS4で生成された最長頻出部分文字列テーブルを参照して、取得文書データ5の文章内容53に同時に含まれる最長頻出部分文字列の種類を求め、所定種類以上(例えば7種類以上)の最長頻出部分文字列を含む文書に対応する文書属性テーブル7のエントリについて、除去フラグ75を1に設定する。
Finally, in step S5, the unnecessary document detection means 10 refers to the longest frequent partial character string table generated in step S4, and the type of the longest frequent partial character string simultaneously included in the sentence content 53 of the acquired
次に、図15のステップS3の動作について、フローチャートを用いて説明する。
図16は、ステップS3の動作の内、特定のq(q>1)に対応する動作の詳細を示すフローチャートである。
Next, the operation in step S3 in FIG. 15 will be described using a flowchart.
FIG. 16 is a flowchart showing details of an operation corresponding to a specific q (q> 1) in the operation of step S3.
始めに、ステップS51において、不要文書除去手段3は、取得文書データ5の内、未処理の文書dを選択し、文書内容53を構成する単語の列W1、W2、...、Wndを得る。この処理は、図7のステップS12と同じ形態素解析処理を繰り返すか、ステップS12の以前の実行結果を保存しておいて再利用することで実現できる。
First, in step S 51, the unnecessary
次に、ステップS52において、不要文書検出手段10は、前記単語列の内、未処理のq単語列(Wi、Wi+1、...、Wi+q−1)を処理対象として取り上げる。 Next, in step S52, the unnecessary document detection means 10 picks up unprocessed q word strings (Wi, Wi + 1,..., Wi + q-1) among the word strings as processing targets.
次に、ステップS53において、不要文書検出手段10は、q個の単語Wj(j=i、i+1、...、i+q−1)が全て頻出単語テーブル(頻出1単語列テーブル)90に存在するかどうか判定する。存在する場合は、ステップS54に進み、そうでない場合は、当該q単語列が頻出となることはあり得ないため、ステップS56まで処理をスキップする。
Next, in step S <b> 53, the unnecessary
続いて、ステップS54において、不要文書検出手段10は、q個の単語列の右端を除いたq−1単語列(Wi、Wi+1、...、Wi+q−2)と、左端を除いたq−1単語列(Wi+1、...、Wi+q−1)のいずれもが頻出q−1単語列テーブル90に存在しているかどうか判定する。存在する場合は、ステップS55に進み、そうでない場合は、当該q単語列が頻出となることはあり得ないため、ステップS56まで処理をスキップする。
Subsequently, in step S54, the unnecessary
次に、ステップS55において、不要文書検出手段10は、当該q単語列(Wi、Wi+1、...、Wi+q−1)に対応する頻出q単語列テーブルのエントリにおいて、出現回数92に1を加える。
Next, in step S55, the unnecessary document detection means 10 adds 1 to the
次に、ステップS56において、不要文書検出手段10は、文書dの全てのq単語列が全て処理されたか判定し、処理されていれば、ステップS57に進み、そうでなければ、ステップS52に戻って処理を繰り返す。
Next, in step S56, the unnecessary
続いて、ステップS57において、不要文書検出手段10は、取得文書データ7の全ての文書が全て処理されたか判定し、処理されていれば、ステップS58に進み、そうでなければ、ステップS51に戻って処理を繰り返す。
Subsequently, in step S57, the unnecessary
最後に、ステップS58において、不要文書検出手段10は、頻出q単語列テーブル90の各エントリを順に調べ、出現回数92が所定値未満のエントリを削除する。削除されずに残ったエントリが頻出q単語列である。
Finally, in step S58, the unnecessary
以上のように、この発明の実施の形態3によれば、出現頻度の高い語句を不自然に多く含む文書を検出して、この文書を除去することにより、統計的な処理に適した文書集合を得ることができるという効果がある。 As described above, according to the third embodiment of the present invention, a document set suitable for statistical processing is detected by detecting a document that contains an unnaturally high number of frequently occurring words and phrases and removing this document. There is an effect that can be obtained.
また、スパムブログを自動生成する作者は、インターネット上で公開されている検索エンジンの検索問合せランキングなどを用いると、こうした出現頻度の高い語句を話題語として容易に捉えることができるので、検索エンジンユーザに検索され易いWebページを自動生成するために、このような話題語を、そのWebページに設定される検索対象キーワードとして利用することがある。この場合、Webページの文章の方には、他の文書を自動引用する代わりにランダムな文字列を用いることがある。このような場合に対しても、この発明の実施の形態3によれば、検索対象キーワードとして設定されている頻出語(話題語)を手掛かりに、上記のような自動生成文書を除去することが可能になる。 Authors who automatically generate spam blogs can easily identify these frequently occurring phrases as topic words using search query rankings of search engines published on the Internet. In order to automatically generate a Web page that can be easily searched, such a topic word may be used as a search target keyword set in the Web page. In this case, a random character string may be used for the text of the Web page instead of automatically quoting another document. Even in such a case, according to the third embodiment of the present invention, it is possible to remove the automatically generated document as described above by using a frequent word (topic word) set as a search target keyword. It becomes possible.
1 文書処理装置、2 文書取得手段、3 不要文書除去手段、4 文書URLリスト、5 取得文書データ、6 部分文字列テーブル、7 文書属性テーブル、8 部分文字列生成手段、9 一意部分文字列判定手段、10 不要文書検出手段、11 CPU、12 RAM、13 磁気ディスク装置、14 不要URL除去手段、15 最長頻出部分文字列テーブル。
DESCRIPTION OF
Claims (11)
前記部分文字列生成手段により生成された前記部分文字列の内、自らが生成された文書以外の文書に含まれない部分文字列を一意部分文字列として判定する一意部分文字列判定手段と、
文書毎の総部分文字列数と前記一意部分文字列判定手段により判定された前記一意部分文字列数との比が所定の範囲にある文書を不要文書として検出する不要文書検出手段と
を備える文書処理装置。 Partial character string generating means for generating, for each document, a partial character string forming a part of the character string from character strings included in a plurality of documents;
Unique partial character string determination means for determining a partial character string that is not included in a document other than the document in which the partial character string is generated among the partial character strings generated by the partial character string generation means;
A document comprising unnecessary document detection means for detecting, as an unnecessary document, a document whose ratio between the total number of partial character strings for each document and the number of unique partial character strings determined by the unique partial character string determination means is within a predetermined range. Processing equipment.
前記一意部分文字列判定手段は、前記部分文字列テーブルに記憶された前記重複フラグが重複していることを示す場合、前記最初に生成された文書においては当該部分文字列を一意部分文字列として判定し、それ以外の文書においては一意部分文字列としないと判定する請求項1記載の文書処理装置。 The partial character string generated by the partial character string generating means, the identification information of the document in which the partial character string is first generated, and the duplication indicating whether or not the partial character string is duplicated between different documents A partial character string table that stores flags in association with each other,
In the case where the unique partial character string judging means indicates that the duplication flag stored in the partial character string table is duplicated, the partial character string is regarded as a unique partial character string in the first generated document. The document processing apparatus according to claim 1, wherein the document processing apparatus determines that the document is not a unique partial character string in other documents.
前記部分文字列生成手段により生成された前記部分文字列と、この部分文字列を含む文書の内、前記取得日時が最も古い文書の前記URLと、前記取得日時と、前記部分文字列が異なる文書間で重複しているか否かを示す重複フラグとを対応付けて記憶する部分文字列テーブルとを備え、
前記一意部分文字列判定手段は、前記部分文字列テーブルに記憶された前記重複フラグが重複していることを示す場合、前記取得日時が最も古い文書においては当該部分文字列を一意部分文字列として判定し、それ以外の文書においては一意部分文字列としないと判定する請求項1記載の文書処理装置。 A document acquisition means for acquiring a document on an external server specified by a URL (Uniform Resource Locator) via a network, and storing the acquired document data together with the URL and the acquisition date;
The partial character string generated by the partial character string generating means, the URL of the document with the oldest acquisition date and time among the documents including the partial character string, and the document in which the partial character string is different from the acquisition date and time A partial character string table that stores a duplication flag indicating whether or not there is a duplication flag,
When the unique partial character string determination means indicates that the duplication flag stored in the partial character string table is duplicated, the partial character string is determined as a unique partial character string in the document with the oldest acquisition date and time. The document processing apparatus according to claim 1, wherein the document processing apparatus determines that the document is not a unique partial character string in other documents.
前記不要文書検出手段により検出した前記不要文書の前記URLに基づいて、前記文書URLリストに格納された前記取得対象URLの削除を行なう不要URL除去手段を備えた請求項3記載の文書処理装置。 A document URL list for storing the URL for acquiring a document by the document acquisition unit as an acquisition target URL;
The document processing apparatus according to claim 3, further comprising: an unnecessary URL removing unit that deletes the acquisition target URL stored in the document URL list based on the URL of the unnecessary document detected by the unnecessary document detecting unit.
一意部分文字列判定手段が、前記部分文字列生成手段により生成された前記部分文字列の内、自らが生成された文書以外の文書に含まれない部分文字列を一意部分文字列として判定する一意部分文字列判定ステップと、
不要文書検出手段が、文書毎の総部分文字列数と前記一意部分文字列判定手段により判定された前記一意部分文字列数との比が所定の範囲にある文書を不要文書として検出する不要文書検出ステップとを備える文書処理方法。 A partial character string generation means for generating, for each document, a partial character string that forms a part of the character string from character strings included in a plurality of documents;
A unique partial character string determination unit is configured to determine, as a unique partial character string, a partial character string that is not included in a document other than the document in which the partial character string is generated by the partial character string generation unit. A substring determination step;
Unnecessary document detecting means for detecting as an unnecessary document a document whose ratio between the total number of partial character strings for each document and the number of unique partial character strings determined by the unique partial character string determining means is within a predetermined range A document processing method comprising a detection step.
複数の文書に含まれる文字列から、この文字列の一部をなす部分文字列を文書毎に生成する部分文字列生成手段と、
前記部分文字列生成手段により生成された前記部分文字列の内、自らが生成された文書以外の文書に含まれない部分文字列を一意部分文字列として判定する一意部分文字列判定手段と、
文書毎の総部分文字列数と前記一意部分文字列判定手段により判定された前記一意部分文字列数との比が所定の範囲にある文書を不要文書として検出する不要文書検出手段として機能させるための文書処理プログラム。 Computer
Partial character string generating means for generating, for each document, a partial character string forming a part of the character string from character strings included in a plurality of documents;
Unique partial character string determination means for determining a partial character string that is not included in a document other than the document in which the partial character string is generated among the partial character strings generated by the partial character string generation means;
To function as an unnecessary document detection unit that detects a document in which the ratio between the total number of partial character strings for each document and the number of unique partial character strings determined by the unique partial character string determination unit is within a predetermined range as an unnecessary document Document processing program.
複数の文書に含まれる文字列から、この文字列の一部をなす部分文字列を文書毎に生成する部分文字列生成手段と、
前記部分文字列生成手段により生成された前記部分文字列の内、自らが生成された文書以外の文書に含まれない部分文字列を一意部分文字列として判定する一意部分文字列判定手段と、
文書毎の総部分文字列数と前記一意部分文字列判定手段により判定された前記一意部分文字列数との比が所定の範囲にある文書を不要文書として検出する不要文書検出手段として機能させるための文書処理プログラムを記録したコンピュータ読み取り可能な記録媒体。 Computer
Partial character string generating means for generating, for each document, a partial character string forming a part of the character string from character strings included in a plurality of documents;
Unique partial character string determination means for determining a partial character string that is not included in a document other than the document in which the partial character string is generated among the partial character strings generated by the partial character string generation means;
To function as an unnecessary document detection unit that detects a document in which the ratio between the total number of partial character strings for each document and the number of unique partial character strings determined by the unique partial character string determination unit is within a predetermined range as an unnecessary document A computer-readable recording medium on which a document processing program is recorded.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2010154764A JP5464082B2 (en) | 2010-07-07 | 2010-07-07 | Document processing apparatus, document processing method, document processing program, and computer-readable recording medium recording the document processing program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2010154764A JP5464082B2 (en) | 2010-07-07 | 2010-07-07 | Document processing apparatus, document processing method, document processing program, and computer-readable recording medium recording the document processing program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2012018510A true JP2012018510A (en) | 2012-01-26 |
| JP5464082B2 JP5464082B2 (en) | 2014-04-09 |
Family
ID=45603722
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2010154764A Expired - Fee Related JP5464082B2 (en) | 2010-07-07 | 2010-07-07 | Document processing apparatus, document processing method, document processing program, and computer-readable recording medium recording the document processing program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5464082B2 (en) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2015090528A (en) * | 2013-11-05 | 2015-05-11 | 日本電信電話株式会社 | Device and method for determining continuous excerpts |
| JP2015090527A (en) * | 2013-11-05 | 2015-05-11 | 日本電信電話株式会社 | Device and method for determining automatically configured documents |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0855013A (en) * | 1994-08-16 | 1996-02-27 | Fujitsu Ltd | Sorting method and apparatus |
| JP2006350500A (en) * | 2005-06-14 | 2006-12-28 | Sharp Corp | Information channel registration system, program and recording medium |
| JP2007122398A (en) * | 2005-10-27 | 2007-05-17 | Kenichi Nakamura | Method for determining identity of fragment, and computer program |
| JP2008033728A (en) * | 2006-07-31 | 2008-02-14 | Fujitsu Ltd | Duplicate data detection program, duplicate data detection method, and duplicate data detection apparatus |
| JP2008077543A (en) * | 2006-09-25 | 2008-04-03 | Fujitsu Ltd | Report citation source information acquisition apparatus, report citation source information acquisition method, and report citation source information acquisition program |
-
2010
- 2010-07-07 JP JP2010154764A patent/JP5464082B2/en not_active Expired - Fee Related
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0855013A (en) * | 1994-08-16 | 1996-02-27 | Fujitsu Ltd | Sorting method and apparatus |
| JP2006350500A (en) * | 2005-06-14 | 2006-12-28 | Sharp Corp | Information channel registration system, program and recording medium |
| JP2007122398A (en) * | 2005-10-27 | 2007-05-17 | Kenichi Nakamura | Method for determining identity of fragment, and computer program |
| JP2008033728A (en) * | 2006-07-31 | 2008-02-14 | Fujitsu Ltd | Duplicate data detection program, duplicate data detection method, and duplicate data detection apparatus |
| JP2008077543A (en) * | 2006-09-25 | 2008-04-03 | Fujitsu Ltd | Report citation source information acquisition apparatus, report citation source information acquisition method, and report citation source information acquisition program |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2015090528A (en) * | 2013-11-05 | 2015-05-11 | 日本電信電話株式会社 | Device and method for determining continuous excerpts |
| JP2015090527A (en) * | 2013-11-05 | 2015-05-11 | 日本電信電話株式会社 | Device and method for determining automatically configured documents |
Also Published As
| Publication number | Publication date |
|---|---|
| JP5464082B2 (en) | 2014-04-09 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN102693271B (en) | A kind of network information recommending method and system | |
| KR100996311B1 (en) | Method and system for detecting spam BCC | |
| US9122769B2 (en) | Method and system for processing information of a stream of information | |
| CN101826099B (en) | Method and system for identifying similar documents and determining document diffusance | |
| WO2008014702A1 (en) | Method and system of extracting new words | |
| JP3802813B2 (en) | Web page search method, web page search device, program, and recording medium | |
| JP2011134334A (en) | System and method for identifying topics for short text communications | |
| JP5968744B2 (en) | SEARCH METHOD, DEVICE, AND COMPUTER-READABLE RECORDING MEDIUM USING CONCEPT KEYWORD EXTENDED DATA SET | |
| CN105095211A (en) | Acquisition method and device for multimedia data | |
| CN101477527A (en) | Multimedia resource retrieval method and apparatus | |
| US7765204B2 (en) | Method of finding candidate sub-queries from longer queries | |
| JP7395377B2 (en) | Content search methods, devices, equipment, and storage media | |
| WO2014059848A1 (en) | Web page search device and method | |
| CN111460255A (en) | Music work information data acquisition and storage method | |
| CN107743128A (en) | An illegal website mining method based on the domain name associated with the homepage and the same service IP | |
| JP2010061587A (en) | Similar document determination device, similarity determination method and program therefor | |
| CN105389330A (en) | Cross-community matched correlation method for open source resources | |
| JP5464082B2 (en) | Document processing apparatus, document processing method, document processing program, and computer-readable recording medium recording the document processing program | |
| WO2012119339A1 (en) | Retrieval method and apparatus | |
| CN114491232B (en) | Information query method and device, electronic equipment and storage medium | |
| CN101310277B (en) | Method and system for obtaining a representation of text | |
| CN103853771A (en) | Search result pushing method and search result pushing system | |
| TWI234720B (en) | Related document linking managing system, method and recording medium | |
| CN110851560A (en) | Information retrieval method, device and equipment | |
| CN103646034A (en) | Web search engine system and search method based content credibility |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121203 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131021 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131029 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131205 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131224 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140106 |
|
| LAPS | Cancellation because of no payment of annual fees |