JP2015090528A - 連続引用判定装置及び方法 - Google Patents
連続引用判定装置及び方法 Download PDFInfo
- Publication number
- JP2015090528A JP2015090528A JP2013229439A JP2013229439A JP2015090528A JP 2015090528 A JP2015090528 A JP 2015090528A JP 2013229439 A JP2013229439 A JP 2013229439A JP 2013229439 A JP2013229439 A JP 2013229439A JP 2015090528 A JP2015090528 A JP 2015090528A
- Authority
- JP
- Japan
- Prior art keywords
- digest
- document
- character string
- documents
- continuous
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 本発明は、入力された文書の1つの文章から文字列区間を切り出し、該文字列区間の起点を決定し、該起点から一定文字数毎の文字列区間に対する文字列をハッシュ関数に変換したダイジェストを所定の文字数分スライドさせて該ダイジェストの文書ID及びダイジェスト群を前記ダイジェストDBに格納し、ダイジェストDBから前記ダイジェストを読み出し、該ダイジェストの所定のウィンドウサイズw分だけ離れた文字列区間にダイジェストが異なる文書を引用している場合に、複数文書が連続して引用されているものと判断する。
【選択図】 図5
Description
(1)本発明が対象とするような、文の区切りを明らかに指定できないような文書ではセグメント分割が行えない;
(2)比較的短い文字列単位で引用されている場合には、引用されたことを判定しにくい;
という問題がある。
入力された文書の1つの文章から文字列区間を切り出し、該文字列区間の起点を決定し、該起点から一定文字数毎の文字列区間に対する文字列をハッシュ関数により変換したダイジェストを所定の文字数分スライドさせて該ダイジェストの文書ID及びダイジェスト群をダイジェストDBに格納するダイジェスト計算手段と、
前記ダイジェストDBから前記ダイジェストを読み出し、該ダイジェストの所定のウィンドウサイズw分だけ離れた文字列区間にダイジェストが異なる文書を引用している場合に、複数文書が連続して引用されているものと判断する引用判定手段と、
を有する連続引用判定装置を提供する。
ここでは、ステップ100のダイジェストサイズ計算部130のダイジェストサイズの計算について説明する。
(1)1文字毎に起点とする(例えば、図4);
(2)形態素区切りを起点とする;
(3)ある程度の形態素のまとまりを起点とする;
(4)文の区切りを起点とする;
等が考えられる。但し、引用が文の構成を無視して行われることが多いため、(3)及び(4)は現実的ではない。そこで、(1)及び(2)について検討する。
・ダイジェストサイズをgバイトとする。
形態素区切りを区間の起点とすると、1つの形態素あたりの文字列長を平均3文字と考えると、UTF-8では1文字が3バイトとなるため、
p=1000/224=5.96×10-5
であるが、このとき、1つ以上のダイジェストが一致する確率は5.96×10-2となる。これは、文書数が20程度あれば、平均1回以上の誤検出を生じることを示している。
1/100+1/100=1/10000=0.0001=10-4
を基準としてこれを下回るようなkとgの組み合わせを選択する。k=2であればg=24ビット、k=3であればg=20ビットが選択される。
実装に当たっては、一致する数kと誤検出確率の最大値に基づいて表1のダイジェストサイズ選択テーブル140のk行を横に走査し、その値が誤検出確率の最大値を下回ったとき、その列のビット数gの行の値をダイジェストサイズdsとして出力する。例えば、文書数を10億=109と仮定して、合計の誤検出確率を10-4(0.01%)未満とする場合は、10-13を閾値とし、これを下回る[g=20bit,k=6]、[g=24bit,k=4]、[g=28bit,k=3]、[g=32bit,k=2]のいずれかを用いればよい。
次に、図6のステップ200のダイジェスト計算部110の処理について説明する。
次に、図6のステップ400の引用判定処理について説明する。
一致候補の文書内の位置が連続していることで、連続したダイジェストであることを判定する。
2つ目の一致候補の文書内位置が連続していることで判定する。
当該文書の文書内位置の不一致区間がウィンドウサイズ+αだけ離れていることで判定する。
101 文書DB
110 ダイジェスト計算部
120 引用判定部
121,121' 照合テーブル
130 ダイジェストサイズ計算部
140 ダイジェストサイズ選択テーブル
150,150' ダイジェストDB
151,151' 順引きテーブル
152,152' 逆引きテーブル
Claims (8)
- 複数の文書の連続引用を判定するための連続引用判定装置であって、
入力された文書の1つの文章から文字列区間を切り出し、該文字列区間の起点を決定し、該起点から一定文字数毎の文字列区間に対する文字列をハッシュ関数により変換したダイジェストを所定の文字数分スライドさせて該ダイジェストの文書ID及びダイジェスト群をダイジェストDBに格納するダイジェスト計算手段と、
前記ダイジェストDBから前記ダイジェストを読み出し、該ダイジェストの所定のウィンドウサイズw分だけ離れた文字列区間にダイジェストが異なる文書を引用している場合に、複数文書が連続して引用されているものと判断する引用判定手段と、
を有することを特徴とする連続引用判定装置。 - 前記引用判定手段は、
前記ウィンドウサイズwに所定の文字列区間の開始位置の許容誤差αを加えた分だけ離れた文字列区間でダイジェストが異なる文書を引用している場合に、複数文書が連続して引用されているものと判断する手段を含む
請求項1記載の連続引用判定装置。 - 前記引用判定手段は、
文書内位置と一致候補となる文書IDを格納した照合テーブルを更に有し、
前記ダイジェストを1文字単位でずらした場合の文書内位置に基づいて、前記照合テーブルを参照し、
ある文書との連続したダイジェストの一致:
最後に一致したダイジェストと次に一致したダイジェストの間がウィドウサイズに許容誤差(α)を加えた長さだけが不一致:
別の文書との連続したダイジェストの一致:
の全てを満たす場合は、複数の文書が連続して引用されていると判定する手段を含む
請求項2記載の連続引用判定装置。 - 前記ダイジェストDBは、ダイジェストの文書先頭からの文字数を含み、
前記引用判定手段は、
文書内位置と一致候補となる文書ID、ダイジェストの文書先頭からの文字数を格納した照合テーブルを更に有し、
前記ダイジェストを形態素区切りでずらした場合の文書位置に基づいて、前記照合テーブルを参照し、
ある文書と他の文書と連続した不一致区間が、文字数としてウィンドウサイズに所定の許容誤差を加えたサイズだけ不一致である場合は、複数の文書が連続して引用されていると判定する手段を含む
請求項2記載の連続引用判定装置。 - 複数の文書の連続引用を判定するための連続引用判定方法であって、
ダイジェスト計算手段、ダイジェストDB、引用判定手段を有する装置において、
前記ダイジェスト計算手段が、入力された文書の1つの文章から文字列区間を切り出し、該文字列区間の起点を決定し、該起点から一定文字数毎の文字列区間に対する文字列をハッシュ関数により変換したダイジェストを所定の文字数分スライドさせて該ダイジェストの文書ID及びダイジェスト群を前記ダイジェストDBに格納するダイジェスト計算ステップと、
前記引用判定手段が、前記ダイジェストDBから前記ダイジェストを読み出し、該ダイジェストの所定のウィンドウサイズw分だけ離れた文字列区間にダイジェストが異なる文書を引用している場合に、複数文書が連続して引用されているものと判断する引用判定ステップと、
を行うことを特徴とする連続引用判定方法。 - 前記引用判定ステップにおいて、
前記ウィンドウサイズwに所定の文字列区間の開始位置の許容誤差(α)を加えた分だけ離れた文字列区間でダイジェストが異なる文書を引用している場合に、複数文書が連続して引用されているものと判断する
請求項5記載の連続引用判定方法。 - 文書内位置と一致候補となる文書IDを格納した第1の照合テーブルを更に有する装置において、
前記引用判定ステップにおいて、
前記ダイジェストの文書内位置に基づいて、前記第1の照合テーブルを参照し、
ある文書との連続したダイジェストの一致:
最後に一致したダイジェストと次に一致したダイジェストの間がウィドウサイズ(w)に前記許容誤差(α)を加えた長さだけが不一致:
別の文書との連続したダイジェストの一致:
の全てを満たす場合は、複数の文書が連続して引用されていると判定する
請求項6記載の連続引用判定方法。 - 文書内位置と一致候補となる文書ID、ダイジェストの文書先頭からの文字数を格納した第2の照合テーブルを更に有する装置において、
前記ダイジェストDBは、ダイジェストの文書先頭からの文字数を含み、
前記引用判定ステップにおいて、
前記ダイジェストを形態素区切りでずらした場合の文書位置に基づいて、前記第2の照合テーブルを参照し、
ある文書と他の文書と連続した不一致区間が、文字数としてウィンドウサイズ(w)に前記許容誤差(α)を加えたサイズだけ不一致である場合は、複数の文書が連続して引用されていると判定する
請求項6記載の連続引用判定方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2013229439A JP5906229B2 (ja) | 2013-11-05 | 2013-11-05 | 連続引用判定装置及び方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2013229439A JP5906229B2 (ja) | 2013-11-05 | 2013-11-05 | 連続引用判定装置及び方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2015090528A true JP2015090528A (ja) | 2015-05-11 |
| JP5906229B2 JP5906229B2 (ja) | 2016-04-20 |
Family
ID=53194038
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2013229439A Active JP5906229B2 (ja) | 2013-11-05 | 2013-11-05 | 連続引用判定装置及び方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5906229B2 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN112527952A (zh) * | 2019-09-18 | 2021-03-19 | 本田技研工业株式会社 | 文件比对系统 |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2007105273A1 (ja) * | 2006-03-10 | 2007-09-20 | Fujitsu Limited | 機密情報管理プログラム、方法及び装置 |
| JP2012018510A (ja) * | 2010-07-07 | 2012-01-26 | Mitsubishi Electric Corp | 文書処理装置、文書処理方法、文書処理プログラム、及び文書処理プログラムを記録したコンピュータ読み取り可能な記録媒体 |
| US20130232160A1 (en) * | 2012-03-02 | 2013-09-05 | Semmle Limited | Finding duplicate passages of text in a collection of text |
-
2013
- 2013-11-05 JP JP2013229439A patent/JP5906229B2/ja active Active
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2007105273A1 (ja) * | 2006-03-10 | 2007-09-20 | Fujitsu Limited | 機密情報管理プログラム、方法及び装置 |
| JP2012018510A (ja) * | 2010-07-07 | 2012-01-26 | Mitsubishi Electric Corp | 文書処理装置、文書処理方法、文書処理プログラム、及び文書処理プログラムを記録したコンピュータ読み取り可能な記録媒体 |
| US20130232160A1 (en) * | 2012-03-02 | 2013-09-05 | Semmle Limited | Finding duplicate passages of text in a collection of text |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN112527952A (zh) * | 2019-09-18 | 2021-03-19 | 本田技研工业株式会社 | 文件比对系统 |
| CN112527952B (zh) * | 2019-09-18 | 2024-04-30 | 本田技研工业株式会社 | 文件比对系统 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP5906229B2 (ja) | 2016-04-20 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN111428474B (zh) | 基于语言模型的纠错方法、装置、设备及存储介质 | |
| US8527436B2 (en) | Automated parsing of e-mail messages | |
| CN112994984B (zh) | 识别协议及内容的方法、存储设备、安全网关、服务器 | |
| RU2474870C1 (ru) | Способ автоматизированного анализа текстовых документов | |
| CN112214984B (zh) | 内容抄袭识别方法、装置、设备及存储介质 | |
| CN109445844B (zh) | 基于哈希值的代码克隆检测方法、电子设备、存储介质 | |
| KR102106936B1 (ko) | 검색 처리 방법 및 장치 | |
| CN103080937A (zh) | 表述不一致检测装置及表述不一致检测程序 | |
| CN110019640B (zh) | 涉密文件检查方法及装置 | |
| CN101576872B (zh) | 一种中文文本处理方法及装置 | |
| CN106569989A (zh) | 一种用于短文本的去重方法及装置 | |
| Hubballi et al. | KeyClass: Efficient keyword matching for network traffic classification | |
| CN107943516A (zh) | 基于llvm的克隆代码检测方法 | |
| US11755550B2 (en) | System and method for fingerprinting-based conversation threading | |
| JP2010182238A (ja) | 引用検出装置、原典文書データベース生成装置、その方法、プログラム及び記録媒体 | |
| JP5906229B2 (ja) | 連続引用判定装置及び方法 | |
| CN109857842B (zh) | 一种报障文本识别的方法及装置 | |
| JP5948304B2 (ja) | 引用文書改変検出装置及び方法 | |
| US10339297B2 (en) | Determining whether continuous byte data of inputted data includes credential | |
| JP5906228B2 (ja) | 自動構成文書判定装置及び方法 | |
| Zhang et al. | Effective and Fast Near Duplicate Detection via Signature‐Based Compression Metrics | |
| JP2011150449A (ja) | 未知語を含む文章を分類するための文章分類プログラム、方法及び文章解析サーバ | |
| US20240320448A1 (en) | Information processing apparatus and information processing method | |
| JP5614338B2 (ja) | 検索装置、プログラム及び方法 | |
| JP5879150B2 (ja) | フレーズ検出装置およびそのプログラム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150225 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160122 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160126 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160226 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160315 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160318 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5906229 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |