WO2010117031A1 - 類型化装置、類型化方法及び類型化プログラム - Google Patents
類型化装置、類型化方法及び類型化プログラム Download PDFInfo
- Publication number
- WO2010117031A1 WO2010117031A1 PCT/JP2010/056352 JP2010056352W WO2010117031A1 WO 2010117031 A1 WO2010117031 A1 WO 2010117031A1 JP 2010056352 W JP2010056352 W JP 2010056352W WO 2010117031 A1 WO2010117031 A1 WO 2010117031A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- target
- similarity
- target data
- data
- merge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Definitions
- a categorization program includes a similarity calculation function that calculates the similarity between any two target data except a combination with itself among a plurality of target data and stores the similarity in a similarity table; Merge target selection function that selects two target data whose similarity satisfies a predetermined standard as a merge target, a new target creation function that creates new target data from the merge target, and two target data selected as the merge target.
- the merge target removal function that removes the similarity between each of the objects and other objects from the similarity table, the new object data, and the similarity between the object data other than the new object data in the plurality of object data
- the computer implements the new target addition function to be calculated.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
図1は、本発明の第1の実施形態における類型化システムを示すブロック図である。本実施形態の類型化システム100は、記憶部1と、計算部2とを備える。記憶部1は、対象記憶部11と、類似度記憶部12とを備える。計算部2は、類似度計算部21と、制御部22と、併合対象選択部23と、新対象作成部24と、併合対象除去部25と、新対象追加部26とを備える。類型化システムはパーソナルコンピュータなどの計算装置によって実現することができる。記憶部1はハードディスク等の記憶装置によって実現される。計算部2は、記憶装置に格納されたプログラムをCPUが読み出し、そのプログラムに記述された手順に従った動作を実行することによって実現される機能ブロックである。
[数1]
[数2]
指定される圧縮アルゴリズムは、例えば、文書の場合はgip、zgipなどであり、画像の場合は、pngへの変換などである。
(A)対象記憶部11に記憶された対象の数が予め定めた数L以下である。
(B)類似度記憶部12に記憶された類似度の最大値が予め定めた閾値θ以下である。
[数3]
そのため、部分Bと極めて類似度の高い部分B’をもつ対象があるときに、その対象とクラスタとの類似度が高いと計算される。したがって、非特許文献2にも記載されているように、クラスタに含まれる対象数が多いほど、最も類似度の高い対象として選ぶことができる候補が増え、そのクラスタは併合するために選ばれやすくなる。その結果、大きく併合されたクラスタと、それ以外のいくつかの対象という恣意的な階段状構造が生じてしまい、適切に類型化することができなかった。
図9は、本発明の第2の実施形態における類型化システムの例を示すブロック図である。本実施形態の類型化システム200は、記憶部3と、類型化部4とを備える。記憶部3は、前処理ルール記憶部30と、対象記憶部11と、類似度記憶部12とを備える。計算部4は、前処理部40と、類似度計算部21と、制御部22と、併合対象選択部23と、新対象作成部24と、併合対象除去部25と、新対象追加部26とを備える。対象記憶部11と、類似度記憶部12と、類似度計算部21と、制御部22と、併合対象選択部23と、新対象作成部24と、併合対象除去部25と、新対象追加部26とは、第1の実施形態と同様である。
Claims (18)
- 複数の対象データの中の自分自身との組合せを除く任意の2つの対象データの類似度を計算して類似度テーブルに記憶する類似度算出部と、
前記類似度が所定の基準を満たす2つの対象データを併合対象として選択する併合対象選択部と、
前記併合対象から新たな対象データを作成する新対象作成部と、
前記併合対象として選択された2つの対象データの各々とそれ以外の対象データとの類似度を前記類似度テーブルから除去する併合対象除去部と、
前記新たな対象データと、前記複数の対象データの中の前記新たな対象データ以外の対象データとの類似度を計算する新対象追加部
とを具備する類型化装置。 - 前記新対象作成部は、前記併合対象として選択された2つの対象データを連結することによって前記新たな対象データを作成する
請求項1に記載の類型化装置。 - 前記併合対象選択部は、前記類似度テーブルの中で最も類似度が高い2つの対象データを前記併合対象として選択する
請求項1または請求項2に記載の類型化装置。 - 前記類似度算出部は、コルモゴロフ複雑性の近似計算法に基づいて類似度を計算する
請求項1から請求項3のうちのいずれか1項に記載の類型化装置。 - 前記近似計算法は、2つの対象データのそれぞれを所定の圧縮方法によって圧縮した圧縮データのサイズと、2つの対象データを連結した連結データを前記所定の圧縮方法によって圧縮した圧縮データのサイズとに基づいて行われる
請求項4に記載の類型化装置。 - 前記複数の対象データの各々は、文書データ、画像データ、時系列データのいずれかである
請求項1から請求項5のうちのいずれか1項に記載の類型化装置。 - 複数の対象データの中の自分自身との組合せを除く任意の2つの対象データの類似度を計算して類似度テーブルに記憶し、
前記類似度が所定の基準を満たす2つの対象データを併合対象として選択し、
前記併合対象から新たな対象データを作成し、
前記併合対象として選択された2つの対象データの各々とそれ以外の対象データとの類似度を前記類似度テーブルから除去し、
前記新たな対象データと、前記複数の対象データの中の前記新たな対象データ以外の対象データとの類似度を計算する
類型化方法。 - 前記新たな対象データは、前記併合対象として選択された2つの対象データを連結することによって作成される
請求項7に記載の類型化方法。 - 前記類似度テーブルの中で最も類似度が高い2つの対象データが前記併合対象として選択される
請求項7または請求項8に記載の類型化方法。 - 前記類似度は、コルモゴロフ複雑性の近似計算法に基づいて計算される
請求項7から請求項9のうちのいずれか1項に記載の類型化方法。 - 前記近似計算法は、2つの対象データのそれぞれを所定の圧縮方法によって圧縮した圧縮データのサイズと、2つの対象データを連結した連結データを前記所定の圧縮方法によって圧縮した圧縮データのサイズとに基づいて行われる
請求項10に記載の類型化方法。 - 前記複数の対象データの各々は、文書データ、画像データ、時系列データのいずれかである
請求項7から請求項11のいずれか1項に記載の類型化方法。 - 複数の対象データの中の自分自身との組合せを除く任意の2つの対象データの類似度を計算して類似度テーブルに記憶する類似度算出機能と、
前記類似度が所定の基準を満たす2つの対象データを併合対象として選択する併合対象選択機能と、
前記併合対象から新たな対象データを作成する新対象作成機能と、
前記併合対象として選択された2つの対象データの各々とそれ以外の対象との類似度を前記類似度テーブルから除去する併合対象除去機能と、
前記新たな対象データと、前記複数の対象データの中の前記新たな対象データ以外の対象データとの類似度を計算する新対象追加機能
とをコンピュータに実現させるための類型化プログラム。 - 前記新対象作成機能は、前記併合対象として選択された2つの対象データを連結することによって前記新たな対象データを作成する
請求項13に記載の類型化プログラム。 - 前記併合対象選択機能は、前記類似度テーブルの中で最も類似度が高い2つの対象データを前記併合対象として選択する
請求項13または請求項14に記載の類型化プログラム。 - 前記類似度算出機能は、コルモゴロフ複雑性の近似計算法に基づいて類似度を計算する 請求項13から請求項15のうちのいずれか1項に記載の類型化プログラム。
- 前記近似計算法は、2つの対象データのそれぞれを所定の圧縮方法によって圧縮した圧縮データのサイズと、2つの対象データを連結した連結データを前記所定の圧縮方法によって圧縮した圧縮データのサイズとに基づいて行われる
請求項16に記載の類型化プログラム。 - 前記複数の対象データの各々は、文書データ、画像データ、時系列データのいずれかである
請求項13から請求項17のうちのいずれか1項に記載の類型化プログラム。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US13/263,030 US9075829B2 (en) | 2009-04-10 | 2010-04-08 | Clustering apparatus, and clustering method |
| JP2011508385A JP5569698B2 (ja) | 2009-04-10 | 2010-04-08 | 類型化装置、類型化方法及び類型化プログラム |
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2009-095618 | 2009-04-10 | ||
| JP2009095618 | 2009-04-10 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2010117031A1 true WO2010117031A1 (ja) | 2010-10-14 |
Family
ID=42936312
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/JP2010/056352 Ceased WO2010117031A1 (ja) | 2009-04-10 | 2010-04-08 | 類型化装置、類型化方法及び類型化プログラム |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US9075829B2 (ja) |
| JP (1) | JP5569698B2 (ja) |
| WO (1) | WO2010117031A1 (ja) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2012026197A1 (ja) * | 2010-08-24 | 2012-03-01 | 日本電気株式会社 | 文書分析システム、文書分析方法、文書分析プログラムおよび記録媒体 |
| WO2012124301A1 (ja) * | 2011-03-16 | 2012-09-20 | 日本電気株式会社 | 関連仕様対応付けシステム、関連仕様対応付け方法およびプログラム |
| JP2016006583A (ja) * | 2014-06-20 | 2016-01-14 | 株式会社エヌ・ティ・ティ・データ | ソーシャルネットワークサービスにおけるノイズ投稿の分類方法およびシステム |
| CN118656495A (zh) * | 2024-08-20 | 2024-09-17 | 湖南数据产业集团有限公司 | 一种舆情发布溯源方法、装置、设备及其存储介质 |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN114386281B (zh) * | 2022-01-13 | 2022-09-13 | 北京卫星环境工程研究所 | 一种基于聚类的试验加热回路自动设计方法 |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2008283412A (ja) * | 2007-05-10 | 2008-11-20 | Nippon Hoso Kyokai <Nhk> | コメント収集解析装置およびそのプログラム |
Family Cites Families (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| NL8503304A (nl) * | 1985-11-29 | 1987-06-16 | Philips Nv | Werkwijze en inrichting voor het segmenteren van een uit een akoestisch signaal, bij voorbeeld een spraaksignaal, afgeleid elektrisch signaal. |
| US6961664B2 (en) * | 1999-01-19 | 2005-11-01 | Maxygen | Methods of populating data structures for use in evolutionary simulations |
| JP2001229177A (ja) | 2000-02-16 | 2001-08-24 | Mitsubishi Electric Corp | 事例ベース構築方法、事例ベース構築装置及び事例ベース構築プログラムを記録した記録媒体 |
| JP4870448B2 (ja) | 2006-02-23 | 2012-02-08 | 株式会社日立製作所 | 情報処理装置、顧客ニーズ分析方法、およびプログラム |
| US7937334B2 (en) * | 2006-05-31 | 2011-05-03 | Lockheed Martin Corporation | System and method for defining normal operating regions and identifying anomalous behavior of units within a fleet, operating in a complex, dynamic environment |
| US8745055B2 (en) * | 2006-09-28 | 2014-06-03 | Symantec Operating Corporation | Clustering system and method |
| JP4936455B2 (ja) | 2007-03-22 | 2012-05-23 | 日本電信電話株式会社 | 文書分類装置、文書分類方法、プログラムおよび記録媒体 |
| US8136160B2 (en) * | 2008-11-25 | 2012-03-13 | At&T Intellectual Property I, Lp | System and method to select monitors that detect prefix hijacking events |
-
2010
- 2010-04-08 WO PCT/JP2010/056352 patent/WO2010117031A1/ja not_active Ceased
- 2010-04-08 JP JP2011508385A patent/JP5569698B2/ja not_active Expired - Fee Related
- 2010-04-08 US US13/263,030 patent/US9075829B2/en not_active Expired - Fee Related
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2008283412A (ja) * | 2007-05-10 | 2008-11-20 | Nippon Hoso Kyokai <Nhk> | コメント収集解析装置およびそのプログラム |
Non-Patent Citations (4)
| Title |
|---|
| ETSUKO INOUE: "A New Interactive Graph-Based Visualization Method for Large-Scale Clustering Analyses", THE IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS (J92-D), vol. J92-D, no. 3, 1 March 2009 (2009-03-01), pages 351 - 360 * |
| ISAO NAMBA: "Question Answering Retrieval for Log Using Pseudo Frequency", IEICE TECHNICAL REPORT, vol. 101, no. 712, 7 March 2002 (2002-03-07), pages 101 - 108 * |
| KAZUNARI ISHIDA: "On a statistical analysis of relation among documents in terms of terminology and a development of system to support the analysis", IPSJ SIG NOTES, vol. 99, no. 57, 16 July 1999 (1999-07-16), pages 49 - 56 * |
| YUKIKO FUJIWARA ET AL.: "Kolmogorov Fukuzatsu Sei ni Motozuku Seihin?Service no Kachi Hyoka", FIT2009, 4 September 2009 (2009-09-04), pages 55 - 62, Retrieved from the Internet <URL:http://www.sofken.com/FIT2009/pdf/F/RF002.pdf> * |
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2012026197A1 (ja) * | 2010-08-24 | 2012-03-01 | 日本電気株式会社 | 文書分析システム、文書分析方法、文書分析プログラムおよび記録媒体 |
| US9575937B2 (en) | 2010-08-24 | 2017-02-21 | Nec Corporation | Document analysis system, document analysis method, document analysis program and recording medium |
| WO2012124301A1 (ja) * | 2011-03-16 | 2012-09-20 | 日本電気株式会社 | 関連仕様対応付けシステム、関連仕様対応付け方法およびプログラム |
| JPWO2012124301A1 (ja) * | 2011-03-16 | 2014-07-17 | 日本電気株式会社 | 関連仕様対応付けシステム、関連仕様対応付け方法およびプログラム |
| JP2016006583A (ja) * | 2014-06-20 | 2016-01-14 | 株式会社エヌ・ティ・ティ・データ | ソーシャルネットワークサービスにおけるノイズ投稿の分類方法およびシステム |
| CN118656495A (zh) * | 2024-08-20 | 2024-09-17 | 湖南数据产业集团有限公司 | 一种舆情发布溯源方法、装置、设备及其存储介质 |
Also Published As
| Publication number | Publication date |
|---|---|
| US9075829B2 (en) | 2015-07-07 |
| JP5569698B2 (ja) | 2014-08-13 |
| US20120124048A1 (en) | 2012-05-17 |
| JPWO2010117031A1 (ja) | 2012-10-18 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Large et al. | On time series classification with dictionary-based classifiers | |
| CN107750015B (zh) | 视频版权的检测方法、装置、存储介质及设备 | |
| JP5458815B2 (ja) | マルチメディア検索システム | |
| JP2012038244A (ja) | 学習モデル作成プログラム、画像識別情報付与プログラム、学習モデル作成装置及び画像識別情報付与装置 | |
| CN114429566A (zh) | 一种图像语义理解方法、装置、设备及存储介质 | |
| Vidyadharan et al. | Digital image forgery detection using compact multi-texture representation | |
| JP5569698B2 (ja) | 類型化装置、類型化方法及び類型化プログラム | |
| US20190130030A1 (en) | Generation method, generation device, and recording medium | |
| Arya et al. | Local triangular coded pattern: a texture descriptor for image classification | |
| JP2019086979A (ja) | 情報処理装置、情報処理方法及びプログラム | |
| CN118643342A (zh) | 样本对生成、大模型的训练、图像检索方法及装置、设备和介质 | |
| JP7116969B2 (ja) | 2次元マップ生成装置、2次元マップ生成方法および2次元マップ生成用プログラム | |
| Le et al. | National Institute of Informatics, Japan at TRECVID 2011. | |
| US20250045459A1 (en) | Apparatus for and method of de-identification of medical images | |
| JP2019133478A (ja) | 計算機システム | |
| Dandekar et al. | Verification of family relation from parents and child facial images | |
| CN118643819A (zh) | 用于富文本内容查重的方法、处理器以及存储介质 | |
| CN112241470A (zh) | 一种视频分类方法及系统 | |
| CN114996360B (zh) | 数据分析方法、系统、可读存储介质及计算机设备 | |
| JP2011108192A (ja) | マルチメディア分類システム及びマルチメディア検索システム | |
| US11270155B2 (en) | Duplicate image detection based on image content | |
| KR101800975B1 (ko) | 필기체가 인식되어 생성된 전자문서의 공유 방법 및 그 장치 | |
| Deepa et al. | Age estimation in human face by fractal directional code method | |
| Kannagi et al. | Image Retrieval based on Deep Learning-Convolutional Neural Networks | |
| JP7333891B2 (ja) | 情報処理装置、情報処理方法、及び情報処理プログラム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 10761730 Country of ref document: EP Kind code of ref document: A1 |
|
| WWE | Wipo information: entry into national phase |
Ref document number: 2011508385 Country of ref document: JP |
|
| NENP | Non-entry into the national phase |
Ref country code: DE |
|
| WWE | Wipo information: entry into national phase |
Ref document number: 13263030 Country of ref document: US |
|
| 122 | Ep: pct application non-entry in european phase |
Ref document number: 10761730 Country of ref document: EP Kind code of ref document: A1 |