技術分野
[0001] 本発明は、文書の解析装置に係わり、特に調査対象文書或いは文書群を解析して
、その特徴を表す情報解析報告書自動作成装置、情報解析報告書自動作成プログ ラム、及び情報解析報告書自動作成方法に関するものである。
背景技術
[0002] 特許文書をはじめ技術的文書やその他の文書は年々確実に量が増えている。近 年、文書データが電子化されて流通するようになってから、膨大な文書から調査対象 の文書に類似した文書だけを自動検索するシステムが実用化されてきた。しかし、そ れでも検索結果の類似文書の量は多ぐ調査対象の文書の内容或いは性格を知る ためには、熟練した者が検索結果の類似文書を読み込まなければならな力つた。
[0003] 例えば、特許文献 1の「類似文書検索装置及び類似文書検索方法」にお!/、ても、 調査対象の文書或いは文書群に含まれる索引語を比較対象の文書群に含まれる索 引語と比較し、類似する索引語の種類や出現回数などから類似度を算出し、最も類 似度の高 、文書力 順に出力して ヽる。図 34は特許文献 1に示される装置の全体構 成図である。従来、入力装置 602から入力された調査対象文書は、制御装置 601の 中の類似度算出システムによりある抽出条件にて外部補助記憶装置 603のデータべ ースの文書群と比較して類似度算出の処理をし、出力装置 604にて出力し、出力し た文書一覧の結果に基づいて類似度の高い文書の内容を熟練した評価者が読み 込んで、調査対象文書の評価としていた。評価者は、類似度の高い文書の内容を知 るために、それらの数件乃至数千件程度を読み込まなければならな力つた。
特許文献 1:特開平 11 73415号公報
発明の開示
発明が解決しょうとする課題
[0004] しかし、前述した特許文献 1と同様な類似文書自動検索システムは、比較対象文書
群の中から、調査対象文書に類似した文書一覧を検索結果として出力し、評価者が 、調査対象文書に類似した該文書一覧から類似度の高!ヽ文書を数件から数千件程 度抽出して読み込み、調査対象の文書に類似している文書を見つけ、更に読み込 んで評価し、それらを基準に調査対象文書の性格を位置付けていたので、評価者は 、文書を数件力も数千件程度抽出て読み込まなければ、調査対象の文書の性格を 的確に表す表現を見つけることができな 、、 t 、う不具合が生じて 、た。
[0005] そこで、本発明は、人間が調査対象の文書も膨大な比較対象の文書も、それらの 内容を一切読むことなぐ該調査対象の文書の情報を的確に報告できる、情報解析 報告書を自動的に作成することを目的とする。
課題を解決するための手段
[0006] 上記課題を解決するために、本発明に係る情報解析報告書自動作成装置は、調 查対象文書の情報解析にお!ヽて、調査対象文書の比較対象文書に対する特徴を 表す報告書を作成する情報解析報告書自動作成装置であって、
少なくとも前記調査対象文書の入力を受け入れる入力手段と、
前記入力された調査対象文書に基づ!ヽて、データベースに記憶された比較対象 文書群の情報から、当該調査対象文書と類似な母集団文書の集合である母集団文 書群を選出する選出手段と、
前記調査対象文書の前記母集団文書に対する特徴ある索引語を抽出する抽出手 段と、
前記母集団文書および前記索引語に基づいて、前記調査対象文書の特徴を表す 情報解析報告書を生成する生成手段と、
前記情報解析報告書を表示手段、記録手段、又は通信手段に出力する出力手段 と、を備免るものである。
[0007] 例えば、比較対象文書に対する類似率を算出する算出手段をさらに有し、選出手 段は、算出手段の結果により母集団文書を選出する。また、算出手段は、各文書の 索引語毎の出現頻度と文書頻度の関数値による類似率を算出する。
[0008] また例えば、母集団或いは索引語を分布させてマップ状にするマップ生成手段と、 母集団或いは前記索引語のデータを一部取り込む出力データ取り込み手段と、マツ
プおよびデータの内容に応じた定形のコメントを取り込む定型コメント取り込み手段と 、自由なコメントを記入するコメント記入手段とをさらに備え、生成手段は、マップ、デ ータおよび Zまたはコメントを合成して調査対象文書の特徴を表す情報解析報告書 を生成する。
[0009] 好ましい実施態様においては、前記生成手段が、前記索引語或いは母集団文書 における所定項目ごとの集計であるキーワード集計、キーワード或いは母集団文書 における所定項目の時系列の推移を示す時系列集計、および Zまたは、母集団文 書における複数の所定項目のマトリクス集計を行 、、集計結果を含む情報解析報告 書を生成する。
[0010] より好ましくは、前記生成手段が、前記時系列集計において、キーワード或いは母 集団文書における所定項目の集計結果、および、当該集計結果の時系列の伸び率 のマトリクスにより表されるポートフォリオを作成し、当該ポートフォリオを含む情報解 析報告書を生成する。
[0011] 別の好ましい実施態様においては、前記生成手段が、前記抽出された索引語の、 前記比較対象文書群における出現頻度の関数値を算出する第 1出現値頻度算出手 段と、前記抽出された索引語の、前記母集団文書群における出現頻度の関数値を 算出する第 2出現値頻度算出手段と、各索引語についての、前記算出された比較対 象文書群における出現頻度の関数値と、前記母集団文書群における出現頻度の関 数値との組み合わせに基づき、各索引語とその位置づけデータとを含む頻度散布図 を生成する頻度散布図生成手段と、を有する。
[0012] さらに別の実施態様においては、前記生成手段が、前記母集団文書、或いは、前 記調査対象文書および母集団文書の内容データ及び時間データを抽出する抽出手 段と、前記各文書の内容データに基づき、前記複数の文書の相関を示す榭状図を 作成する榭状図作成手段と、前記榭状図を所定の規則に基づき切断しクラスタを抽 出するクラスタリング手段と、前記各文書の時間データに基づき、前記各クラスタに属 する文書群の当該クラスタ内における配列を決定するクラスタ内配列手段と、を有す る。
[0013] より好ましくは、前記クラスタリング手段が、前記榭状図を切断して親クラスタを抽出
し、前記親クラスタに属する各文書の内容データに基づ 、て前記親クラスタに属する 文書群の相関を示す部分榭状図を作成し、当該作成された部分榭状図を所定の規 則に基づき切断して子孫クラスタを抽出する。
[0014] 前記クラスタリング手段が、前記部分榭状図の作成のために、前記親クラスタに属 する複数の文書間での偏差が所定方法で定めた値より小さい値をとるベクトル成分 を各文書ベクトルから除去するのが望まし ヽ。
[0015] また、別の好ましい実施態様においては、前記生成手段が、前記各索引語につい ての、前記各クラスタにおける評価値をそれぞれ算出する評価値算出手段と、各索 引語について、前記各クラスタにおける評価値の、全てのクラスタでの和を算出し、 当該和に対する各クラスタにおける評価値の比を各クラスタについて算出し、当該比 の二乗をそれぞれ算出し、当該比の二乗の前記全てのクラスタにおける和を算出す ることによって得られる、前記クラスタにおける各索引語の分布の集中度を算出する 集中度算出手段と、前記分析対象のクラスタにおける各索引語の評価値の、前記各 クラスタ力 抽出された全ての索引語についての和を算出し、当該和に対する各索 引語の評価値の比を各索引語について算出することによって得られる、前記分析対 象のクラスタにおける各索引語のシ アを算出するシ ア算出手段と、各索引語につ いて、前記クラスタでの出現頻度の逆数の関数値を算出する第 1逆数算出手段と、 各索引語について、前記クラスタを含む全文書の出現頻度の逆数の関数値を算出 する第 2逆数算出手段と、前記第 1逆数算出手段の算出結果から前記第 2逆数算出 手段の算出結果を減算したものの関数値によって独創度を算出する独創度算出手 段と、前記集中度算出手段により算出された集中度と、前記シェア算出手段により前 記分析対象の文書群につき算出されたシェアと、前記独創度算出手段により算出さ れた独創度との組合せに基づいてキーワードを抽出するキーワード抽出手段と、を 有する。
[0016] また、本発明にかかる情報解析報告書作成装置は、ネットワークに接続され、当該 ネットワークを介して接続されたクライアントからの、調査対象文書の入力を受け入れ るウェブサーバと、前記調査対象文書をキューイングして、処理すべき順番となった 調査対象文書について、解析サーバに処理をリクエストする管理サーバと、前記リク
ェストに応答して、前記入力された調査対象文書に基づいて、データベースに記憶 された比較対象文書群の情報から、当該調査対象文書と類似な母集団文書の集合 である母集団文書群を選出し、前記調査対象文書の前記母集団文書に対する特徴 ある索引語を抽出し、かつ、前記母集団文書および前記索引語に基づいて、前記調 查対象文書の特徴を表す情報解析報告書を生成する解析サーバと、を備えて!ヽる。
[0017] 上記課題を解決するために、本発明に係る情報解析報告書自動作成プログラムは
、調査対象文書の比較対象文書に対する特徴を表す報告書を作成する情報解析報 告書自動作成プログラムであって、コンピュータを、少なくとも前記調査対象文書の 入力を受け入れる入力手段、前記入力された調査対象文書に基づいて、データべ ースに記憶された比較対象文書群の情報から、当該調査対象文書と類似な母集団 文書の集合である母集団文書群を選出する選出手段、前記調査対象文書の前記母 集団文書に対する特徴ある索引語を抽出する抽出手段、前記母集団文書および前 記索引語に基づいて、前記調査対象文書の特徴を表す情報解析報告書を生成する 生成手段、並びに、前記情報解析報告書を表示手段、記録手段、又は通信手段に 出力する出力手段として機能させるものである。
[0018] 例えば、コンピュータを、比較対象文書に対する類似率を算出する算出手段として 機能させ、選出手段は、算出手段の結果により母集団文書を選出する。また、算出 手段は、各文書の索引語毎の出現頻度と文書頻度の関数値による類似率を算出す る。
[0019] また、例えば、コンピュータを、母集団或いは前記索引語を分布させてマップ状に するマップ生成手段と、母集団或いは前記索引語のデータを一部取り込む出力デー タ取り込み手段と、マップおよびデータの内容に応じた定形のコメントを取り込む定型 コメント取り込み手段と、自由なコメントを記入するコメント記入手段として機能させ、 生成手段は、マップ、データおよび Zまたはコメントを合成して調査対象文書の特徴 を表す情報解析報告書を生成する。
[0020] 上記課題を解決するために、本発明に係る情報解析報告書自動作成方法は、調 查対象文書の情報解析にお!ヽて、調査対象文書の比較対象文書に対する特徴を 表す報告書を作成する情報解析報告書自動作成方法であって、少なくとも前記調査
対象文書の入力を受け入れる入力工程と、前記入力された調査対象文書に基づい て、データベースに記憶された比較対象文書群の情報から、当該調査対象文書と類 似な母集団文書の集合である母集団文書群を選出する選出工程と、前記調査対象 文書の前記母集団文書に対する特徴ある索引語を抽出する抽出工程と、前記母集 団文書および前記索引語に基づいて、前記調査対象文書の特徴を表す情報解析 報告書を生成する生成手段工程と、前記情報解析報告書を表示手段、記録手段、 又は通信手段に出力する出力工程とを備えたことを特徴とする。
[0021] 例えば、比較対象文書に対する類似率を算出する算出工程をさらに有し、選出ェ 程では、算出工程の結果により母集団文書を選出する。また、算出工程では、各文 書の索引語毎の出現頻度と文書頻度の関数値による類似率を算出する。
[0022] また、例えば、母集団或いは前記索引語を分布させてマップ状にするマップ生成 工程と、母集団或いは前記索引語のデータを一部取り込む出力データ取り込み工程 と、マップおよびデータの内容に応じた定形のコメントを取り込む定型コメント取り込 み工程と、自由なコメントを記入するコメント記入工程とをさらに備え、生成工程では、 マップ、データおよび Zまたはコメントを合成して調査対象文書の特徴を表す情報解 析報告書を生成する。
[0023] 本発明にお ヽては、入力された調査対象文書及び比較対象文書、情報解析をす る条件に基づいて、調査対象文書と類似な文書群力 なる母集団文書を比較対象 文書力 選出し、調査対象文書の母集団文書に対する特徴ある索引語を抽出し、母 集団文書および前記索引語に基づいて、調査対象文書の特徴を表す情報解析報 告書を生成するようになされる。
[0024] これにより、人間が調査対象の文書も膨大な比較対象の文書も、それらの内容を一 切読むことなぐ調査対象の文書の情報を的確に報告できる情報解析報告書を自動 的に作成すること可能となる。
[0025] また、母集団或いは索引語を分布させてマップと、母集団或いは索引語のデータと 、マップおよびデータの内容に応じた定形のコメントまたは自由なコメントとを合成し て調査対象文書の特徴を表す情報解析報告書を作成することが可能となる。
発明の効果
[0026] 本発明によれば、調査対象文書及び前記比較対象文書を指定して入力し、情報 解析をする条件を入力し、調査対象文書と類似な文書群カゝらなる母集団文書を比較 対象文書力 選出し、調査対象文書の母集団文書に対する特徴ある索引語を抽出 し、母集団文書および索引語に基づいて、調査対象文書の特徴を表す情報解析報 告書を生成し、そして、得られた情報解析報告書を表示手段、記録手段、又は通信 手段に出力するものである。
[0027] 例えば、比較対象文書に対する類似率を算出し、この算出結果により母集団文書 を選出する。また、算出工程では、各文書の索引語毎の出現頻度と文書頻度の関数 値による類似率を算出する。
[0028] これにより、人間が調査対象の文書も膨大な比較対象の文書も、それらの内容を一 切読むことなぐ調査対象の文書の情報を的確に報告できる情報解析報告書を自動 的に作成することができる。
[0029] また、母集団或いは索引語を分布させてマップ状にするマップ生成手段と、母集団 或いは索引語のデータを一部取り込む出力データ取り込み手段と、マップおよびデ ータの内容に応じた定形のコメントを取り込む定型コメント取り込み手段と、自由なコ メントを記入するコメント記入手段とを備え、生成手段は、マップ、データおよび Zま たはコメントを合成して調査対象文書の特徴を表す情報解析報告書を生成するため 、マップと、母集団或いは索引語のデータと、マップおよびデータの内容に応じた定 形のコメントまたは自由なコメントと、を有する情報解析報告書を作成することができ る。
図面の簡単な説明
[0030] [図 1]図 1は、本発明の実施の形態にかかる情報解析報告書自動作成装置の構成を 示す図である。
[図 2]図 2は、情報解析報告書自動作成装置 100の各部の構成を示すブロック図で ある。
[図 3]図 3は、入力装置 2の動作を示すフローチャートである。
[図 4]図 4は、処理装置 1の動作を示すフローチャートである。
[図 5]図 5は、出力装置 4の動作を示すフローチャートである。
[図 6]図 6は、入力条件設定例 (その 1)を示す図である。
[図 7]図 7は、入力条件設定例 (その 2)を示す図である。
[図 8]図 8は、入力条件設定例 (その 3)を示す図である。
[図 9]図 9は、出力条件設定例を示す図である。
圆 10]図 10は、情報解析報告書の一例を示す図である。
[図 11]図 11は、全期間における特許の出願人ランキングを示す図である。
[図 12]図 12は、最近 3年間における特許の出願人ランキングを示す図である。
[図 13]図 13は、国際特許分類 (IPC)の主分類のランキングを示す図である。
[図 14]図 14は、国際特許分類 (IPC)の主 ·副分類のランキングを示す図である。
[図 15]図 15は、出願人と国際特許分類 (IPC)のマトリックスマップを示す図である。 圆 16]図 16は、上位 10出願人と国際特許分類 (IPC)上位 5分類の関係を示す表で ある。
圆 17]図 17は、上位 20出願人と国際特許分類 (IPC)主分類との関係を示す図であ る。
[図 18]図 18は、重要キーワード (対全比較対象文書)別の件数分布を示す図である
[図 19]図 19は、重要キーワード (対母集団)別の件数分布を示す図である。
[図 20]図 20は、出願人別件数推移を示す図である。
[図 21]図 21は、出願人と出願件数との関係を示す表である。
[図 22]図 22は、国際特許分類 (IPC)別件数推移を示す図である。
[図 23]図 23は、国際特許分類 (IPC)と出願件数との関係を示す表である。
圆 24]図 24は、所定国際特許分類 (IPC)別件数推移を示す図である。
[図 25]図 25は、母集団全体のポートフォリオを示す図である。
[図 26]図 26は、国際特許分類 (IPC)のポートフォリオを示す図である。
[図 27]図 27は、重要キーワード (対全比較対象文書)別件数推移を示す図である。
[図 28]図 28は、重要キーワード (対全比較対象文書)と出願件数との関係を示す表 である。
圆 29]図 29、重要キーワード (対母集団)別件数推移を示す図である。
[図 30]図 30は、重要キーワード (対母集団)と出願件数との関係を示す表である。 圆 31]図 31は、調査対象文書のキーワード分布を示す頻度散布図である。
[図 32]図 32は、調査対象文書の構造図である。
圆 33]図 33は、母集団内類似率を用いた類似率ランキングと公報内容抜粋を示す 図である。
[図 34]図 34は、従来の類似文献検索装置の構成例を示す図である。
[図 35]図 35は、類似率計算を説明するための図である。
[図 36]図 36は、第 2の実施の形態にかかる情報解析報告書自動作成装置およびク ライアントを含む構成図である。
[図 37]図 37A, Bは、それぞれ、クライアントの表示装置上の画面の例を示す図であ る。
[図 38]図 38は、第 1の解析サーバにおいて実行される処理を示すフローチャートで ある。
[図 39]図 39は、集計処理の例を示すフローチャートである。
[図 40]図 40は、頻度散布図におけるキーワードごとの座標の算出に必要な全ての処 理ステップを、順に示したフローチャートである。
圆 41]図 41は、第 1の解析サーバにおける特許構造図作成のための構成を示すブ ロックダイヤグラムである。
圆 42]図 42は、第 1の解析サーバにおける特許構造図作成処理の概略を示すフロ 一チャートである。
[図 43]図 43は、クラスタ抽出過程をより詳細に説明するフローチャートである。
[図 44]図 44A〜図 44Fは、それぞれ、本実施の形態に力かるクラスタ抽出過程での 榭状図配置例を示す図である。
[図 45]図 45は、キーワード抽出のための構成を示すブロックダイヤグラムである。
[図 46]図 46は、キーワード抽出過程をより詳細に説明するフローチャートである。
[図 47]図 47は、クラスタ情報出力までの処理の流れを示す図である。
[図 48]図 48は、他の実施の形態に力かるクライアント、ウェブサーバ、管理サーバ、 第 1および第 2の解析サーノ 、並びに、データベースサーバで実行される処理を示
すフローチャートである。
[図 49]図 49は、他の実施の形態に力かるクライアント、ウェブサーバ、管理サーバ、 第 1および第 2の解析サーノ 、並びに、データベースサーバで実行される処理を示 すフローチャートである。
[図 50]図 50は、他の実施の形態に力かるクライアント、ウェブサーバ、管理サーバ、 第 1および第 2の解析サーノ 、並びに、データベースサーバで実行される処理を示 すフローチャートである。 符号の説明
1 処理装置
2 入力装置
3 記録装置
4 出力装置,
100 情報解析報告書自動作成装置
110 調査対象文書 d読み出し部
120 索引語 (d)抽出部
130 比較対象文書 P読み出し部
140 索引語 (P)抽出部
121 TF (d)演算部
141 TF (P)演算部
142 IDF (P)演算部
150 類似率演算部
151 母集団絞込み部
160 母集団文書 S選出部
170 索引語 (S)抽出部
171 IDF (S)演算部
180 特徴索引語,母集団内類似率,頻度散布図,構造図等演算部
210 調査対象文書 d条件入力部
220 比較対象文書 P条件入力部
230 抽出条件その他入力部
310 条件記録部
320 作業結果格納部
330 文書格納部
410 マップ作成条件読出部
412 マップ用データ取り込み部
420 データ出力条件読出部
422 出力データ取り込み部
430 コメント条件読出部
432 定形コメント取り込み部
435 コメント追記部
440 報告書生成部
450 出力部
発明を実施するための最良の形態
[0032] 以下、本発明の実施の形態について、図面を参照して詳細に説明する。
[定義]
ここで、まず本明細書の中で使用した語彙を定義或いは説明する。
[0033] d:調査対象文書 (調査に係る、ある案件。例えば、特許公報第何号などの文書、或 いはその集合)
比較対象文書:全文書 P、或いは、母集団文書 S
P:全文書 (調査対象文書 dを含む比較対象文書の集合全体)
N:全文書 Pの文書数
P :全文書の中の 1文書 (p , p , · · 'など、 N個存在する。 )
a b
S :母集団文書 (全文書 Pの一部であり、本実施の形態においては、全文書 Pの中 で調査対象文書 dに類似な文書の集団 (dを含む。 ) )
N,:母集団文書 Sの文書数 (N, <N)
s :母集団文書の中の 1文書 (s , s ,…など、 N'個存在する。 )
a b
図中の構成部品に付してある、 d或いは (d)、 P或いは (P)、 p或いは (p)、又は S或
いは(s)は、それぞれ調査対象文書、比較対象文書、全文書のうちの 1文書、又は、 母集団文書の意味であり、以降判別しやすいように構成部品や動作にも付する。例 えば、索引語 (d)とは、調査対象文書 dの索引語を意味する。より具体的には、本実 施の形態において、文書 dの索引語は、 d、 d、 d、 · · ·、 dの x個と考える。また、文
1 2 3
書 Pの索引語は、 P 、Ρ 、 · · ·、Ρ の ya個であり、これらの一部或いは全部力 dの a2
索引語 d、 d、 · · ·、 dと一致する場合がある。
1 2
[0034] 文書 pbの索引語は、 p 、 p 、 · · ·、 p の yb個であり、同様に、これらの一部或い b2
は全部力 dの索引語 d、 d、 · · ·、 dと一致する場合がある。
1 2
[0035] 同様に、文書 pyの索引語は、 p 、 p 、 · · ·、 p の yy個であり、同様に、これらの一
2 yyy
部或いは全部力 dの索引語 d、 d、 · · ·、 dと一致する場合がある。
1 2
[0036] なお、文書 pなどの索引語のうち、 d、 d、 · · ·、 dと一致する索引語以外は、後述
1 2
するようにベクトルを生成して内積を算出すると「0」となってしまう。したがって、索引 語としては、文書 dの索引語 d、 d、 · · ·、 dのみを処理対象とすれば足りる。
[TF演算]
TF演算とは Term Frequencyの計算のことであり、ある文書に含まれる索引語の 当該文書内の出現頻度 (索引語頻度)のカウントの関数値の演算である。
[0037] DF演算の DFとは Document Frequencyの計算のことであり、ある文書に含まれ る索引語で比較対象文書群力も検索したときのヒット数 (文書頻度)のカウント (計数) の演算である。
[0038] IDF演算とは、例えば DF演算結果の逆数、或いは、当該逆数に Pないし Sの文書 数を乗じたものの対数などの演算である。対数にする意味や効果は、たとえば、ゼロ 付近の関数値の目盛の間隔を拡大する一方、大きい数の関数値の目盛の間隔を縮 めて、 1つの平面状で、目視しゃすくできることにある。
[0039] また、本実施の形態において利用する関数について、以下のように標記する。
[0040] TF (d) : dの索引語 (d , · · · , d )による、 dの中での出現頻度
ここに、 TF (d)を、 TF (索引語;文書)という形式で書くと以下の通りとなる。
[0041] TF (d ;d):文書 dの索引語 dによる、文書 dの中での出現頻度
TF (d ;d) :文書 dの索引語 dによる、文書 dの中での出現頻度
TF(dx;d):文書 dの索引語 dxによる、文書 dの中での出現頻度
TF(P):Pの索引語 (P , ···, p )による、 Pの中での出現頻度
a al aya a
ここに、 TF(P )を、 TF (索引語;文書)という形式で書くと以下の通りとなる c
a
TF(p ; p):文書 pの索引語 p による、文書 pの中での出現頻度
& al a
TF(p : p):文書 pの索引語 p による、文書 pの中での出現頻度
a2 a a a2 a
TF(p ; p):文書 paの索引語 p による、文書 pの中での出現頻度
aya a aya a
し力しながら、後述するように、 TF(p )については、以下の出現頻度のみを見れば
a
足りる。
TF(d; p ):文書 pの索引語 dによる、文書 pの中での出現頻度
TF(d; p ):文書 pの索引語 dによる、文書 pの中での出現頻度
2 a a 2
TF(d; p ) 文書 pの索引語 dによる、文書 pの中での出現頻度
X a a x a
TF(d; p ) 文書 Pの索引語 dによる、文書 pの中での出現頻度
1 b b 1 b
TF(d; p ) 文書 Pの索引語 dによる、文書 pの中での出現頻度
TF(d; p ):文書 pの索引語 dによる、文書 pの中での出現頻度
X b b x b
TF(d; p ):文書 pの索引語 dによる、文書 pの中での出現頻度
1 y i y
TF(d; p ):文書 pの索引語 dによる 、文書 Pの中での出現頻度
2 2
TF(d; p ):文書 pの索引語 dによる 文書 pの中での出現頻度
X y y χ y
つまり、文書 pの索引語(p , ···, P )のうち、(d , ···, d )のみについて算出
a al
すれば足りる。
また TF(p )とは、文書 pの中での出願頻度である。たとえば、
b b
TF(d; p ):文書 pの索引語 dによる、 pの中での出現頻度
l b b 1 b
また、 TF(p )とは、文書 pの中での出現頻度である。たとえば、
TF(d; p ):文書 pの索引語 dによる、文書 pの中での出現頻度
2 y y 2 y
[DF演算]
DF(P) :dの索引語による、 Pの中での文書頻度
DF(P)は、文書全体の中にどれだけ、文書 dの索引語と同じ索引語 d , ···, d力 S 使われているかを示す値である。たとえば、「装置」という索引語力 600万件の文書 のうち 1Z10で使われていれば、 DFは 60万となる。
[0045] 同様に、 DF (索引語;全文書)という形式で書くと、以下の通りとなる。
[0046] DF(d; P): dの索引語 dによる、 P全体の N個の文書(p〜p )の中で、 d力 1回で
1 1 a 1 も出現するような文書頻度 (文書数)
DF(d; P): dの索引語 dによる、 P全体の N個の文書(p〜p )の中で、 d力 1回で
2 2 a 2 も出現するような文書頻度 (文書数)
DF(d; P): dの索引語 dによる、 P全体の N個の文書(p〜p )の中で、 d力 1回で も出現するような文書頻度 (文書数)
以下、 DF(S)についても、同様に考えることができる力 その詳細な説明は省略す る。
[0047] DF(S) :dの索引語による、 Sの中での文書頻度
[IDF]
以下に述べる IDFは、 DF (文書 P全体の中での dの索引語の文書頻度)の N (全文 書数)に対する比の逆数をとり、さらに、分布が偏らないようにするため、その対数をと つたものである。
[0048] IDF (P): DF (P)の逆数 X文書数の対数: In [N/DF (P) ]
IDF (S): DF (S)の逆数 X文書数の対数: In [N'/DF (S) ]
たとえば、 N (全文書数)が 600万で、 DF(d; P) =600万のとき、すなわち、ある索 引語 dが全文書 P中の全ての文書に含まれるときには、 IDF(d; P) =0となる。また 、 DF(d; P) =60万のとき、すなわち、ある索引語 d力 全文書 Pのうち 1Z10に文
2 2
書に含まれるときには、 IDF(d; P)=lとなる。
2
[TFIDFおよび文書べクトノレ]
TFIDF: TFの関数値と IDF (DFの逆数)の関数値との積であり、文書の索引語ご とに演算される。これが文書の類似性をみるための元となる索引語ごとの数値であり 、ある索引語の文書内の出現頻度には比例させ、文書頻度についてはその関数地 にして力も反比例させた。
[0049] 簡単な例として、 TF(d)と IDF(P)を 1対 1で積算することを考える。ただし、実際に は、 1対 1には限定されない。たとえば、 dの文書ベクトルの成分を以下のように考える
[0050] TF(d ;d) *IDF(d ;P)
TF(d ; d) *IDF(d ; P)
2 2
TF(d ; d) *IDF(d ; P)
また、 pの文書ベクトルを以下のように考える。
a
[0051] TF(d ; p ) *IDF(d ; P)
1 a 1
TF(d ; p ) *IDF(d ; P)
2 a 2
TF(d ; p ) *IDF(d ; P)
ここに、文書ベクトルとは、文書の索引語ごとに TFIDFが演算され、それらの索引 語の値を成分としたベクトルを 、う。
[0052] 文書 dの文書ベクトルの成分は、 TF (d ; d) * IDF (d ; P)、 · · ·、 TF (d ; d) * IDF
( ;Ρ)などとなる。また、文書 ρの文書ベクトルの成分は、 TF(d ; pa) *IDF(d ; P) のようになる。すなわち、それぞれの文書ベクトルは以下のように表される。
[0053] {文書 dの文書ベクトル } = {TF(d ; d) *IDF(d ; P)、TF(d ; d) *IDF(d ; P)、 ·
1 1 2 2
··、 TF(d ; d) *IDF(d ; P)}
{文書 paの文書ベクトル } = {TF(d ; p ) *IDF(d ; P)ゝ TF(d ; p ) *IDF(d ; P)
1 a 1 2 a 2
、 …ゝ TF(d ; p ) *IDF(d ; P)}
[類似率 (類似度)]
類似率 :2つの文書間の類似の程度を表すものであり、本明細書において、類似度 とも称する。本実施の形態においては、 2つの文書ベクトルの性質の近さを測るため
に、ベクトル同士の内積により数値化した。たとえば、調査対象文書 dの、比較対象文 書群 Pに属するある比較対象文書 pとの類似率 (D, P: P)は、調査対象文書 dの文 a a
書ベクトル (d)と、比較対象文書群 Pに属するある比較対象文書 Pの文書ベクトル (p a
a )との内積を意味する。
[0054] {類似率 (d, p ;P)}
a
= {文書 dの文書ベクトル } · {文書 paの文書ベクトル)
= [{TF(d; d)*IDF(d; P)}*{TF(d; p ) *IDF(d; P)}
+ {TF(d; d)*IDF(d; P)}*{TF(d; p ) *IDF(d; P
2 2 2 a 2 )H
+ {TF(d; d) *IDF(d; P)}*{TF(d; p ) *IDF(d ; P)}]
x x x a x2
比較対象文書 pの類似率:本実施の形態において、調査対象文書 dの比較対象文 書群 Pに属する或る比較対象文書 pに対する類似率である。調査対象文書 dの文書 ベクトル (d)と、比較対象文書群 Pに属する或る比較対象文書 pの文書ベクトル (p)と の内積の和を意味する。
[0055] ここで、索引語とはいわゆるキーワードであり、文書の全部或いは一部から切り出さ れる単語のことである。単語の切り出し方は従来から知られて ヽる方法や市販のソフ トを活用して、助詞や接続詞を除き、意味ある名詞を抽出してもよいし、又索引語の 辞書 (シソーラス)のデータベースを事前に保持し該データベース力 得られる索引 語を利用してもよい。
[0056] なお、調査対象文書が複数ある文書群の場合は、抽出する対象は、前記の通りの 索引語でもよいが、個々の文書、 IPCの分類、企業や企業の集まりや業界、年毎例 えば特許出願年や特許登録年などに束ねたものを抽出対象とすることも可能である 。以下、本明細書では、代表して索引語とすることが多い。
[情報解析報告書自動作成装置]
図 1は、本発明の実施の形態の情報解析報告書自動作成装置のハードウェア構成 を示す図である。
[0057] 図 1に示すように、本発明に係る情報解析報告書自動作成装置 100は、 CPU (中 央演算子)およびメモリイ (記憶装置)などから構成される処理装置 1、キーボード (手 入力器具)などの入力手段である入力装置 2、文書データや条件や処理装置 1によ
る作業結果などを格納する記録手段である記憶装置 3、および特徴索引語の抽出結 果などをマップやデータなどで表示などする出力手段である出力装置 4から構成され る。
[0058] 図 2は、本発明に係る情報解析報告書自動作成装置の各部の機能を説明するた めのブロック図である。
[0059] 図 2に示すように、処理装置 1は、調査対象文書 d読み出し部 110と、索引語 (d)抽 出部 120と、 TF (d)演算部 121と、比較対象文書 P読み出し部 130と、索引語 (P)抽 出部 140と、比較対象文書 Pの TF (P)演算部 141と、比較対象文書 Pの IDF (P)演 算部 142と、類似率演算部 150と、母集団絞込み部 151と、母集団文書 S選出部 16 0と、索引語 (S)抽出部 170と、 IDF (S)演算部 171と、特徴索引語 ·母集団内類似 率 ·頻度散布図 ·構造図等演算部 180とから構成される。
[0060] 入力装置 2は、調査対象文書 d条件入力部 210と、比較対象文書 P条件入力部 22 0と、抽出条件その他入力部 230とから構成される。
[0061] 記憶装置 3は、条件記録部 310と、作業結果格納部 320と、文書格納部 330とから 構成される。文書格納部 330は外部データベースや内部データベースを含んで 、る 。外部データベースとは、例えば特許庁でサービスしている特許電子図書館の IPD Lや、株式会社パトリスでサービスして!/、る PATOLISなどの文書データベースを意 味する。又内部データベースとは、販売している例えば特許 JP— ROMなどのデータ を自前で格納したデータベース、文書を格納した FD (フレキシブルディスク)、 CD- ROM (コンパクトディスク)、 MO (光磁気ディスク)、 DVD (デジタルビデオディスク) などの媒体力 読み出す装置、紙などに出力された或いは手書きれた文書を読み込 む OCR (光学的情報読み取り装置)などの装置及び読み込んだデータをテキストな どの電子データに変換する装置などを含んでいるものとする。
[0062] 出力装置 4は、マップ作成条件読み出し部 410と、マップ用データ取り込み部 412 と、マップ (グラフ'表)生成部 415と、データ出力条件読み出し部 420と、出力データ 取り込み部 422と、コメント条件読み出し部 430と、定形コメント取り込み部 432と、コ メント追記部 435と、マップ ·データ ·コメントを合成し報告書を生成する報告書生成部 440と、生成された報告書を出力する出力部 450とから構成される。
[0063] 図 1および図 2において、処理装置 1、入力装置 2、記憶装置 3、および出力装置 4 の間で信号やデータをやり取りする通信手段としては、 USB (ユニバーサルシステム バス)ケーブルなどで直接接続してもよ 、し, LAN (ローカルエリヤネットワーク)など のネットワークを介して送受信してもよいし、文書を格納した FD、 CDROM、 MO、 D VDなどの媒体を介してもよい。或いはこれらの一部、又はいくつかを組み合わせた ものでもよい。
[0064] 図 1および図 2に示す本発明の情報解析報告書自動作成装置 100、および該情報 解析報告書自動作成装置 100用プログラム、および報告書作成方法における機能 を詳しく説明する。
[0065] 図 2に示す入力装置 2において、調査対象文書 d条件入力部 210は、入力画面な どによって調査対象文書 dの読み出しを行なう条件を設定する。比較対象文書 P条 件入力部 220は、入力画面などによって比較対象文書 Pの読み出しを行なう条件を 設定する。抽出条件その他入力部 230は、入力画面などによって調査対象文書 d及 び比較対象文書 Pの索引語抽出条件、 TF演算の条件、 IDF演算の条件、類似率演 算の条件、類似文書の選出条件、マップ作成条件、データ出力条件、コメント追記条 件、母集団絞込み条件などを設定する。これら入力された条件は、記憶装置 3の条 件記録部 310へ送られ格納される。
[0066] 図 2に示す処理装置 1において、調査対象文書 d読み出し部 110は、調査対象の 文書を、条件記録部 310に格納された読み出し条件に基づいて、文書格納部 330よ り読み出し、そして索引語 (d)抽出部 120に転送する。索引語 (d)抽出部 120は、条 件記録部 310に格納された抽出条件に基づ 、て、調査対象文書 d読み出し部 110 で得られた文書力 索引語の抽出を行ない、抽出された索引語を作業結果格納部 3 20に格納する。
[0067] また、比較対象文書 P読み出し部 130は、母集団の文書を、条件記録部 310に格 納された読み出し条件に基づいて、文書格納部 330より読み出し、索引語 (P)抽出 部 140に転送する。索引語 (P)抽出部 140は、条件記録部 310に格納された抽出条 件に基づいて、比較対象文書 P読み出し部 130で得られた文書力も索引語の抽出を 行ない、抽出された索引語を作業結果格納部 320に格納する。
[0068] 上述した比較対象文書 P読み出し部 130および索引語 (P)抽出部 140においては 、通常は比較対象文書のひとつである特許公開公報などの公報全部と 、う場合が多 ぐ一度索引語を切り出して用意し保存しておけば、わざわざ改めて切り出す必要は ないので、省略することができる。
[0069] TF (d)演算部 121は,条件記録部 310に格納された条件に基づいて、作業結果 格納部 320に格納された調査対象文書 dについての索引語 (d)抽出部 120の作業 結果を、 TF演算して、 TF (d;d)を得て、作業結果格納部 320に格納し、或いは直接 類似率演算部 150、或いは特徴索引語,母集団内類似率,頻度散布図,構造図等演 算部 180に転送する。
[0070] TF (P)演算部 141は,条件記録部 310に格納された条件に基づいて、作業結果 格納部 320に格納された比較対象文書 Pについての索引語 (P)抽出部 140の作業 結果を、 TF演算して、 TF (d;p)を得て、作業結果格納部 320に格納し、或いは直接 類似率演算部 150、又は直接、特徴索引語,母集団内類似率,頻度散布図,構造図 等演算部 180に転送する。
[0071] IDF (P)演算部 142は、条件記録部 310に格納された条件に基づいて、作業結果 格納部 320に格納された比較対象文書 dから抽出された索引語 (d)の各々について 、 IDF演算して、 IF (d;P)を得て、作業結果格納部 320に格納し、或いは直接類似 率演算部 150、又は直接、特徴索引語,母集団内類似率,頻度散布図,構造図等演 算部 180に転送する。
[0072] 類似率演算部 150は、条件記録部 310に格納された条件に基づいて、 TF (d)演 算部 121、 TF (P)演算部 141、及び IDF (P)演算部 142の演算結果を、それぞれか ら直接或いは作業結果格納部 320から得る。なお、前述したように、 TF (d)演算部 1 21の演算結果は TF (d;d)、 TF (P)演算部 141の演算結果は、 TF (d;p)、 IDF (P) 演算部 142の演算結果は、 IDF (d;P)である。類似率演算部 150は、次いで、比較 対象文書 Pの文書それぞれの、調査対象文書 dに対する類似率を演算し、比較対象 文書 Pのそれぞれに類似率データとして付され、作業結果格納部 320或 、は直接母 集団文書 S選出部 160に転送する。
[0073] 類似率演算部 150における類似率の演算は、各文書が索引語毎に、例えば TFID
F演算などに代表される計算がなされ、比較対象文書 Pの文書それぞれの、調査対 象文書 dに対する類似率が計算される。 TFIDF演算とは、 TF演算結果と IDF演算 結果の積である。類似率 (類似度)の演算方法の一例を以下に詳しく述べる。
[0074] 今、 dを調査対象文書とし、 pを比較対象文書群 Pの個々の文書とする。これら文書 dおよび pに対する演算の結果、文書 dから切り出された索引語が「赤」「青」および「 黄」であったと考える。また、文書 p力も切り出された索引語が「赤」「白」であったと考 える。その場合、文書 d中の索引語の索引語頻度を TF (d)とし、文書 p中の索引語の 索引語頻度を TF (p)とし、比較対象文書群 Pから得た索引語の文書頻度を DF (P)と し、全文書数を 50とする。
[0075] このとき、例えば、それぞれの頻度を、図 35Aに示す。 TF * IDF (P)をそれぞれの 文書の索引語毎に計算すると、図 35Bに示すようになる。
[0076] 図 35Bの各欄に示されたもの力 文書 d或いは文書 pの、 TF(d) * IDF(P)或いは T F(p) * IDF(P)を成分としたベクトルの表現である。文書ベクトル d及び文書ベクトル p は次のように表現される。但し、行と列を置換して表現してある。
[0077] 文書ベクトル d= (l*ln(50/30)、 2*ln(50/20)、 4*ln(50/45)、 0)
文書ベクトル p= (2*ln(50/30)、 0、 0、 l*ln(50/13))
次に、類似度が算出される。すなわち、この文書ベクトル dと文書ベクトル pとの内積 をとれば、文書ベクトル dと文書ベクトル pとの間の類似度が得られる。なお、文書べク トル間の類似度の値が大き!/、ほど文書間の類似の度合 、が高!、ことを意味し、文書 ベクトル間の距離 (非類似度)という表現をすれば値が小さいほどやはり類似の度合 いが高いことを意味する。文書ベクトル間の内積は、ベクトル各成分の籍の総和であ るから以下のように求められる。
[0078] (文書ベクトル d ·文書ベクトル p) = l*ln(50/30) * 2*ln(50/30) + 0 + 0 + 0
ここで、右辺最後の項は「0」になる。すなわち、調査対象文書 dから抽出された索 引語 (d)以外の索引語の内積の成分すなわち類似率は「0」であるから、索引語 (d)の 各々についてだけ、 TFIDF演算すれば足りることがわかる。つまり、片方に索引語が 存在しなければ、内積の成分力「0」であることを考慮して、 dの索引語のみを演算対 象とすることで、演算量を減じることができる。
[0079] 上記類似率に基づくと、 dの索引語に似た索引語が pに存在すればするほど、内積 の成分力^にならず、類似率として高い値が得られ、 dの索引語に似た索引語が pに は少なければ少ないほど、内積の成分力^になるものが多いので、成分の和の類似 率として低い値となる。
[0080] なお、類似率の演算の方法はいろいろあるので、前記の、 TF (d)演算部 121、 TF
(P)演算部 141、及び IDF (P)演算部 142に基づ 、た類似率演算部 150の場合はこ のままでよいが、前記の、 TF (d)演算部 121、 TF (P)演算部 141、及び IDF (P)演 算部 142を必要としない類似率の演算の方法のときは、総て省略して類似率演算部 150だけとしてもよい、ことは言うまでもない。
[0081] 母集団絞込み部 151は、条件記録部 310に格納された選出条件に基づいて、選 ばれる母集団の絞込みをするためのものである。例えば、出願件数の多い出願人に 絞る、又は逆に出願件数の少ない出願人に絞る、特別な IPCに絞る、業種を限定す るなど、母集団を絞り込むことができる。また、絞込みが不要な場合はパスすることが できる。
[0082] 母集団文書 S選出部 160は、条件記録部 310に格納された選出条件に基づいて、 作業結果格納部 320或いは直接類似率演算部 150の結果、或いは母集団絞込み 部 151から、設定された条件に沿った数の母集団文書 Sを選出する。例えば、類似 率の高い順に文書をソートし、条件に記された必要な数だけ選出し、作業結果格納 部 320或いは直接索引語 (S)抽出部 170に転送する。
[0083] また、母集団文書 S選出部 160の出力から、直接、マップ用データ取り込み部 412 や出力データ取り込み部 422に進むことがあるので、その場合は、以降の構成は不 要となることも言うまでもな 、。
[0084] 索引語 (S)抽出部 170は、条件記録部 310に格納された条件に基づいて、作業結 果格納部 320或いは母集団文書 S選出部 160の結果の母集団文書 Sから、索引語( S)を抽出し、抽出された索引語 (S)を作業結果格納部 320或いは直接 IDF (S)演 算部 171に転送する。
[0085] IDF (S)演算部 171は、条件記録部 310に格納された条件に基づいて、作業結果 格納部 320或いは直接索引語 (S)抽出部 170からの作業結果を、 IDF演算して、そ
の結果を作業結果格納部 320に格納し或いは直接特徴索引語'母集団内類似率- 頻度散布図 ·構造図等演算部 180に転送する。
[0086] 特徴索引語,母集団内類似率,頻度散布図,構造図等演算部 180は、条件記録部 310に格納された条件に基づいて、作業結果格納部 320から、或いは TF (d)演算 部 121の結果、 TF (P)演算部 141の結果、 IDF (P)演算部 142の結果、及び直接 I DF (S)演算部 171の結果から、選出のための条件に記された必要な数だけ、或い は条件に基づいた計算結果により選ばれた数だけ、母集団文書及び索引語を、例 えば類似率やキーワード重要度の高い順に選出し、頻度散布図(キーワード分布図 )、又は構造図を演算して、その結果を作業結果格納部 320に格納する。
[0087] 図 2に示す記憶装置 3において、条件記録部 310は、入力装置 2から得られた条件 などの情報を記録し、処理装置 1或いは出力装置 4の要求に基づき、それぞれに必 要なデータを送る。作業結果格納部 320は、処理装置 1における各構成部位の作業 結果を格納し、処理装置 1或いは出力装置 4の要求に基づき、それぞれに必要なデ ータを送る。
[0088] 文書格納部 330は、入力装置 2或いは処理装置 1の要求に基づき、外部データべ ース或いは内部データベース力 得た必要な文書データを格納するとともに、処理 装置 1或いは出力装置 4の要求に基づき、提供する。
[0089] 図 2に示す出力装置 4において、マップ作成条件読出部 410は、条件記録部 310 に格納された条件に基づいて、マップの作成条件を読み出し、マップ用データ取り込 み部 412に送る。また、データ出力条件読出部 420は、条件記録部 310に格納され た条件に基づいて、データの出力条件を読み出し、出力データ取り込み部 422に送 る。コメント条件読出部 430は、条件記録部 310の条件に基づいて、コメントの出力 条件や追記条件を読み出し、定形コメント取り込み部 432に送る。なお、コメント追記 部 432で自由なコメントを追記することが可能である。
[0090] マップ用データ取り込み部 412は、マップ作成条件読み出し部 410により読み出さ れた条件に従い、作業結果格納部 320に格納された母集団文書 S選出部 160の結 果、特徴索引語 ·母集団内類似率 ·頻度散布図 ·構造図等演算部 180の結果などを 、文書格納部 330のデータとともに取り込み、作業結果格納部 320或いは直接マツ
プ (グラフ ·表)生成部 415に送られる。
[0091] マップ(グラフ ·表)生成部 415は、マップ用データ取り込み部 412からのデータを使 つて、グラフ、表、タイトル、凡例などを生成する。その結果を報告書生成部 440に送 る。
[0092] 出力データ取り込み部 422は、データ出力条件読み出し部 420の条件に従い、作 業結果格納部 320に格納された、母集団文書 S選出部 160の結果や特徴索引語 T F (d)
IDF (S)演算部 180の結果などを、文書格納部 330のデータとともに取り込み、作業 結果格納部 320或いは直接報告書生成部 440に送る。
[0093] 定形コメント取り込み部 432は、コメント条件読出部 430の条件に従い、作業結果 格納部 320や文書格納部 330のデータを取り込み、コメント追記部 435に、或いは直 接報告書生成部 440に送る。
[0094] コメント追記部 435は、コメント条件読出部 430の条件に従い、キーボードや OCR などの外部入力装置から直接、或いは文書格納部 330の内部データベースに事前 に用意したものを、調査対象文書 dの評価者のコメントとして追記するためのデータを 用意し、作業結果格納部 320或 ヽは直接報告書生成部 440に送る。
[0095] 報告書生成部 440は、マップ (グラフ'表)生成部 415から出力される条件とデータ 、出力データ取り込み部 422から出力される条件とデータ、定形コメント取り込み部 4 32から出力される条件とデータ及びコメント追記部 435から出力される条件とデータ をそれぞれ直接或いは作業結果格納部 320より得て、マップ ·データ'コメントを紙出 力として最適な形に整形し、情報解析報告書を生成する。生成された情報解析報告 書を出力部 450に送る。
[0096] 出力部 450は、情報解析報告書を表示手段、記録手段、又は通信手段に出力す る。この出力部 450は、自動配信機能を有し、定期的に (例えば 1ヶ月 1回)新しい情 報解析報告書を出力する。または、新しい情報解析報告書は以前と大きく変わったと き (例えば、 1割以上の内容が変わったとき)、自動的に配信する。
[0097] なお、上述した報告書生成部 440は、マップのみの情報解析報告書を生成するこ とができ、その結果を出力部 450を介して出力することができる。
[0098] 以下、図 3、図 4、及び図 5を参照しながら、本発明の実施形態の情報解析報告書 自動作成方法およびプログラムの制御による処理手順にっ 、て説明する。
[0099] 図 3は、入力装置 2の動作を示すフローチャートである。図 4は、処理装置 1の動作 を示すフローチャートである。図 5は、出力装置 4の動作を示すフローチャートである
[0100] 図 3に示すように、入力装置 2において各条件設定を行う際に、まず、ステップ S20 1で初期化を行う。初期化 (ステップ S201)のあと、入力する条件を区別する (ステツ プ S202)。このとき、条件が調査対象文書 dの条件入力であるとき、調査対象文書 d 条件入力部 210において調査対象文書 dの条件を入力する (ステップ S210)。次に 、入力した条件を表示画面(図 6〜8参照)で確認し、よければ「設定」を選んで、入力 内容を条件記録部 310に格納し (ステップ S310)、悪ければ「戻る」を選んで、ステツ プ S210に戻り(ステップ S211)、上記の動作を繰り返す。
[0101] 一方ステップ S202において条件が比較対象文書 Pの条件入力であるとき、比較対 象文書 P条件入力部 220において比較対象文書 Pの条件を入力する (ステップ S22 0)。次に、入力した条件を表示画面(図 6〜8参照)で確認し、よければ「設定」を選 んで、入力内容を条件記録部 310に格納し (ステップ S310)、悪ければ「戻る」を選 んで、ステップ S220に戻り(ステップ S221)、上記の動作を繰り返す。
[0102] また、ステップ S 202において条件が抽出条件その他であるとき、抽出条件その他 入力部 230において抽出条件その他を入力する (ステップ S230)。次に、入力した 条件を表示画面(図 6〜8参照)で確認し、よければ「設定」を選んで、入力内容を条 件記録部 310に格納し (ステップ S310)、悪ければ「戻る」を選んでステップ S230に 戻り(ステップ S231)、上記の動作を繰り返す。該ステップ S230においては、調査対 象文書 dの抽出条件と、比較対象文書 Pからの母集団文書 Sの抽出条件の両方を設 定する。また、ステップ S230では、出力条件も設定する(後述図 9参照)。
[0103] 図 4に示すように、処理装置 1において各処理を行う際に、まず、ステップ S101で 初期化を行う。初期化 (ステップ S101)のあと、条件記録部 310の条件に基づいて、 文書格納部 330から読み出す文書を、調査対象文書 dと比較対象文書 Pに区別する (ステップ S102)。読み出す文書が調査対象文書 dであるとき、調査対象文書 d読み
出し部 110にお 、て調査対象文書を文書格納部 330より読み出す (ステップ S110) 。次に、索引語 (d)抽出部 120において調査対象文書 dの索引語抽出を行なう(ステ ップ S120)。引き続き、抽出された索引語の各々について、 TF (d)演算部 121にお V、て TF演算をする(ステップ S 121)。
[0104] 一方、ステップ S102において、読み出す文書が比較対象文書 Pであるとき、比較 対象文書 P読み出し部 130にお 、て比較対象文書 Pを読み出す (ステップ S 130)。 次に、索引語 (P)抽出部 140において比較対象文書 Pの索引語抽出を行なう(ステツ プ S140)。引き続き、抽出された索引語の各々について、 TF (P)演算部 141におい て TF演算をする(ステップ S141)とともに、 IDF (P)演算部 142において IDF演算を する(ステップ S 142)。
[0105] 次に、 TF (d)演算部 121の出力の TF (d)演算結果と、 TF (P)演算部 141の出力 の TF (P)演算結果、及び IDF (P)演算部 142の出力の IDF (P)演算結果にて、類 似率演算部 150において、文書の各索引語についての演算結果を出し、例えば索 引語の平均値を出して、文書の類似率とする、などして類似率の演算を行なう (ステツ プ S150)。
[0106] 類似率の演算の方法が TFIDFなどではない場合は、調査対象文書 dの索引語 (d
)抽出部 120と比較対象文書 Pの索引語 (P)抽出部 140から、別の方法により類似率 力求められることがある。
[0107] 次に、ステップ S151で、母集団絞込み部により無駄の情報を除く。なお、このステ ップ S 151をパスすることも可能である。
[0108] 次に、母集団文書 S選出部 160により、ステップ S150にて演算した文書を類似率 の順に並べ替え、抽出条件その他入力部 230において設定した条件に沿った数の 母集団文書 Sを選出する (ステップ S 160)。
[0109] これらのデータは、出力装置 4のマップ (グラフ ·表)生成部 415や報告書部 440で 直接利用することがある。
[0110] 次に、母集団文書 Sの索引語 (S)抽出部 170により、ステップ S160にて選出した 母集団文書 Sの索引語 (S)を抽出する (ステップ S170)。
[0111] 次に、索引語 (d)の各々について、 IDF (S)演算部 171により、 IDF演算する (ステ
ップ S171)。
[0112] 次に、ステップ S171による母集団文書 Sにおける索引語 (d)の各々についての ID F (S)演算の結果と、 S121ステップによる調査対象文書 dにおける索引語 (d)の各々 についての TF (d)演算の結果とから、特徴索引語'母集団内類似率'頻度散布図 · 構造図等の演算を行なう (ステップ S180)。
[0113] 図 5に示すように、出力装置 4において情報解析報告書を作成して出力を行う際に 、まず、ステップ S401で初期化を行う。初期化 (ステップ S401)のあと、条件記録部 3 10から読み出す条件を、マップ作成条件と、データ出力条件と、コメント追記条件に 区別する (ステップ S402)。
[0114] 条件記録部 310から読み出す条件がマップ作成条件であるとき (ステップ S410)、 マップを必要とする条件であったら (ステップ S411)、作業結果格納部 320からマツ プ用データ取り込み部 412によりマップ用データ取り込みを行なう(ステップ 412)。マ ップ作成条件読み出し部 410のマップ作成条件に沿って、グラフや表などのマップを 生成し (ステップ S415)、続いて、マップを報告書生成部 440に送る。
[0115] 一方、条件記録部 310から読み出す条件が母集団データ出力条件であるとき (ス テツプ S420)、データを必要とする条件であったら (ステップ S421)、作業結果格納 部 320から出力データ取り込み部 422により出力用データ取り込みを行なう (ステップ S422)。次に、データ出力条件読み出し部 420のデータ出力条件に沿って、データ を出力し (ステップ S423)、続いて、データを報告書生成部 440に送る。
[0116] また一方、条件記録部 310から読み出す条件がコメント条件であるとき (ステップ S4 30)、コメントを必要とする条件であったら (ステップ S431)、マップ ·データ'コメント複 合整形出力部 440にて、コメントを追記できる枠を準備し、該枠内に、キーボードから 或いは OCRから、手入力するか (ステップ S435)、或いは又は、文書格納部 330の 内部データベースにある、事前に準備されたコメントを使って、コメントを取り込み (ス テツプ S432)、続いて、コメントを報告書生成部 440に送る。
[0117] ステップ S411でマップを表示する条件でなかったら、又はステップ S421でデータ を出力する条件でな力つたら、又はステップ S431でコメントを追記する条件でなかつ たら、それぞれその時点で終了し、報告書生成部 440へはデータを送らない。
[0118] 図 6は、情報解析報告書自動作成装置 100の入力装置 2の入力条件設定画面を 示す図である。
[0119] この図 6は、情報解析報告書自動作成装置の入力装置 2の入力条件設定(1)画面 の表示例である。図 6において、「対象文書」のウィンドウの「調査対象文書」と「比較 対象文書」の中から「調査対象文書」を選び、次に「文書内容」のウィンドウの「公開特 許」、「登録特許」、「実用新案」、「学術文献」などの中から「公開特許」を選び、次に「 データの読み出し」のウィンドウの「自社 DB1」、「自社 DB2」、「特許庁 IPDL」、「PA TOLIS」、「他商用 DB1」、「他商用 DB2」、「FD」、「CD」、「MO」、「DVD」、「その 他」などの中から「FD」を選び、更に「FD」の「文書 1」、「文書 2」、「文書 3」、「文書 4」 、「文書 5」、「文書 6」などの中から「文書 3」を選んだ状態の例である。
[0120] また、図 7は、情報解析報告書自動作成装置の前記入力装置 2の入力条件設定 (2 )画面の表示例である。図 7において、「対象文書」のウィンドウの「調査対象文書」と「 比較対象文書」などの中から「比較対象文書」を選び、次に「文書内容」のウィンドウ の「公開特許」、「登録特許」、「実用新案」、「学術文献」などの中から「公開特許」と「 登録特許」の両方を選び、次に「抽出内容」のウィンドウの「請求項」、「従来技術」、「 発明の課題」、「手段'効果」、「実施例」、「図の説明」、「図面」、「要約」、「書誌事項」 、「経過情報」「登録情報」、「その他」などの中から「請求項」と「要約」の両方を選び、 次に「データの読み出し」のウィンドウで前述と同じ項目の中から「自社 DB1」を選ん だ状態の例である。この例の入力条件設定画面における設定条件が、調査対象文 書 d条件入力部 210と比較対象文書 P条件入力部 220を設定する。
[0121] また、図 8は、情報解析報告書自動作成装置の前記入力装置 2の入力条件設定 (3 )画面の表示例である。図 8において、「索引語抽出条件」のウィンドウの「自社キーヮ 一ド切出 1」「自社キーワード切出 2」、「商用キーワード切出 1」、「商用キーワード切 出 2」などの中から「自社キーワード切出 1」を選び、次に「類似率算出方法」のウィン ドウの「類似率 1」、「類似率 2」、「類似率 3」、「類似率 4」、「類似率 5」、「類似率 6」な どの中から「類似率 1」を選び、次に「母集団文書選出」のウィンドウの「母集団文書数 」、「非母集団文書数」などの中から「母集団文書数」を選び、更に「上位 100件」、「 上位 1000件」、「上位 3000件」、「上位 5000件」、「数値入力」などの中から「上位 3
000件」を選び、「母集団絞込み条件」のウィンドウの「出願件数の多い出願人」「出 願軒数の少ない出願人」「IPCの指定」「企業名、業界の指定」の中から選んだ状態 の例である。
この例の抽出条件設定画面における設定条件が、抽出条件その他入力部 230を設 定する。
[0122] 図 9は、情報解析報告書自動作成装置の入力装置 2の出力条件設定画面の表示 例である。図 9において、「マップ算出方法」のウィンドウの「x軸」に「x軸:索引語件数 」及び「y軸」に「y軸:索引語順位」を選び、次に「マップ位置」のウィンドウの「マップ 1 枚」、「マップ 2枚」、「マップ 1枚'データ付」、「マップ 2枚'データ付」、「マップ 1枚'コ メント付」、「マップ 2枚'コメント付」、「マップ 1 ·データ'コメント付」、「マップ 2 ·データ' コメント付」などの中から「マップ 1枚」を選び、次に「出力データ」のウィンドウの「TFI DF降順」、「TFIDF昇順」などの中から「TFIDF降順」を選び、更に「なし」「上位 5個 」「上位 10個」「上位 15個」「上位 20個」「数値入力」などの中から「上位 20個」を選ん だ状態の例である。次に「コメント」のウィンドウの枠内の「(自由記入)」には無記入に した。こうして抽出条件その他入力部 230の出力条件を設定する。
[0123] 図 10は、情報解析報告書自動作成装置 100において、図 6から図 9までの例で入 力したとき、作成された情報解析報告書の一例である。この場合、母集団文書 S選出 部 160の選出結果、及び特徴索引語 ·母集団内類似率 ·頻度散布図 ·構造図等演 算部 180の結果を基に、マップ (グラフ ·表)生成部 415にて生成されたマップにデー タおよび定形コメントを付カ卩して生成されたものである。
[0124] 図 10から、情報解析報告書自動作成装置 100において、調査対象文書 dの「レー ザイオン化質量分析計用試料作成方法および試料ホルダ」に関する公開特許公報 にとつて、比較対象文書として特許公開公報と特許公報の約 10年分の文書と比較し て、特徴のある索引語を調べた結果、「試料」「分析」「質量」「固体」「レーザ」などが 特徴索引語であることが分力ゝる。
[0125] なお、図 10に示す情報解析報告書には、マップ、データ、定形コメント、自由コメン トの内容が表示されている力 これに限定されるものではない。例えば、マップのみを 表示するようにしてもよい。また例えば、マップとデータとを一緒に表示するようにして
ちょい。
[0126] 図 11乃至図 32は、情報解析報告書自動作成装置 100の他の出力例を示す図で ある。
[0127] 図 11は、全期間における特許の出願人ランキングを示す図である。この場合、母集 団中の公報を出願人別で集計して、件数が多!、出願人を表示するようになされて!ヽ る。この図 11において、母集団(例えば調査対象文書に類似している公報 3000件 の集合)中の公報を全比較対象文書のデータ範囲の全期間にわたって出願人別で 集計して、母集団中における公報件数が多 、出願人を上位 20人のランキングを表 示している。なお、各出願人の件数を公開件数、登録件数、実新 (実用新案)件数で 区別して表示している。
[0128] この図 11により、母集団に含まれる公報について件数順の出願人ランキングが分 かり、母集団とした分野の技術に関心の高い出願人が読み取られる。また、ランキン グにおける件数の分布傾向から、その分野の技術に対する出願人の集中度が高い( 少数の出願人による集中傾向)が、または低い(多数の出願人による分散傾向)かに ついて知ることができる。
[0129] 図 12は、最近 3年間における特許の出願人ランキングを示す図である。この場合、 母集団中の公報を出願人別に最近 3年間の範囲で集計して、件数が多い出願人を 表示するようになされている。この図 12において、母集団(例えば調査対象文書に類 似して 、る公報 3000件の集合)を最近 3年間の範囲で出願人別で集計して、母集 団中のこの期間における公報件数が多 ヽ出願人を上位 20人のランキングを表示し ている。なお、各出願人の件数を公開件数、登録件数、実新 (実用新案)件数で区別 して表示している。
[0130] この図 12により、母集団の中で、特に最近 3年間において公報件数が多い出願人 のランキングが分かり、この期間で母集団とした分野の技術に関心の高い出願人が 読み取られる。また、この 3年間と全期間(図 11参照)の出願人ランキングを比較する ことによって、上位出願人の順位の入れ替わりや同一出願人の件数変化、即ち母集 団とした分野への関心度の変化が読み取られる。
[0131] 図 13は、国際特許分類 (IPC)の主分類のランキングを示す図である。この場合、
母集団中の公報を IPC主分類別で集計して、件数が多い IPCを表示している。この 図 13において、母集団(例えば調査対象文書に類似している公報 3000件の集合) 中の公報を付与されて 、る IPC主分類のメイングループ別に集計して、件数が多!、1 PCメイングループ上位 20分類のランキングを表示している。なお、各 IPCが付与さ れた公報件数を公開件数、登録件数、実新 (実用新案)件数で区別して表示してい る。
[0132] この図 13により、調査対象文書と類似の技術に関する公報に主分類として付与さ れて 、る IPC主分類のメイングループの中で、件数の多!、分類がグラフ力 分かる。 順位が下がると極端に件数が減る場合は、調査対象文書と類似な技術に関係のある 分野の範囲が狭ぐ逆に順位が下がっても件数が極端に減らない場合は、そのような 技術に関係のある分野の範囲が広いといえる。 IPC主分類のメイングループ主分類 だけの集計であるため、調査対象文書と類似している公報の中心的な技術分野につ いての分布傾向であると考えられる。
[0133] 図 14は、国際特許分類 (IPC)の主 ·副分類のランキングを示す図である。この場合 、母集団中の公報を主分類と副分類の全 IPC別で集計して、件数が多い IPCを表示 している。この図 14において、母集団(例えば調査対象文書に類似している公報 30 00件の集合)中の公報を付与されて ヽる IPC主分類と副分類のすべてにっ 、てメイ ングループ別に集計して、件数が多い上位 20分類のランキングを表示している。な お、各 IPCが付与された公報件数を公開件数、登録件数、実新 (実用新案)件数で 区別して表示している。
[0134] この図 14により、調査対象文書と類似の技術に関する公報に主分類あるいは副分 類として付与されて 、る IPCのメイングループの中で、件数の多!、分類がグラフから 分かる。順位が下がると極端に件数が減る場合は、調査対象文書と類似な技術に関 係のある分野の範囲が狭ぐ逆に順位が下がっても件数が極端に減らない場合は、 そのような技術に関係のある分野の範囲が広いといえる。主分類 IPCだけから集計さ れた件数のランキング(図 13参照)よりも、調査対象文書と類似している技術の関係 のある分野の分布傾向をより広範囲に表していると考えられる。
[0135] 図 15は、出願人と国際特許分類 (IPC)のマトリックスマップを示す図である。この場
合、母集団中の件数上位 10出願人による公報で、母集団中の IPC件数上位 5分類 の何れかが付与されている公報件数を表示している。この図 15において、母集団( 例えば調査対象文書に類似している公報 3000件の集合)中の公報を多く出願して いる上位 10出願人による母集団中の公報で、主分類あるいは副分類として母集団 中で多く付与されている IPC上位 5分類の何れかと同じ IPCメイングループが付与さ れて 、る件数を集計してマトリックス形式で表示して 、る。図 15中の泡(円)の大きさ が件数を相対的に表示して 、る。
[0136] この図 15により、母集団中で件数上位 10出願人それぞれによる公報によって IPC 上位 5分類のどの分類が特に多いか、あるいは IPC上位 5分類それぞれについてど の出願人による特許が多いか、という傾向が読み取られる。調査対象文書と類似の 技術に関する公報の件数上位 10出願人の中でも、出願人によって IPC別の件数分 布に特有の傾向を有する場合があり、このような分布の違いから各出願人が目的ま たは手段とする技術分野の傾向が比較できる。
[0137] 図 16は、上位 10出願人と国際特許分類 (IPC)上位 5分類の関係を示す表である 。この図 16において、上述した図 15を表形式で表示したもので、公報件数を公開件 数、登録件数、実新 (実用新案)件数で区別して表示している。
[0138] 図 17は、上位 20出願人と国際特許分類 (IPC)主分類との関係を示す図である。こ の場合、母集団中の件数上位 20出願人による公報で、調査対象文書の IPC主分類 と同じ IPCメイングループが付与されて!、る件数を表示して 、る。この図 17にお!/、て 、母集団(例えば調査対象文書に類似している公報 3000件の集合)中の公報を多く 出願している上位 20出願人による母集団中の公報で、主分類あるいは副分類に調 查対象文書の IPC主分類と同じ IPCメイングループが付与されている件数を集計し て表示している。なお、各出願人の件数を公開件数、登録件数、実新 (実用新案)件 数で区別して表示している。
[0139] この図 17により、母集団中で件数上位 20出願人による公報で、調査対象文書の IP C主分類と同じメイングループが付与されている件数が把握でき、母集団の主要な出 願人の中で調査対象文書と同じ技術分野に関する公報が多い出願人を知ることが できる。
[0140] 図 18は、重要キーワード (対全比較対象文書)別の件数分布を示す図である。この 場合、調査対象文書の重要キーワード (対全比較対象文書)と同じキーワードを含む 母集団中の公報件数を表示している。この図 18において、調査対象文書中における 各キーワードの使用頻度と全比較対象文書における各キーワードの使用頻度を数値 化して比較することにより、調査対象文書の技術的特徴をより強く表現している度合 V、を表すキーワード重要度 (対全比較対象文書)を算出する。その重要度が高 、も の力も上位 20語が使用されている母集団 (調査対象文書に類似している公報 3000 件の集合)中の公報件数をそれぞれ集計して表示している。なお、各キーワードを使 用している公報件数を公開件数、登録件数、実新 (実用新案)件数で区別して表示 している。
[0141] この図 18により、調査対象文書の技術的特徴をより強く表現していると思われる重 要なキーワード (対全比較対象文書) 20語について、母集団中の公報でこれらの重 要キーワードが使用されている件数を示したものである力 母集団中の多くの公報で 使用されて 、る重要キーワードと少数の公報でしか使用されて 、な 、重要キーワード がある。少数の公報でしか使用されていない重要キーワードは、調査対象文書独自 の特徴を表して 、る可能性がある。
[0142] 図 19は、重要キーワード (対母集団)別の件数分布を示す図である。この場合、調 查対象文書の重要キーワード (対母集団)と同じキーワードを含む母集団中の公報 件数を表示している。この図 19において、調査対象文書中における各キーワードの 使用頻度と全比較対象文書における各キーワードの使用頻度を数値化して比較す ることにより、調査対象文書の技術的特徴をより強く表現している度合いを表すキー ワード (対母集団)を算出する。その重要度が高!、もの力 上位 20語が使用されて 、 る母集団 (調査対象文書に類似している公報 3000件の集合)中の公報件数をそれ ぞれ集計して表示している。なお、各キーワードを使用している公報件数を公開件数 、登録件数、実新 (実用新案)件数で区別して表示している。
[0143] この図 19により、調査対象文書の技術的特徴をより強く表現していると思われる重 要なキーワード (対母集団) 20語にっ 、て、母集団中の公報でこれらの重要キーヮ ードが使用されている件数を示したものであるが、母集団中の多くの公報で使用され
て 、る重要キーワードと少数の公報でしか使用されて 、な 、重要キーワードがある。 少数の公報でしカゝ使用されて ヽな ヽ重要キーワードは、調査対象文書独自の特徴を 表している可能性がある。
[0144] 図 20は、出願人別件数推移を示す図である。この場合、母集団中の件数上位 10 出願人による出願件数を出願年ごとに集計し、その件数の推移を表示する。図 20に おいて、母集団 (調査対象文書に類似している公報 3000件の集合)中の公報を多く 出願している上位 10出願人による母集団中の出願件数を、出願人別に 1992年から 出願年ごとに集計してその件数の推移を表示している。 1993以後の年は前年まで の件数を加算した累積で表示して 、る。
[0145] この図 20により、母集団中の公報で件数上位 10出願人による出願件数の年ごとの 推移から、傾向の変化が注目される出願人や、母集団の技術分野に関する経時的 な変化が読みとれる。
[0146] 図 21は、出願人と出願件数との関係を示す表である。この図 21において、上述し た図 20を表形式で表示したもので、各集計年における単年の件数も表示して!/、る。
[0147] 図 22は、国際特許分類 (IPC)別件数推移を示す図である。この場合、母集団中の IPC件数上位 5分類が付与された出願件数を出願年ごとに集計し、その件数の推移 を表示する。この図 22において、母集団 (調査対象文書に類似している公報 3000 件の集合)中の公報において主分類あるいは副分類として付与されている件数が多 V、IPCメイングループ上位 5分類につ!、て、母集団中の出願でこれらの IPC別に主 分類あるいは副分類として付与されている件数を 1992年力も出願年ごとに集計して その件数の推移を表示している。 1993以降の年は前年までの件数を加算した累積 で表示している。
[0148] この図 22により、母集団中に含まれる公報で IPC上位 5分類が付与された件数の 年ごとの推移から、母集団の技術分野に関する経時的な変化が読み取れる。
[0149] 図 23は、国際特許分類 (IPC)と出願件数との関係を示す表である。この図 23にお いて、上述した図 22を表形式で表示したもので、各集計年における単年の件数も表 示している。
[0150] 図 24は、所定国際特許分類 (IPC)別件数推移を示す図である。この場合、母集団
中で調査対象文書の主分類と同じ IPCメイングループが付与された出願件数を出願 年ごとに集計し、その件数の推移を表示する。この図 24において、母集団 (調査対 象文書に類似している公報 3000件の集合)中の出願において調査対象文書の IPC 主分類と同じ IPCメイングループが主分類または副分類として付与されている出願の 件数を 1992年から出願年ごとに集計してその件数の推移を表示している。各集計 年における単年の件数推移を棒グラフで、 1993以降について前年までの件数を加 算した累積の推移を折れ線グラフで表示して 、る。
[0151] この図 24により、調査対象文書と類似する公報であり、且つ主要な技術分野が同 一である特許の件数動向が時系列を追って把握できる。
[0152] 図 25は、母集団全体のポートフォリオを示す図である。この場合、母集団中のすべ ての出願件数を出願年で集計し、各集計年について前年との比較によって件数の 推移を表示して、技術発展の状態を模試的に表現する。この図 25において、母集団 (調査対象文書に類似している公報 3000件の集合)中のすべての出願を 1992年か ら出願年ごとに集計し、各集計年の単年ごとの件数を横軸 (件 Z年)として、縦軸は 1 992年の件数を起点に 1993年以降の各集計年の件数と前年分の件数との比較に よる伸び率(%)をプロットしている。また、プロット点の円の大きさは 1992年力も各集 計年までの件数の累積を表示して 、る。
[0153] この図 25により、調査期間中における調査対象文書に類似している公報件数の年 代別推移を模式的に表現した形で把握することができ、母集団について技術発展の 状態が読み取れる。
[0154] 図 26は、国際特許分類 (IPC)のポートフォリオを示す図である。この場合、母集団 中でこの IPCが付与された出願件数を出願年で集計し、各集計年にっ 、て前年との 比較によって件数の推移を表示して、技術発展の状態を模試的に表現する。この図 26において、母集団 (調査対象文書に類似している公報の集合)中の公報に主分類 または副分類として付与されて ヽる IPCをメイングループで集計した結果、この IPCメ イングループが主分類または副分類として付与されている母集団中の出願を 1992 年から出願年ごとに集計し、各集計年の単年ごとの件数を横軸 (件 Z年)として、縦 軸は 1992年の件数を起点に 1993年以降の各集計年の件数と前年分の件数との比
較による伸び率(%)をプロットしている。また、プロット点の円の大きさは 1992年から 各集計年までの件数の累積を表示して 、る。
[0155] この図 26により、母集団中の主要な IPCの一つであるこの IPCメイングループが主 分類または副分類として付与されている母集団中の出願について、件数の年代別推 移を模式的に表現した形で把握することができ、この分野の技術発展の状態が読み 取れる。
[0156] 図 27は、重要キーワード (対全比較対象文書:対全公報)別件数推移を示す図で ある。この場合、調査対象文書の重要キーワード (対全比較対象文書)と同じキーヮ ードを含む母集団中の出願件数の推移を表示する。この図 27において、調査対象 文書中における各キーワードの使用頻度と全比較対象文書における各キーワードの 使用頻度を数値化して比較することにより、調査対象文書の技術的特徴をより強く表 現して!/ヽる度合!ヽを表すキーワード重要度 (対全比較対象文書)を算出する。重要キ 一ワード (対全比較対象文書)と同じキーワードを含む母集団 (調査対象文書に類似 している公報 3000件の集合)中の出願件数を、キーワード別に 1992年から出願年 ごとに集計してその件数の推移を表示している。 1993以降の年は前年までの件数を 加算した累積で表示して 、る。
[0157] この図 27により、調査対象文書の技術的特徴をより強く表現している度合いを表す キーワード (対全比較対象文書)と同じキーワードを含む母集団中の出願件数の推 移が把握できる。
[0158] 図 28は、重要キーワード (対全比較対象文書)と出願件数との関係を示す表である 。この図 28において、上述した図 27を表形式で表示したもので、各集計年における 単年の件数も表示して ヽる。
[0159] 図 29は、重要キーワード (対母集団)別件数推移を示す図である。この場合、調査 対象文書の重要キーワード (対母集団)と同じキーワードを含む母集団中の出願件 数の推移を表示する。この図 29において、調査対象文書中における各キーワードの 使用頻度と全比較対象文書における各キーワードの使用頻度を数値化して比較す ることにより、調査対象文書の技術的特徴をより強く表現している度合いを表すキー ワード重要度 (対母集団)を算出する。重要キーワード (対母集団)と同じキーワードを
含む母集団 (調査対象文書に類似している公報 3000件の集合)中の出願件数を、 キーワード別に 1992年力も出願年ごとに集計してその件数の推移を表示している。 1993以降の年は前年までの件数を加算した累積で表示している。
[0160] この図 29により、調査対象文書の技術的特徴をより強く表現している度合いを表す キーワード (対母集団)と同じキーワードを含む母集団中の出願件数の推移が把握で きる。
[0161] 図 30は、重要キーワード (対母集団)と出願件数との関係を示す表である。この図 3 0において、上述した図 29を表形式で表示したもので、各集計年における単年の件 数も表示している。
[0162] 図 31は、調査対象文書のキーワード分布を示す頻度散布図である。この場合、調 查対象文書力も抽出したキーワードの各々について専門度および独創度を算出し、 両者を軸とした平面上にプロットした散布図を表示する。頻度散布図の作成につい ては、第 2の実施の形態に力かる装置の説明とともに後に詳述する。
[0163] この図 31において、全比較対象文書中にその語を使用している公報の件数が少 な 、ほど専門度の数値は高くなり、母集団の中にその語を使用して 、る公報の件数 が少ないほど独創度の数値は高くなる。この分布図にいて各々のキーワードがプロッ トされた領域から、その語が調査対象文書と母集団のどちらの特徴をより強く表現し て 、るかを読み取ることができる。
[0164] また、この図 31により、(1)キーワード分布図の右下の領域にある語は独創度の数 値が低ぐ専門度の数値が高い。すなわち母集団の中では多数の文書で用いられて いるが、全比較対象文書の中では用いられている文書が少ない。この領域にある語 は母集団として切り出された技術分野の特性を表していると考えられる。この領域は 母集団特性語領域である。
[0165] (2)キーワード分布図の左上の領域にある語は専門度の数値が低ぐ独創度の数 値が高 、。すなわち全比較対象文書の中では多数の文書の中で用いられて 、るが 、母集団の中では用いられている文書が少ない。この領域にある語は母集団として 切り出された技術分野の中における調査対象文書の独創性を表して 、ると考えられ る。この領域は独創語領域である。
[0166] (3)キーワード分布図の右上の領域にある語は専門度の数値が高ぐ独創度の数 値も高い。すなわち全比較対象文書の中で用いられている文書が少なぐ母集団の 中でも用いられて 、る文書が少な 、。この領域にある語は調査対象文書以外ではほ とんど用いられていない非常に専門的な語であると考えられる。この領域は専門語領 域である。
[0167] (4)キーワード分布図の左下の領域にある語は専門度の数値が低ぐ独創度の数 値も低い。すなわち全比較対象文書の中では多数の文書で用いられており、母集団 の中でも多数の文書で用いられて 、る。この領域にある語は全比較対象文書 ·母集 団の区別なくいずれの文書にも一般的に使用されている語であると考えられる。この 領域は一般語 (不要語)領域である。
[0168] 図 32は、調査対象文書、或いは調査対象文書と母集団文書との関係を示す特許 構造図である。この場合、キーワード検索によって抽出したく清酒 >に関する日本特 許出願 17件の各公開公報を文書要素として類似率の近いものを近くに結び出願日 時の時系列として分析した結果である。
[0169] また、この図 32により、調査対象文書間、或いは調査対象文書の母集団に対する 位置付けなどの関係が一目瞭然で分かる。もちろんここでも。調査対象文書も比較 対象文書も母集団文書も一切読み込むことなぐすべてコンピュータで自動的になさ れる。
[0170] 図 33は、母集団内類似率を用いた類似率ランキングと公報内容抜粋を示す図であ る。この場合、母集団内類似率の上位 300件について出願番号、発明の名称、出願 人などの情報を表示する。この図 33において、調査対象文書における各キーワード の重要度 (対母集団)を比較することにより、母集団中のそれぞれの公報について調 查対象文書に対する類似性の度合いを表す母集団内類似率を算出し、その母集団 内類似率上位 300件について出願番号、発明の名称、出願人など公報の情報を表 示している。
[0171] このように本実施の形態においては、情報解析報告書自動作成装置 100は、処理 装置 1、入力装置 2、記憶装置 3、および出力装置 4から構成されている。情報解析 報告書を作成する際に、調査対象文書及び比較対象文書を指定して入力し、情報
解析をする条件を入力し、調査対象文書と類似な文書群カゝらなる母集団文書を比較 対象文書力 選出し、調査対象文書の母集団文書に対する特徴ある索引語を抽出 し、母集団文書および索引語に基づいて、調査対象文書の特徴を表す情報解析報 告書を生成し、そして、作成された情報解析報告書を表示手段、記録手段、又は通 信手段に出力する。
[0172] これにより、人間が調査対象の文書も膨大な比較対象の文書も、それらの内容を一 切読むことなぐ調査対象の文書の情報を的確に報告できる情報解析報告書を自動 的に作成することができる。また、マップと、母集団或いは索引語のデータと、マップ およびデータの内容に応じた定形のコメントまたは自由なコメントとを有する情報解析 報告書を作成することができる。
[第 2の実施の形態]
次に、本発明の第 2の実施の形態に力かる情報解析報告書自動作成装置につい て説明する。第 2の実施の形態にかかる情報解析報告書自動解析装置は、基本的 には第 1の実施の形態と同様の機能を有する力 特に、ネットワークに接続され、ネッ トワークを介したクライアントの要求にしたがって処理を実行して、処理の結果得られ た情報解析報告書のファイルを、ネットワークを介して、クライアントに送信することが できるようになつている。
[0173] 図 36は、第 2の実施の形態に力かる情報解析報告書自動作成装置およびクライァ ントを含む構成図である。図 36に示すように、情報解析報告書自動作成装置 500は 、インターネットなどのネットワーク 501に接続される。ネットワーク 501には、クライア ント 502— 1、 502— 2、 · · ·力接続される。したがって、情報解析報告書自動作成装 置 500と、クライアント 502—1、 502— 2、 · · ·との間では、ネットワーク 501を介した データ通信が可能である。以下、クライアントについては、特定のクライアントを指さな い場合には、単に、「クライアント 502」と称する。
[0174] 図 36に示すように、情報解析報告書自動作成装置 500は、ウェブサーバ 511、キ ユーイング機構を備えた管理サーバ 512、構造図や頻度散布図などを作成する第 1 の解析サーバ 513、クラスタ情報を作成する第 2の解析サーバ 514、データベースサ ーバ 515、および、ファイル作成サーバ 516を備えている。第 2の実施の形態におい
て、ウェブサーバ 511、管理サーバ 512、第 1の解析サーバ 513および第 2の解析サ ーバ 514が全体として、第 1の実施の形態に力かる処理装置 1、入力装置 2および出 力装置 4とほぼ同様の機能を果たす。また、データベースサーバ 515が、第 1の実施 の形態の記憶装置 3とほぼ同様の機能を果たす。
[0175] ウェブサーバ 511は、クライアント 502との間のインタフェースとして機能し、クライア ント 502からのデータを受信し、また、クライアント 502に対して、データを送信する。 ウェブサーバ 511は、クライアント 502からネットワークを介してウェブサーバ 511に送 信された、ユーザによる入力に基づいて、情報解析報告書を作成すべき案件、つま り調査対象文書の情報 (以下、「調査案件情報」と称する。)を作成し、これを管理サ ーバ 512に与える。
[0176] 管理サーバ 512は、調査案件をキューイングして、その投入順に、第 1の解析サー ノ 513および第 2の解析サーバ 514にリクエストする。管理サーバ 512は、第 1の解 析サーバ 513にリクエストするための第 1のキューイング機構と、第 1の解析サーバに よる処理が完了した調査案件をキューイングして、第 2の解析サーバ 514にリクエスト するための第 2のキューイング機構を有して 、る。
[0177] 第 1の解析サーバ 513は、母集団の抽出、各種集計処理、構造図の作成などの処 理を実行する。第 2の解析サーバ 514は、構造図にあるクラスタごとに、当該クラスタ の特性などを示すクラスタ情報を作成する。
[0178] 以下、第 2の実施の形態にかかる情報解析報告書自動作成装置 500にて実行され る処理について説明する。ユーザがクライアント 502を操作してログインすることにより 、ウェブサーバ 511は、クライアント 502に対して、調査対象文書などを特定するため の検索画面を送信する。図 37Aは、検索画面の一例を示す図である。図 37Aに示 すように、検索画面には、特許文献を特定するための欄 3701〜3704、テキスト入力 欄 3705、およびコンテンツ選択欄が含まれる。本実施の形態においては、調査対象 文書として、特許公開公報や特許公報のほか、ユーザ自身が入力したテキストとする こともできる。テキストとしては、ユーザが出願しょうとしている技術の要約などを入力 することができる。
[0179] 調査対象文書が、特許公開公報などの特許文献であれば、ユーザは、クライアント
502を操作して、欄 3701〜3704に必要な情報を入力する。或いは、ユーザは、テ キスト入力欄 3705に、調査対象とすべき情報を入力しても良い。
[0180] なお、欄 3706には、類似公報をリストする際に、欄 3706の入力に基づく期間のも のを色づけて強調するようなサービスを行うために利用される。
[0181] ユーザ力クライアント 502を操作して、ボタンをオンすると、各欄に入力された情報 1S ネットワーク 501を介してウェブサーバ 511に送信される。ウェブサーバ 511はュ 一ザによる入力を確認するための確認画面を、クライアント 502に送信する。図 37B は、確認画面の例を示す図である。ユーザがその内容を確認したのち、クライアント 5 02を操作して、所定のボタンをオンすることで、調査対象文書が確定する。
[0182] 上述したように、本実施の形態においては、調査対象文書が確定すると、調査案件 情報が、ウェブサーバ 511から管理サーバ 512に送信される。管理サーバ 512は、 調査案件を第 1のキューイング機構によってキューイングし、処理すべき順番となった 調査案件について、第 1の解析サーバ 513にリクエストして、調査案件データを与え る。
[0183] 図 38は、第 1の解析サーバにおいて実行される処理を示すフローチャートである。
図 38に示すように、第 1の解析サーバ 513は、サーバ自身が扱いやすいように調査 案件情報に前処理を加え (ステップ S3801)、次いで、母集団を作成する (ステップ S 3802)。
[0184] 本実施の形態にお!、ては、特許文献であれば、その特許請求の範囲および要約 1S 調査対象文書となる。また、テキスト入力であれば、入力されたテキスト自体が、 調査対象文書となる。また、第 2の実施の形態においては、たとえば、 JP— ROMなど の公報のそれぞれにおける特許請求の範囲および要約が比較対象文書となる。
[0185] また、母集団として、比較対象文書中、調査対象文書との間の類似度が高い順に、 3000件が抽出される。類似度の算出は、第 1の実施の形態において説明したものと 同様であるため、その説明は省略する。
[0186] なお、抽出された母集団を構成する文書の情報などは、第 1の解析サーバ 513の 記憶装置(図示せず)に記憶される。
[0187] 次いで、第 1の解析サーバ 513は、集計処理を実行する。図 39は、第 2の実施の形
態に力かる集計処理の例を示すフローチャートである。図 39に示すように、第 1の解 析サーバ 513は、集計として、ランキング集計 (ステップ S3901)、時系列集計 (ステツ プ S3902)およびマトリクス集計 (ステップ S3903)を実行する。
[0188] ランキング集計には、キーワード集計、出願人に関する集計および IPCに関する集 計が含まれる。キーワード集計においては、図 18、図 19に示すような分布図が作成 される。第 1の解析サーバ 513は、記憶装置から、重要度の高い順に所定数の重要 キーワード (対全公報)の情報を取り出して、重要キーワード (対全公報)ごとに、当該 キーワード (索引語)が使用されている公報の数を示すグラフを作成する(図 18)。ま た、第 1の解析サーバ 513は、記憶装置から、重要キーワード (対母集団)の情報を 取り出して、重要キーワード (対母集団)ごとに、当該キーワード (索引語)が使用され ている公報の件数を示すグラフを作成する(図 19)。
[0189] また、第 1の解析サーバ 513は、記憶装置から、母集団の情報を取得して、母集団 の公報を出願人別に集計する(図 11、図 12参照)。第 1の解析サーバ 513は、記憶 装置力も母集団の情報を取得して、母集団の公報のそれぞれにおける IPC主分類を メイングループ別に集計したグラフを作成するとともに(図 13)、主分類および副分類 の全 IPC別で集計してグラフを作成する(図 14)。このような集計結果 (表およびダラ フ)は、第 1の解析サーバ 513の記憶装置に記憶される。
[0190] 第 1の解析サーバ 513は、記憶装置から、母集団の情報を取得して、母集団中、出 願件数上位 10出願人の出願件数を出願年ごとに集計して、その件数の推移を示す グラフ(図 20)、並びに、件数の累計および単年計を表す表(図 21)を作成する。また 、第 1の解析サーバ 513は、記憶装置から、母集団の情報を取得して、母集団の公 報中、主分類或いは副分類として付与されている IPCの上位 5分類について、出願 件数を年ごとに集計したグラフを作成する(図 22)とともに、当該出願件数の単年計 および累計を示す表を作成する(図 23)。これら集計結果も、第 1の解析サーバ 513 の記憶装置に記憶される。
[0191] さらに、第 1の解析サーバ 513は、記憶装置から、重要キーワード (対全公報)を取 り出して、重要キーワード (対全公報)ごとの年ごとの使用頻度の累積を表すグラフ( 図 27)、並びに、重要キーワード (対全公報)の単年計および累計を示す表(図 28)
を作成する。また、第 1の解析サーバ 513は、記憶装置から、重要キーワード (対母 集団)を取り出して、重要キーワード (対母集団)ごとの年ごとの使用頻度の累積を表 すグラフ(図 29)、並びに、重要キーワード (対母集団)の単年計および累計を示す 表(図 30)を作成する。これらグラフや表も、第 1の解析サーバ 513の記憶装置に記 憶される。
[0192] また、第 1の解析サーバ 513は、母集団の年毎の出願件数の集計結果に基づいて 、横軸を年毎の件数、縦軸を前年分の出願件数との比較による伸び率として、グラフ を作成する(図 25)。図 25のグラフにおいて、プロット点の円の大きさは、出願件数の 累積を示している。同様に、第 1の解析サーバ 513は、ある IPC (IPCメイングループ) につ 、て、母集団にぉ 、てその IPCが付与されて 、る出願の出願件数の集計結果 に基づいて、横軸を年毎の件数、縦軸を前年分の出願件数との比較による伸び率と して、グラフを作成する(図 26)。図 26においても、プロット点の円の大きさは、出願 件数の累積を示している。このようにして作成されたグラフも、第 1の解析サーバ 513 の記憶装置に記憶される。
[0193] 以下、マトリクス集計についても説明する。第 1の解析サーバ 513は、さらに、記憶 装置力も母集団の情報を取り出して、母集団中の出願件数上位 10人の出願人の出 願に付与された IPCを参照して、出願人ごとに、当該出願人の出願において、 IPCグ ループが付与された出願件数を、出願人 X IPCメイングループのマトリクス形式の表 を作成する(図 15参照)。また、図 15と同じ情報を用いて、公開件数、登録件数、実 用新案件数を分けて表示した表 (図 16)も作成される。また、第 1の解析サーバ 513 は、記憶装置から母集団の情報を取り出し、母集団中の出願件数上位 20出願人の 公報において、調査対象文書の IPC主分類と同じ IPCメイングループが付与されて いる出願件数を算出し、出願人ごとにその件数を表示したグラフを作成する(図 17) 。図 17においては、出願人ごとの公開件数、登録件数、実用新案件数に分けて表示 するのが望ましい。これらマトリクス集計の結果も、第 1の解析サーバ 513の記憶装置 に さ 4 る。
[0194] 各種集計処理が完了すると、第 1の解析サーバ 513は、記憶装置から、母集団の 情報を取り出して、母集団内類似度を算出する (ステップ S3904)。母集団内類似度
とは、調査対象文書の、母集団に属する文書との間の類似率 (類似度)である。
[0195] さらに、第 1の解析サーバ 513は、頻度散布図のための座標の算出処理を実行す る (ステップ S3905)。頻度散布図は、図 31に示すように、調査対象文書のキーヮー ド分布を示す図である。頻度散布図のための座標の算出について、図 40のフローチ ヤートを参照して詳細に説明する。なお、図 40は、理解を容易にするために、頻度散 布図におけるキーワードごとの座標の算出に必要な全ての処理ステップを、順に示し ている。したがって、図 39の S3905で、図 40に示す全ての処理ステップを実行する のではない。つまり、図 39の S3905では、第 1の解析サーバ 513において既に算出 され、記憶装置に記憶された値は、改めて算出されることなく利用され、ステップ S39 05の処理以前には実行されていない処理ステップのみが実行される。
[0196] 図 40に示すように、まず、調査対象文書や比較対象文書から索引語が抽出される
(ステップ S4001)。次いで、調査対象文書 dの索引語による、全文書 (比較対対象 文書全体) Pの中での文書頻度を示す DF (P)が算出される (ステップ S4002)。この DF (P)はキーワード重要度に相当する。
[0197] その後、 TF (d) (dの索引語 (d , · · · , d )による、 dの中での出現頻度)および IDF
(P) (DF (P)の逆数 X文書数の対数: In [N/DF (P) ] )の積である文書ベクトル (d) が算出される (ステップ S4003)。同様に、 TF (P) (Pの索引語 (P , · · · , p )による、
1 ya
Pの中での出現頻度および IDF (P)の積である文書ベクトル (p)が算出される (ステツ プ S4004)。
[0198] 文書ベクトル (d)および文書ベクトル (p)が算出されると、これらの内積をとることで 類似度が算出される (ステップ S4005)。さらに、比較対象文書 Pから、調査対象文書 dに対して、類似度が高い順に所定の数の文書が母集団 Sとして抽出され、その情報 が記憶装置に記憶される (ステップ S4005)。その後、キーワード重要度 DF (S) の 索引語による、 Sの中での文書頻度)が算出される (ステップ S4006)。
[0199] その後、調査対象文書 dの索引語 (d、 · · ·、(!)の各々について、文書頻度の関数 値 IDFを、比較対象文書 Pおよび母集団 Sに対して求める(ステップ S4007、 S4008 )。ステップ S4007においては、 IDF (d; P)、IDF (d; P)、 · · · , IDF (d; P)が求め
1 2
られ、ステップ S4008においては、 IDF (d; S)、IDF (d; S)、 · · · , IDF (d; S)が求
められる。第 1の解析サーバ 513は、 IDF (P)と IDF (S)とで平面を作り、たとえば、 I DF (P)を X軸、 IDF (S)を y軸として、索引語 (d , · · · , d )の各々に対する IDF (P) や IDF (S)の値に応じて、索引語を平面上の所定の位置に配置したような頻度散布 図を作成する(ステップ S4009)。
[0200] なお、ステップ S4009により、頻度散布図(IDF平面図)の中に、索引語が配置され る(散布される)が、散布された索引語が偏って見に《なる場合がある。このため、第 2の実施の形態においては、平面上に配置される索引語の密度を調べて、一定の領 域における密度が所定の値を超えていた場合には、第 1の解析サーバ 513は、その 領域の軸の目盛の間隔を広げて、その領域を拡大する一方、他の領域の軸の目盛 の間隔を狭めて、その領域を圧縮する。したがって、このように一部領域の拡大およ び他の領域の圧縮をする場合には、第 1の解析サーバ 513は、座標変換を行う(ステ ップ S4010)。また、基本となる IDF平面図はひし形である力 表現図としてみたとき に違和感があり、また、取り扱いに不便である場合もある。したがって、第 1の解析サ ーバ 513は、座標変換により、平面を四角形で表せるようにしても良い。これら頻度 散布図の情報も、第 1の解析サーバ 513の記憶装置に記憶される。
[0201] 集計処理が終了すると、第 1の解析サーバ 513は、特許構造図の作成処理を実行 する。以下、特許構造図の作成についてより詳細に説明する。
[特許構造図]
以下の説明で使用する言葉について定義する。
[0202] E:文書要素 (分析対象となる文書集団を構成し、本実施の形態にお!ヽて分析の単 位となる個々の対象である。本実施の形態では、調査対象文書 dや母集団中の文書 pがこれに該当する。 )
榭状図:分析対象である文書集団を構成する各文書要素を榭状に結線した図であ る。
[0203] デンドログラム:階層的クラスタ分析によって生成される榭状図である。作成原理を 簡単に説明すると、まず、分析対象である文書集団を構成する各文書要素間の非類 似度 (類似度)に基づいて、非類似度が最小 (類似度が最大)の文書要素同士を結 合させて結合体を生成する。更に結合体と他の文書要素、或いは結合体と結合体を
、これらの非類似度の小さ!/、順に結合させて新たな結合体を生成する作業を繰り返 す。こうして階層構造として表現される。
[0204] また、説明を簡素にするため、略号を以下のようにする。
[0205] D:榭状図における文書要素と文書要素、文書要素群と文書要素群、或いは文書 要素と文書要素群、の結合位置の高さ (結合距離)
α :榭状図の切断位置の高さ。
[0206] a * : < D> + δ σ (但しー3≤ δ≤ 3)で算出される榭状図の切断高さ。ここでく
D
D>は当該榭状図における全結合高 Dの平均値であり、 σ は当該榭状図における
D
全結合高 Dの標準偏差である。
[0207] Ν:分析対象の文書要素数。第 1の実施の形態とは異なり、ここでは、分析対象の 数としている。
[0208] t:文書要素の時間データ。例えば特許文献であれば出願日、公開日、設定登録 日、優先権主張日などの何れ力とすることができる。特許文献の出願番号、公開番 号等が出願順、公開順等に従っているならば、これら出願番号、公開番号等を時間 データとすることもできる。文書要素が複数の文書からなる場合は、文書要素を構成 する各文書の時間データの平均値、中央値などを求め、これを文書要素の時間デー タとする。
[0209] 次に、第 2の実施の形態において、第 1の解析サーバ 513における特許構造図を 作成するための構成について説明する。図 41は、第 1の解析サーバにおける特許構 造図作成のための構成を示すブロックダイヤグラムである。図 41に示すように、第 1 の解析サーバ 513は、文書読み出し部 4110、時間データ抽出部 4120、索引語デ ータ抽出部 4130、類似度演算部 4140、榭状図作成部 4150、切断条件読み出し 部 4160、クラスタ抽出部 4170、配置条件読み出し部 4180、および、クラスタ内要素 配置部 4190を有している。また、記憶装置 4103は、条件記録部、作業結果格納部 、文書格納部を有する。
[0210] 文書読み出し部 4110は、分析対象となる複数の文書要素を記憶装置 4103の文 書格納部から読み出す。読み出された文書要素群のデータは、時間データ抽出部 4 120および索引語データ抽出部 4130に直接送られて各々での処理に用いられ、或
いは記憶装置 4103の作業結果格納部に送られて格納される。
[0211] なお、文書読み出し部 4110から時間データ抽出部 4120および索引語データ抽 出部 4130或いは作業結果格納部に送られるデータは、読み出された文書要素群の 時間データおよび内容データを含むすべてのデータであっても良い。また、これら文 書要素群の各々を特定する書誌データ (例えば特許文献であれば出願番号又は公 開番号など)のみであっても良い。後者の場合、以後の処理で必要なときは当該書 誌データに基づいて再度文書格納部力 各文書要素のデータを読み出せばよい。
[0212] 時間データ抽出部 4120は、文書読み出し部 4110で読み出された文書要素群か ら、各要素の時間データを抽出する。抽出された時間データは、クラスタ内要素配置 部 4190に直接送られてそこでの処理に用いられ、或いは記憶装置 4103の作業結 果格納部に送られて格納される。
[0213] 索引語データ抽出部 4130は、文書読み出し部 4110で読み出された文書要素群 から、各文書要素の内容データである索引語データを抽出する。各文書要素から抽 出された索引語データは、類似度演算部 4140に直接送られてそこでの処理に用い られ、或いは記憶装置 4103の作業結果格納部に送られて格納される。
[0214] 類似度演算部 4140は、索引語データ抽出部 4130で抽出された各文書要素の索 引語データに基づき、文書要素間の類似度を演算する。算出された類似度は、榭状 図作成部 4150に直接送られてそこでの処理に用いられ、或いは記憶装置 4103の 作業結果格納部に送られて格納される。
[0215] 榭状図作成部 4150は、榭状図作成条件に従って、類似度演算部 4140で演算さ れた類似度に基づき、分析対象である文書要素群の榭状図を作成する。作成された 榭状図は、記憶装置 4103の作業結果格納部に送られて格納される。榭状図の格納 形式は、例えば二次元座標面上に配置される各文書要素の座標値及びこれらを結 ぶ個々の連結線の始点及び終点の座標値のデータ、或いは各文書要素の結合の 組合せ及び結合の位置を示すデータという形をとることができる。
[0216] 切断条件読み出し部 4160は、たとえば記憶装置 4103の条件記録部に記録され た榭状図切断条件を読み出す。読み出された切断条件はクラスタ抽出部 4170に送 られる。
[0217] クラスタ抽出部 4170は、榭状図作成部 4150で作成された榭状図を記憶装置 410 3の作業結果格納部力も読み出すとともに、切断条件読み出し部 4160で読み出さ れた切断条件に基づいて当該榭状図を切断し、クラスタを抽出する。抽出されたクラ スタに関するデータは、記憶装置 4103の作業結果格納部に送られて格納される。ク ラスタのデータは、例えばクラスタの各々に属する文書要素を特定する情報と、クラス タ同士の結線情報とを含んでいる。
[0218] 配置条件読み出し部 4180は、たとえば記憶装置 4103の条件記録部に記録され たクラスタ内の文書要素配置条件を読み出す。読み出された配置条件はクラスタ内 要素配置部 4190に送られる。
[0219] クラスタ内要素配置部 4190は、クラスタ抽出部 4170で抽出されたクラスタのデータ を記憶装置 4103の作業結果格納部から読み出すとともに、配置条件読み出し部 41 80で読み出された文書要素配置条件に基づいて各クラスタ内の文書要素の配置を 決定する。クラスタ内の配置を決定することで、本発明の文書相関図が完成する。こ の文書相関図は、記憶装置 4103の作業結果格納部に送られて格納され、必要に 応じて出力される。
[0220] 次に、図 42のフローチャートを参照して、第 1の解析サーバ 513における特許構造 図作成処理の概略にっ 、て説明する。
[0221] まず、文書読み出し部 4110が、分析対象となる複数の文書要素を記憶装置 4103 の文書格納部力も読み出す (ステップ S4210)。第 2の実施の形態において、分析対 象となる文書要素は、たとえば、母集団文書、或いは、調査対象文書および母集団 文書となる。
[0222] 次に、時間データ抽出部 4120が、文書読み出しステップ S4210で読み出された 文書要素群から、各要素の時間データを抽出する (ステップ S4220)。
[0223] 次に、索引語データ抽出部 4130が、文書読み出しステップ S4210で読み出され た文書要素群から、各文書要素の内容データである索引語データを抽出する (ステ ップ S4230)。索引語の抽出は第 1の実施の形態と同様である。
[0224] 次に、類似度演算部 4140が、索引語データ抽出ステップ S4230で抽出された各 文書要素の索引語データに基づき、文書要素間の類似度を演算する (ステップ S42
40)。類似度 (類似率)の演算についても、既に説明しているので、ここでの説明は省 略する。
[0225] 次に、榭状図作成部 4150が、榭状図作成条件に従って、類似度演算ステップ S4 240で演算された類似度に基づき、分析対象である文書要素群の榭状図を作成す る (ステップ S4250)。榭状図としては、文書要素などの間の類似度を結合位置の高 さ(結合距離)に反映させたデンドログラムを作成することが望ましい。デンドログラム の具体的な作成方法としては、公知の Ward法などを用いる。
[0226] 次に、切断条件読み出し部 4160が、記憶装置 4103の条件記録部に記録された 榭状図切断条件を読み出す (ステップ S4260)。
[0227] 次に、クラスタ抽出部 4170が、切断条件読み出しステップ S4260で読み出された 切断条件に基づき、榭状図作成ステップ S4250で作成された榭状図を切断し、クラ スタを抽出する(ステップ S4270)。
[0228] 次に、配置条件読み出し部 4180が、記憶装置 4103の条件記録部に記録されたク ラスタ内の文書要素配置条件を読み出す (ステップ S4280)。
[0229] 次に、クラスタ内要素配置部 4190が、配置条件読み出しステップ S4280で読み出 された文書要素配置条件に基づき、クラスタ抽出ステップ S4270で抽出されたクラス タ内の文書要素の配置を決定する(ステップ S4290)。クラスタ内の配置を決定する ことで、本実施の形態に力かる構造図が完成する。なお、配置条件はすべてのクラス タに共通として良い。よって、あるクラスタのためにステップ S4280を一度実行すれば 、他のクラスタのために再度実行する必要はない。
[0230] より詳細に、構造図の作成処理について説明する。本実施の形態おいては、ある 方法で決められた切断高さ αで榭状図を切断して親クラスタを抽出した後、各親クラ スタを更に子クラスタに分けるために、各親クラスタに属する文書要素のみを用いて 再度当該部分の榭状図を作成する。この部分榭状図の作成の際に、当該親クラスタ における文書要素ベクトルの成分の偏差が所定方法で定めた値より小さい値をとる 索引語次元を除去して分析する。
[0231] 図 43は、本実施の形態に力かるクラスタ抽出過程をより詳細に説明するフローチヤ ートである。このフローチャートは、図 42を部分的により詳細に示すものである。した
がって、図 42と同様のステップは、図 42のステップ番号に 100をカ卩え、下二桁を図 4 2と同一のステップ番号とし、重複する説明を省略する場合がある。
[0232] 図 44A〜図 44Fは、本実施の形態に力かるクラスタ抽出過程での榭状図配置例を 示す図であり、図 43を補足するものである。 E〜E は文書要素を表し、ここでは便
1 10
宜上、添え字の小さいほうがより小さな時間 tをもつ (より古い)文書要素であるとする
[0233] まず、文書読み出し部 4110が、分析対象となる複数の文書要素を記憶装置 4103 の文書格納部から読み出す (ステップ S4310)。
[0234] 次に、時間データ抽出部 4120が、分析対象である文書集団の各文書要素力も時 間データを抽出する(ステップ S4320)。
[0235] 次に、索引語データ抽出部 4130が、分析対象である文書集団の各文書要素から 索引語データを抽出する (ステップ S4330)。このとき、後述のように文書集団のうち の最古要素(最古の文書要素) Eの索引語データは不要なので、ステップ S4320で 抽出された時間データに基づき、最古要素以外の索引語データのみを抽出すること が好ましい。
[0236] 次に、類似度演算部 4140が、各文書要素間の類似度を演算する (ステップ S434 0)。このときも、上記と同様に最古要素 E以外の要素間の類似度のみを演算する。
[0237] 次に、榭状図作成部 4150が、分析対象である文書集団の各文書要素からなる榭 状図を作成する(ステップ S4350 :図 44A)。このとき、最古要素 Eは他の要素との類 似度如何に関わらず、榭状図の先頭に配置する。
[0238] 次に、切断条件読み出し部 4160が、切断条件の読み出しを行う(ステップ S4360) 。ここでは切断高さ (X、後述の偏差判定閾値などを読み出す。
[0239] 次に、クラスタ抽出部 4170が、クラスタ抽出を行う。まず、切断高さ ex =aで榭状図 を切断する (ステップ S4371:図 44B)。 a = aでクラスタ分離が生じな 、場合 (ステツ プ S4372で NO)、 a * = < D> + δ σ (但し一 3≤ δ≤3。特に 0≤ δ≤2とするの
D
が好ましぐ δ = 1とするのが最も好ましい。)で切断する (ステップ S4373)。榭状図 が切断されたら、各クラスタ内の最古要素 E、 Eを当該各クラスタの先頭に配置する
2 7
(ステップ S4374 :図 44C)。以下の処理は各クラスタの、当該各最古要素以外の文
書要素群につき行う。
[0240] まず、各クラスタにっき、最古要素以外のクラスタ内要素間での偏差が所定方法で 定めた値より小さい値をとる索引語次元を削除する処理を行う(ステップ S4375)。例 えば、図 44Cに示す文書要素 Eを先頭とするクラスタにおいて、文書要素 E、 E、 E
2 3 4
、 Eの索引語と、それぞれの索引語について算出された各文書要素ベクトルの成分
5 6
値がそれぞれ次の表 1に示す通りだったとする。
[0241] [表 1] 各文書要素の索引語とベクトル成分値
偏差の判定閾値を、例えばクラスタ内平均に対する標準偏差の比率で 10%と規定 した場合には、索引語 w及び wを偏差が小さい値と判定し削除する。
b e
[0242] 次に、各クラスタにっき、上記最古要素以外のクラスタ内要素からなる部分榭状図 の作成を行う(ステップ S4376 :図 44D)。表 1の例で言えば、残りの索引語 w、 w、 a c w、 wを用いて部分榭状図を作成する。従って、ステップ S4350で作成された榭状 d f
図での分岐とは異なるクラスタ内分岐が得られる。特に、偏差力 、さい値をとる索引 語次元が削除されているので、残りの索引語の差異が強調される。従って、同じ文書 要素間の類似度であっても、ステップ S4350で榭状図を作成した際の類似度よりも、 ステップ S4376で部分榭状図を作成する際の類似度の方が小さく評価されることに なる。
[0243] ここで、各クラスタにっき、最古要素を除!ヽたクラスタ内要素数を取得し、所定の閾 値(例えば「3」)と比較する(ステップ S4377)。図 44Dの文書要素 E〜Eのように、
3 6 最古要素 Eを除いた文書要素数が閾値を超えている場合は (ステップ S4377で NO
2
)、ステップ S4371に戻って榭状図の切断を行い、子孫クラスタを抽出する。このとき
の切断高さ oc (又は oc )は、ステップ S4371 (又はステップ S4373)で上述した通り であるが、偏差が小さい値をとる索引語次元が削除され類似度が小さく評価されてい るので、同じ切断高さ OC (又は ex *)でも再度榭状図の切断が可能となる。
[0244] なお、子孫クラスタ抽出の際にステップ S4373の切断高さ a *で切断する場合には 、切断される親クラスタにおける各結合位置の高さ Dに応じてその都度 oc *を更新し てもよ!/、し (可変法)、 a *の初期値をそのまま用いてもよ!ヽ(固定法)。
[0245] 図 12Dの文書要素 E〜E のように、クラスタ内の最古要素 Eを除いた文書要素
8 10 7
数が閾値以下であった場合 (ステップ S4377で YES)、当該クラスタについては最後 に切断高さ α = aで切断を行う(ステップ S4378 :図 44E)。ステップ S4378では、実 際にクラスタ分離が生じない場合でもステップ S4380に移行する。
[0246] ステップ S4380では、配置条件読み出し部 4180が、クラスタ内での配置条件の読 み出しを行う。この配置条件に従って、クラスタ内要素配置部 4190が、各文書要素 の時間データに基づき、クラスタ内における文書要素群の配列を決定する (ステップ S4390 :図 44F)。
[0247] 例えば、ステップ S4378において、図 44Eの切断高さ α = aで切断されクラスタ分 離が生じな力つた場合は、当該クラスタの文書要素 E〜E の時間データ順の直列
7 10
鎖配列となる(図 44F)。
[0248] また、例えばステップ S4378において、図 44Eの切断高さ a = aで切断された場
y
合は、文書要素 Eから、文書要素 Eと、文書要素 E及び E の時間データ順の直列
7 8 9 10
鎖と、に分岐される(図示せず)。
[0249] また、例えばステップ S4378において、図 44Eの切断高さ α = aで切断された場
z
合は、文書要素 Eから、文書要素 Eと文書要素 Eと文書要素 E の 3枝に分岐され
7 8 9 10
る(図示せず)。
[0250] クラスタ内の配置条件は、この例のように時間データに基づき古い順に並べるのが 好ましいが、他のものでもよい。
[0251] なお、偏差の判定閾値について、平均に対する標準偏差の比率で 10%とした例を 説明したが、これは各文書要素力^つの文書力もなる場合に好適な例である。各文 書要素が 1つの文書からなる場合の判定閾値は、 0%以上 10%以下とするのが好ま
しい。その一方、各文書要素が複数の文書力もなる場合には、クラスタ内文書要素の 平均に対する標準偏差の比率が 60%或いは 70%以下であれば、偏差が小さいもの として扱うことが好ましい。
[0252] 第 1の解析サーバ 513が上述した処理を実行することにより、図 32に示すような特 許構造図を得ることができる。特許構造図の作成(図 38のステップ S3804)が完了す ると、第 1の解析サーバ 513は、 IPCデータを取得し (ステップ S3805)、記憶装置に 記憶された処理結果 (集計結果、頻度散布図、特許構造図など)を所定形式のフアイ ル (たとえば Zipファイル)にする(ステップ S3806)。その後、第 1の解析サーバ 513 は、管理サーバ 512に対して、処理終了を通知する(ステップ S3807)。
[0253] 管理サーバ 512は、第 1の解析サーバ 513から処理終了の通知を受けると、その調 查案件を、第 2のキューイング機構に投入する。管理サーバ 512は、調査案件を第 2 のキューイング機構によってキューイングし、処理すべき順番となった調査案件につ いて、第 2の解析サーバ 514にリクエストして、調査案件データおよび特許構造図の 情報を与える。
[クラスタ情報の生成]
以下、クラスタ情報を得るための処理について説明する。
[0254] 第 1の解析サーバ 513は、調査対象文書における各キーワード (索引語)の使用頻 度と全公報中における各キーワード (索引語)の使用頻度とに基づ 、て、各キーヮー ドの重要度を算出する。重要度が上位所定の範囲にあるキーワードを重要キーヮー ドとする。各キーワードの重要度や、重要キーワードの情報も、第 1の解析サーバ 51 3の記憶装置に記憶される。
[0255] 調査対象文書における各キーワードの使用頻度と全公報中における各キーワード の使用頻度を数値化して比較することにおり、調査案件の技術的特徴を強く表現し ている度合いを、各キーワードの「重要度」として算出する。重要度がより高いキーヮ ードは、調査対象文書の特徴をより強く表現しているため、重要度が上位所定の範 囲にあるキーワードを重要キーワードと称する。
まず、以下の説明で使用する用語の定義および略号について説明する。クラスタ情 報は、各クラスタについての、タイトル、公報件数、主分類 IPCの集計 (上位 5位)、出
願人の集計 (上位 5位)およびクラスタの重要キーワードを含む。重要キーワードは、 クラスタに属する全公報力も抽出されたキーワードの重要度上位 10語までを表示し、 以下の 4分類に分けて表示する。
[0256] 技術領域語:クラスタの重要キーワードのうち、他のクラスタにも共通して使われて V、るキーワードである。多くのクラスタで共通して使われて 、るキーワードは概ねクラ スタの属する技術領域を表すキーワードであることが多い。
[0257] 主要語:クラスタの重要キーワードから「技術領域語」を除いたものの中で、そのクラ スタで特に良く使われて 、るキーワード。他のクラスタではあまり使われて 、な 、キー ワードであり、そのクラスタの主要な技術要素を表すキーワードであることが多い。他 のクラスタとの差別ィ匕を端的に表すキーワードでもある。
[0258] 特徴語:クラスタの重要キーワードから「技術領域語」および「主要語」を除 、たもの は、手段や構成などと関連のあるキーワードであることが多い。その中でも、比較的の 良く使われる一般語でありながら、分析対象公報群 (全公報類似度の上位 300位)で はあまり使われていないキーワードは手段や構成における特徴的な面を示唆する可 能性のあるキーワードであるとイエス。そのようなキーワードを所定の基準で算出し、「 特徴語」として表示する。
[0259] その他の重要語:クラスタの重要キーワードから上記の 3分類の何れにも該当しな い重要キーワードである。「その他の重要語」は、重要キーワードでありながら、上記 の 3っ 、の観点の 、ずれにも属さな 、キーワードであり、手段や構成に関連する技術 専門用語であることが多い。
[0260] 以下、このよう重要キーワードを抽出し、それぞれの分類に属するキーワードを取得 するキーワード取得処理について説明する。以下の処理の説明において、略号につ いては、上述した第 1の実施の形態および第 2の実施の形態に力かる第 1の解析サ ーバ 513の説明で用いたものと同じパラメータを、別の略号で記すこともあり、その一 方、前者の略号を、異なる意味で使うこともある。したがって、以下に述べる略号は、 以下の説明の範囲においてのみ適用される。
[0261] 高頻度語:索引語のうち分析対象となる文書群での出現頻度の高さを評価に含む 重みが大きい、所定個数の語。例えば、索引語の重みとして GF (E)又は GF (E)を
変数として含む関数値を算出し、その値の大きい語を所定数抽出することにより抽出 する。
[0262] E:分析対象の文書群。文書群 Eとしては、例えば、多数の文書を類似度に基づい てクラスタリングした場合の個々のクラスタを構成する文書群を用いる。文書群 Eを複 数備えた文書群集団 Sにおける各文書群を表示するときは E (u=l, 2, ···, n。n は文書群の数。)と表示する。
[0263] S:文書群 Eを複数備えた文書群集団。例えば、ある特許文書又は特許文書群に 類似する 300件の特許文書で構成される。
[0264] P:文書群 Eを含み、且つ文書群集団 Sを含む文書集団 (大文書集団)である全文 書。全文書 Pとしては、特許文献についての分析であれば、例えば日本国内で過去 10年間に発行されたすベての公開特許公報及び登録実用新案公報約 500万件を 用いる。
[0265] N (E)又は N (P):文書群 E又は文書集団 Pに含まれる文書の数
D、 D又は D〜D :文書群 Eに含まれる個々の文書
k 1 N(E)
W:文書群 Eに含まれる索引語の総数
w、 w、 w:文書群 Eに含まれる個々の索引語 (i=l, ···, WJ = 1, ···, W)
1 ]
∑ :条件 Hを満たす範囲で和をとることを意味する。
(条件 H}
[0266] Π :条件 Hを満たす範囲で積をとることを意味する。
(条件 H}
[0267] β (w, D):文書 Dにおける索引語 wの重み
C(w, w):索引語の文書単位での共起有無に基づいて算出される文書群での共
1 ]
起度。索引語 wと索引語 wの 1つの文書 Dにおける共起有無(1又は 0)を、 (β (w, D)及び |8 (w, D)により重み付けの上で)文書群 Eに属するすべての文書 Dについ て合計したもの
g又は g
h:高頻度語のうち各索引語との共起度が類似するもの同士で構成される「 土台」。土台数 =b(h=l, 2, ···, b)
Co(w, g):索引語 土台共起度。索引語 wと、土台 gに属する高頻度語 w'との共 起度 C(w, w')を、土台 gに属するすべての w' (但し wを除く。)にっき合計したもの a:文書 Dのタイトル (題名)
s:タイトル a (k=l, ···, N(E))の文字列連結
k
x:題名出現率。題名和 sの中での各題名 aの(文書数 N(E)に対する)出現率 k k
m:各題名 aにおいて出現した索引語 w (題名用語)の種数
k k v
f :題名用語についての、題名和 s中での(文書数 N(E)に対する)出現率 k
y:題名用語出現率平均。題名用語出現率 f を、各題名 aに出現した索引語 w ( k k k v 題名用語)の種数 mで除したもの
k
τ :タイトルスコア。ラベルの抽出順位を決めるために、文書群 Εに属する各文書 k
のタイトルごとに算出する。
[0268] T、 T、 · · ·:タイトルスコアて 降順で抽出されるタイトル (題名 )
1 2 k
K:キーワード適合度。ラベル (後述)の抽出個数を決めるために算出するもので、 文書群 Eに対するキーワードの占有度を示す。
[0269] TF(D)又は TF(w, D):索引語 wによる、文書 Dの中での出現頻度(索引語頻度; Term
Frequency)
DF(P)又は DF(w, P):索引語 wによる、母集団である全文書 Pの中での文書頻 度 (Document
Frequency) o文書頻度とは、ある索引語で、複数文書力 検索したときのヒット文書数 をいう。
[0270] DF(E)又は DF(w, E): 索引語 wによる、文書群 Eでの文書頻度
DF(w, D):索引語 wによる、文書 Dでの文書頻度、すなわち、索引語 wが文書 D に含まれて 、れば 1、含まれて!/、なければ 0となる。
[0271] IDF (P)又は IDF (w, P): "DF (P)の逆数 X全文書の総文書数 N (P) "の対数。例 えば、 ln(N(P)/DF(P))
GF(E)又は GF(w, E): 索引語 wによる、文書群 Eの中での出現頻度(大域的頻 度; ulobal Frequency)
TF*IDF(P): TF(D)と IDF(P)との積。文書の索引語ごとに演算される。
[0272] GF(E)*IDF(P): GF (E)と IDF (P)との積。文書の索引語ごとに演算される。
[0273] 以下、キーワード抽出のための処理装置の構成について、図 45のブロックダイヤグ
ラムを参照して説明する。ここでは、処理の内容の理解を容易にするために、第 1の 解析サーバ 513および第 2の解析サーバ 514の双方の機能のうち、キーワード抽出 に必要な機能を全て記載して 、る。
[0274] 文書読み出し部 4510は、記憶装置 4503の条件記録部に格納された読み出し条 件に従って、分析対象となる複数の文書 D〜D からなる文書群 Eを記憶装置 45
03の文書格納部力も読み出す。読み出された文書群のデータは、索引語抽出部 45 20に直接送られてそこでの処理に用いられる他、記憶装置 4503の作業結果格納部 に送られて格納される。
[0275] なお、文書読み出し部 4510から索引語抽出部 4520或いは作業結果格納部に送 られるデータは、読み出された文書群 Eの文書データを含むすべてのデータであつ ても良い。また、これら文書群 Eに属する各々の文書 Dを特定する書誌データ (例え ば特許文献であれば出願番号又は公開番号など)のみであっても良い。後者の場合 、以後の処理で必要なときは当該書誌データに基づ!/、て再度文書格納部から各文 書 Dのデータを読み出せばよい。
[0276] 索引語抽出部 4520は、文書読み出し部 4510で読み出された文書群から、各文 書の索引語を抽出する。各文書の索引語のデータは、高頻度語抽出部 4530に直 接送られてそこでの処理に用いられる他、記憶装置 4503の作業結果格納部に送ら れて格納される。
[0277] 高頻度語抽出部 4530は、索引語抽出部 4520で抽出された各文書の索引語に基 づき、記憶装置 4503の条件記録部に格納された高頻度語抽出条件に従って、文書 群 Eにおける出現頻度の高さを評価に含む重みの大きい索引語を所定個数抽出す る。
[0278] 具体的には、まず、各索引語について、文書群 Eにおける出現回数である GF (E) を算出する。また更に各索引語の IDF (P)を算出し、 GF (E)との積である GF (E) * 1 DF (P)を算出するのが好ましい。次に、算出された各索引語の重みである GF (E) 或いは GF (E) * IDF (P)の上位所定個数の索引語を、高頻度語として抽出する。
[0279] 抽出された高頻度語のデータは、高頻度語-索引語共起度算出部 4540に直接 送られてそこでの処理に用いられる他、記憶装置 4503の作業結果格納部に送られ
て格納される。また、上記算出した各索引語の GF (E)及び算出することが好ましいと された各索引語の IDF (P)についても、記憶装置 4503の作業結果格納部に送られ て格納されることが好まし 、。
[0280] 高頻度語—索引語共起度算出部 4540は、高頻度語抽出部 4530にて抽出された 各高頻度語と、上記索引語抽出部 4520にて抽出され作業結果格納部に格納され た各索引語との文書単位での共起有無に基づいて、文書群 Eにおける共起度を算 出する。索引語が P個、そのうち高頻度語が q個抽出されたとすれば、 p行 q列の行列 データとなる。
[0281] 高頻度語-索引語共起度算出部 4540で算出された共起度のデータは、クラスタリ ング部 4550に直接送られてそこでの処理に用いられ、或いは記憶装置 4503の作 業結果格納部に送られて格納される。
[0282] クラスタリング部 4550は、高頻度語-索引語共起度算出部 4540で算出された共 起度データに基づき、記憶装置 4503の条件記録部に格納されたクラスタリング条件 に従って、 q個の高頻度語をクラスタ分析する。
[0283] クラスタ分析を行うためには、まず、 q個の高頻度語の各々について、各索引語との 共起度の類似度を演算する。
[0284] 次に、類似度の演算結果に基づき、記憶装置 4503の条件記録部に格納された榭 状図作成条件に従って、高頻度語を榭状に結線した榭状図を作成する。榭状図とし ては、高頻度語間の非類似度を結合位置の高さ (結合距離)に反映させたデンドログ ラムを作成することが望ま 、。
[0285] 次に、記憶装置 4503の条件記録部に記録された榭状図切断条件に従って、上記 作成した榭状図を切断する。切断の結果、 q個の高頻度語が、各索引語との共起度 の類似度合 、に基づ 、てクラスタリングされる。クラスタリングにより生成された個々の クラスタを「土台」 g (h= l, 2, · · · , b)と呼ぶことにする。
h
[0286] クラスタリング部 4550で形成された土台のデータは、索引語-土台共起度算出部 4560に直接送られてそこでの処理に用いられ、或いは記憶装置 4503の作業結果 格納部に送られて格納される。
[0287] 索引語—土台共起度算出部 4560は、索引語抽出部 4520で抽出され記憶装置 4
503の作業結果格納部に格納された各索引語について、クラスタリング部 4550で形 成された各土台との共起度を算出する。各索引語について算出された共起度のデ ータは key(w)算出部 4570に直接送られてそこでの処理に用いられ、或いは記憶 装置 4503の作業結果格納部に送られて格納される。
[0288] key (w)算出部 4570は、索引語-土台共起度算出部 4560で算出された各索引 語の土台との共起度に基づき、各索引語の評価スコアである key (w)を算出する。算 出された key (w)のデータは Skey(w)算出部 4580に直接送られてそこでの処理に 用いられ、或いは記憶装置 4503の作業結果格納部に送られて格納される。
[0289] Skey(w)算出部 4580は、 key (w)算出部 4570で算出された各索引語の key(w) スコア、高頻度語抽出部 4530で算出され記憶装置 4503の作業結果格納部に格納 された各索引語の GF (E)及び各索引語の IDF (P)に基づき、 Skey(w)スコアを算 出する。算出された Skey (w)のデータは記憶装置 4503の作業結果格納部に送ら れて格納される。
[0290] 評価値算出部 4700は、文書群 Eを複数備えた文書群集団 Sに関し、索引語抽出 部 4520において抽出された各文書の索引語 wを作業結果格納部力も読み出す。 或いは評価値算出部 4700は、 Skey (w)算出部 4580において各文書群 Eについ てそれぞれ算出された索引語の Skey (w)を作業結果格納部から読み出す。必要に 応じて、評価値算出部 4700は、文書読み出し部 4510により読み出された各文書群 Eのデータを作業結果格納部力 読み出し、その文書数 N (E )を計数してもよい。 また、高頻度語抽出部 4530における高頻度語抽出の過程で算出された GF (E )や IDF (P)を作業結果格納部から読み出してもよ ヽ。
[0291] そして、評価値算出部 4700は、読み出した情報に基づき、各索引語 Wiの各文書 群 Eにおける出現頻度に基づく評価値 A ( , E )をそれぞれ算出する。算出された 評価値は、作業結果格納部に送られて格納され、或いは直接、集中度算出部 4710 及びシ ア算出部 4720に送られてそこでの処理に用いられる。
[0292] 集中度算出部 4710は、評価値算出部 4700で算出された各索引語 wの各文書群 Eにおける評価値 A (w , E )を、作業結果格納部から読み出し、又は評価値算出部 4700から直接受信する。
[0293] そして、集中度算出部 4710は、得られた評価値 A ( , に基づき、各索引語 w; について、文書群集団 Sでの各索引語 wの分布の集中度を算出する。この集中度は 、各索引語 wについて、各文書群 Eにおける評価値 A(w , E )の、上記文書群集団 Sに属する全ての文書群 Eでの和を算出し、当該和に対する各文書群 Eにおける 評価値 A (w , E )の比を各文書群 Eについて算出し、当該比の二乗をそれぞれ算 出し、当該比の二乗の上記文書群集団 Sに属する全ての文書群 Eにおける和を算 出することによって得られるものである。算出された集中度は、作業結果格納部に送 られて格納される。
[0294] シ ア算出部 4720は、評価値算出部 4700で算出された各索引語 wの各文書群 Eにおける評価値 A (w , E )を、作業結果格納部から読み出し、又は評価値算出部 4700から直接受信する。
[0295] そして、シェア算出部 4720は、得られた評価値 A (w , E )に基づき、各索引語 w について、各文書群 Eでのシェアを算出する。このシェアは、分析対象の文書群 E における各索引語 wの評価値 A (w , E )の、上記文書群集団 Sに属する各文書群 E 力 抽出された全ての索引語 wについての和を算出し、当該和に対する各索引語 wの評価値 A (w , E )の比を各索引語 wについて算出することによって得られるもの である。算出された集中度は、作業結果格納部に送られて格納される。
[0296] 第 1逆数算出部 4730は、文書群 Eを複数備えた文書群集団 Sに関し、索引語抽 出部 4520において抽出された各文書の索引語 wを作業結果格納部力も読み出す
[0297] そして、第 1逆数算出部 4730は、読み出した文書群集団 Sの各文書の索引語 wの データに基づき、各索引語 wについての文書群集団 Sでの出現頻度の逆数の関数 値 (例えば後述の規格化 IDF (S) )を算出する。算出された文書群集団 Sでの出現頻 度の逆数の関数値は、作業結果格納部に送られて格納され、或いは直接独創度算 出部 4750に送られてそこでの処理に用いられる。
[0298] 第 2逆数算出部 4740は、文書群集団 Sを含む大文書集団での出現頻度の逆数の 関数値を算出する。大文書集団としては全文書 Pを用いる。この場合、高頻度語抽 出部 4530における高頻度語抽出の過程で算出された IDF (P)を作業結果格納部
力も読み出し、その関数値 (例えば後述の規格ィ匕 IDF (P) )を算出する。算出された 大文書集団 Pでの出現頻度の逆数の関数値は、作業結果格納部に送られて格納さ れ、或いは直接独創度算出部 4750に送られてそこでの処理に用いられる。
[0299] 独創度算出部 4750は、第 1逆数算出部 4730及び第 2逆数算出部 4740において 算出された各出現頻度の逆数の関数値を、作業結果格納部から読み出し、又は第 1 逆数算出部 4730及び第 2逆数算出部 4740から直接受信する。また、高頻度語抽 出部 4530における高頻度語抽出の過程で算出された GF (E)を作業結果格納部か ら み出す。
[0300] そして、独創度算出部 4750は、第 1逆数算出部 4730の算出結果力も第 2逆数算 出部 4740の算出結果を減算したものの関数値を、独創度として算出する。この関数 値は、上記第 1逆数算出部 4730の算出結果力も第 2逆数算出部 4740の算出結果 を減算したものに対し、第 1逆数算出部 4730の算出結果と第 2逆数算出部 4740の 算出結果との和で除算したものでも良いし、各文書群 Eでの GF (E )を乗算したもの でも良い。算出された独創度は、作業結果格納部に送られて格納される。
[0301] キーワード抽出部 4760は、 Skey (w)算出部 4580で算出された Skey(w)、集中 度算出部 4710で算出された集中度、シェア算出部 4720で算出されたシェア及び 独創度算出部 4750において算出された独創度の各データを、作業結果格納部力も
BJCみ出す。
[0302] そして、キーワード抽出部 4760は、上記読み出した Skey(w)、集中度、シェア、独 創度の 4指標から選択される 2つ以上の指標に基づき、キーワードを抽出する。キー ワードの抽出方法は、例えば、選択された複数の指標の合計値が所定の閾値以上 か否か又は所定の順位以内力否かによっても良いし、選択された複数の指標の組み 合わせに基づ!/、て、キーワードをカテゴライズして抽出してもよ!/、。
[0303] 抽出されたキーワードのデータは、記憶装置 4503の作業結果格納部に送られて 格納される。
[0304] 以下、キーワード抽出処理について、図 46のフローチャートを参照して説明する。
[0305] < 1.文書読み出し >
まず、文書読み出し部 4510が、分析対象となる複数の文書 D〜D 力もなる文
書群 Eを記憶装置 4503の文書格納部力も読み出す (ステップ S4601)。
[0306] < 2.索引語抽出 >
次に、索引語抽出部 4520が、文書読み出しステップ S4610で読み出された文書 群から、各文書の索引語を抽出する (ステップ S4602)。各文書の索引語データは、 例えば、文書群 Eに含まれる索引語の各文書 D内における出現回数 (索引語頻度 T F (D) )の関数値を成分とするベクトルで表現することができる。
[0307] < 3.高頻度語抽出 >
次に、高頻度語抽出部 4530が、索引語抽出ステップ S4602で抽出された各文書 の索引語データに基づき、文書群 Eにおける出現頻度の高さを評価に含む重みの 大きい索引語を所定個数抽出する。
[0308] 具体的には、まず、各索引語について、文書群 Eにおける出現回数である GF (E) を算出する (ステップ S4603)。各索引語の GF (E)を算出するには、上記索引語抽 出ステップ S4602において算出した各索引語の各文書における索引語頻度 TF (D) を、文書群 Eに属する文書 D〜D につ 、て合計すればょ 、。
1 N(E)
[0309] 説明をわかり易くするために、 6個の文書 D〜D力もなる文書群 Eに合計 14個の
1 6
索引語 w〜w が含まれる場合の TF (D)及び GF (E)の仮想事例を次の表に示す。
1 14
以下の説明にお 、て、この仮想事例を適宜参照する。
[0310] [表 2]
各索引語の TF (D)及び GF (E)
次に、算出された各索引語の GF (E)に基づき、出現頻度上位の索引語を所定個 数抽出する (ステップ S4604)。高頻度語の抽出数は例えば 10語とする。この場合、 例えば 10語目と 11語目が同順位であれば、 11語目も高頻度語として抽出する。
[0311] 高頻度語の抽出にあたっては、更に各索引語の IDF (P)を算出して GF (E) * IDF
(P)の上位所定個数の索引語を抽出するのが好ましい。但し、上記の仮想事例によ る以下の説明にお 、ては、簡単のため GF (E)上位 7語を高頻度語とすることにする 。すなわち、索引語 w〜索引語 wが高頻度語として抽出される。
[0312] なお、索引語から高頻度語を抽出するにあたっては、予め全索引語から不要語を 除き、その残りから高頻度語を抽出するのが好ましい。但し、例えば日本語文書であ れば形態素解析ソフトウェアの違いによって索引語の切り出しがまちまちになるので 、必要十分な不要語リストを作成することは不可能である。従って不要語の排除は最 小限とするのが望ましい。不要語リストとしては、例えば特許文書では以下の例が考 えられる。
[0313] 〔キーワードとして意味をなさないもの〕
前記、上記、該、下記、記載、請求、項、特許、数、式、一般、以上、以下、手段、特 徴
〔キーワードとして重要性が低 、語'単位記号 ·ローマ数字〕 全体、範囲、種、類、系、用、%、 mm、 ml、 nm、 μ mなど
ここでは汎化能力を問題にしているため、上記のような不要語選択になっているが 、勿論、使用する形態素解析ソフトウェアや文書群の分野に合わせて必要なリストを 与えることは自由である。
[0314] <4.高頻度語一索引語共起度算出 >
次に、高頻度語-索引語共起度算出部 4540が、上記高頻度語抽出ステップ S46 04にて抽出された各高頻度語と、上記索引語抽出ステップ S4602にて抽出された 各索引語との共起度を算出する (ステップ S4605)。
[0315] 索引語 wと索引語 wとの文書群 Eにおける共起度 C(w, w)は、例えば次の式によ り算出する。
[0316] [数 1]
C( w; , wj ) = ∑ {DeE,[ /3 ( Wi , D ) ( Wj, D ) x DF( Wi, D ) x DF( Wj , D ) ] ここで β (w., D)は文書 Dにおける索引語 ^の重みであり、
β (w , D)=l
β (w , D)=TF(w , D)
β (w , D) =TF(w , D) XIDF(w , P)
等が考えられる。
[0317] DF(w , D)は文書 Dに索引語 wが含まれていれば 1、含まれていなければ 0となる 力ら、 DF(w, D) XDF(w, D)は、索引語 wと索引語 wが 1つの文書 Dにおいて共
j j
起していれば 1、共起していなければ 0となる。これを、(j8 (w, D)及び j8 (w, D)に より重み付けの上で)文書群 Eに属するすべての文書 Dについて合計したもの力 索 引語 wと索引語 wとの共起度 C(w, w)である。
[0318] なお、上記 [数 1]の類似例として、 [β (w, D) X β (w, D)]の代わりに、索引語 w と索引語 wとのセンテンス内共起有無に基づいて算出した文書 Dにおける共起度 c (
w, w)を用いても良い。文書 Dにおける共起度 c(w, w)は、例えば以下の式により 算出する。
[0319] [数 2]
C( W| , Wj ) = ∑ [seneD)[ TF、 W|, sen ) x TFk w' , sen ) ] ここで senは文書 Dにおける各センテンスを意味するものとする。 [TF(w, sen) XT
F(w, sen)]は、あるセンテンス内に索引語 wと wが共起していれば 1以上の値を返 j I j
し、共起していなければ 0を返す。これを文書 Dにおけるすべてのセンテンス senにつ き合計したものが、文書 Dにおける共起度 c(w, w)である。
[0320] 上記の仮想事例に基づいて、上記 [数 1]により、重み j8 (w, D) =1として共起度 を算出すると以下の通りである。まず、同じ索引語である索引語 wと索引語 wは、文 書 D〜文書 Dの計 3文書において共起していると言うことができ、共起度 C(w , w
1 3 1 1
) =3である。また、索引語 wと索引語 wは、文書 D及び文書 Dの計 2文書におい
2 1 1 3
て共起しており、共起度 C(w , w ) =2である。以下同様にして、索引語 w〜w の
2 1 1 14 何れか 1つと高頻度語 w〜wの何れか 1つとの組すべてについて共起度 C(w , w) を算出すると、次の表のような 14行 7列の行列データが得られる。
[0321] [表 3]
各高頻度語の各索引語との共起度
< 5.クラスタリング〉
次に、クラスタリング部 4550が、高頻度語—索引語共起度算出ステップ S4605で 算出された共起度データに基づき、上記高頻度語をクラスタ分析する。
[0322] クラスタ分析を行うためには、まず、上記高頻度語の各々について、各索引語との 共起度の類似度を演算する (ステップ S4606)。
[0323] 上記仮想事例において、類似度として、高頻度語 w〜wの各々についての 14次 元列ベクトル間の相関係数を採用した場合の演算結果を示すと、次の表の通りであ る。
[0324] [表 4]
共起度の類似度合い (相関係数)
表の左下半部は右上半部と重複するので省略している。この表によると、例えば高 頻度語 w〜高頻度語 wは、それらの何れの組合せでも相関係数が 0. 8を超えてい
1 4
る。また高頻度語 w〜高頻度語 wは、それらの何れの組合せでも相関係数が 0. 8
5 7
を超えている。逆に、高頻度語 W〜高頻度語 Wの何れかと高頻度語 W〜高頻度語
1 4 5
wの何れかとの組合せでは、相関係数がすべて 0. 8未満となっている。
[0325] 次に、類似度の演算結果に基づき、高頻度語を榭状に結線した榭状図を作成する
(ステップ S4607)。
[0326] 榭状図としては、高頻度語間の非類似度を結合位置の高さ (結合距離)に反映させ たデンドログラムを作成することが望ま 、。デンドログラムの作成原理を簡単に説明 すると、まず、各高頻度語間の非類似度に基づいて、非類似度が最小 (類似度が最 大)の高頻度語同士を結合させて結合体を生成する。更に結合体と他の高頻度語、 或いは結合体と結合体を、これらの非類似度の小さ 、順に結合させて新たな結合体 を生成する作業を繰り返す。こうして階層構造として表現することができる。結合体と 他の高頻度語との非類似度、或いは結合体と結合体との非類似度は、各高頻度語 間の非類似度に基づ 、て更新する。更新方法としては例えば公知の Ward法などを 用いる。
[0327] 次に、クラスタリング部 4550が、上記作成した榭状図を切断する (ステップ S4608) 。例えばデンドログラムにおける結合距離を Dとしたときの < D> + δ σ の位置で切
D
断する。ここで < D>は Dの平均値、 σ は Dの標準偏差である。 δは— 3≤ δ≤3の
D
範囲で与え、好ましくは δ =0とする。
[0328] 切断の結果、高頻度語が、各索引語との共起度の類似度合いに基づいてクラスタ リングされ、各クラスタに属する高頻度語群力もなる「土台」 g (h=l, 2, ···, b)が形 h
成される。同じ土台 g
hに属する高頻度語は、索引語との共起度の類似度が高ぐ異 なる土台 g
hに属する高頻度語は、索引語との共起度の類似度が低いことになる。
[0329] 榭状図とその切断過程については上記の仮想事例による説明を省略するが、高頻 度語 W〜高頻度語 Wからなる土台 gと、高頻度語 W〜高頻度語 Wからなる土台 g 1 4 1 5 7 2 という 2つの土台(土台数 b = 2)が形成されたものとする。
[0330] <6.索引語 土台共起度算出 >
次に、索引語—土台共起度算出部 4560において、上記索引語抽出ステップ S46 02で抽出された各索引語について、クラスタリングのステップ S4608で形成された各 土台との共起度 (索引語—土台共起度) Co (w, g)を算出する (ステップ S4609)。
[0331] 索引語 土台共起度 Co (w, g)は、例えば、次の式により算出する。
[0332] [数 3]
Co( w , g ) = ∑ !w.Sgi w'≠wtC( w , w' ) ここで w'は、ある土台 gに属する高頻度語であり、かつ共起度 Co (w, g)の計測対 象である索引語 w以外のものをいう。索引語 wと土台 gとの共起度 Co (w, g)は、 w, すべてについての、 wとの共起度 C(w, w,)の合計である。
[0333] 例えば上記の仮想事例において、索引語 wと土台 gとの共起度 Co (w , g )は、 し o(w , g ;=C(w , w)+し (w , wノ + C、w , w)
1 1 1 2 1 3 1 4
であり、上の表 3より、この値は、 2 + 3 + 3 = 8 となる。
[0334] また、索引語 wと土台 gとの共起度 Co (w , g )は、
1 2 1 2
Co(w, g )=C(w, w )+C(w, w )+C(w, w )=1 + 1 + 0 = 2 となる。
1 2 1 5 1 6 1 7
[0335] 同様にして、すべての索引語 wについて土台 g , gとの共起度を算出すると、次の
1 2
表のようになる。
[0336] [表 5]
索引語 wと土台 gの共起度 Co( w, g )
なお、索引語 土台共起度は、上記 Co(w, g)に限らず、次の式により算出しても 良い。
[数 4]
Co'(w,g)= ∑{DeE|[ S ( w , D ) x DF( w , D ) x θ( ∑ (w.eg, w,≠wlDF( w' , D ) ) ] ここで Θ (X)は、 X>0なら 1を返し、 X≤0なら 0を返す関数である。 Θ (∑ , ,
tw ^g, w ≠w
DF(w' , D))は、土台 gに属する何れかの高頻度語であってかつ共起度の計測対象 索引語 w以外の語 w'が、文書 Dに 1つでも含まれていれば 1を返し、まったく含まれ ていなければ 0を返すことになる。 DF(w, D)は共起度の計測対象索引語 w力 文
書 Dに 1つでも含まれていれば 1を返し、まったく含まれていなければ 0を返す。 DF ( w, D)に Θ (X)を乗じることで、 wと土台 gに属する何れかの w'とが文書 Dにおいて 共起していれば 1を返し、共起していなければ 0を返すことになる。これに、上で定義 した重み j8 (w, D)を乗じ、さらに文書群 Eに属するすべての文書 Dについて合計し たものが、 Co' (w, g)である。
[0338] 上記 [数 3]の索引語 土台共起度 Co (w, g)は、 wと w'の D内での共起有無(1又 は 0)をすベての Eについて重み j8 (w, D) X j8 (w', D)付きで合計(C (w, w' ) )し 、これを g内の w'について合計した。これに対し、上記 [数 4]の索引語-土台共起度 Co' (w, g)は、 wと g内の何れかの w,の D内での共起有無(1又は 0)をすベての Eに ついて重み (w, D)付きで合計した。
[0339] 従って、いずれの場合でも、より多くの文書 Dで高頻度語と共起した方が、より大き い索引語 土台共起度が得られる。また、 [数 3]の索引語 土台共起度 Co (w, g) は索引語 wと共起する土台 g内の w'の数の多寡により増減するものであるのに対し、 [数 4]の索引語-土台共起度 Co (w, g)は索引語 wと共起する土台 g内の w'の存 否により増減するもので、共起する w'の多寡は無関係である。 [数 3]の索引語 土 台共起度 Co (w, g)を用いる場合は重み j8 (w, D) = lとするのが好ましぐ [数 4]の 索引語—土台共起度 Co' (w, g)を用いる場合は重み j8 (w, D) =TF (w, D)とする のが好ましい。
[0340] く 7. key (w)算出 >
次に、 key (w)算出部 4570が、上記索引語-土台共起度算出ステップ S4609で 算出された各索引語の土台との共起度に基づき、各索引語の評価スコアである key( w)を算出する(ステップ S4610)。
[0341] key(w)は、例えば、次の式により算出する。
[0342] [数 5] key(w) = 1 - n(1≤h≤b}[ 1 - Co( w , gh ) / F(gh) ] ここで、 F (g ) =∑ Co (w, g )と定義する。索引語 wと土台 gとの共起度 Co (w h {w^E} h h
, g )の、全索引語 wについての合計である。 Co (w, g )を F (g )で除して 1との差を
とり、これをすベての土台 g (h=l, 2, ···, b)について乗じて 1との差をとつたもの h
力 key (w)である。
[0343] なお、索引語 土台共起度として、ここでは上記 [数 3]の Co (w, g)を用いたが、上 記 [数 4]の Co' (w, g)を用いてもょ 、ことは上述の通りである。
[0344] 例えば上記の仮想事例において、 F(g )を算出すると、上記 [表 4]より、
h
F(g)=Co(w, g)+Co(w, g)H hCo (w , g)=85
1 1 1 2 1 14 1
F(g)=Co(w, g)+Co(w, g)H hCo (w , g)=59
2 1 2 2 2 14 2
となる。そこで、 key(w)は、
key(w)=l-(l-Co (w , g )/85) (l-Co(w , g )/59)
1 1 1 1 2
=1一 (1 一 8/85) (1 一 2/59)
=0. 125
key(w)=l-(l-Co (w , g )/85) (l-Co(w , g )/59)
2 2 1 2 2
=1一 (1 一 8/85) (1 一 4/59)
=0. 156
以下同様に、すべての索引語について key (w)を算出すると、次の表の通りである。
[0345] [表 6]
索引語 key (w) 順位
1 -( 1 - 8/85 ) ( 1 - 2/59 )
8
= 0.125
1 - ( 1 - 8/85 ) ( 1 - 4/59 )
W2 6
= 0.156
1 - ( 1 - 10/85 ) ( 1 - 5/59 )
w3 3
= 0.192
1 - ( 1 - 10/85 ) ( 1 - 8/59 )
W4 2
= 0.237
1 -( 1 - 8/85 ) ( 1 - 6/59 )
w5 4
= 0.186
1 -( 1 - 7/85 ) ( 1 - 6/59 )
w6 5
= 0.176
1 -( 1 - 4/85 ) ( 1 - 6/59 )
w7 7
= 0.144
1 -( 1 - 15/85 )( 1 - 11/59 )
w8 1
= 0.330
1 - ( 1 - 4/85 ) ( 1 - 0/59 )
Wg 14
= 0.047
1 - ( 1 - 3/85 ) ( 1 - 1/59 )
)0 12
= 0.052
1 - ( 1 - 4/85 ) ( 1 - 1/59 )
11 10
= 0.063
1 - ( 1 - 3/85 ) ( 1 - 3/59 )
w12 9
= 0.084
1 -( 1 - 1/85 )( 1 - 3/59 )
W13 11
= 0.062
1一( 1一 0/85 ) ( 1 - 3/59 )
W14 13
= 0.051 この表の右端の欄は key (w)の大き 、順に並べた場合の順位を示して 、る。
[0346] key (w)の特質を説明するために、 [表 2]と同じものに各索引語の文書頻度 DF(E
)と上記 key (w)順位とを付記して次に示す。
[0347] [表 7]
各索引語の TF (D)及び GF (E)等
この表力もわ力るように、 key (w)の順位には文書群 Eでの文書頻度 DF (E)の順位 の影響が大きい。例えば、 DF (E)最多の索引語 wは key (w)が第 1位であり、 DF (
8
E)次点の索引語 wは key (w)が第 2位であり、以下索引語 w、 w、 w等がそれに
4 3 5 6
続いている。
[0348] 文書群 Eでの文書頻度 DF (E)が大きい索引語なら、より多くの文書において高頻 度語と共起することができる。したがって、より大きい索引語一土台共起度 Co (w, g) 又は Co' (w, g)が得られる。 key (w)の順位に DF (E)の順位の影響が大きい理由は ここにあると考えられる。
[0349] なお、共起度の算出に用いる重み j8 (w, D)を TF (w, D)とした場合には、 key(w )の順位には文書群 Eでの大域的頻度 GF (E)の順位の影響が大きくなると考えられ る。
[0350] また、 [表 3]及び [表 7]で索引語 w〜w を比較するとわ力るように、共起する高頻
9 14
度語がより多くの土台にまたがつている方力 key(w)が大きい。例えば、索引語 w
10
〜w と共起する高頻度語は、 2つの土台にまたがっているのに対し、索引語 wや w
13 9 1 と共起する高頻度語は、 1つの土台に偏っている。そして、索引語 w 〜w の方が
索引語 wや w より key (w)が大きくなつている。
9 14
[0351] また、 [表 3]及び [表 7]で索引語 w 〜w を比較するとわ力るように、より多くの高
10 13
頻度語と共起している方力 key (w)が大きい傾向がある。例えば、 w 〜w のうち、
10 13 最も多くの高頻度語と共起している w は、それらのうちで最も key (w)が大きぐその
12
次に多くの高頻度語と共起して 1ヽる w は、その次に key (w)が大き 、。
11
[0352] なお、各索引語の評価スコアとして、上記 key (w)の代わりに、次の式を用いても良 い。
[0353] [数 6] key'(w) = ( 1 / Φ )( 1 / b ) ∑ Co( w , gh )
h=1 ここで Φは適当な規格ィ匕定数であり、例えば Φ =∑ b
h=l
F(g )とする。 F(g )は上記 [数 5]で定義した通りである。
h h
[0354] ke (w)は、索引語 wと土台 gとの共起度 Co (w, g )の、全土台 g (h=l, ···, b h h h
)における平均値を定数(ΐΖΦ)倍したものである。
[0355] また、各索引語の評価スコアとして、上記 key (w)の代わりに、次の式を用いても良 い。
[0356] [数 7]
b
key"(w) = ( 1 / b ) x ∑ [ Co( w , gh ) / F(gh) ] key"(w)は、索引語 wと土台 gとの共起度 Co (w, g )を F(g )で除して、全土台 g h h h h
(h=l, ···, b)における平均値をとつたものである。
[0357] [数 5]の key (w)にお 、て積部分を展開し、高次の微小項 O [ (Co (w, g )/F(g ) h h
)2]を無視すると、
key (w)
= 1一 [ 1— Co(w,g )/F(g )] X [ 1— Co(w,g )/F(g )] X · · ·
1 1 2 2
となるから、 key"(w) = (1/b) key (w)ということができる。
[0358] < 8. Skey(w)算出〉
次に Skey (w)算出部 4580にお!/、て、上記 key (w)算出ステップ S4610で算出さ れた各索引語の key (w)スコア、高頻度語抽出ステップ S4604で算出された各索引 語の GF (E)及び各索引語の IDF (P)に基づき、 Skey (w)スコアを算出する (ステツ プ S4611)。
[0359] Skey(w)スコアは、次の式により算出する。
[0360] [数 8]
Skey(w) = GF( w, E ) x In [ key(w) ÷ ( DF( w , P ) / N(P) ) ]
= GF( w, E ) x [ IDF(P) + In key(w) ]
GF (w, E)は文書群 Eにおいて多く出現する語に対して大きな値が与えられるもの であり、 IDF (P)は全文書 Pにおいては珍しく文書群 E特有の語に対して大きな値が 与えられるものであり、 key(w)は上記のように DF (E)の影響を受け、より多くの土台 と共起する語に大きな値が与えられるスコアである。これら GF (w, E)、 IDF (P)及び key (w)の値が大き!/、ほど Skey (w)は大きくなる。
[0361] 索引語に対する重み付けとして良く用いられている TF * IDFは、索引語頻度 TFと 、文書集団における索引語の出現確率 DF(P)ZN(P)の逆数の対数である IDFとの 積である。 IDFは文書集団において高確率で出現する索引語の寄与を小さく抑える 効果を有し、特定の文書にのみ偏って出現する索引語に高い重みを与えることがで きる。しかし、時にただ文書頻度が小さいだけで値が跳ね上がるという欠点も持って いる。次に説明するように、 Skey (w)スコアは、このような欠点を改善する効果を有す るものである。
[0362] 分析対象の文書群 Eにおいて、索引語 wを含む文書が出現する確率を P (A)、土 台(に属する索引語)を含む文書が出現する確率を P (B)、索引語 wと土台をともに 含む文書が出現する確率( =文書内で共起する確率)を P (A ΓΊ B)とすると、 P (A) = DF (w, E) Z N (E)
P (A n B) =key(w)
で表せる。これより、文書群 Eにおいて、索引語 wを含む文書が選出された時に土台 と共起する確率 (条件付確率)は、
[0363] [数 9]
Ρ(Β |Α) = Ρ(Α Π Β) / Ρ(Α)
= key(w) x Ν(Ε) / DF( w , Ε ) となる。更に、一様性の仮定 (IDF (Ε) =IDF(P))を考慮し、かつ上記条件付確率の 対数をとると、
[0364] [数 10]
In P( B I A ) = In [ key(w) x N(P) / DF( w , P ) ]
= In key(w) + IDF(P) となる。この値は、 key (w) =1ならば IDF (P)に等しい。そして、 DF→0の極限では、 N(P) /DF(w, P)→
∞且つ key(w)→0なので、 N(P)ZDF(w, P)と key (w)の積をとることによって、 DF値が小さいときに IDF値が特異的に跳ね上がるという上記の欠点を改善すること 力 sできる。 [数 8]の Skey(w)スコアは、 GF(w, E)と、上記 [数 10]の In key(w) + IDF(P)との積をとつたものであるから、共起度によって補正された GF(E) *IDF(P )ということができる。
[0365] なお、 [数 8]による Skey(w)の算出において、 [数 5]の key (w)の代わりに、 [数 6] の key' (w)や [数 7]の key"(w)を用いても良!、ことは上記の通りである。
[0366] [数 7]の key"(w)を用いた場合の Skey(w)スコアを Skey(key")と表記し、 [数 5] の key (w)を用いた場合の Skey (w)スコアを Skey (key)と表記して両者を比較する と、
S ey (Key)― ¾key (key )
= GF、w, E) X [In key、w)— In key (wノ]
= GF(w, E) X In b
よって、 [数 7]の key" (w)を用いた Skey (w)と、 [数 5]の key (w)を用いた場合の S key (w)の振る舞いは土台数 bの違 、を除 、て本質的に合致し、土台数 bが大きくな い限りは Skey (w)スコアの順位に大きな影響は及ぼさな!/、。
[0367] < 9.評価値算出 >
Skey (w)を算出すると、評価値算出部 4700は、各文書群 Eにおける上記索引語
Wiの出現頻度の関数値に基づく評価値 A (Wi, Eu)を、各文書群 Eu及び各索引語 ^ にっき算出する (ステップ S4612)。
[0368] 評価値 A(w , E )としては、例えば、上述の Skey (w)をそのまま用いる力、 Skey ( w)/N(E )、或いは GF(E) * IDF (P)を用いる。例えば、各文書群 E及び各索引 語 Wiにっき、次のようなデータを得る。なお、説明の便宜上、索引語の種数 W= 5とし
、文書群数 n= 3とした。
[0369] [表 8]
<10.集中度算出 >
次に集中度算出部 4710が、各索引語 Wiについて次のようにして集中度を算出す る(ステップ S4613)。
[0370] まず、各索引語 ^について、各文書群 Euにおける評価値 A (Wi, Eu)の、上記文書 群集団 Sに属する全ての文書群 Eについての和∑ nA(w, E )を算出し、当該和 に対する各文書群 Eにおける評価値 A (w, E )の比
A(w, E )/∑ _ nA(w, E )
を各文書群 E及び各索引語 wについて算出する。そして、各索引語 wについて、当 該比の上記文書群集団 Sに属する全ての文書群 Eにおける二乗和
∑ _ n{A(w, E )/∑ _ nA(w, E )}2
力 索引語 wの文書群集団 Sでの集中度となる。これを上表の例で示すと次のように なり、各索引語 wについて集中度が算出される。
[0371] [表 9]
索引語 Wiの評価値の和に対する比
A(w;, Eu) / ∑U=1 3A (Wi , Eu)
w2 w3 w4 w5
E, 4/20 2/8 10/ 18 0/2 4/ 12 文書群
E2 12/20 2 /8 3/ 18 0/2 8/ 12
E3 4/ 20 4/8 5/ 18 2 /2 0/ 12
(16+144+16) (4+4+16)/ (100+9+25) (0+0+4)/4 (16+64+0)/ 集中度 /400=0.44 64=0.38 7324=0.41 =1.00 144=0.56
<11.シェア算出 >
次にシェア算出部 4720が、各索引語 Wiについて各文書群 Euでのシェアを次のよう にして算出する(ステップ S4614)。
[0372] まず、各文書群 Eにおいて、各索引語 wの評価値 A(w, E )の、上記文書群集団 S力も抽出された全ての索引語 wについての和∑ wA(w, E )を算出する。そして 、当該和に対する各索引語 wの評価値 A(w, E )の比であるシェア
A(w., E )/∑ WA(w, E )
を算出する。これを上表の例で示すと次のようになり、各索引語 wについて各文書群 Eでのシェアが決定される。
[0373] [表 10]
<12.独創度算出 >
次に、各索引語 Wiについて、次のようにして独創度の値を算出する。
[0374] まず、第 1逆数算出部 4730が、各索引語 wについて、上記文書群集団 Sでの出現 頻度の逆数の関数値を算出する (ステップ S4615)。
[0375] 文書群集団 Sでの出現頻度としては例えば文書頻度 DF(S)を用いる。出現頻度の 逆数の関数値としては、文書群集団 Sでの逆文書頻度 IDF(S)、或いは特に好まし
い例として IDF (S)を分析対象の文書群 Euから抽出された全索引語で規格ィ匕した値 (規格化 IDF (S) )を用いる。ここで IDF (S)は" DF (S)の逆数 X文書群集団 Sの文 書数 N (S) "の対数である。規格ィ匕の例としては例えば偏差値を用いる。規格化する 理由は、分布を揃えることで後述の IDF (P)との組み合わせによる独創度の算出を 容易にするためである。
[0376] 次に、第 2逆数算出部 4740が、各索引語 wについて、上記文書群集団 Sを含む大 文書集団 Pでの出現頻度の逆数の関数値を算出する (ステップ S4616)。
[0377] 出現頻度の逆数の関数値としては、 IDF (P)或いは特に好ましい例として IDF (P) を分析対象の文書群 Eから抽出された全索引語で規格化した値 (規格化 IDF (P) ) を用いる。規格ィ匕の例としては例えば偏差値を用いる。規格化する理由は、分布を 揃えることで上記の IDF (S)との組み合わせによる独創度の算出を容易にするため である。
[0378] 次に、独創度算出部 4750が、各索引語 wについて、 {IDF (S)の関数値— IDF (P )の関数値 }の関数値を、独創度として算出する (ステップ S4617)。独創度の算出に IDF (S)及び IDF (P)のみを用いる場合には、独創度は各索引語 wにつ 、て 1つの 値が算出される。文書群 Eで規格化した規格化 IDF (S)や規格化 IDF (P)を用いる 場合や、別途 GF (E )等で重み付けする場合は、独創度は各文書群 Eについて、 且つ各索引語 wについてそれぞれ算出される。
[0379] 独創度は、特に、次式の DEVで与えるのが好ましい。
[0380] [数 11]
DEV -锯格 GF(E ) 規格化 IDF(S) -規格化 IDF(P)
ヒ ―規 化 GF(E X 規格化 ) +規格化 F(P)
DEVの第一ファクタである規格ィ匕 GF (E )は、分析対象の文書群 Eでの各索引語 wの大域的頻度 GF (E )を、分析対象文書群 Eカゝら抽出された全索引語で規格ィ匕 したものである。
[0381] 規格化 IDF (S) >0、且つ規格化 IDF (P) >0となるような規格ィ匕をした場合、 DEV の第二ファクタは、文書群集団 Sにおける IDFの規格ィ匕値が大文書集団 Pにおける I DFの規格ィ匕値より大きければ正、小さければ負となる。文書群集団 Sでの IDFが大
きいことは、この文書群集団 Sでは珍しい語であることを意味する。この、文書群集団 Sでは珍しい語のうち、文書群集団 Sを含む大文書集団 Pでの IDFが小さい語は、他 分野では良く使われているとしても当該文書群集団 Sに係る分野で用いることに独創 性があるということができる。また、 {規格化 IDF (S) +規格化 IDF (P) }で除算してい るので、 DEVの第二ファクタは 1以上 + 1以下の範囲となり、異なる文書群 E間で の比較が容易となる。
[0382] また、 DEVは規格ィ匕 GF (E )に比例するため、対象文書群での頻度の高!、語程、 高い数値ともなる。
[0383] 特に、文書群集団 Sが複数の文書群 E (u= l, 2, · · 力もなる場合に、これら文 書群 Eの各々を分析対象文書群としてそれぞれ独創度のランキングを作成すれば、 当該文書群集団 Sにおいて共通の索引語は下位に落ち、各文書群 Eに特徴的な語 が各文書群 Eでの上位にくることになるため、文書群 Eごとの特徴を把握するのに 有益である。
[0384] < 13.キーワードの抽出 >
次に、キーワード抽出部 4760が、以上のステップで得られた Skey(w)、集中度、 シェア、独創度の 4指標から選択される 2つ以上の指標に基づき、キーワードを抽出 する(ステップ S4618)。
[0385] 好ましくは、以上の Skey (w)、集中度、シェア、独創度の 4指標すベてを用いて、 対象文書群 Eの索引語 wを、「非重要語」と、重要語のうちの「技術領域語」、「主要 語」、「独創語」、「その他の重要語」のいずれかに分類して重要語を抽出する。特に 好ま 、分類方法は次の通りである。
[0386] まず、第一判定は Skey (w)を用いる。各文書群 Eにおいて、 Skey(w)降順ランキ ングを作成し、所定の順位より下位のキーワードは「非重要語」とし、キーワードの抽 出対象から外す。当該所定の順位以内のキーワードは各文書群 Eで重要な語であ るので「重要語」とし、これを更に以下の判定で分類する。
[0387] 第二判定は集中度を用いる。集中度が低い語は、文書群集団全体に分散している 語であるから、分析対象の文書群が属している技術領域を広く捉えたものとして位置 づけることができる。そこで文書群集団 Sにおける集中度の昇順ランキングを作成し、
所定の順位以内のものを「技術領域語」とする。各文書群 Euの重要語から、上記の 技術領域語と一致するキーワードを、その文書群 Eの「技術領域語」として分類する
[0388] 第三判定はシェアを用いる。シェアが高 1、語は、分析対象の文書群でのシェアが 他の語より高いので、分析対象の文書群をよく説明できるもの(主要語)として位置づ けることができる。そこで各文書群 Eにおいて、第二判定で分類されな力つた重要語 に対するシ ア降順ランキングを作成し、所定の順位以内のものを「主要語」とする。
[0389] 第四判定は独創度を用いる。各文書群 Eにおいて、第三判定で分類されなかった 重要語に対する独創度降順ランキングを作成し、所定の順位以内のものを「独創語」 とする。残りの重要語は「その他の重要語」とする。
[0390] 以上の判定を表にすると次のようになる。
[0391] [表 11]
以上の判定にお!、て、第一判定に用いる重要度の指標として Skey (w)を用いたが 、これに限らず、文書群での重要度を示す他の指標を用いてもよい。例えば、 GF (E ) * IDF (P)でもよい。
[0392] また、以上の判定において、重要度、集中度、シェア及び独創度の 4指標を用いて 分類したが、これらのうち任意の 2つ以上の指標を用いることによつても、索引語の分 類が可能である。
[0393] 上述したように、キーワードが重要度、集中度、シェア及び独創度の 4指標を用いて 分類される。最終的に、各クラスタについての、タイトル、公報件数、主分類 IPCの集 計 (上位 5位)、出願人の集計 (上位 5位)およびクラスタの重要キーワードを含むクラ スタ情報が、第 2の解析サーバ 514の記憶装置に記憶されるとともに、管理サーバ 51
2に与えられる。管理サーバ 512は、第 2の解析サーバ 514の処理結果を、ファイル 作成サーバ 516に与える。
[0394] 管理サーバ 512、第 2の解析サーバ 514およびファイル作成サーバ 516による、ク ラスタ情報出力までの流れについて説明する。図 47は、クラスタ情報出力までの処 理の流れを示す図である。図 47に示すように、管理サーバ 512は、第 1の解析サー ノ 513の処理結果を、たとえば、 Zipファイルにして、第 2の解析サーバ 514に引き渡 す (ステップ S4701)。
[0395] 第 2の解析サーバ 514は、処理を実行して IDF情報を出力する (ステップ S4702)。
より詳細には、第 2の解析サーバ 514は、
(1)管理サーバ 512から受領したファイル中に含まれている構造図を出力する際に 作成された公報リストを元に、各公報のキーワードの分かち書き結果を取得する。
(2)上記(1)で求めたキーワードごとの IDF (対母集団)、 IDF (対全公報)を算出す る。
(3)上記(2)で求めた値を保持するファイル (たとえば CSVファイル)、および、管理 サーバ 512から受領したファイル (Zipファイル)内に含まれる全ファイルを含んだ形 式のファイル(たとえば Zipファイル)を作成し、管理サーバ 512に返却する(ステップ S4703)。
[0396] 管理サーバ 512は、さらに、第 1の解析サーバ 513の処理結果および S4702の ID F情報を含むファイル (たとえば Zipファイル)を、再度、第 2の解析サーバ 514に引き 渡す (ステップ S4704)。
[0397] 第 2の解析サーバ 514は、ファイルを受領すると、キーワード属性、主要出願人情 報を出力する (ステップ S4705)。より詳細には、第 2の解析サーバ 514は、
(1)キーワードごとの集中度、集中度順位を求める。
(2)クラスタ、クラスタに付随するキーワードごとに、以下の値を求める。
重要度、重要度順位
説明度、説明度順位
独創度、独創度順位 (ここで、 IDF情報が参照される。 )
(3)クラスタごとの主要出願人、出願件数、主要出願人順位を求める。
(4)クラスタごとの主要 IPCサブグループ、公開件数、主要 IPCサブグループ順位を 求める。
(5)上記(1)〜(4)で求めた値を保持する各ファイル (たとえば CSVファイル)および 管理サーバより受領したファイル (Zipファイル)内に含まれる全ファイルを含んだ形式 のファイル(たとえば Zipファイル)を作成し、管理サーバ 512に返却する(ステップ S4 706)。
[0398] 管理サーバ 512は、第 1の解析サーバ 513の処理結果および第 2の解析サーバ 51 4の処理結果を含むファイル(たとえば Zipファイル)を、ファイル作成サーバ 516に引 き渡す (ステップ S4707)。
[0399] ファイル作成サーバ 516は、受領したファイルに基づいて、クラスタ情報ファイルを 作成する (ステップ S4708)。より詳細には、ファイル作成サーバ 516は、
(1)上記第 2の解析サーバ 514におけるステップ S4705で算出された各値を元に、 各クラスタに付随するキーワードがどのカテゴリ(「技術領域」、「主要観点(主要語)」
、「独自観点 (独創語)」「その他」 )に属するかを判定し、各キーワードを適切な項目( カテゴリ)にセットする。
(2)各クラスタの主要出願人や主要 IPCサブグループの情報を、各項目にセットする
(3)上記(1)、(2)をクラスタごとに行った後、項目にキーワードなどがセットされた状 態の表形式ファイルを作成するとともに、当該表形式ファイルと、管理サーバより受領 したファイル (Zipファイル)中に含まれる全ファイルとを含んだ形式のファイル (たとえ ば Zipファイル)を作成し、管理サーバ 512に返却する(ステップ S4709)。
[0400] これにより、管理サーバ 512は、全ての処理結果が含まれる最終的なファイル (Zip ファイル)を取得することができる。管理サーバ 512は、最終的なファイルを、ウェブサ ーノ 511に引き渡す。ウェブサーバ 511は、管理サーバ 512から受領したファイルを 添付ファイルとするようなメールを作成して、クライアント 502に送信する。
[他の実施の形態]
図 48〜図 50を参照して、クライアント、ウェブサーバ、管理サーバ、第 1および第 2 の解析サーバ、並びに、データベースサーバのそれぞれで実行される処理について
説明する。なお、以下の説明では、第 1の解析サーバおよび第 2の解析サーバを分 けず、単に「解析サーバ」と称する。ただし、解析サーバを、第 1の解析サーバおよび 第 2の解析サーバの 2台設けて、分散処理させることも可能である。本実施の形態は 、解析サーバがスレッドを作成することにより、各種処理を逐次又は並列に行うことが できるマルチスレッド処理機能を備えることに特徴がある。
[0401] ウェブサーバは、クライアントとの間のインタフェースとして機能し、クライアントから のデータを受信し、また、クライアントに対して、データを送信する。ウェブサーバは、 クライアントからネットワークを介してウェブサーバに送信された、ユーザによる入力に 基づいて、情報解析報告書を作成すべき案件、つまり調査対象文書の情報 (以下、「 調査案件情報」と称する。)を作成し、これを管理サーバに与える。
[0402] 管理サーバは、調査案件をキューイングして、その投入順に、解析サーバにリクェ ストする。管理サーバは、解析サーバにリクエストするためのキューイング機構を有し ている。
[0403] 解析サーバは、母集団の抽出、各種集計処理、構造図、及びクラスタリング情報の 作成などの処理を実行する。
[0404] 図 48に示すように、ウェブサーバは、クライアントからのリクエストに応じて、 HTML 配信する。クライアントはユーザの操作にしたがってログイン画面要求をウェブサーバ に送信し、ウェブサーバは、ログイン画面要求に応じて、ログイン画面をクライアントに 配信する。クライアントからのログインに対して、ウェブサーバは、認証を行い、認証で きなかった場合には、再度、クライアントによるログインに戻る。その一方、認証できた 場合には、ウェブサーバは、調査対象文書情報入力欄および要求コンテンツ選択欄 を含む入力画面をクライアントに配信する。
[0405] 第 2の実施の形態と同様、図 37Aに示すように、検索画面には、特許文献を特定 するための欄 3701〜3704、テキスト入力欄 3705が含まれる。本実施の形態にお いては、調査対象文書として、特許公開公報や特許公報のほか、ユーザ自身が入力 したテキストとすることもできる。テキストとしては、ユーザが出願しょうとしている技術 の要約などを入力することができる。
[0406] 調査対象文書が、特許公開公報などの特許文献であれば、ユーザは、クライアント
502を操作して、欄 3701〜3704に必要な情報を入力する。或いは、ユーザは、テ キスト入力欄 3705に、調査対象とすべき情報を入力しても良い。
[0407] なお、欄 3706には、類似公報をリストする際に、欄 3706の入力に基づく期間のも のを色づけて強調するようなサービスを行うために利用される。
[0408] ユーザ力 Sクライアントを操作して入力した調査対象文書情報およびコンテンツ選択 情報を、ウェブサーバが受信すると、受信した調査対象文書情報およびコンテンツ選 択情報から案件を識別し、案件を管理サーバに送信する。管理サーバは、解析サー バで処理中の先行案件の有無を判断し、先行案件があれば待機する。その一方、先 行案件がなければ、案件を解析サーバに投入する。本実施の形態においては、調 查対象文書が確定すると、調査案件情報が、ウェブサーバから管理サーバに送信さ れる。管理サーバは、調査案件をキューイング機構によってキューイングし、処理す べき順番となった調査案件について、解析サーバにリクエストして、調査案件データ を与える。
[0409] 図 49に示すように、解析サーバは、スレッドを作成する際、コンテンツ選択情報から 構造図の有無を判断し、必要なスレッドを作成し処理を実行する。この例では、文書 索引語集計処理スレッド、類似文書母集団作成スレッド、文書属性集計処理スレッド 、構造図作成処理スレッド、クラスタ情報作成処理スレッドが作成される。これらスレツ ドは逐次或いは並列的に作成され得る。また、これらのうちの少なくとも 1つが作成さ れるように構成しても良い。
[0410] データベースサーバは、全公報データベース(DB)力も全公報を取得して、全公報 についての索引語 (全公報キーワード)を作成する。
[0411] 解析サーバは、スレッド処理の実行にあたって、まず、データベースサーバにより抽 出された調査案件索引語を取得する。次に、調査案件索引語の文書内における使 用頻度の集計処理を行う。これにより、解析サーバは、調査案件索引語集計処理結 果を取得する。
[0412] 次いで、解析サーバは、母集団の作成を開始する。データベースサーバは、解析 サーノからの母集団作成開始依頼に応答して、先に生成した全公報に含まれる文 書ごとの索引語と、先に取得した調査案件索引語集計処理結果とに基づいて全公
報類似率を算出する。類似度の算出は、第 1の実施の形態において説明したものと 同様であるため、その説明は省略する。そして、算出した全公報類似率の値の上位 3 000件の文書群力も調査案件類似母集団を作成する。データベースサーバは調査 案件類似母集団を解析サーバに返す。これにより、解析サーバは、調査案件類似母 集団を取得する。
[0413] 解析サーバは、集計処理を実行して、類似文書母集団における類似率のランキン グ、調査対象文書の書誌情報に含まれる文書属性ごとの類似文書母集団内の各種 文書数、類似文書母集団内の文書数推移若しくは文書属性ごとの各種ランキング、 又は、索引語文書頻度散布図の少なくともいずれか 1つを集計した結果を取得する。
[0414] 第 2の実施の形態と同様、解析サーバは、集計として、ランキング集計 (ステップ S3 901)、時系列集計 (ステップ S3902)およびマトリクス集計 (ステップ S3903)を実行 する。
[0415] 図 39に示すように、ランキング集計には、キーワード集計、出願人に関する集計お よび IPCに関する集計が含まれる。キーワード集計においては、図 18、図 19に示す ような分布図が作成される。解析サーバは、記憶装置から、重要度の高い順に所定 数の重要キーワード (対全公報)の情報を取り出して、重要キーワード (対全公報)ご とに、当該キーワード (索引語)が使用されている公報の数を示すグラフを作成する( 図 18)。また、解析サーバは、記憶装置から、重要キーワード (対母集団)の情報を取 り出して、重要キーワード (対母集団)ごとに、当該キーワード (索引語)が使用されて いる公報の件数を示すグラフを作成する(図 19)。
[0416] また、解析サーバは、記憶装置から、母集団の情報を取得して、母集団の公報を出 願人別に集計する(図 11、図 12参照)。解析サーバは、記憶装置から母集団の情報 を取得して、母集団の公報のそれぞれにおける IPC主分類をメイングループ別に集 計したグラフを作成するとともに(図 13)、主分類および副分類の全 IPC別で集計し てグラフを作成する(図 14)。このような集計結果 (表およびグラフ)は、解析サーバの 記憶装置に記憶される。
[0417] 解析サーバは、記憶装置から、母集団の情報を取得して、母集団中、出願件数上 位 10出願人の出願件数を出願年ごとに集計して、その件数の推移を示すグラフ(図
20)、並びに、件数の累計および単年計を表す表(図 21)を作成する。また、解析サ ーバは、記憶装置から、母集団の情報を取得して、母集団の公報中、主分類或いは 副分類として付与されている IPCの上位 5分類について、出願件数を年ごとに集計し たグラフを作成する(図 22)とともに、当該出願件数の単年計および累計を示す表を 作成する(図 23)。これら集計結果も、解析サーバの記憶装置に記憶される。
[0418] さらに、解析サーバは、記憶装置から、重要キーワード (対全公報)を取り出して、 重要キーワード (対全公報)ごとの年ごとの使用頻度の累積を表すグラフ(図 27)、並 びに、重要キーワード (対全公報)の単年計および累計を示す表(図 28)を作成する 。また、解析サーバは、記憶装置から、重要キーワード (対母集団)を取り出して、重 要キーワード (対母集団)ごとの年ごとの使用頻度の累積を表すグラフ(図 29)、並び に、重要キーワード (対母集団)の単年計および累計を示す表(図 30)を作成する。こ れらグラフや表も、解析サーバの記憶装置に記憶される。
[0419] また、解析サーバは、母集団の年毎の出願件数の集計結果に基づいて、横軸を年 毎の件数、縦軸を前年分の出願件数との比較による伸び率として、グラフを作成する (図 25)。図 25のグラフにおいて、プロット点の円の大きさは、出願件数の累積を示し ている。同様に、解析サーバは、ある IPC (IPCメイングループ)について、母集団に ぉ 、てその IPCが付与されて 、る出願の出願件数の集計結果に基づ 、て、横軸を 年毎の件数、縦軸を前年分の出願件数との比較による伸び率として、グラフを作成 する(図 26)。図 26においても、プロット点の円の大きさは、出願件数の累積を示して いる。このようにして作成されたグラフも、解析サーバの記憶装置に記憶される。
[0420] 以下、マトリクス集計についても説明する。解析サーバは、さらに、記憶装置から母 集団の情報を取り出して、母集団中の出願件数上位 10人の出願人の出願に付与さ れた IPCを参照して、出願人ごとに、当該出願人の出願において、 IPCグループが 付与された出願件数を、出願人 X IPCメイングループのマトリクス形式の表を作成す る(図 15参照)。また、図 15と同じ情報を用いて、公開件数、登録件数、実用新案件 数を分けて表示した表(図 16)も作成される。また、解析サーバは、記憶装置から母 集団の情報を取り出し、母集団中の出願件数上位 20出願人の公報において、調査 対象文書の IPC主分類と同じ IPCメイングループが付与されている出願件数を算出
し、出願人ごとにその件数を表示したグラフを作成する(図 17)。図 17においては、 出願人ごとの公開件数、登録件数、実用新案件数に分けて表示するのが望ましい。 これらマトリクス集計の結果も、解析サーバの記憶装置に記憶される。
[0421] なお、図示していないが、各種集計処理が完了すると、解析サーバは、記憶装置か ら、母集団の情報を取り出して、母集団内類似度を算出してもよい (ステップ S3904) 。母集団内類似度とは、調査対象文書の、母集団に属する文書との間の類似率 (類 似度)である。
[0422] さらに、解析サーバは、頻度散布図のための座標の算出処理を実行する (ステップ S3905)。頻度散布図は、図 31に示すように、調査対象文書のキーワード分布を示 す図である。頻度散布図のための座標の算出について、図 40のフローチャートを参 照して詳細に説明する。なお、図 40は、理解を容易にするために、頻度散布図にお けるキーワードごとの座標の算出に必要な全ての処理ステップを、順に示している。 したがって、図 39の S3905で、図 40に示す全ての処理ステップを実行するのではな い。つまり、図 39の S3905では、解析サーバにおいて既に算出され、記憶装置に記 憶された値は、改めて算出されることなく利用され、ステップ S3905の処理以前には 実行されて ヽな 、処理ステップのみが実行される。
[0423] 図 40に示すように、まず、調査対象文書や比較対象文書から索引語が抽出される
(ステップ S4001)。次いで、全文書 (比較対対象文書全体) Pの索引語による、 Pの 中での文書頻度を示す DF (P)が算出される(ステップ S4002)。この DF (P)はキー ワード重要度に相当する。
[0424] その後、 TF (d) (dの索引語 (d , · · · , d )による、 dの中での出現頻度)および IDF
(P) (DF (P)の逆数 X文書数の対数: In [N/DF (P) ] )の積である文書ベクトル (d) が算出される (ステップ S4003)。同様に、 TF (P) (Pの索引語 (P , · · · , p )による、
1 ya
Pの中での出現頻度および IDF (P)の積である文書ベクトル (p)が算出される (ステツ プ S4004)。
[0425] 文書ベクトル (d)および文書ベクトル (p)が算出されると、これらの内積をとることで 類似度が算出される (ステップ S4005)。さらに、比較対象文書 Pから、調査対象文書 dに対して、類似度が高い順に所定の数の文書が母集団 Sとして抽出され、その情報
が記憶装置に記憶される (ステップ S4005)。その後、キーワード重要度 DF (S) の 索引語による、 Sの中での文書頻度)が算出される (ステップ S4006)。
[0426] その後、調査対象文書 dの索引語 (d、 · · ·、(!)の各々について、文書頻度の関数 値 IDFを、比較対象文書 Pおよび母集団 Sに対して求める(ステップ S4007、 S4008 )。ステップ S4007においては、 IDF (d; P)、IDF (d; P)、 · · · , IDF (d; P)が求め
1 2
られ、ステップ S4008においては、 IDF (d; S)、IDF (d; S)、 · · · , IDF (d; S)が求
1 2
められる。解析サーバは、 IDF (P)と IDF (S)とで平面を作り、たとえば、 IDF (P)を X 軸、 IDF (S)を y軸として、索引語 (d , · · · , d )の各々に対する IDF (P)や IDF (S) の値に応じて、索引語を平面上の所定の位置に配置したような頻度散布図を作成す る(ステップ S4009)。
[0427] なお、ステップ S4009により、頻度散布図(IDF平面図)の中に、索引語が配置され る(散布される)が、散布された索引語が偏って見に《なる場合がある。このため、第 2の実施の形態においては、平面上に配置される索引語の密度を調べて、一定の領 域における密度が所定の値を超えていた場合には、解析サーバは、その領域の軸 の目盛の間隔を広げて、その領域を拡大する一方、他の領域の軸の目盛の間隔を 狭めて、その領域を圧縮する。したがって、このように一部領域の拡大および他の領 域の圧縮をする場合には、解析サーバは、座標変換を行う(ステップ S4010)。また、 基本となる IDF平面図はひし形である力 表現図としてみたときに違和感があり、また 、取り扱いに不便である場合もある。したがって、解析サーバは、座標変換により、平 面を四角形で表せるようにしても良い。これら頻度散布図の情報も、解析サーバの記 憶装置に記憶される。
[0428] また、解析サーバは、類似文書母集団に含まれる文書の類似率に基づき榭状図を 作成し、クラスタリングを行い、構造図を作成する。また、作成された構造図データに 基づき、調査対象文書を含む構造図のクラスタリング情報を作成する。
[0429] なお、図 49に示すように、調査案件類似母集団の情報は構造図作成及びクラスタ リング情報作成に利用される。
[0430] 特許構造図の作成についてのより詳細な説明は、第 2の実施の形態と同様である ため省略する。ここでは、図 42のフローチャートを参照して、解析サーバにおける特
許構造図作成処理の概略にっ ヽて説明する。
[0431] まず、文書読み出し部 4110が、分析対象となる複数の文書要素を記憶装置 4103 の文書格納部力も読み出す (ステップ S4210)。本実施の形態において、分析対象 となる文書要素は、たとえば、母集団文書、或いは、調査対象文書および母集団文 書となる。
[0432] 次に、時間データ抽出部 4120が、文書読み出しステップ S4210で読み出された 文書要素群から、各要素の時間データを抽出する (ステップ S4220)。
[0433] 次に、索引語データ抽出部 4130が、文書読み出しステップ S4210で読み出され た文書要素群から、各文書要素の内容データである索引語データを抽出する (ステ ップ S4230)。索引語の抽出は第 1の実施の形態と同様である。
[0434] 次に、類似度演算部 4140が、索引語データ抽出ステップ S4230で抽出された各 文書要素の索引語データに基づき、文書要素間の類似度を演算する (ステップ S42 40)。類似度 (類似率)の演算についても、既に説明しているので、ここでの説明は省 略する。
[0435] 次に、榭状図作成部 4150が、榭状図作成条件に従って、類似度演算ステップ S4 240で演算された類似度に基づき、分析対象である文書要素群の榭状図を作成す る (ステップ S4250)。榭状図としては、文書要素などの間の類似度を結合位置の高 さ(結合距離)に反映させたデンドログラムを作成することが望ましい。デンドログラム の具体的な作成方法としては、公知の Ward法などを用いる。
[0436] 次に、切断条件読み出し部 4160が、記憶装置 4103の条件記録部に記録された 榭状図切断条件を読み出す (ステップ S4260)。
[0437] 次に、クラスタ抽出部 4170が、切断条件読み出しステップ S4260で読み出された 切断条件に基づき、榭状図作成ステップ S4250で作成された榭状図を切断し、クラ スタを抽出する(ステップ S4270)。
[0438] 次に、配置条件読み出し部 4180が、記憶装置 4103の条件記録部に記録されたク ラスタ内の文書要素配置条件を読み出す (ステップ S4280)。
[0439] 次に、クラスタ内要素配置部 4190が、配置条件読み出しステップ S4280で読み出 された文書要素配置条件に基づき、クラスタ抽出ステップ S4270で抽出されたクラス
タ内の文書要素の配置を決定する(ステップ S4290)。クラスタ内の配置を決定する ことで、本実施の形態に力かる構造図が完成する。なお、配置条件はすべてのクラス タに共通として良い。よって、あるクラスタのためにステップ S4280を一度実行すれば 、他のクラスタのために再度実行する必要はない。
[0440] より詳細に、構造図の作成処理について説明する。本実施の形態おいては、ある 方法で決められた切断高さ αで榭状図を切断して親クラスタを抽出した後、各親クラ スタを更に子クラスタに分けるために、各親クラスタに属する文書要素のみを用いて 再度当該部分の榭状図を作成する。この部分榭状図の作成の際に、当該親クラスタ における文書要素ベクトルの成分の偏差が所定方法で定めた値より小さい値をとる 索引語次元を除去して分析する。
[0441] 図 43は、本実施の形態に力かるクラスタ抽出過程をより詳細に説明するフローチヤ ートであるが、第 2の実施の形態と同様であるため、ここでは説明を省略する。
[0442] 解析サーバが上述した処理を実行することにより、図 32に示すような特許構造図を 得ることができる。次いで、解析サーバは調査案件データおよび特許構造図の情報 に基づき構造図のクラスタリング情報を生成する。
[0443] 以下、クラスタ情報を得るための処理について説明する。まず、以下の説明で使用 する用語の定義および略号について説明する。クラスタ情報は、各クラスタについて の、タイトル、公報件数、主分類 IPCの集計 (上位 5位)、出願人の集計 (上位 5位)お よびクラスタの重要キーワードを含む。重要キーワードは、クラスタに属する全公報か ら抽出されたキーワードの重要度上位 10語までを表示し、以下の 4分類に分けて表 示する。
[0444] 技術領域語:クラスタの重要キーワードのうち、他のクラスタにも共通して使われて V、るキーワードである。多くのクラスタで共通して使われて 、るキーワードは概ねクラ スタの属する技術領域を表すキーワードであることが多い。
[0445] 主要語:クラスタの重要キーワードから「技術領域語」を除いたものの中で、そのクラ スタで特に良く使われて 、るキーワード。他のクラスタではあまり使われて 、な 、キー ワードであり、そのクラスタの主要な技術要素を表すキーワードであることが多い。他 のクラスタとの差別ィ匕を端的に表すキーワードでもある。
[0446] 特徴語:クラスタの重要キーワードから「技術領域語」および「主要語」を除 、たもの は、手段や構成などと関連のあるキーワードであることが多い。その中でも、比較的の 良く使われる一般語でありながら、分析対象公報群 (全公報類似度の上位 300位)で はあまり使われていないキーワードは手段や構成における特徴的な面を示唆する可 能性のあるキーワードであるとイエス。そのようなキーワードを所定の基準で算出し、「 特徴語」として表示する。
[0447] その他の重要語:クラスタの重要キーワードから上記の 3分類の何れにも該当しな い重要キーワードである。「その他の重要語」は、重要キーワードでありながら、上記 の 3っ 、の観点の 、ずれにも属さな 、キーワードであり、手段や構成に関連する技術 専門用語であることが多い。
[0448] 以下、キーワード抽出のための処理装置の構成について、図 45および図 47のブロ ックダイヤグラムを参照して説明する。ここでは、処理の内容の理解を容易にするた めに、解析サーバの機能のうち、キーワード抽出に必要な機能を全て記載している。
[0449] 文書読み出し部 4510は、記憶装置 4503の条件記録部に格納された読み出し条 件に従って、分析対象となる複数の文書 D〜D からなる文書群 Eを記憶装置 45
03の文書格納部力も読み出す。読み出された文書群のデータは、索引語抽出部 45 20に直接送られてそこでの処理に用いられる他、記憶装置 4503の作業結果格納部 に送られて格納される。
[0450] なお、文書読み出し部 4510から索引語抽出部 4520或いは作業結果格納部に送 られるデータは、読み出された文書群 Eの文書データを含むすべてのデータであつ ても良い。また、これら文書群 Eに属する各々の文書 Dを特定する書誌データ (例え ば特許文献であれば出願番号又は公開番号など)のみであっても良い。後者の場合 、以後の処理で必要なときは当該書誌データに基づ!/、て再度文書格納部から各文 書 Dのデータを読み出せばよい。
[0451] 索引語抽出部 4520は、文書読み出し部 4510で読み出された文書群から、各文 書の索引語を抽出する。各文書の索引語のデータは、高頻度語抽出部 4530に直 接送られてそこでの処理に用いられる他、記憶装置 4503の作業結果格納部に送ら れて格納される。
[0452] 高頻度語抽出部 4530は、索引語抽出部 4520で抽出された各文書の索引語に基 づき、記憶装置 4503の条件記録部に格納された高頻度語抽出条件に従って、文書 群 Eにおける出現頻度の高さを評価に含む重みの大きい索引語を所定個数抽出す る。
[0453] 具体的には、まず、各索引語について、文書群 Eにおける出現回数である GF (E) を算出する。また更に各索引語の IDF (P)を算出し、 GF (E)との積である GF (E) * 1 DF (P)を算出するのが好ましい。次に、算出された各索引語の重みである GF (E) 或いは GF (E) * IDF (P)の上位所定個数の索引語を、高頻度語として抽出する。
[0454] 抽出された高頻度語のデータは、高頻度語-索引語共起度算出部 4540に直接 送られてそこでの処理に用いられる他、記憶装置 4503の作業結果格納部に送られ て格納される。また、上記算出した各索引語の GF (E)及び算出することが好ましいと された各索引語の IDF (P)についても、記憶装置 4503の作業結果格納部に送られ て格納されることが好まし 、。
[0455] 高頻度語—索引語共起度算出部 4540は、高頻度語抽出部 4530にて抽出された 各高頻度語と、上記索引語抽出部 4520にて抽出され作業結果格納部に格納され た各索引語との文書単位での共起有無に基づいて、文書群 Eにおける共起度を算 出する。索引語が P個、そのうち高頻度語が q個抽出されたとすれば、 p行 q列の行列 データとなる。
[0456] 高頻度語-索引語共起度算出部 4540で算出された共起度のデータは、クラスタリ ング部 4550に直接送られてそこでの処理に用いられ、或いは記憶装置 4503の作 業結果格納部に送られて格納される。
[0457] クラスタリング部 4550は、高頻度語-索引語共起度算出部 4540で算出された共 起度データに基づき、記憶装置 4503の条件記録部に格納されたクラスタリング条件 に従って、 q個の高頻度語をクラスタ分析する。
[0458] クラスタ分析を行うためには、まず、 q個の高頻度語の各々について、各索引語との 共起度の類似度を演算する。
[0459] 次に、類似度の演算結果に基づき、記憶装置 4503の条件記録部に格納された榭 状図作成条件に従って、高頻度語を榭状に結線した榭状図を作成する。榭状図とし
ては、高頻度語間の非類似度を結合位置の高さ (結合距離)に反映させたデンドログ ラムを作成することが望まし 、。
[0460] 次に、記憶装置 4503の条件記録部に記録された榭状図切断条件に従って、上記 作成した榭状図を切断する。切断の結果、 q個の高頻度語が、各索引語との共起度 の類似度合 、に基づ 、てクラスタリングされる。クラスタリングにより生成された個々の クラスタを「土台」 g (h= l, 2, · · · , b)と呼ぶことにする。
h
[0461] クラスタリング部 4550で形成された土台のデータは、索引語-土台共起度算出部 4560に直接送られてそこでの処理に用いられ、或いは記憶装置 4503の作業結果 格納部に送られて格納される。
[0462] 索引語—土台共起度算出部 4560は、索引語抽出部 4520で抽出され記憶装置 4 503の作業結果格納部に格納された各索引語について、クラスタリング部 4550で形 成された各土台との共起度を算出する。各索引語について算出された共起度のデ ータは key (w)算出部 4570に直接送られてそこでの処理に用いられ、或いは記憶 装置 4503の作業結果格納部に送られて格納される。
[0463] key (w)算出部 4570は、索引語-土台共起度算出部 4560で算出された各索引 語の土台との共起度に基づき、各索引語の評価スコアである key (w)を算出する。算 出された key (w)のデータは Skey (w)算出部 4580に直接送られてそこでの処理に 用いられ、或いは記憶装置 4503の作業結果格納部に送られて格納される。
[0464] Skey (w)算出部 4580は、 key (w)算出部 4570で算出された各索引語の key (w) スコア、高頻度語抽出部 4530で算出され記憶装置 4503の作業結果格納部に格納 された各索引語の GF (E)及び各索引語の IDF (P)に基づき、 Skey (w)スコアを算 出する。算出された Skey (w)のデータは記憶装置 4503の作業結果格納部に送ら れて格納される。
[0465] 評価値算出部 4700は、文書群 Eを複数備えた文書群集団 Sに関し、索引語抽出 部 4520において抽出された各文書の索引語 wを作業結果格納部力も読み出す。 或いは評価値算出部 4700は、 Skey (w)算出部 4580において各文書群 Eについ てそれぞれ算出された索引語の Skey (w)を作業結果格納部から読み出す。必要に 応じて、評価値算出部 4700は、文書読み出し部 4510により読み出された各文書群
Euのデータを作業結果格納部カゝら読み出し、その文書数 N (Eu)を計数してもよ!/、。 また、高頻度語抽出部 4530における高頻度語抽出の過程で算出された GF (E )や IDF (P)を作業結果格納部から読み出してもよ ヽ。
[0466] そして、評価値算出部 4700は、読み出した情報に基づき、各索引語 ^の各文書 群 Eにおける出現頻度に基づく評価値 A ( , E )をそれぞれ算出する。算出された 評価値は、作業結果格納部に送られて格納され、或いは直接、集中度算出部 4710 及びシ ア算出部 4720に送られてそこでの処理に用いられる。
[0467] 集中度算出部 4710は、評価値算出部 4700で算出された各索引語 wの各文書群 Eにおける評価値 A (w , E )を、作業結果格納部から読み出し、又は評価値算出部 4700から直接受信する。
[0468] そして、集中度算出部 4710は、得られた評価値 A (w , E )に基づき、各索引語 w について、文書群集団 Sでの各索引語 wの分布の集中度を算出する。この集中度は 、各索引語 wについて、各文書群 Eにおける評価値 A(w , E )の、上記文書群集団 Sに属する全ての文書群 Eでの和を算出し、当該和に対する各文書群 Eにおける 評価値 A (w , E )の比を各文書群 Eについて算出し、当該比の二乗をそれぞれ算 出し、当該比の二乗の上記文書群集団 Sに属する全ての文書群 Eにおける和を算 出することによって得られるものである。算出された集中度は、作業結果格納部に送 られて格納される。
[0469] シ ア算出部 4720は、評価値算出部 4700で算出された各索引語 wの各文書群 Eにおける評価値 A (w , E )を、作業結果格納部から読み出し、又は評価値算出部 4700から直接受信する。
[0470] そして、シェア算出部 4720は、得られた評価値 A (w , E )に基づき、各索引語 w について、各文書群 Eでのシェアを算出する。このシェアは、分析対象の文書群 E における各索引語 wの評価値 A (w , E )の、上記文書群集団 Sに属する各文書群 E 力 抽出された全ての索引語 wについての和を算出し、当該和に対する各索引語 wの評価値 A (w , E )の比を各索引語 wについて算出することによって得られるもの である。算出された集中度は、作業結果格納部に送られて格納される。
[0471] 第 1逆数算出部 4730は、文書群 Eを複数備えた文書群集団 Sに関し、索引語抽
出部 4520において抽出された各文書の索引語 Wiを作業結果格納部力も読み出す
[0472] そして、第 1逆数算出部 4730は、読み出した文書群集団 Sの各文書の索引語 ^の データに基づき、各索引語 wについての文書群集団 Sでの出現頻度の逆数の関数 値 (例えば後述の規格化 IDF (S) )を算出する。算出された文書群集団 Sでの出現頻 度の逆数の関数値は、作業結果格納部に送られて格納され、或いは直接独創度算 出部 4750に送られてそこでの処理に用いられる。
[0473] 第 2逆数算出部 4740は、文書群集団 Sを含む大文書集団での出現頻度の逆数の 関数値を算出する。大文書集団としては全文書 Pを用いる。この場合、高頻度語抽 出部 4530における高頻度語抽出の過程で算出された IDF (P)を作業結果格納部 力も読み出し、その関数値 (例えば後述の規格ィ匕 IDF (P) )を算出する。算出された 大文書集団 Pでの出現頻度の逆数の関数値は、作業結果格納部に送られて格納さ れ、或いは直接独創度算出部 4750に送られてそこでの処理に用いられる。
[0474] 独創度算出部 4750は、第 1逆数算出部 4730及び第 2逆数算出部 4740において 算出された各出現頻度の逆数の関数値を、作業結果格納部から読み出し、又は第 1 逆数算出部 4730及び第 2逆数算出部 4740から直接受信する。また、高頻度語抽 出部 4530における高頻度語抽出の過程で算出された GF (E)を作業結果格納部か ら み出す。
[0475] そして、独創度算出部 4750は、第 1逆数算出部 4730の算出結果力も第 2逆数算 出部 4740の算出結果を減算したものの関数値を、独創度として算出する。この関数 値は、上記第 1逆数算出部 4730の算出結果力も第 2逆数算出部 4740の算出結果 を減算したものに対し、第 1逆数算出部 4730の算出結果と第 2逆数算出部 4740の 算出結果との和で除算したものでも良いし、各文書群 Eでの GF (E )を乗算したもの でも良い。算出された独創度は、作業結果格納部に送られて格納される。
[0476] キーワード抽出部 4760は、 Skey (w)算出部 4580で算出された Skey(w)、集中 度算出部 4710で算出された集中度、シェア算出部 4720で算出されたシェア及び 独創度算出部 4750において算出された独創度の各データを、作業結果格納部力も
BJCみ出す。
[0477] そして、キーワード抽出部 4760は、上記読み出した Skey(w)、集中度、シ ア、独 創度の 4指標力も選択される 2つ以上の指標に基づき、キーワードを抽出する。 キーワードの抽出方法は、例えば、選択された複数の指標の合計値が所定の閾値 以上か否か又は所定の順位以内力否かによる。抽出されたキーワードのデータは、 記憶装置 4503の作業結果格納部に送られて格納される。その後、選択された複数 の指標と、それらの指標ごとに抽出されたキーワードとの組み合わせに基づいてクラ スタリング情報を作成する。
[0478] 具体的には、キーワード抽出部 4760が、以上のステップで得られた Skey(w)、集 中度、シェア、独創度の 4指標から選択される 2つ以上の指標と抽出されたキーヮー ドとに基づき、クラスタリング情報を作成する。
[0479] 好ましくは、以上の Skey (w)、集中度、シェア、独創度の 4指標すベてを用いて、 対象文書群 Eの索引語 wを、「非重要語」と、重要語のうちの「技術領域語」、「主要 語」、「独創語」、「その他の重要語」のいずれかに分類してクラスタリング情報を作成 する。特に好ましい分類方法は次の通りである。
[0480] まず、第一判定は Skey (w)を用いる。各文書群 Eにおいて、 Skey(w)降順ランキ ングを作成し、所定の順位より下位のキーワードは「非重要語」とし、キーワードの抽 出対象から外す。当該所定の順位以内のキーワードは各文書群 Eで重要な語であ るので「重要語」とし、これを更に以下の判定で分類する。
[0481] 第二判定は集中度を用いる。集中度が低い語は、文書群集団全体に分散している 語であるから、分析対象の文書群が属している技術領域を広く捉えたものとして位置 づけることができる。そこで文書群集団 Sにおける集中度の昇順ランキングを作成し、 所定の順位以内のものを「技術領域語」とする。各文書群 Eの重要語から、上記の 技術領域語と一致するキーワードを、その文書群 Eの「技術領域語」として分類する
[0482] 第三判定はシェアを用いる。シェアが高 、語は、分析対象の文書群でのシェアが 他の語より高いので、分析対象の文書群をよく説明できるもの(主要語)として位置づ けることができる。そこで各文書群 Eにおいて、第二判定で分類されな力つた重要語 に対するシ ア降順ランキングを作成し、所定の順位以内のものを「主要語」とする。
[0483] 第四判定は独創度を用いる。各文書群 Euにおいて、第三判定で分類されなかった 重要語に対する独創度降順ランキングを作成し、所定の順位以内のものを「独創語」 とする。残りの重要語は「その他の重要語」とする。
[0484] 以上の判定を表にすると表 11のようになる。
[0485] 以上の判定において、第一判定に用いる重要度の指標として Skey(w)を用いたが 、これに限らず、文書群での重要度を示す他の指標を用いてもよい。例えば、 GF (E ) * IDF (P)でもよい。
[0486] また、以上の判定において、重要度、集中度、シェア及び独創度の 4指標を用いて 分類したが、これらのうち任意の 2つ以上の指標を用いることによつても、索引語の分 類が可能である。
[0487] 上述したように、キーワードが重要度、集中度、シェア及び独創度の 4指標を用いて 分類される。最終的に、各クラスタについての、タイトル、公報件数、主分類 IPCの集 計 (上位 5位)、出願人の集計 (上位 5位)およびクラスタの重要キーワードを含むクラ スタリング情報が、解析サーバの記憶装置に記憶されるとともに、管理サーバに与え られる。
キーワード抽出処理手順(図 46参照)については第 2の実施の形態と同様であるた め、ここでの説明は省略する。
[0488] 図 50に示すように、解析サーバは、調査案件索引語集計処理結果、調査案件類 似母集団、文書数、索引語文書頻度散布図等、各種集計処理結果、構造図作成結 果、クラスタリング情報作成結果に基づいてレポートを作成する。レポート作成後、解 析サーバは、管理サーバにレポートを転送し、さらに、管理サーバは、ウェブサーバ に対してレポートを転送する。
ウェブサーバはレポートを取得すると、処理が終了したことを示す終了通知を作成し てクライアントに送信する。
[0489] ウェブサーバは、クライアントからのリクエストに応じて、ログイン画面をクライアントに 配信する。クライアントからのログインに対して、ウェブサーバは、認証を行い、認証で きなかった場合には、再度、クライアントによるログイン画面に戻る。その一方、認証 できた場合には、ウェブサーバは、購入レポート一覧画面をクライアントに配信する。
[0490] そして、クライアントからのレポート出力要求に応答して、ウェブサーバは、レポート をクライアントに転送する。クライアントはレポートを取得し、これを表示装置に表示し 、記憶装置に記憶し、或いはプリンタなどにより印刷物として出力することができる。 産業上の利用可能性
[0491] この発明は、調査対象文書或いは文書群を解析して、その特徴を表す情報解析報 告書自動作成装置、情報解析報告書自動作成プログラム、及び情報解析報告書自 動作成方法を提供する目的に適用する。