以下、技術マップ生成装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
(実施の形態1)
本実施の形態において、文書情報の集合から自動的に技術マップの軸を構成する用語を軸ごとに取得し、当該各項目に属する文書情報を決定し、予め決められた条件を満たす項目を「その他」等の一つの項目にまとめる技術マップ生成装置1について説明する。
本発明において、項目を構成する用語は、1以上の連続する語を表し、また、最初と最後の語は自立語である必要はないものとする。つまり、項目を構成する用語は、一単語でも良いし、句などでも良い。
図1は、本実施の形態における技術マップ生成装置1のブロック図である。
技術マップ生成装置1は、格納部11、項目取得部12、分類部13、項目集約部14、技術マップ構成部15、および技術マップ出力部16を備える。
格納部11は、文書情報格納部111、および用語辞書112を備える。
項目取得部12は、重要用語取得手段121、および用語集約手段122を備える。
文書情報格納部111は、文書を識別する文書識別子に対応する2以上の文書情報が格納される。
ここで、文書とは、特許文書や論文といった技術マップ上で分類され得る文書ならば、何でも良い。特許文書とは、公開特許公報でも良く、特許掲載公報でも良く、また、特許出願時の書類でも良く、その形式は問わない。さらに、特許文書や論文以外にも、例えば、製品紹介のウェブページや、製品情報を含む新聞記事、企業のプレスリリースなどでも良い。
また、文書識別子とは、文書を識別する記号列である。文書識別子は、文書情報格納部111において文書を一意に定めることができれば、どのような記号列であっても良い。例えば、文書が公開特許公報ならば特許出願番号や特許公開番号、特許掲載公報ならば特許番号を用いることは好適である。また、文書識別子に対応する文書情報の構造は問わない。通常、文書識別子に対応する文書情報は、テキストを含む。さらに、文書情報は、文書の構造に関する情報を含んでも良い。例えば、HTMLなどのマークアップ言語を用いてテキストとその構造を表しても良く、特許文書のように隅付き括弧で文書の構造を表しても良い。また、文書情報は、文書のメタ情報を含んでも良い。メタ情報とは、例えば、特許文書における、出願人、発明者、代理人、出願日、公開日、IPC、FI、Fターム等のテキスト以外の文書に関する情報である。
用語辞書112は、1または2以上の用語群が格納される。ここで、用語群とは、2以上の用語の集合を表す。各用語群は、一のグループを形成する。グループを形成する用語群は、類似もしくは同一の意味を持つ用語の集合であっても良く、また同一の上位概念を持つ用語の集合であっても良い。
また、用語辞書112は、各グループについて、用語群に加え、当該グループを表す用語を格納することは好適である(以下、用語群を代表する用語を代表用語と呼ぶ)。この際、用語辞書112は、代表用語と用語群との関係を示す情報を格納することが好適である。ここで関係を示す情報とは、通常、同義または類義、もしくは上位と下位のいずれかである。
項目取得部12は、2以上の各文書情報を解析し、1または2以上の項目用語を、軸ごとに取得する。ここで、項目用語とは、軸の項目となり得る用語である。項目用語は、上述したように、一の単語でも良いし、句などでも良い。文書情報は文書情報格納部111に格納された文書情報である。また、軸とは、技術マップの分析の基準を意味する。軸とは、技術マップの縦軸や横軸に対応する「観点」と言っても良い。例えば、図15(a)の2次元の技術マップの場合、「課題」と「解決手段」が軸となる。軸は、「課題」または「目的」や「解決手段」とは限らず、例えば、「材料」「コンテンツ」「部品」「部位」などでも良い。
さらに、軸の項目とは、技術マップの軸に並ぶ文字列や記号や画像である。例えば、図15(a)の2次元の技術マップの場合、課題の軸の「強風対策」や「雷撃対策」、解決手段の軸の「ピッチ制御」や「可変速度制御」が項目である。
項目取得部12は、例えば、文書情報格納部111に格納された各文書情報に対して、後述する重要用語取得手段121を用いて、文書情報ごとに重要用語を抽出する。その後、文書情報ごとに抽出した重要用語を、後述する用語集約手段122によって集約し、項目用語を取得する。
項目取得部12は、文書情報格納部111に格納された文書情報の総数より少ない数の項目用語を取得しても良い。すなわち、項目取得部12は、対応する項目用語が1つもない文書情報が存在するように項目用語を取得しても良い。この場合、対応する項目用語が1つもない文書情報は、通常、技術マップに表示されない。また、項目取得部12は、文書情報格納部111に格納された文書情報の総数より多くの項目用語を取得しても良い。すなわち、項目取得部12は、一の文書情報に対して、2以上の項目用語が対応するように項目用語を取得しても良い。
重要用語取得手段121は、各文書情報から予め決められた条件を満たす重要用語を軸ごとに取得する。重要用語は、単に用語と言っても良い。重要用語は、予め決められた条件を満たす用語である。ここでの用語は、一単語であることは好適であるが、2以上の用語を含む句などでも良い。
ここで、予め決められた条件とは、文書情報から軸に対応する用語を取得可能ならばどのような条件でも良い。
例えば、予め決めた条件とは、文書情報に含まれる用語辞書112に格納された全用語群のいずれかの用語を取得するといった条件であっても良い。
また、例えば、重要用語取得手段121は、文パターンに合致する文から用語を取得しても良い。より具体的に例えば、「課題」や「効果」といった軸ならば、『特許明細書の[発明の効果]中の文の「することができる」の直前に現れる語』を取得しても良い。なお、このとき、文パターンは複数あっても良い。また、文パターンの情報は、例えば、格納部11に格納されている、とする。
また、例えば、予め決めた条件とは、前記条件に文書情報中での出現回数についての条件を加えた条件でも良い。例えば、『特許明細書中の「することができる」の直前に現れる語のうち、2回以上出現するもの』といった条件や、『用語辞書112に格納された全用語群に含まれる用語のうち3回以上出現したもの』といった条件である。
また、例えば、予め決められた条件とは、形態素解析や固有表現抽出に用いられる、系列を識別する機械学習を用いた条件でも良い。例えば、テキストと当該テキストから抽出される部分(重要用語)の組の情報を2以上予め準備し、隠れマルコフモデル(HMM)や条件付き確率場(CRF)やReccurent Neural Network(RNN)といったモデルを、当該2以上の情報を用いて学習し、学習したモデルを用いて文書情報から重要用語を抽出しても良い。なお、ここで、機械学習および形態素解析、固有表現抽出、HMM、CRF、RNNについては既存技術のため、説明を省略する。
また、例えば、予め決められた条件とは、分類問題を解くための機械学習を用いた条件でも良い。例えば、テキストと当該テキストに対応する重要用語の組の情報を2以上予め準備し、Support Vector Machine(SVM)や、Random Forest、ニューラルネットワークといったモデルを、当該2以上の情報を用いて学習し、学習したモデルを用いて文書情報に対応する重要用語を求めても良い。なお、ここで、SVMやRandom Forest、ニューラルネットワークについては既存技術のため、説明を省略する。
また、重要用語取得手段121は、酒井の方法(酒井浩之, 野中尋史, 増山繁, 特許明細書からの技術課題情報の抽出, 人工知能学会論文誌, 第25巻6号I, pp.531-540, 2009.)等を用いて実現することができる。また、前記酒井の方法によって抽出された重要用語に対して、野中の方法(Hirofumi Nonaka, Akio Kobayashi, Hiroki Sakaji, Yusuke Suzuki, Hiroyuki Sakai, Shigeru Masuyama, Extraction of the effect and the technology terms from a patent document, Proc. of 40th International Conference on Computers and Industrial Engineering (CIE40), cie214jp-1, Awaji-shima, Japan, (2010).)のパターンを用いてその一部を抽出し、抽出されたものを重要用語としても良い。
なお、重要用語取得手段121は、軸に対応する重要用語が文書情報中に存在しない場合、重要用語を取得しなくても良い。例えば、ある文書情報について、軸「用途」に対応する重要用語が文書情報中に存在しない場合、重要用語取得手段121は、軸「用途」について重要用語を取得しなくても良い。重要用語を取得しない文書情報は、通常、技術マップに表示されない。また、重要用語取得手段121は、2以上の重要用語を取得しても良い。
用語集約手段122は、軸ごとに、2以上の重要用語を1の用語に集約し、技術マップの軸の項目となる項目用語を取得する。ここで、集約とは、2以上の重要用語を同じ意味または類似した意味または上位の意味を持つ用語に置き換えることを表す。また、用語集約手段122は、2以上の重要用語を1の用語に集約する際、用語辞書112を参照する。
例えば、用語集約手段122は、はじめに重要用語取得手段121が取得した各重要用語を、用語辞書112の用語群から検索する。重要用語が用語辞書112の用語群に含まれる場合、用語集約手段122は、当該重要用語を、用語辞書112の当該重要用語を含む用語群に対応する代表用語に置き換える。ここで、用語集約手段122は、取得した項目用語を用語辞書112の用語群からさらに検索し、より上位の意味を持つ用語に集約しても良い。また、重要用語が用語辞書112の用語群に含まれない場合、項目取得部12は、重要用語がそのまま項目用語として取得する。
なお、用語集約手段122は、用語辞書112を参照する際、重要用語の一部のみを用いても良い。例えば、用語集約手段122は、「消費資源削減」という重要用語の「資源削減」のみを用いて重要用語の集約を行っても良い。
また、用語集約手段122は、野中の方法(Hirofumi Nonaka, Akio Kobayashi, Hiroki Sakaji, Yusuke Suzuki, Hiroyuki Sakai, Shigeru Masuyama, Extraction of the effect and the technology terms from a patent document, Proc. of 40th International Conference on Computers and Industrial Engineering (CIE40), cie214jp-1, Awaji-shima, Japan, (2010).)を用いて実現することもできる。
なお、項目取得部12は、重要用語取得手段121によって取得した重要用語をそのまま項目用語としても良い。
分類部13は、各文書情報を項目用語に対応付ける。通常、分類部13は、重要用語取得手段121が取得した重要用語に対応する項目用語へ文書情報を対応付ける。重要用語に対応する項目用語とは、重要用語そのままの項目用語、もしくは前記重要用語を用語集約手段122が集約した項目用語である。
なお、分類部13は、文書情報を、重要用語に対応する項目用語以外へ対応付けても良い。
例えば、ある文書情報(以下、文書情報1)について、重要用語取得手段121が、重要用語「消費資源削減」を取得し、別の文書情報(以下、文書情報2)について、重要用語取得手段121が重要用語「消費エネルギー削減」を取得したものとする。さらに、用語集約手段122によって「消費資源削減」と「消費エネルギー削減」は項目用語「エコ技術」に集約されたとする。また、別の文書情報(以下、文書情報3)に基づき重要用語取得手段121と用語集約手段122が項目用語「作業が容易」を取得したとする。さらに、文書情報1は「作業が容易」というテキストを含むものとする。
上記の場合、分類部13は、各文書情報に対して、項目取得部12が取得した各項目用語とそれ関連する用語が文書情報中に含まれるか否かを判定し、含まれる場合、当該項目用語へ文書情報を対応付ける。ここで、項目用語と関連する用語とは、用語辞書112において、代表用語が項目用語と一致する用語群中の用語である。
さらに、分類部13は、後述する項目集約部14が取得した変更後項目用語の元の2以上の項目用語のいずれかに対応する文書情報を変更後項目用語に対応付ける。
項目集約部14は、1以上の軸について、分類部13における結果を用いて、予め決められた条件を満たす2以上の項目用語を一つの変更後項目用語に変更する。ここで、分類部13における結果とは、例えば、項目用語とそれに対応付けられた文書情報を含む。また、予め決められた条件とは、項目用語を集約する条件であり、例えば、『項目用語に対応付けられた文書情報の数がしきい値以下の場合』等の条件である。予め決められた条件については詳細を後述する。さらに、変更後項目用語とは、「その他」等の集約する2以上の項目用語を象徴する用語である。変更後項目用語は、集約する2以上の項目用語のうちの一の項目用語を用いても良く、また、集約する2以上の項目用語を区切り文字(例えば「・」)で連結した文字列であっても良く、また、「その他」といった集約する2以上の項目用語以外の用語を用いても良く、また、図示しない項目用語入力手段を用いてユーザが入力した用語を用いても良い。
ここで、予め決められた条件について詳細を述べる。
例えば、項目集約部14は、項目用語に対応付いている文書情報の数に関する条件でも良い。具体的には、予め決めたしきい値以下の文書情報しか対応付けられていない2以上の項目用語を、変更後項目用語にしても良い(以下、項目用語に対応付けられている文書情報の数を「(項目用語の)文書数」と呼ぶ)。ここで、しきい値は、絶対的な項目用語の文書数でも良く、また、「項目用語の文書数/全文書情報数」で表される相対的な文書数であっても良い。
また、例えば、項目集約部14は、項目数に関する条件でも良い。具体的には、項目取得部12が取得した項目用語数が予め決めたしきい値を超えた場合に、項目用語数がしきい値以下になるように文書数の少ない2以上の項目用語を集約しても良い。ここで、しきい値は、絶対的な項目用語数でも良く、また、「全文書情報数×定数(0〜1)」で表される、文書情報格納部111に格納される文書情報の数に依存する数でも良い。なお、後者の定数は、一種の「圧縮率」を意味する。
また、例えば、項目集約部14は、項目用語に対応付いている文書情報の数に関する条件と、項目数に関する条件とを含む条件でも良い。例えば、予め決められた条件は、項目数が10以下となるように、かつ項目用語に対応付いている文書情報の数が3以下の項目用語は「その他」とする、等である。
また、例えば、項目集約部14は、予め用意した過去の項目用語に関する情報を用いても良い。ここで、項目用語に関する情報(以下、項目用語集約情報)とは、過去に生成した技術マップについての、「分類部13の結果(項目用語と文書情報)」と「集約した項目用語と変更後項目用語」の情報を含む情報である。項目集約部14は、項目用語集約情報を用いて、分類部13の結果である項目用語が集約するべきか否かを判定する。例えば、項目用語集約情報から、各項目用語が集約される確率を導出し、集約される確率が予め決められた値を超える場合に、項目用語を集約する。ここで、項目用語が集約される確率とは、例えば、「項目用語集約情報において項目用語が変更後項目用語に変更された数/項目用語集約情報において項目用語が現れた数」によって計算できる。また、例えば、項目用語集約情報を用いて、集約するか否かの対象となる項目用語と全項目用語を入力とし、前記項目用語を集約した変更後項目用語を出力(集約しない場合はNULLを出力)とした機械学習を行い、学習したモデルを用いて項目用語を集約することもできる。この時、機械学習には、Support Vector Machine(SVM)や、Random Forest、ニューラルネットワークといったモデルを用いることができる。なお、SVMやRandom Forest、ニューラルネットワークについては既存技術のため、説明を省略する。なお、項目用語集約情報を用いる場合、技術マップ生成装置1は、格納部11に図示しない項目用語集約情報を格納する項目用語集約情報格納部を備える。
例えば、項目集約部14は、図示しない集約項目用語指定手段を用いて、ユーザが集約する項目用語を指定し、指定された項目用語を集約しても良い。
また、さらに、項目集約部14は、上で述べた条件を組み合わせて項目の集約を行っても良い。例えば、項目集約部14は、『項目用語の文書数が3以下の場合、または、項目用語の文書数が3より大きくかつ項目用語の文書数が上位10位以下の場合』に「その他」へ変更するといった条件でも良い。
技術マップ構成部15は、各文書情報の各項目用語への対応を明示する技術マップを構成する。ここで、各文書情報と対応付けられる項目用語は、項目取得部12が取得した軸ごとの項目用語から項目集約部14が集約した2以上の項目用語を除いた項目用語と、変更後項目用語である。
ここで、技術マップを構成するとは、技術マップを出力するために必要な情報を生成することを意味する。例えば、図15(a)のような2軸の技術マップの場合、技術マップ構成部15は、バブルを構成するための情報を生成する。具体的には、上記の場合、例えば文書数に応じたバブルの半径を含む情報を生成する。ここで、通常、バブルの半径は文書数の大きさに比例して大きくなる。また、図15(b)のような技術マップの場合、各セルに記述する文献のリストを生成する。また、例えば、棒グラフのような1軸の技術マップの場合、技術マップ構成部15は、各項目用語に対応する文書情報の数に基づく棒の高さを求める。技術マップ構成部15は、出力する技術マップの形に適合した情報を生成する。
技術マップ出力部16は、技術マップ構成部15が構成した技術マップを出力する。
ここで、出力とは、ディスプレイへの表示、プロジェクターを用いた投影、プリンタでの印字、外部の装置への送信、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念である。
格納部11、文書情報格納部111、用語辞書112は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
格納部11、文書情報格納部111、用語辞書112に情報が記憶される過程は問わない。例えば、記録媒体を介して情報が格納部11、文書情報格納部111、用語辞書112で記憶されるようになってもよく、通信回線等を介して送信された情報が格納部11、文書情報格納部111、用語辞書112で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された情報が格納部11、文書情報格納部111、用語辞書112で記憶されるようになってもよい。
項目取得部12、分類部13、項目集約部14、技術マップ構成部15は、通常、MPUやメモリ等から実現され得る。項目取得部12、分類部13、項目集約部14、技術マップ構成部15の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
技術マップ出力部16は、ディスプレイ等の出力デバイスを含むと考えても含まないと考えても良い。技術マップ出力部16は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
次に、技術マップ生成装置1の動作について図2のフローチャートを用いて説明する。なお、以下、所定の情報におけるi番目の情報は、「情報[i]」と記載するものとする。
(ステップS201)技術マップ生成装置1は、カウンタiに1を代入する。
(ステップS202)技術マップ生成装置1は、技術マップに出力するi番目の軸が存在する場合は、ステップS203へ進む。そうでない場合は、ステップS207へ進む。
(ステップS203)項目取得部12は、文書情報格納部111に格納された各文書情報から、技術マップの軸[i]の項目である項目用語を取得する。かかる処理を項目取得処理と呼ぶ。項目取得処理の詳細について、図3のフローチャートを用いて説明する。
(ステップS204)分類部13は、文書情報格納部111に格納された各文書情報をステップS203で取得した軸[i]の項目用語と対応付ける。かかる処理を分類処理と呼ぶ。分類処理の詳細について、図7のフローチャートを用いて説明する。
(ステップS205)項目集約部14および分類部13は、ステップS204の結果に対して、軸[i]の項目用語の集約を行い、集約した項目への文書情報の対応付けを行う。かかる処理を項目集約・再分類処理と呼ぶ。項目集約・再分類処理の詳細について、図8のフローチャートを用いて説明する。
(ステップS206)技術マップ生成装置1は、カウンタiを1だけ増加させ、ステップS202に戻る。
(ステップS207)技術マップ構成部15は、技術マップに出力する全ての軸の項目集約・再分類処理の結果に基づき技術マップを出力するために必要な情報を構成する。かかる処理を技術マップ構成処理と呼ぶ。技術マップ構成処理の詳細について、図9のフローチャートを用いて説明する。
(ステップS208)技術マップ出力部16は、技術マップ構成部15が構成した内容情報に基づいて技術マップを出力する。
次に、ステップS203の項目取得処理の詳細の具体例について、図3のフローチャートを用いて説明する。
(ステップS301)重要用語取得手段121は、文書情報格納部111に格納された文書情報のそれぞれから重要用語を取得する。かかる処理を重要用語取得処理と呼ぶ。重要用語取得処理の詳細について、図4のフローチャートを用いて説明する。
(ステップS302)用語集約手段122は、ステップS301で取得した各文書情報の重要用語を集約するために、前記各重要用語について、集約先となる用語の候補を求める。かかる処理を集約用語候補取得処理と呼ぶ。集約用語候補取得処理の詳細について、図5のフローチャートを用いて説明する。
(ステップS303)用語集約手段122は、各重要用語について、ステップS303で求めた集約先となる用語の候補から一の用語を選択する。かかる処理を集約用語決定処理と呼ぶ。集約用語決定処理の詳細について、図6のフローチャートを用いて説明する。
次に、ステップS301の重要用語取得処理の詳細の具体例について、図4のフローチャートを用いて説明する。
(ステップS401)重要用語取得手段121は、カウンタiに1を代入する。
(ステップS402)重要用語取得手段121は、文書情報格納部111に、i番目の文書情報(以下、文書情報[i])が存在する場合は、ステップS403へ進む。そうでない場合は、上位処理へリターンする。
(ステップS403)重要用語取得手段121は、文書情報[i]から重要用語を取得する。重要用語の取得方法については、先に述べたように、パターンによる方法、TF−IDFによる方法、機械学習を用いる方法のいずれであっても良い。
(ステップS404)重要用語取得手段121は、カウンタiを1だけ増加させ、ステップS402に戻る。
次に、ステップS302の集約用語候補取得処理の詳細の具体例について、図5のフローチャートを用いて説明する。
(ステップS501)用語集約手段122は、カウンタiに1を代入する。
(ステップS502)用語集約手段122は、文書情報格納部111に、文書情報[i]が存在する場合は、ステップS503へ進む。そうでない場合は、上位処理へリターンする。
(ステップS503)用語集約手段122は、カウンタjに1を代入する。
(ステップS504)用語集約手段122は、現在処理中の軸(図2のフローチャートのカウンタiで指定される軸)について、文書情報[i]にj番目の重要用語が存在する場合はステップS505へ進む。そうでない場合は、ステップS508へ進む。以下、文書情報[i]のj番目の重要用語を[i][j]と表記する。
(ステップS505)用語集約手段122は、重要用語[i][j]が用語辞書112に格納されたいずれかの用語群に含まれる場合は、ステップS506へ進む。そうでない場合は、ステップS507へ進む。
(ステップS506)用語集約手段122は、重要用語[i][j]と、用語辞書112に格納された各用語群のうち重要用語[i][j]を含む用語群をすべて対応付ける。
(ステップS507)用語集約手段122は、カウンタjを1だけ増加させ、ステップS504へ戻る。
(ステップS508)用語集約手段122は、カウンタiを1だけ増加させ、ステップS502へ戻る。
次に、ステップS303の集約用語決定処理の詳細の具体例について、図6のフローチャートを用いて説明する。
本フローチャートでは、最も多くの重要用語と対応付いた用語群を項目用語とする。
(ステップS601)用語集約手段122は、カウンタiに1を代入する。
(ステップS602)用語集約手段122は、文書情報格納部111に、文書情報[i]が存在する場合は、ステップS603へ進む。そうでない場合は、上位処理へリターンする。
(ステップS603)用語集約手段122は、カウンタjに1を代入する。
(ステップS604)用語集約手段122は、ステップS502と同様に、現在処理中の軸について、重要用語[i][j]が存在する場合はステップS605へ進む。そうでない場合は、ステップS607へ進む。
(ステップS605)用語集約手段122は、重要用語[i][j]について、ステップS506で対応付けた用語群が1以上存在する場合は、ステップS606へ進む。そうでない場合は、ステップS607へ進む。
(ステップS606)用語集約手段122は、重要用語[i][j]に対応付けられた用語群のうち、対応付けられた重要用語の最も多い用語群に対応する用語を、項目用語として取得する。
(ステップS607)用語集約手段122は、重要用語[i][j]を項目用語として取得する。
(ステップS608)用語集約手段122は、カウンタjを1だけ増加させ、ステップS604へ戻る。
(ステップS609)用語集約手段122は、カウンタiを1だけ増加させ、ステップS602へ戻る。
なお、本フローチャートにおいて、ステップS606は、ある重要用語について対応付けられた用語群が複数存在する場合、当該重要用語が用語群へ対応する数を「1/当該重要用語が対応する用語群の数」と計算しても良い。
次に、ステップS204の分類処理の詳細の具体例について、図7のフローチャートを用いて説明する。
(ステップS701)分類部13は、カウンタiに1を代入する。
(ステップS702)分類部13は、文書情報格納部111に、文書情報[i]が存在する場合は、ステップS703へ進む。そうでない場合は、上位処理へリターンする。
(ステップS703)分類部13は、カウンタjに1を代入する。
(ステップS704)分類部13は、ステップS502と同様に、現在処理中の軸について、重要用語[i][j]が存在する場合はステップS705へ進む。そうでない場合は、ステップS707へ進む。
(ステップS705)分類部13は、重要用語[i][j]に対応付けた用語群に対応する項目用語(ステップS606)、もしくは重要用語[i][j]そのものである項目用語(ステップS607)と、文書情報[i]を対応付ける。
(ステップS706)分類部13は、カウンタjを1だけ増加させ、ステップS704へ戻る。
(ステップS707)分類部13は、カウンタiを1だけ増加させ、ステップS702へ戻る。
次に、ステップS205の項目集約・再分類処理の詳細の具体例について、図8のフローチャートを用いて説明する。
(ステップS801)項目集約部14は、カウンタiに1を代入する。
(ステップS802)項目集約部14は、現在処理中の軸(図2のフローチャートのカウンタiで指定される軸)について、i番目の項目用語(以下、項目用語[i])が存在する場合は、ステップS803へ進む。そうでない場合は上位処理へリターンする。
(ステップS803)項目集約部14は、項目用語[i]が予め決めた条件を満たす場合はステップS804へ進む。そうでない場合は、ステップS806へ進む。
(ステップS804)分類部13は、項目用語[i]と対応付けられた文書情報(ステップS705)を、変更後項目用語へ対応付ける。
(ステップS805)項目集約部14は、項目用語[i]を削除する。
(ステップS806)項目集約部14は、カウンタiを1だけ増加させ、ステップS802へ戻る。
次に、ステップS207の技術マップ構成処理の詳細の具体例について、図9のフローチャートを用いて説明する。
(ステップS901)技術マップ構成部13は、カウンタiに1を代入する。
(ステップS902)技術マップ構成部13は、1番目の軸のi番目の項目(以下、項目[i])が存在する場合は、ステップS903へ進む。そうでない場合は、上位処理へリターンする。
(ステップS903)技術マップ構成部13は、カウンタjに1を代入する。
(ステップS904)技術マップ構成部13は、2番目の軸のj番目の項目(以下、項目[j])が存在する場合は、ステップS905へ、そうでない場合は、ステップS907へ進む。
(ステップS905)技術マップ構成部13は、項目[i]と項目「j」の両方に対応付けられている文書をすべて取得し、Dに代入する。
(ステップS906)技術マップ構成部13は、Dのサイズに基づいてバブルの半径を計算する。通常、バブルの面積がDのサイズと比例するように半径を決定する。具体的には、Dのサイズが1の場合の半径をIとした場合、Dのサイズがnの場合の半径はI×(nの平方根)となる。
(ステップS907)技術マップ構成部13は、iを1だけ増加させステップS902に戻る。
なお、図9のフローチャートは2次元の技術マップを出力するためのものであるが、3次元以上の技術マップを出力する場合も同様である。例えば、3次元の技術マップを出力する場合は、1番目の軸の項目[i]と2番目の軸の項目[j]と3番目の軸の項目[k](i,j,kはそれぞれ1〜各軸の最後の項目までのすべての組み合わせ)のすべてに対応付けられている文書をすべて取得しDに代入し、当該Dに基づきバブルの半径を算出する。
以下、本実施の形態における技術マップ生成装置1の具体的な動作について説明する。
本具体例において、文書情報格納部111は、図10に示す文書情報管理表を格納している。文書情報管理表は、2以上の文書に関する情報のレコードを保持している。各レコードは、「ID」、「文書識別子」、「文書情報」の属性を有する。ここで、文書識別子とは、各文書情報を識別するための識別子である。
また、本具体例において、用語辞書112は、図11に示す用語群管理表を格納している。用語群管理表は、1以上の用語群に関するレコードを保持している。各レコードは、「ID」と「軸」と「代表用語」と「用語群」の属性を有する。ここで、代表用語とは、用語群の意味を表す用語であり、技術マップに出力される用語である。
本具体例では、図10の各文書情報をもとに、「課題」と「解決手段」を軸としてもつ、図15(a)のようなバブルチャート型の技術マップを出力する。
また、本具体例では、重要用語の抽出は、図11の用語群管理表に含まれる用語群に1回以上現れる用語を抽出するものとする。
また、本具体例では、変更後項目用語を「その他」と固定し、「1以下の文書情報しか対応付けられていない項目用語」を変更後項目用語への集約の条件とする。
はじめに、技術マップ生成装置は、「課題」軸について、重要項目用語の取得(ステップS301)を行う。具体的には、重要用語取得手段121は、文書情報格納部111の文献1から文献7について、用語辞書112の課題軸の用語群(ID=1から4)のいずれかを含まれる用語を重要用語として取得する(ステップS403)。その結果、「文献1→消費電力」、「文献2→容易に操作」、文献3→低コストに製造」、「文献4→電力効率」、「文献5→効率的な動作」、「文献6→待機電力」、「文献7→無駄な電力」が取得される。
次に、用語集約手段122は、取得した重要用語の集約を行う(ステップS302、S303)。重要用語の集約では、はじめに集約先の候補を探し、用語集約手段122は、取得した各重要用語と用語群の対応付けを行う(ステップS302)。各重要用語について、用語辞書112を走査し、結果「消費電力→消費電力」、「容易に操作→作業容易性」、「低コストに製造→製造コスト」、「電力効率→効率」、「効率的な動作→効率、最適化」、「待機電力→消費電力」、「無駄な電力→消費電力」と対応付けられる(それぞれ「重要用語→代表用語」)。
次に、用語集約手段122は、重要用語を集約し項目用語を取得する。今回の場合、重要用語「効率的な動作」以外は、重要用語に対応する代表用語が1つのため、各重要用語はそのまま代表用語に集約される。また、重要用語「効率的な動作」は「効率」と「最適化」の2つの候補が存在するが、「最適化」に対応付けられた重要用語は「効率的な動作」ただ1つであるのに対し、「効率」に対応付けられた重要用語は「電力効率」と「効率的な動作」の2つであるため、最も対応付けられた重要用語の多い「効率」へ集約する(ステップS606)。
以上の処理の結果、「課題」軸について「消費電力」、「作業容易性」、「製造コスト」、「効率」の4つの項目用語が取得される。
次に、分類部13は、「課題」軸の各項目用語に文書情報を対応付ける。分類部13は、項目用語の元となった重要用語が取得された文書情報をそのまま対応付ける(ステップS705)。その結果、「消費電力→文献1、文献6、文献7」、「作業容易性→文献2」、「製造コスト→文献3」、「効率→文献4、文献5」と対応付けられる(それぞれ「項目用語→文書識別子」)。
次に、項目集約部14は、集約した項目用語をさらに変更後項目用語へ集約する(ステップS205)。本具体例において、項目集約部14は、各項目用語について、「1以下の文書情報しか対応付けられていない」か否かを判定し(ステップS803)、条件を満たす場合、当該項目用語に対応付けられた文書情報を変更後項目用語「その他」に対応付ける(ステップS804)。さらに、項目集約部14は、条件を満たした項目用語を削除する(ステップS805)。この結果、項目用語とそれに対応付けられる文書情報は、「消費電力→文献1、文献6」、「効率→文献4、文献5」、「その他→文献2、文献3」となる。
次に、技術マップ生成装置1は、「解決手段」軸についても、「課題」軸と同様の処理を行う(ステップS203〜S205)。この結果、「解決手段」軸では変更後項目用語への集約は行われず、「構成→文献1、文献2」、「素材→文献3、文献4」、「方法→文献5、文献6、文献7」と対応付けられる(それぞれ「項目用語→文書識別子」)。
次に、技術マップ構成部15は、「課題」軸と「解決手段」軸の結果を用いて、技術マップを出力するための情報を構成する(ステップS207)。本具体例の場合、技術マップ構成部は、「課題」軸と「解決手段」軸の項目用語とそれに対応する文書情報の数から、技術マップのバブルの半径を算出する。例えば、「消費電力」と「構成」の交点に位置するバブルの場合、「消費電力」に対応付けられた文書情報群{文献1,文献6、文献7}と「構成」に対応付けられた文書情報群{文献1,文献2}の積集合{文献1}を求めることで、バブルの半径を算出する。同様の方法で、課題と解決手段のすべての組み合わせについて、積集合を求め、バブルの半径を算出する。
次に、技術マップ出力部16は、技術マップ構成部15が構成した情報をもとに技術マップを出力する。この結果、図12(a)の技術マップが出力される。
また、上記の具体例と同じ文書情報管理票と用語群管理表をのもと、変更後項目用語を「集約された項目用語を中黒(・)で連結した文字列」、変更後項目用語への集約の条件を「1以下の文書情報しか対応付けられていない項目用語」とした場合、図12(b)の技術マップが出力される。
また、さらに、上記の具体例と同じ文書情報管理票と用語群管理表をのもと、変更後項目用語を「その他」で固定し、変更後項目用語への集約の条件を「2以下の文書情報しか対応付けられていない項目用語」とした場合、図12(c)の技術マップが出力される。図12(c)のように、「2以下の文書情報しか対応付けられていない項目用語」を集約する条件であっても、「その他」には2以下の文書情報しか対応付けられていないバブルが出力されることに注意する(課題「消費電力」×解決手段「その他」と課題「その他」×解決手段「方法」)。
以上、本実施の形態によれば、分類結果を用いて、項目を集約した技術マップを生成できる。
また、本実施の形態によれば、文書情報数(文書数)の少ない項目を「その他」等にまとめ上げることができるので、技術マップの一覧性を向上することができる。
また、本実施の形態によれば、技術マップの一覧性を向上させることができる程度に、軸を構成する項目数を少なくすることができる。
なお、本実施の形態によれば、項目集約部14は、軸が階層化されている場合、深い階層から順番に項目集約処理を適用することで、階層内に「その他」等の項目を生成しても良い。例えば、メイン項目A、B、C、Dという項目用語が存在し、項目Bはサブ項目b1、b2、b3を持つ場合、項目集約部14は、はじめに、サブ項目であるb1、b2、b3を変更後項目用語へ集約し、その後、メイン項目であるA、B、C、Dを対象に変更後項目用語への集約を行う。このとき、サブ項目とメイン項目の集約で、異なる集約条件を設定しても良い。
さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD−ROMなどの記録媒体に記録して流布しても良い。
なお、本実施の形態における技術マップ生成装置を実現するソフトウェアは、以下のようなプログラムである。つまり、コンピュータがアクセス可能な記録媒体は、
文書を識別する文書識別子に対応する2以上の文書情報が格納される文書情報格納部を具備し、コンピュータを、前記2以上の各文書情報を解析し、技術マップを構成する1以上の軸の項目となり得る用語である項目用語を、軸ごとに取得する項目取得部と、前記2以上の各文書情報に対して、軸ごとに、対応する項目用語を決定する分類部と、1以上の軸について、前記分類部における結果を用いて、予め決められた条件を満たす2以上の項目用語を一つの変更後項目用語に変更する項目集約部とを具備し、前記分類部は、前記項目集約部が取得した変更後項目用語の元の2以上の項目用語のいずれかに対応する文書情報を前記変更後項目用語に対応付け、前記項目取得部が取得した軸ごとの項目用語から、集約された2以上の項目用語を除いた項目用語と、前記変更後項目用語とを有する項目用語集合を軸とする技術マップであり、前記2以上の各文書情報の各項目用語への対応を明示する技術マップを構成する技術マップ構成部と、前記技術マップを出力する技術マップ出力部として機能させるためのプログラム、である。
図13は、上記プログラムを実行して、上記実施の形態による技術マップ生成装置1等を実現するコンピュータの外観の一例を示す模式図である。上記実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムによって実現されうる。
図13において、コンピュータシステム3000は、CD−ROMドライブ3005を含むコンピュータ3001と、キーボード3002と、マウス3003と、モニタ3004とを備える。
図14は、コンピュータシステム3000の内部構成を示す図である。図14において、コンピュータ3001は、CD−ROMドライブ3005に加えて、MPU(Micro Processing Unit)3011と、ブートアッププログラム等のプログラムを記憶するためのROM3012と、MPU3011に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するRAM3013と、アプリケーションプログラム、システムプログラム、及びデータを記憶するハードディスク3014と、MPU3011、ROM3012等を相互に接続するバス3015とを備える。なお、コンピュータ3001は、LANやWAN等への接続を提供する図示しないネットワークカードを含んでいてもよい。
コンピュータシステム3000に、上記実施の形態による技術マップ生成装置1等の機能を実行させるプログラムは、CD−ROM3021に記憶されて、CD−ROMドライブ3005に挿入され、ハードディスク3014に転送されてもよい。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ3001に送信され、ハードディスク3014に記憶されてもよい。プログラムは実行の際にRAM3013にロードされる。なお、プログラムは、CD−ROM3021、またはネットワークから直接、ロードされてもよい。また、CD−ROM3021に代えて他の記録媒体(例えば、USBメモリ等)を介して、プログラムがコンピュータシステム3000に読み込まれてもよい。
プログラムは、コンピュータ3001に、上記実施の形態による技術マップ生成装置1等の機能を実行させるオペレーティングシステム(OS)、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能やモジュールを呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム3000がどのように動作するのかについては周知であり、詳細な説明は省略する。
なお、上記プログラムにおいて、情報を送信する送信ステップや、情報を受信する受信ステップなどでは、ハードウェアによって行われる処理、例えば、送信ステップにおけるモデムやインターフェースカードなどで行われる処理(ハードウェアでしか行われない処理)は含まれない。
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
また、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。