JP2008084151A - Information display device and information display method - Google Patents
Information display device and information display method Download PDFInfo
- Publication number
- JP2008084151A JP2008084151A JP2006265319A JP2006265319A JP2008084151A JP 2008084151 A JP2008084151 A JP 2008084151A JP 2006265319 A JP2006265319 A JP 2006265319A JP 2006265319 A JP2006265319 A JP 2006265319A JP 2008084151 A JP2008084151 A JP 2008084151A
- Authority
- JP
- Japan
- Prior art keywords
- classification
- matrix
- document
- phrase
- displayed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】文書データから必要な情報を取得するのは容易でない。
【解決手段】情報表示装置は、文書集合をユーザが設定した第1、第2の分類手法で分類する。情報表示装置に表示するマトリクス50は、第1、第2の分類手法で分類した際の分類項目をそれぞれ表示する列の分類項目欄52および行の分類項目欄54、分類された行と列の文書集合の積集合に係る数値を2次元マトリクス上のドットの色で表す図形表示欄56を含む。設定された分類手法がクラスタリングであった場合は、クラスタリングの実施に際し各文書から抽出した語句から所定の基準により選択した代表語句を分類項目として表示する。
【選択図】図2It is not easy to obtain necessary information from document data.
An information display device classifies a document set by first and second classification methods set by a user. The matrix 50 displayed on the information display device includes a column classification item column 52 and a row classification item column 54 for displaying the classification items when classified by the first and second classification methods, and the classified row and column classification. It includes a graphic display field 56 that represents the numerical value related to the product set of the document set by the color of dots on the two-dimensional matrix. If the set classification method is clustering, representative words and phrases selected according to a predetermined criterion from words and phrases extracted from each document when clustering is performed are displayed as classification items.
[Selection] Figure 2
Description
本発明は情報表示技術に関し、特に蓄積された文書データから得られる情報を視覚化して表示する情報表示技術およびそれに適用される情報表示方法に関する。 The present invention relates to an information display technique, and more particularly to an information display technique for visualizing and displaying information obtained from accumulated document data and an information display method applied thereto.
コンピュータやネットワークなどの情報処理分野における技術環境は近年、劇的な進歩を遂げてきた。それにともない多量かつ多様なデータを記憶装置に保存したり、ネットワークや記録媒体を介して入手したりすることが容易に行われるようになってきた。そのため情報化社会における課題の重点は、情報をいかに入手するかという点から、膨大な情報からいかに必要な情報を効率よく取捨選択するかという点へと移行しつつある。 The technological environment in the information processing field such as computers and networks has made dramatic progress in recent years. Along with this, it has become easy to store a large amount of various data in a storage device or obtain it via a network or a recording medium. Therefore, the emphasis of the issues in the information society is shifting from the point of how to obtain information to the point of efficiently selecting necessary information from a huge amount of information.
このような課題に対して、様々なデータベースから必要なデータを絞り込むための様々な技術が開発されてきた。例えば特許出願の公開公報などにおいて、入力された検索式にヒットした公報についてキーワードや特許分類などに基づく集計を行いマトリクスマップを表示することにより、データの絞込みを行う技術が提案されている(例えば特許文献1)。またナレッジマネジメントシステムにおいて、コミュニティや専門分野ごとの投稿数または評価値の度合いを2次元表示することにより、取得する投稿記事の絞込みを行う技術も提案されている(例えば特許文献2)。
上記のような技術は、検索を前提としてあらかじめ分類や属性が付加されているデータを対象としているため、そのようなデータ構造に合わせてシステムを構築することにより初めて実現が可能となる。ところがこのような場合、当該システムを別のデータ構造を有するデータや別の用途に用いることはできず、上記技術におけるシステムの場合は公開公報の検索、または投稿記事の検索、といった使用目的に限定される。 Since the technique as described above is targeted for data to which classification and attributes are added in advance on the premise of search, it can be realized only by constructing a system according to such a data structure. However, in such a case, the system cannot be used for data having a different data structure or for another purpose, and in the case of the system in the above technique, it is limited to a purpose of use such as searching for a public gazette or searching for a posted article. Is done.
本発明はこうした状況に鑑みてなされたものであり、その目的は、ユーザが所望とする多様な情報を容易かつ直感的に取得できる技術を提供することにある。 The present invention has been made in view of such circumstances, and an object of the present invention is to provide a technique capable of easily and intuitively acquiring a variety of information desired by a user.
本発明のある態様は、情報表示装置に関する。この情報表示装置は、複数の文書を記憶する記憶部と、記憶部が記憶した複数の文書を、第1の分類手法および第2の分類手法で分類することにより2系列の文書集合群を形成する分類処理部と、分類処理部が実施した第1の分類手法および第2の分類手法による分類結果の相関関係を、2系列の文書集合群を行および列に展開し文書集合群同士の積集合に係る数値情報を所定の図形で表現した2次元マトリクスとして表示するマトリクス表示部と、を備えたことを特徴とする。 One embodiment of the present invention relates to an information display device. This information display device forms a two-line document set group by classifying a plurality of documents stored in a storage unit and a plurality of documents stored in the storage unit by a first classification method and a second classification method. And the correlation between the classification results obtained by the first classification method and the second classification method performed by the classification processing unit, the two series of document set groups are expanded into rows and columns, and the product of the document set groups is obtained. And a matrix display unit that displays numerical information relating to the set as a two-dimensional matrix expressed in a predetermined figure.
ここで「第1の分類手法」と「第2の分類手法」は同一の分類手法であってもよい。したがって「2系列の文書集合群」は同一の文書集合群であってもよい。また「図形で表現した」とは円、多角形、線などの幾何形状のいずれかに色、模様、大きさなどのいずれかまたはその組み合わせによって変化を持たせたものである。あるいは幾何形状自体を変化させたり、幾何形状を組み合わせたりしてもよい。 Here, the “first classification method” and the “second classification method” may be the same classification method. Therefore, the “two-line document set group” may be the same document set group. Further, “expressed as a graphic” is a change in a geometrical shape such as a circle, polygon, line, etc., depending on any one of color, pattern, size, or a combination thereof. Alternatively, the geometric shape itself may be changed or the geometric shapes may be combined.
本発明の別の態様も、情報表示装置に関する。この情報表示装置は、複数の文書を記憶する記憶部と、記憶部が記憶した複数の文書を所定の分類手法で分類することにより複数の文書集合を形成する分類処理部と、分類処理部が分類した各文書集合から抽出された語句の出現数に基づき当該語句に係る数値情報を算出し、分類処理部が実施した分類の結果と語句に係る数値情報との相関関係を、語句に係る数値情報を所定の図形で表現した2次元マトリクスとして表示するマトリクス表示部と、を備えたことを特徴とする。 Another aspect of the present invention also relates to an information display device. The information display device includes a storage unit that stores a plurality of documents, a classification processing unit that forms a plurality of document sets by classifying the plurality of documents stored in the storage unit by a predetermined classification method, and a classification processing unit. Based on the number of occurrences of the phrase extracted from each classified document set, the numerical information related to the phrase is calculated, and the correlation between the result of classification performed by the classification processing unit and the numerical information related to the phrase is calculated based on the numerical value related to the phrase. And a matrix display unit that displays information as a two-dimensional matrix expressed in a predetermined figure.
本発明の別の態様は、情報表示方法に関する。この情報表示方法は、複数の文書を分類する第1の分類手法および第2の分類手法の選択入力をユーザより受け付けるステップと、選択された第1の分類手法および第2の分類手法で複数の文書を分類し、2系列の文書集合群を形成するステップと、第1の分類手法および第2の分類手法による分類結果の相関関係を、2系列の文書集合群を行および列に展開し文書集合群同士の積集合に係る数値情報を所定の図形で表現した2次元マトリクスとして表示するステップと、を含むことを特徴とする Another aspect of the present invention relates to an information display method. The information display method includes a step of receiving a selection input of a first classification method and a second classification method for classifying a plurality of documents from a user, and a plurality of selected first classification method and second classification method. The step of classifying a document to form a two-series document set group and the correlation between the classification results obtained by the first classification method and the second classification method are expanded into two rows and columns, and the document is expanded. Displaying numerical information related to the intersection set of the set groups as a two-dimensional matrix expressed in a predetermined figure.
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システムなどの間で変換したものもまた、本発明の態様として有効である。 It should be noted that any combination of the above-described constituent elements and a representation of the present invention converted between a method, an apparatus, a system, etc. are also effective as an aspect of the present invention.
本発明によれば、ユーザは文書データから所望の情報を容易かつ直感的に取得することができる。 According to the present invention, a user can easily and intuitively obtain desired information from document data.
図1は本実施の形態における情報表示装置の構成を示している。情報表示装置10は、ユーザが表示にかかる指示入力を行う入力部20、文書データなどを記憶した記憶部12、文書データを所定の分類手法で分類する分類処理部14、2つの系列の分類項目を行、および列に割り当て、それぞれの要素を構成する数値を図形化して2次元マトリクスで表示するマトリクス表示部22を含む。マトリクス表示部22は、分類された文書データに基づく数値データを取得し、マトリクスの表示データを生成するマトリクス生成部16と、当該マトリクスを表示する表示部18を含む。以上の構成要素はバス24を介して接続されており、相互にデータを送受する。
FIG. 1 shows the configuration of the information display device in this embodiment. The
図1において、様々な処理を行う機能ブロックとして記載される各要素は、ハードウェア的には、CPU、メモリ、その他のLSIで構成することができ、ソフトウェア的には、言語処理機能のあるプログラムなどによって実現される。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。 In FIG. 1, each element described as a functional block for performing various processes can be configured by a CPU, a memory, and other LSIs in terms of hardware, and a program having a language processing function in terms of software. Etc. Therefore, it is understood by those skilled in the art that these functional blocks can be realized in various forms by hardware only, software only, or a combination thereof, and is not limited to any one.
入力部20はキーボード、マウス、トラックボール、トラックパッドなど一般的に用いられる入力装置のいずれか、またはその組み合わせでよい。入力部20によりユーザは、記憶部12に記憶された文書データから処理対象の文書集合を指定したり、表示部18に表示したマトリクス表示画面上で、マトリクスの行および列を構成する分類項目の種類や表示するデータの種類を選択したり、表示されたマトリクス上の所望の領域を選択したりする。
The
記憶部12は、ハードディスクやメモリ、DVD(Digital Versatile Disk)、CD(Compact Disk)などの記録媒体の読取装置などのいずれか、またはそれらの組み合わせでもよく、データ量や検索処理の形態に応じたハードウェアから適宜選択する。したがってその数は限定されない。また記憶部12の一部は、ネットワーク(図示せず)を介してバス24と接続していてもよい。この場合、他の機能ブロックはネットワークに接続されたサーバ(図示せず)を介して当該記憶部12とデータの送受を行ってよい。
The
記憶部12に記憶された文書データは、例えば文書本体であるテキストデータと、作成日、作成者、分類コードなど、文書を特徴づける属性とを関連付けたデータであってもよいし、文書本体であるテキストデータのみであってもよい。ここで文書とは新聞記事や特許公開公報など長文で構成されるものでも、1文、あるいは1単語で構成されるものでもよく、その長短は問わない。また記憶部12には文書データの他、表示する画像のテンプレートデータやマトリクス上に表示する図形に係るデータ、図形で表される数値を算出するためのパラメータなど、マトリクス表示において必要となるデータも記憶される。
The document data stored in the
分類処理部14は、ユーザが入力部20において指定した文書集合のデータを記憶部12から読み出し、ユーザが選択した、マトリクスの行および列を構成する分類項目の種類に従い、対応する分類手法で分類を行う。分類手法としては、あらかじめ各文書に関連づけて記憶された属性ごとに分類する手法、あらかじめ用意した語句集合のいずれかに、所定の基準によって各文書を振り分けていく手法、特定の分類項目を持たず文書同士の類似性により分類していく手法(以後、クラスタリングと呼ぶ)などのいずれの手法でもよい。分類された文書集合は、文書ごとに与えられた識別情報に基づき各分類項目と関連付けて記憶部12のメモリなどに保存される。
The
本実施の形態では、分類した結果をマトリクス形式で表示するが、分類処理部14が行う分類手法は2つとは限らない。すなわち、1つの分類手法で分類した結果を行および列に同様に表示することもある。ユーザは分類項目の種類を選択することにより、文書集合が含有する多様な情報から所望のものを効率よく取得することができる。分類項目や対応する分類手法、およびマトリクス表示により得られる情報の具体例については後に説明する。
In the present embodiment, the classified results are displayed in a matrix format, but the classification method performed by the
マトリクス表示部22のマトリクス生成部16は、分類処理部14が分類した結果をユーザが入力部20において選択した分類項目に従い、行または列に配置していき、2次元マトリクスの表示データを生成する。例えば記憶部12から読み出した処理対象の文書集合の分類項目ごとの文書数を表示させたい場合を考える。このときマトリクス生成部16はまず、行および列として選択された分類項目に分類した結果である、2系列の文書集合群同士の各組み合わせの積集合を要素とする行列を生成する。すなわち、行をなす文書集合群が{M1,M2,・・・,Mm}(mは項目数)、列をなす文書集合群が{N1,N2,・・・,Nn}(nは項目数)だとすると、式1のような行列を生成する。そして各積集合に属する文書の識別情報と、対応する行および列の2つの分類項目の組み合わせとを関連づけてメモリなどに保存する。
The
次にマトリクス生成部16は、マトリクスの各要素である積集合について、ユーザが入力部20において選択した、表示するデータの種類に応じた演算を行い、行列を数値化する。上記の例では、積集合に属する文書の数をカウントして最終的な数値行列を求める。
Next, the
さらにマトリクス生成部16は、当該数値行列の各要素を図形として視覚化して表す。これによりユーザは、たとえ分類項目が多くても数値分布や傾向などをより直感的に把握することができる。マトリクス生成部16は後述するように、自動またはユーザによる指示により、マトリクスの行や列の並び替えを行ったり、表示させる分類項目の絞込みを行ったりする。そのためユーザは全体的な傾向把握に加えて局所的な情報を取得するためのデータの絞込みを効率よく行うことができる。
Further, the
表示するデータの種類によっては、マトリクス生成部16は、分類処理部14が分類した文書集合から抽出された印象表現語を含むフレーズや、名詞句、形容詞句、動詞句などの語句の出現数を、文書集合ごとにカウントする。また必要に応じて、出現数などに基づいたアフェクト度の計算も行う。語句の抽出処理自体は外部の処理装置が行ってもよく、その場合は抽出された語句と各文書とを対応づけたデータが記憶部12に記憶されている。マトリクス生成部16は当該データを参照することにより語句の出現数をカウントする。具体的な抽出語句の種類と表示データの種類については後に詳述する。
Depending on the type of data to be displayed, the
表示部18は、マトリクス生成部16の制御のもと、生成されたマトリクスの表示データを画面に表示するとともに、ユーザが入力部20において処理対象の文書集合を指定したり、分類項目の種類を選択したりする際の受付画面を表示する。マトリクスの表示画面と受付画面とは同一の画面に共に表示してよい。表示部18はさらに、表示したマトリクス上で移動する縦、横の2本のガイド線も表示する。ユーザは入力部20により当該ガイド線の交点を移動させることにより、マトリクス上の領域を選択することができる。マトリクス上の領域が選択されたら、マトリクス生成部16は、表示部18に当該領域に存在する図形が表す数値情報やその図形が属する分類項目に係る情報を表示させる。
The
表示部18はさらに、ユーザが選択したマトリクス上の領域に存在する図形に対応する文書集合の本文を表示する。文書集合の本文はマトリクスを表示するウィンドウに重畳させた別のウィンドウ上に表示してもよいし、マトリクスの表示領域にマトリクスと切替えて表示してもよい。
The
図2は表示部18に表示されるマトリクスの例を示している。マトリクス50は列の分類項目欄52、行の分類項目欄54、および図形表示欄56を含む。図2の例では、列の分類項目欄52と行の分類項目欄54のいずれも、「カメラ」、「ケース」、「サイズ」、「シャッター」、「レンズ」、「バッテリー」、・・・、「電池」、なる分類項目が表示されている。例えば、カメラ関係の投稿記事の文書集合を、2つの分類手法、または2つの分類器で、あらかじめ設定したこれらの分類項目に主題に応じて分類した際の、分類結果の相関関係、あるいは分類手法や分類器の傾向などを把握する場合などには図2のような表示が有用となる。
FIG. 2 shows an example of a matrix displayed on the
図形表示欄56には、マトリクスの各要素の数値を表す図形としてドットが表示されている。以後、数値はドットで表すとして説明するが、別の形状を有する図形でも同様である。図2においてドットは全て同一の大きさで、数値に応じて色を異ならせている。ただしここでは、表示の便宜上、色の変化は模様の変化で表しており、例えば模様が密なほど値が高いとする。またドットが表示されていない要素は数値が0、または数値が算出されない場合などである。
In the
図2では、マトリクスの対角線を構成する要素、すなわち(「カメラ」,「カメラ」)、(「ケース」,「ケース」)といった同一の分類項目の組み合わせにおいて数値が高いことがわかる。さらにこの例では、分類項目「レンズ」の列が、他の列よりドットの数が多い。この結果を上記のように、2つの分類手法で同じ分類項目への分類を行い、それぞれの分類項目に属する文書数を表示させた場合に当てはめると、当該2つの分類手法でも分類傾向にはおよそ差がないことや、列を構成する分類手法で「レンズ」に分類された文書は、行を構成する分類手法では分類が分散することなどが把握できる。 In FIG. 2, it can be seen that the numerical value is high in the combination of the same classification items such as the elements constituting the diagonal of the matrix, that is, (“camera”, “camera”), (“case”, “case”). Furthermore, in this example, the column of the classification item “lens” has a larger number of dots than the other columns. If this result is applied to the case where the two classification methods are used to classify the same classification item and the number of documents belonging to the respective classification items is displayed, the classification tendency is approximately even in the two classification methods. It can be understood that there is no difference, and that documents classified as “lens” by the classification method that constitutes the columns are dispersed by the classification method that constitutes the rows.
図3は表示部18に表示されるマトリクスの別の例を示している。この例におけるマトリクス50では、列の分類項目欄52に「2004年」、「2005年」、「2006年」という分類項目が、行の分類項目欄54に「カメラ」、「携帯電話」という分類項目が表示されている。図2の例では図形表示欄56に表示されたドットが同一の大きさであったが、図3ではドットの大きさが異なる。さらにドットの色も異なるが、図2と同様、便宜上模様を異ならせて表現している。すなわち図3の例では、1つのドットの大きさおよび色によって2つの数値を表している。
FIG. 3 shows another example of the matrix displayed on the
図3は例えば、「カメラ」または「携帯電話」に関する文書数の、作成年に対する推移をドットの大きさで表すとともに、2004年からの文書数の変化率をドットの色で表した場合のマトリクスである。このとき「カメラ」に関する文書数は「携帯電話」に関する文書数より全期間に渡り少ないが、その増加率は「カメラ」に関する文書の方が多いことが把握できる。 FIG. 3 shows, for example, a matrix in the case where the number of documents related to “camera” or “mobile phone” is represented by the size of a dot with respect to the creation year and the rate of change in the number of documents from 2004 is represented by a dot color. It is. At this time, the number of documents related to “camera” is smaller over the entire period than the number of documents related to “mobile phone”, but it can be understood that the increase rate is higher for documents related to “camera”.
次に以上の構成による情報表示装置10の動作を説明する。図4は情報表示装置10によるマトリクス表示の処理手順を示すフローチャートである。まずユーザは入力部20により、処理対象の文書集合を指定する(S10)。例えば、表示部18に入力を行うための受付画面、すなわち記憶部12中に記憶された様々な文書集合から選択を行うための画面を表示させ、その中からユーザが選択入力する。あるいは文書集合を記憶したCD−ROMなどの記録媒体を記憶部12に読み込ませたり、ネットワークを介したサーバから記憶部12へのダウンロード指示を行ったりしてもよい。
Next, the operation of the
次にユーザは、マトリクスの行および列を構成する分類項目の種類およびマトリクスとして表示させるデータの種類を選択する(S14)。このステップも、S10において選択された文書集合に対して選択可能な分類項目を表示部18に表示させることにより、ユーザが選択入力してよい。このとき、文書の属性により分類する場合は「性別」、「作成日」など属性の種類を、あらかじめ用意した語句集合を分類項目とする場合は当該語句集合につけた名前を選択項目として表示する。一方、クラスタリングを行った結果を表示させたい場合は、分類項目が未知のため「クラスタリング」といった選択項目を表示する。同様に、抽出した語句ごとに数値を表したい場合も、抽出される語句が未知のため、語句の種類を選択項目として表示する。データの種類については、例えば「文書数」や「文書数割合」など、計算可能な数値の名前を選択項目として表示する。必要に応じて各選択項目についての詳細な設定を受け付ける画面を表示してもよい。
Next, the user selects the type of classification items constituting the rows and columns of the matrix and the type of data to be displayed as the matrix (S14). Also in this step, the user may select and input the classification items that can be selected for the document set selected in S10 on the
分類処理部14は、S10で指定された文書集合を記憶部12から読み出し、S14で選択された分類項目の種類に基づき分類を実行する(S16)。読み出した文書集合が記憶部12においてすでに分類されており、ユーザがその分類手法のみを選択している場合は、S16の処理をスキップする。
The
マトリクス表示部22のマトリクス生成部16は、上述のとおり行、列を構成する2系列の文書集合の積集合を各項目の組み合わせごとに形成していき、S14で選択された表示データの種類に基づき、各積集合に関する数値を算出する。あるいは分類処理部14が分類した文書集合ごとにS14で選択された語句の種類に応じた語句を抽出し、出現数または出現数に基づく数値を算出する。そして当該数値に基づきマトリクスに表示するドットの色や大きさを決定し、当該ドットと行および列の分類項目とからなるマトリクスデータを生成する(S18)。表示部18はマトリクスデータを画面上に出力する(S20)。
As described above, the
このとき表示部18は、マトリクスの他に分類項目の種類や表示データの種類を選択入力するための受付画面を常時表示しておく。そしてマトリクスを表示している間にユーザが新たな分類項目の種類を選択する入力を行った場合(S22のY)、分類処理部14は当該分類項目の種類に基づき新たな分類を行い(S16)、マトリクス生成部16はマトリクスデータを生成し直す(S18)。またユーザが新たな表示データの種類を選択する入力を行った場合(S24のY)、マトリクス生成部16は当該表示データの種類に基づき新たな数値を算出してマトリクスデータを生成し直す(S18)。これらの処理により、表示部18は、ユーザが選択した分類項目の種類、または表示データの種類に従った新たなマトリクスを表示する(S20)。
At this time, the
以上の処理を、マトリクス表示の終了指示をユーザが入力するまで行い(S26のN)、終了指示の入力によりマトリクス表示を終了する(S26のY)。 The above processing is performed until the user inputs an instruction to end the matrix display (N in S26), and the matrix display is ended by inputting the end instruction (Y in S26).
図5は表示部18に表示される画面の構成例を示している。マトリクス表示画面60は文書集合指定領域66、マトリクス表示領域51、分類項目選択領域62、凡例表示領域64、ソート指示ボタン67、および絞込み指示ボタン68を含む。図4のS10においてユーザは、記憶部12における記憶場所および文書集合名を文書集合指定領域66に対して入力することにより、処理対象の文書集合を指定する。一般的な文書指定手法のように、記憶部12のツリー構造を参照できるようにしてそこから選択するようにしてもよい。
FIG. 5 shows a configuration example of a screen displayed on the
マトリクス表示領域51は列の分類項目表示領域53、行の分類項目表示領域55、および図形表示領域57を含む。また分類項目選択領域62には、マトリクスとして表示できる行の分類項目や列の分類項目の種類、および表示データの種類の候補が表示される。同図では、行または列の分類項目の種類として「クラスタ名」、「地域」、「職業」が、表示するデータの種類として「数量」、「割合」、「本文」が候補として表示されている。ここで「本文」は、本実施の形態の機能として、ドットで表されたある文書集合をユーザが指定した場合に、当該文書集合に属する文書の本体をテキストデータとして表示する場合に選択される。
The
図4のS14においてユーザは、分類項目選択領域62からマトリクスの行および列に表示させたい分類項目の種類を選択し、入力部20であるポインティングデバイスなどによりその項目を列の分類項目表示領域53や行の分類項目表示領域55にそれぞれドラッグアンドドロップ操作することにより、分類項目の種類を確定する。同様に、分類項目選択領域62からデータの種類を選択し、図形表示領域57にドラッグアンドドロップ操作することにより表示データの種類を確定する。マトリクス生成部16は、図4のS18においてマトリクスデータを生成する際、算出した各要素の数値の範囲に応じてドットの色や大きさを決定し、凡例表示領域64に凡例を表示する。
In S14 of FIG. 4, the user selects the type of classification item to be displayed in the matrix row and column from the classification
ソート指示ボタン67および絞込み指示ボタン68はそれぞれ、所定の基準により、マトリクス表示領域51に表示されたマトリクスの行または列を入れ替えたり表示数を減縮したりする際にユーザによって選択される。これらの機能については後に説明する。
The
以上のような画面構成とすることにより、ユーザは視覚的、直感的に条件設定を行うことができ、多様な形態の文書や色々な分類手法があっても容易に所望の情報を得ることができる。なお図5に示した画面は例示であり、本実施の形態はこれに限られない。例えば分類項目の種類や表示データの種類によっては、さらに詳細な設定を必要とする場合もある。このときは必要に応じて別のウィンドウを重ねて表示したり、分類項目選択領域62に選択肢を追加したりすることによって設定を行う。いずれの場合も、ポインティングデバイスを使用して直感的に選択できるような画面構成が望ましい。
With the screen configuration described above, the user can set conditions visually and intuitively, and can easily obtain desired information even if there are various forms of documents and various classification methods. it can. Note that the screen shown in FIG. 5 is an example, and the present embodiment is not limited to this. For example, depending on the type of classification item and the type of display data, more detailed settings may be required. At this time, the setting is performed by displaying another window in an overlapping manner or adding an option to the classification
ここで分類項目の種類を選択する際の態様のひとつを説明する。図6は行の分類項目が階層構造を有するときにマトリクス表示領域51に表示されるマトリクスの例を示している。この例はカメラに関する記事を、そこに含まれる「ケース」、「サイズ」、「レンズ」などの被修飾名詞句で分類し、さらにそれらの句を修飾する「しっかりする」、「重い」、「丈夫」などの形容詞句でさらに細分化して分類した場合について示している。すなわちこのときの分類項目は、被修飾名詞句が上位層、形容詞句が下位層の階層構造を有する。一方、列の分類項目は「機種A」、「機種B」、「機種C」など、機種ごとに分類する単層構造を有している。
Here, one mode when selecting the type of the classification item will be described. FIG. 6 shows an example of a matrix displayed in the
このような状況においては、分類項目選択領域62には例えば「カメラ語句(上位/下位)」、「カメラ語句(上位)」、「カメラ語句(下位)」といった候補を表示する。ここで「カメラ語句」とはあらかじめ用意された分類項目列、この場合は階層構造を有する分類項目の集合につけられた名前である。なお「名詞句/形容詞句」などの表示でもよい。クラスタリングを行うときは「クラスタリング(上位/下位)」などでもよい。
In such a situation, candidates such as “camera phrase (upper / lower)”, “camera phrase (upper)”, and “camera phrase (lower)” are displayed in the classification
そして「カメラ語句(上位/下位)」を行の分類項目表示領域55にドラッグアンドドロップ操作したときは、マトリクス表示領域51には図6(a)に示すように上位層および下位層の分類項目が階層構造のまま表示される。したがってドットが表す数値は、例えば「ケース」に属する文書集合のうち「重い」に属するものと、「機種A」に属する文書集合との積集合に係る数値である。この例では、各機種に対して「何(被修飾名詞句)」が「どう(形容詞句)」であるという内容の記事が多いのか、などを把握することができる。
When a “camera word / phrase (upper / lower)” is dragged and dropped to the line category
一方、「カメラ語句(上位)」を選択した場合、マトリクス表示領域51には図6(b)に示すように、上位層の分類項目が表示される。このときドットが表す数値は、例えば「ケース」に属する文書集合と「機種A」に属する文書集合との積集合に係る数値である。これにより、各機種の「何(被修飾名詞句)に係る記事が多いのか、などを把握することができる。同様に、「カメラ語句(下位)」を選択した場合、図6(c)に示すように下位層の分類項目が表示される。このときは上位層の分類項目に関わらず「重い」なる下位層の分類項目に属する文書を集計して文書集合とし、それと「機種A」に属する文書集合との積集合に係る数値を表示する。これにより「何(被修飾名詞句)」に関わらずどのような形容をされた記事が多いのかを機種ごとに把握できる。
On the other hand, when “camera word / phrase (upper order)” is selected, the upper layer classification items are displayed in the
分類項目の階層は図6の例では2層であったが、3層以上でも同様に表示の切替えを行う。このようにポインティングデバイスのみによって表示データを切替えることができるため、分類項目が階層構造を有していても、全体的な傾向の把握から詳細な分析までを効率よく行える。また階層の違いによる結果を容易に比較することができる。 Although the classification item hierarchy is two layers in the example of FIG. 6, display switching is performed in the same manner for three or more layers. As described above, since display data can be switched only by a pointing device, even if the classification item has a hierarchical structure, it is possible to efficiently perform the process from grasping the overall trend to detailed analysis. In addition, the results due to the difference in hierarchy can be easily compared.
マトリクス生成部16は、ユーザがソート指示ボタン67を押下することにより、マトリクス表示領域51に表示されるマトリクスの行や列を入れ替え、ソートを行ったマトリクスデータを生成する。分類項目によっては、列のソート、行のソート、列および行のソートを選択するサブメニューをさらに表示させてもよい。また、どのような基準によってソートを行うかをサブメニューによって選択するようにしてもよい。ソートの基準としては分類項目の種類や表示データの種類などによって、(1)分類項目名によるソート、(2)合計値によるソート、(3)割合によるソート、(4)分散度によるソート、(5)対角化ソート、などから選択できるようにする。
When the user presses the
分類項目名によるソートは、分類項目の文字列の文字コードに基づき、例えばあいうえお順などでソートを行う。合計値によるソートは、各列や各行を構成する要素の数値の合計値に基づき、例えば降順でソートを行う。割合によるソートは、各列や各行を構成する要素の数値の合計値に対する各要素の数値の割合に基づきソートを行う。分散度によるソートは、より多くの分類項目に値が分散しているか否かに基づきソートを行う。分散度には例えば、「ある行(または列)において値(ドット)が存在する分類項目数/その行(または列)に属する分類項目数」などの定義を用いる。 Sorting by classification item name is performed based on the character code of the character string of the classification item, for example, in the order of AIUEO. Sorting by the total value is performed, for example, in descending order based on the total value of the numerical values of the elements constituting each column or each row. The sorting based on the ratio is performed based on the ratio of the numerical value of each element to the total value of the numerical values of the elements constituting each column or each row. The sorting based on the degree of dispersion is performed based on whether or not the values are distributed to more classification items. For example, a definition such as “the number of classification items in which a value (dot) exists in a certain row (or column) / the number of classification items belonging to that row (or column)” is used.
対角化ソートは、マトリクスの対角線にある要素の値に着目し、行または列のどちらか一方のみをソートする場合と、行と列の双方をソートする場合とを用意する。図7は対角化ソートを行う様子を模式的に示している。図7(a)は、行の分類項目欄54に表示された分類項目の順番は固定とし、対角線の領域70にある要素の値が最も大きくなるように列の分類項目欄52に表示された分類項目の表示順を入れ替え、ソートを行った例である。対角線の領域70に着目してソートを行うことにより、行および列の分類項目の並び順を比較するだけで傾向を把握できる場合がある。
In the diagonalization sort, attention is paid to the value of the element on the diagonal line of the matrix, and a case where only one of the row and the column is sorted and a case where both the row and the column are sorted are prepared. FIG. 7 schematically shows how diagonalization sorting is performed. In FIG. 7A, the order of the classification items displayed in the row
対角化ソートにおいて行、または列の一方のみをソートする手法としては、次のような上位優先片側対角化ソートのアルゴリズムが考えられる。なおここでは行を固定し列をソートする場合について述べるが、列を固定し行をソートする場合も「行」と「列」を読み替えることによって同様に実現できる。
(1)n行n列の正方行列Tについて、i=1行目から処理を開始
(2)Tの行ベクトルtiの要素ti1,・・・,tinのうち、i≦j≦nかつ最大の値を有するtijを求める
(3)i≠jの場合はTのi列目とj列目を入れ替える
(4)i<nの場合はi=i+1として(2)から処理を繰り返す
As a method for sorting only one of the rows or columns in the diagonalization sort, the following higher priority one-side diagonal sort algorithm can be considered. Although the case where the row is fixed and the column is sorted is described here, the case where the column is fixed and the row is sorted can be similarly realized by replacing “row” and “column”.
(1) Start processing from i = 1 row for square matrix T of n rows and n columns (2) Among elements ti1,..., Tin of row vector ti of T, i ≦ j ≦ n and the largest (3) If i ≠ j, replace the i-th column with the j-th column of T. (4) If i <n, set i = i + 1 and repeat the process from (2).
しかし上記アルゴリズムでは、上位の行で決定された列の位置を下位の行で変更できないため、下位の行では最大要素が対角線に位置しない場合もある。そこで以下のような、正方行列Tの中で最大の値を有する要素から順に対角化を行う、最大値優先片側対角化ソートのアルゴリズムを採用してもよい。
(1)決定済みの行列番号を格納するリストL={}を用意する
(2)L中の全ての行列番号lkについてi≠lkかつj≠lkが成り立つTの最大要素tijを求める
(3)i≠jの場合はTのi列目とj列目を入れ替える
(4)|L|<nの場合はL=L∪{i}として(2)から処理を繰り返す
However, in the above algorithm, since the position of the column determined in the upper row cannot be changed in the lower row, the maximum element may not be located diagonally in the lower row. Therefore, a maximum value priority one-sided diagonal sort algorithm that performs diagonalization in order from the element having the maximum value in the square matrix T as described below may be employed.
(1) Prepare a list L = {} for storing determined matrix numbers (2) Find the maximum element tij of T for which i ≠ lk and j ≠ lk for all matrix numbers lk in L (3) When i ≠ j, the i-th column and the j-th column of T are exchanged. (4) When | L | <n, L = L∪ {i} and the process is repeated from (2).
図7(b)は、対角線の領域70にある要素の値が最も大きくなり、かつ対角線の領域70の左上から右下に向けて値が降順となるように、行の分類項目欄54に表示された分類項目および列の分類項目欄52に表示された分類項目の双方についてソートを行った例である。このようなソートを実現するアルゴリズムとしては以下に示す両側対角化ソートがある。
(1)n行n列の正方行列Tについてk=1から処理を開始
(2)k≦iかつk≦jが成立する全てのTの要素の中で最大の値を有する要素tijを求める
(3)k≠iの場合はTのk行目とi行目を入れ替える
(4)k≠jの場合はTのk列目とj列目を入れ替える
(5)k<nの場合はk=k+1として(2)から処理を繰り返す
In FIG. 7B, the values of the elements in the
(1) Start processing from k = 1 for a square matrix T of n rows and n columns (2) Find an element tij having the maximum value among all T elements for which k ≦ i and k ≦ j holds ( 3) When k ≠ i, the kth and ith rows of T are switched. (4) When k ≠ j, the kth and jth columns of T are switched. (5) When k <n, k = Repeat the process from (2) as k + 1
ユーザが絞込み指示ボタン68を押下した際、マトリクス生成部16は、マトリクス表示領域51に表示する分類項目を絞込んだマトリクスデータを生成する。絞り込んだ結果表示される分類項目の数は、固定値としてもよいし、ソートにおいて算出された数値にしきい値を設けて自動的に決定してもよい。また、ユーザがポインティングデバイスで数を設定できるゲージなどを表示することにより、ユーザが指定できるようにしてもよい。
When the user presses the narrowing down
ソート指示ボタン67と同様に、サブメニューにてどのような手法で絞込みを行うかをユーザが選択できるようにしてもよい。絞込みには上述したようなソートのアルゴリズムを利用してもよい。例えばサブメニューにて「分散度(昇順)」なる絞込み手法を選択した場合は、上述の分散度を各行(または列)に対して算出し、その値が下位となる所定数の行(または列)のみを表示する。表示すべきドットがない、すなわち文書集合が存在しない行や列を削除するようにしてもよい。
Similar to the
マトリクス生成部16は、図5に示したマトリクス表示画面60におけるマトリクス表示領域51に、マトリクス上の各ドットが表す文書集合に係る具体的な情報を表すテキストデータを追加して表示する。図8はドットが表す文書集合に係る情報を表示した際のマトリクス表示画面60を示している。マトリクス表示領域51にマトリクスが表示されている状態で、ポインティングデバイスによりあるドット83の領域を指示すると、そのドットで交差する横方向ガイド線80および縦方向ガイド線82が表示されるようにする。これらのガイド線によってユーザは、指示したドットがどの分類項目に属しているのかを把握できる。
The
さらに横方向ガイド線80の近傍に横方向情報表示領域86を、縦方向ガイド線82の近傍に縦方向情報表示領域84をポップアップウィンドウなどで表示する。横方向情報表示領域86には、指示したドットが属する行の分類項目名、当該ドットが表す具体的な数値、当該分類項目に属する要素の数値の合計値などを表示する。図8の例では、分類項目名が「カメラ」、ドットが表す数値として「文書数」が「6」、合計値として文書数が「21」と表示されている。縦方向情報表示領域84にも同様の情報を表示する。「文書数」は表示するデータの種類によって割合や語句の出現数などに置き換えられる。
Further, a horizontal direction
このような画面構成とすることにより、分類項目が多数ありマトリクス50が煩雑な図となっても、各ドットがどの分類項目を表しているのかを即座に知ることができる。また、ドットで全体的な傾向を把握しながらも、容易な操作で局所的な数値を取得することができる。なおドットの領域を指示した場合と同様に、各分類項目を指示することにより、当該分類項目についての情報、例えば当該分類項目に属する全文書の数や、分類処理において得られた情報などを表示するようにしてもよい。
With such a screen configuration, even if there are many classification items and the
あるドット83の領域を選択した状態で、ユーザが分類項目選択領域62に表示された「本文」62aなる候補をさらに選択することにより、当該ドット83が表す文書集合の本文を表示させる。本文の表示例については後に示す。このときマトリクス生成部16は、マトリクス生成時にメモリなどに保存した、当該積集合に属する文書の識別情報を分類項目に基づき特定する。そして別に用意した表示用のテンプレートデータに、識別情報を基に記憶部12から読み出した本文のデータを貼り付けたり、リンクを張ったりすることにより本文表示のためのデータを生成する。該当する文書が多数ある場合などは適宜スクロールやページングのための機能を提供する。ドットを選択する代わりに各分類項目を選択することにより、当該分類項目に属する全ての文書の本文を表示するようにしてもよい。
In a state where a
さらに本文を表示した後、そのデータを例えばcsv形式で保存できるようにする。保存の指示入力および保存の手順についてはデータ保存のための一般的な手法を用いることができる。このように所望の文書集合の本文を表示したり保存したりすることにより、ユーザは分類結果の数値的な側面ばかりでなく、文書の実態を確認することができる。膨大なデータベースに含まれる文書でも、最初に分類してその傾向をドットで確認してから最終的には所望の文書本体を入手する、という段階を踏むことにより、検索クエリによる検索を繰り返す場合に比べ、格段に効率よく所望の文書に行き着くことができる。 Further, after displaying the text, the data can be saved in, for example, the csv format. As a storage instruction input and storage procedure, a general method for data storage can be used. By displaying and saving the text of a desired document set in this way, the user can check not only the numerical aspects of the classification result but also the actual state of the document. Even when a document contained in a huge database is repeatedly searched by a search query by following the steps of first classifying and checking the trend with dots and finally obtaining the desired document itself In comparison, it is possible to reach the desired document much more efficiently.
次に本実施の形態における情報表示装置10が提供する分類手法と、それをマトリクスとして表示することによって得られる情報について例示する。分類手法としては上述したように、元々文書に関連づけられた属性が存在する場合にその属性ごとに分類する手法、所定の分類項目に所定の方法によって文書を振り分ける手法、および文書同士の類似性により文書のまとまり(クラスタ)を生成していくクラスタリングが挙げられる。ここでは所定の分類項目への分類手法、およびクラスタリング手法について簡単に説明する。ただし、本実施の形態における分類手法はここで説明するものに限られず、一般的に提案されている手法のいずれを選択してもよい。
Next, a classification method provided by the
(所定の分類項目への分類)
この分類手法は、あらかじめ分類項目(以後、カテゴリと呼ぶ)とそれに関連する語句群(以後、プロファイルと呼ぶ)を用意し、各文書から抽出した語句群とプロファイルとによって、文書とカテゴリとの類似度を判定し、類似度の高いカテゴリに文書を振り分ける手法である。例えば新聞記事を「政治」、「経済」、「スポーツ」というカテゴリに分類したい場合、「スポーツ」に関連する「野球」、「サッカー」、「試合」といった語句で構成するプロファイルを用意する。プロファイルを構成する各語句はその重要度などによって重み付けされている。
(Classification into predetermined classification items)
In this classification method, classification items (hereinafter referred to as categories) and related word groups (hereinafter referred to as profiles) are prepared in advance, and similarities between documents and categories are determined by word groups and profiles extracted from each document. This is a method of determining the degree and assigning the document to a category having a high degree of similarity. For example, when it is desired to classify newspaper articles into the categories of “politics”, “economy”, and “sports”, a profile is prepared that includes words such as “baseball”, “soccer”, and “game” related to “sports”. Each word constituting the profile is weighted according to its importance.
具体的な手法は以下のとおりである。すなわち、まず処理対象文書から語句を形態素解析により抽出する。そして同一内容で表記の異なる語句の表記を統一する。次にそれらの語句の重みベクトルと、その並び順に対応したプロファイルの重みベクトルとに基づき、ベクトル空間法を用いて処理対象文書と各カテゴリとの類似度を計算していく。前者の重みベクトルをA={w_a1,w_a2,w_a3,・・・,w_aN}、後者の重みベクトルをB={w_b1,w_b2,w_b3,・・・,w_bN}とする。ここでNは処理対象文書から抽出された語句の数、wはTF−IDF(Term Frequency - Inverse Document Frequency)法などにより導出された語句の重要度である。このとき類似度sim(B,A)は以下のようになる。 The specific method is as follows. That is, a phrase is first extracted from a processing target document by morphological analysis. And unify the notation of words with the same content but different notations. Next, based on the weight vector of those words and the weight vector of the profile corresponding to the arrangement order, the similarity between the processing target document and each category is calculated using the vector space method. The former weight vector is A = {w_a1, w_a2, w_a3,..., W_aN}, and the latter weight vector is B = {w_b1, w_b2, w_b3,. Here, N is the number of words / phrases extracted from the document to be processed, and w is the importance of words / phrases derived by the TF-IDF (Term Frequency-Inverse Document Frequency) method. At this time, the similarity sim (B, A) is as follows.
類似度sim(B,A)をカテゴリごとに算出していき、最も類似度の高かったカテゴリに処理対象文書を分類する。 The similarity sim (B, A) is calculated for each category, and the processing target document is classified into the category having the highest similarity.
(クラスタリングによる分類)
クラスタリングは所定の分類項目を用意せずに文書同士の類似性によって文書のクラスタを形成する手法である。クラスタはトピック、すなわち話題ととらえることもできる。この場合も文書ごとに形態素解析により語句を抽出し、同一内容の語句の表記を統一する。そして全文書について語句の重みベクトルを対応する順序で生成し、文書の組み合わせごとに類似度を計算していく。この類似度も式2で与えられた値を用いてよい。その後、例えば類似度があるしきい値を超えた場合にそれらの文書は類似しているとみなし、同一のクラスタを生成する。
(Classification by clustering)
Clustering is a method of forming a cluster of documents based on similarity between documents without preparing a predetermined classification item. Clusters can also be viewed as topics, that is, topics. In this case as well, words are extracted by morphological analysis for each document, and the expressions of the words having the same contents are unified. Then, word weight vectors for all documents are generated in a corresponding order, and the similarity is calculated for each combination of documents. This similarity may also be the value given by
文書から抽出された語句のうち、クラスタを特徴づける語句をクラスタの代表語句として抽出しておく。また代表語句のうち最も特徴的な語句をクラスタ名として決定する。例えば、各語句についてクラスタとの相互情報量を算出し、その値が上位である数個の語句を代表語句、その値が最も高い語句をクラスタ名とする。語句tとクラスタCとの相互情報量MI(t,C)は次の式で表される。 Among the phrases extracted from the document, a phrase that characterizes the cluster is extracted as a representative phrase of the cluster. Also, the most characteristic phrase among the representative phrases is determined as the cluster name. For example, the mutual information with the cluster is calculated for each word, and several words / phrases with the highest value are used as representative words / phrases and the word / phrase with the highest value is used as the cluster name. The mutual information MI (t, C) between the word t and the cluster C is expressed by the following equation.
ここでP(t)は語句tを含む文書が現れる確率であり、(語句tを含む文書数/全文書数)で定義される。P(C)はクラスタCに属する文書が現れる確率であり、(クラスタCに属する文書数/全文書数)で定義される。またP(t,C)は語句tを含むクラスタCに属する文書が現れる確率であり、(語句tを含むクラスタCの文書数/全文書数)で定義される。図2におけるマトリクス50の列の分類項目欄52や行の分類項目欄54にはこのようにして決定したクラスタ名を表示する。
Here, P (t) is a probability that a document including the word t appears, and is defined by (the number of documents including the word t / the total number of documents). P (C) is the probability that a document belonging to cluster C will appear, and is defined by (number of documents belonging to cluster C / total number of documents). P (t, C) is a probability that a document belonging to the cluster C including the word t appears, and is defined by (the number of documents of the cluster C including the word t / the total number of documents). The cluster names determined in this way are displayed in the column
次に各分類手法をマトリクス50の表示形式に適用した具体例と効果について述べる。なお各例の説明においてはマトリクスを表で表し、図示を簡便化するが、表における各数値はマトリクス上のドットで表現されるものとする。また各表においてマトリクスを構成する行および列の数は簡単のために2ないし3とするが、それに限定されるものではない。
Next, specific examples and effects of applying each classification method to the display format of the
(クラスタリングを利用したプロファイル診断)
表1は行の分類項目を、用意されたカテゴリである「カテゴリ1」、「カテゴリ2」とし、列の分類項目をクラスタリングの結果得られたクラスタ名である「クラスタA」、「クラスタB」とした場合のマトリクスである。このマトリクス表示の目的は、適正なプロファイルとカテゴリの関係が設定されているかを確認する点にある。すなわち、プロファイルとカテゴリを用意する際に元となった文書のカテゴリの付与基準を精査したり、類似した文書に異なるカテゴリが付与されていないかをチェックしたりする。
(Profile diagnosis using clustering)
In Table 1, the classification items of the rows are “
このとき行われるクラスタリングは、カテゴリの数と同一に設定する。このようなマトリクスにおいて数値1〜数値4をドットで表す。例えば数値1として、カテゴリを用意する際の全元文書を対象としてクラスタリングを実行した結果、「カテゴリ1」の文書のうち「クラスタA」に分類された文書集合の文書数nA_1を表示する。数値2〜4も同様に表示する。または、カテゴリ1に属する全文書集合の文書数n1のうち、クラスタAに属する文書集合の文書数nA_1の割合、すなわちnA_1/n1を数値1としてもよい。
The clustering performed at this time is set to be the same as the number of categories. In such a matrix,
このようなマトリクスを表示することにより、類似した文書にも関わらず別カテゴリに分類されたものを発見でき、カテゴリの付与基準に内在する問題を洗い出すことができる。 By displaying such a matrix, it is possible to discover those classified into different categories in spite of similar documents, and to identify problems inherent in the category assignment criteria.
(構成する語句群を利用したプロファイル診断)
表2は行の分類項目および列の分類項目のいずれも、複数のカテゴリにそれぞれ対応して用意された複数のプロファイルである「プロファイル1」、「プロファイル2」、「プロファイル3」とした場合のマトリクスである。このマトリクス表示の目的は、カテゴリ間の類似性をチェックする点にある。例えば「充電」と「電池」というカテゴリがあり、それらのカテゴリのプロファイルが類似している場合、「充電」カテゴリに分類したい文書が「電池」に分類される可能性がある。このような場合に、類似しているプロファイルを統合するなどのプロファイルチューニングを行うことにより、分類精度を向上させることができる。
(Diagnosis of profiles using constituent words)
Table 2 shows a case in which “
このようなマトリクスにおいて数値1〜9をドットで表す。例えば数値2として、「プロファイル1」と「プロファイル2」の類似度を表示する。類似度を表す指標として例えば単語共有率を算出する。
In such a matrix,
単語共有率strは、プロファイルCとDの間で正の重みを持つ単語を共有する割合として以下で定義される値である。 The word sharing rate str is a value defined below as a ratio of sharing a word having a positive weight between the profiles C and D.
ここでstr(C,D)=str(D,C)は必ずしも成立しない。また同一のプロファイルの組み合わせ、すなわち数値1、5、9に表される単語共有率は1である。式4において単語iの重みの与え方を変えることにより、単語共有率の観点を変化させることができる。一般に重みベクトルの要素wiは−1から1の実数値を取ることが可能である。一方、wiに語句の出現の有無を1および0の2値で与えると、strは共有する単語の割合を表す指標となる。また、wiに単語の出現頻度を与えると、strは共有する単語の出現頻度の割合を示す指標となる。
Here, str (C, D) = str (D, C) does not necessarily hold. Further, the word sharing rate represented by the same profile combination, that is, the
類似度を表す指標として、単語共有率strの他に、コサイン類似度や結束度などを採用してもよい。コサイン類似度は、2つのプロファイルの重みベクトルを式2に適用することによって得られる。結束度relは、プロファイルp1とプロファイルp2を構成する語句の数により以下のように定義される値である。
As an index representing the degree of similarity, in addition to the word sharing rate str, a cosine similarity or a cohesion degree may be employed. The cosine similarity is obtained by applying the two profile weight vectors to
ここでaはプロファイルp1を構成する語句の数、bはプロファイルp2を構成する語句の数、cはプロファイルp1とプロファイルp2とで共通に存在する語句の数である。 Here, a is the number of words constituting the profile p1, b is the number of words constituting the profile p2, and c is the number of words commonly existing in the profile p1 and the profile p2.
なおコサイン類似度および結束度は、同じプロファイルの組み合わせでは同じ値となるため、三角行列である表3のようなマトリクスとする。ここで「−」で表される要素はドットを表示しない。この場合も、同一のプロファイルの組み合わせ、すなわち数値3、5、7に表されるコサイン類似度および単語共有率は1である。
Note that the cosine similarity and cohesion are the same values for the same profile combination, so a matrix as shown in Table 3, which is a triangular matrix, is used. Here, the element represented by “−” does not display a dot. Also in this case, the combination of the same profiles, that is, the cosine similarity and the word sharing rate represented by the
(正解カテゴリと分類カテゴリの関係把握)
表4は行の分類項目および列の分類項目ともに、用意されたカテゴリである「カテゴリ1」、「カテゴリ2」としているが、行の分類項目は目視などにより正しく分類した場合であり、列の分類項目は分類器などによって機械的に分類した場合である。前者を「カテゴリ1(正解)」、後者を「カテゴリ1(分類)」などと表記している。このマトリクス表示の目的は、機械的に行った分類と正解との関係を視覚化する点にある。
(Understanding the relationship between correct answer category and classification category)
Table 4 shows the category “
表4において行および列の分類項目は同一である。このようなマトリクスにおいて数値1〜4をドットで表す。例えば数値1として、「カテゴリ1(正解)」に分類された文書集合の文書数n1(正解)のうち、「カテゴリ1(分類)」に分類された文書集合の文書数n1(分類)_(正解)の割合、n1(分類)_(正解)/n1(正解)なる値を表示する。同様に数値2〜4の値を表示する。このとき数値1および数値4は正解に対する分類器の再現率と考えることができる。
In Table 4, the row and column classification items are the same. In such a matrix,
あるいは数値1として、「カテゴリ1(分類)」に分類された文書の文書数n1(分類)のうち、「カテゴリ1(正解)」に分類された文書の文書数n1(正解)_(分類)の割合、n1(正解)_(分類)/n1(分類)を表示してもよい。数値2〜4も同様の値を表示する。このとき数値1および数値4は分類器による分類の正解に対する適合率と考えることができる。
Alternatively, the numerical value n1 (correct answer) _ (classification) of the documents classified as “category 1 (correct answer) out of the document number n1 (classification) of documents classified as“ category 1 (classification) ”as the
ドットによって再現率を表すマトリクスを表示させた状態で、ユーザが入力部20であるポインティングデバイスでマトリクス表示領域51をクリックすると、適合率を表すマトリクスへと表示が切替わるようにしてもよい。適合率から再現率への切替えも同様に行ってよい。このようなマトリクスを表示することにより、分類器による誤分類の多いカテゴリについて、どのカテゴリに誤分類されているのかを視覚的に把握することができ、プロファイルの調整方針を立てるうえでの知見を得ることができる。
In a state where a matrix representing the reproduction rate is displayed with dots, when the user clicks on the
(分類結果の時系列分析)
表5は行の分類項目を、用意されたカテゴリである「カテゴリ1」、「カテゴリ2」とし、列の分類項目を文書に関連付けて記憶された作成日、登録日などの時系列単位である「時系列単位A」、「時系列単位B」とした場合のマトリクスである。時系列単位とは例えば、2006年、2007年・・・や、上半期、下半期など、ある期間を指す名前である。このマトリクスの目的は、文書の経時的な変化をカテゴリごとに把握する点にある。
(Time series analysis of classification results)
Table 5 shows time category units such as the creation date and the registration date stored in association with the document, with the category items in the row being “
この場合は数値1として、「カテゴリ1」に分類された文書集合の文書数n1のうち、「時系列単位A」に属する文書集合の文書数nA_1の割合、すなわちnA_1/n1なる値を表示する。数値2〜4も同様である。この値を表示することにより、あるカテゴリについて出現割合の高い時期を把握することができる。あるいは数値1として、「時系列単位A」に属する文書集合の文書数nAのうち、「カテゴリ1」に分類された文書集合の文書数n1_Aの割合、すなわちn1_A/nAなる値を表示してもよい。数値2〜4も同様である。この値を表示することにより、ある期間について出現割合の高いカテゴリを把握することができる。このときも上述同様、ユーザがマトリクス表示領域51をクリックすることによりマトリクスを切替えて表示するようにしてよい。
In this case, as the
このようなマトリクスを表示することにより、例えばある時期に急激に増加した話題を容易に把握でき、当該文書集合のみをテキストマイニングなどで分析することにより、注目されている話題に絞り込んだ解析を効率よく行うことができる。また、広告を出すなどのイベントが行われた時期と比較することにより、イベントが話題に与える影響などを把握することができる。さらにいずれのカテゴリにも分類されなかった文書数の変化を追うことができ、その傾向によって新たにプロファイル調整を行う時期を検討したり、その文書を確認して新製品の提案に繋がる意見を発掘したりすることができる。 By displaying such a matrix, for example, topics that have increased rapidly at a certain time can be easily grasped, and by analyzing only the document set by text mining, etc., analysis focused on the topic of interest is efficient. Can be done well. Further, by comparing with the time when an event such as an advertisement is performed, the influence of the event on the topic can be grasped. Furthermore, it is possible to follow changes in the number of documents that were not classified into any category, and considering the timing of new profile adjustments based on the trend, or checking the documents and finding opinions that lead to new product proposals You can do it.
表5のマトリクスを社内で活用する場合、あらかじめ各カテゴリを社内の部門に割り当て、ユーザが行の分類項目表示領域55をクリックした際に、各カテゴリが属する部門別に集計し直したマトリクスを表示するようにしてもよい。これにより部門ごとの文書数割合の経時変化を確認でき、例えば苦情数の傾向などを部門ごとに把握することができる。
When the matrix in Table 5 is used in the company, each category is assigned to the department in the company in advance, and when the user clicks the classification
表5と同様にして、作成した人の性別、職業などあらゆる属性で分類した結果を表示できる。例えば割合の高くなり易い属性や、属性ごとの割合が似たような分布となり易いカテゴリなどについて傾向を把握することができる。 In the same manner as in Table 5, it is possible to display the results of classification according to all attributes such as the sex and occupation of the created person. For example, it is possible to grasp a tendency for an attribute that tends to have a high ratio or a category that tends to have a distribution with a similar ratio for each attribute.
(クラスタリング結果の把握)
表6は行の分類項目をクラスタ名である「クラスタ1」、「クラスタ2」とし、列の分類項目をクラスタ名である「クラスタA」、「クラスタB」とした場合のマトリクスである。ここで行の分類項目を生じさせるクラスタリング手法と列の分類項目を生じさせるクラスタリング手法とは異なる手法とする。このマトリクスの目的は、異なるクラスタリング手法におけるクラスタリング結果を比較する点にある。
(Understanding clustering results)
Table 6 is a matrix in which the row classification items are cluster names “
ここではクラスタ数の設定が大きい場合と小さい場合との結果を比較したり、文書単位でのクラスタリング結果と、外部の話題分割器を利用してより小さな話題単位に分けてからクラスタリングを行った結果などを比較する。この場合は数値1として例えば、ある手法によって「クラスタ1」に分類された文書集合の文書数n1のうち、別の手法によって「クラスタA」に分類された文書集合の文書数nA_1の割合、すなわちnA_1/n1なる値を表示する。数値2〜4も同様である。
Here, we compared the results when the number of clusters is large and small, or the results of clustering in document units and clustering after dividing into smaller topic units using an external topic divider Compare etc. In this case, for example, as the
このようなマトリクスを表示することにより、例えば設定するクラスタ数を増加させたとき、多くのクラスタに分散するクラスタや、あまり分散しないクラスタなど、各クラスタの変動を視覚的に把握することができる。このとき、設定するクラスタ数を増加させても文書集合に変化がないクラスタは、ドットをグレーで表示するなどして目立たなくさせてもよい。これにより文書集合に変化があったクラスタの分散のみを容易に把握することができる。 By displaying such a matrix, for example, when the number of clusters to be set is increased, it is possible to visually grasp the variation of each cluster, such as a cluster that is distributed over many clusters or a cluster that is not so distributed. At this time, a cluster in which the document set does not change even when the number of clusters to be set is increased may be made inconspicuous by displaying dots in gray. As a result, it is possible to easily grasp only the cluster distribution in which the document set has changed.
また、1つの文書に複数の話題を含む場合に、その話題の分散具合を確認できる。処理対象文書が顧客からの問い合わせ文であった場合などに、どのような話題が同時に問い合わせられることが多いのか、あるいはどのような話題の連続性で問い合わせが行われるのか、などを把握することができる。 In addition, when a single document includes a plurality of topics, it is possible to check the distribution of the topics. It is possible to grasp what topics are often inquired at the same time when the processing target document is an inquiry sentence from a customer, or what kind of continuity of inquiries is made. it can.
(クラスタの代表語句を利用した話題の関連性把握)
表7は行の分類項目を、各クラスタの代表語句である「クラスタ1の代表語句」、「クラスタ2の代表語句」とし、列の分類項目をクラスタ名である「クラスタ1」、「クラスタ2」とした場合のマトリクスである。クラスタの代表語句は例えば最大5語と設定する。また表示スペースなどに鑑み、マトリクス上の表記は行の分類項目においてもクラスタ名のみを表示するようにしてもよい。
(Understanding the relevance of topics using representative phrases of clusters)
In Table 7, the classification items of the rows are “representative phrases of
上述のクラスタリング結果の把握が「クラスタ1」と「クラスタA」に共通に属する“文書”を表示することによって行われたのに対し、この場合はクラスタの“代表語句”を介して話題の関連性を把握することを目的とする。例えば、クラスタ2に属する文書のうちクラスタ1の代表語句を含む文書集合の割合などを算出する。このような文書集合は、主にクラスタ2という話題について述べながらも、クラスタ1に関する話題にも触れている文書ということになる。すなわち、このような文書が多いということは、クラスタ1とクラスタ2は関連性の強い話題である、と考えられる。これは前述したとおり、クラスタの代表語句はクラスタを特徴づける語句であるため、本来は他のクラスタに属する文書に多く出現することはない、という性質を利用している。
While the above-mentioned grasping of the clustering result is performed by displaying “documents” that belong to “
表7のマトリクスにおいて数値1は、「クラスタ1」の代表語句を少なくとも1語含む文書集合の文書数n1(語句)のうち、「クラスタ1」に分類された文書集合の文書数n1(クラスタ)_(語句)の割合、すなわちn1(クラスタ)_(語句)/n1(語句)なる値を表示する。数値2〜4も同様である。
In the matrix of Table 7, the
このようなマトリクスを用いた場合の実用例を次に挙げる。例えばクラスタ1のクラスタ名が「ファインダー」、その代表語句が「ファインダー/動き/屋外」であり、クラスタ2のクラスタ名が「液晶」、その代表語句が「液晶/画面/モニター」であったとする。このとき、「クラスタ1の代表語句」を分類項目とする行の各要素のうち、クラスタ1自身の値である数値1以外に数値2で高い値を示していたとする。これはすなわち、クラスタ1「ファインダー」の代表語句がクラスタ2「液晶」に属する文書に比較的多く出現している状態である。
A practical example of using such a matrix will be described below. For example, the cluster name of
そこで数値2を表すドットの領域を選択し、上述のように当該文書集合の本文を表示させると、例えば「“屋外”で液晶が見にくいのでアナログカメラのように目で覗いて撮影する。」、「“動き”のあるものを撮影するときは、液晶よりファインダーの方が適している。」などといった文章を得ることができる。すなわち、クラスタ1「ファインダー」の代表語句である「ファインダー/動き/屋外」が、「ファインダー」の話題を表すものと想定し、その語句の分布を見ることで、主に「液晶」について述べながら「ファインダー」の話題にも触れている文書を確認することができる。
Therefore, when a dot area representing the
図9は表7のマトリクス構成において文書の本文を表示させたときの表示部18における画面の構成例を示している。本文表示画面98は凡例表示領域90、本文表示領域92、強調表示領域94、および文書情報表示領域96を含む。この表示は例えばクラスタ1「携帯」に分類され、かつクラスタ2「大き」の代表語句を含む文書集合を現す、数値3のドットを選択して本文を表示させた場合である。このとき本文表示画面98は、本文のどの語句がどのクラスタの代表語句であるかを色別に強調表示する。
FIG. 9 shows a configuration example of a screen in the
まず凡例表示領域90には各クラスタを強調するための枠の色の凡例を表示する。同図ではクラスタ「携帯」の代表語句には白色の枠90a、クラスタ「大き」の代表語句には黒色の枠90bを用いている。当然それ以外の色でもよい。本文表示領域92には本文を表示し、強調表示領域94には当該本文に含まれる代表語句に強調のための白色の枠90a、黒色の枠90bを施した文を表示する。同図の文ではクラスタ「大き」の代表語句として「大きさ」が黒色の枠90bで、クラスタ「携帯」の代表語句として「重さ」および「携帯性」が白色の枠90aで囲まれて表示されている。文書情報表示領域96には表示させた文書と関連づけて記憶されている情報、すなわち当該文書を含むファイル名、作成者の性別、年代、職業、作成日などを表示する。表示すべき文書が複数ある場合はページを切替えられるようにして複数ページに渡って表示させてもよい。
First, in the
以上のような構成とすることにより、特定の話題のみと強く関連する話題や、複数の話題と広く関連する話題を把握することができる。そして「話題1」と「話題2」という2つの観点から書かれた点に共通性を有する文書を絞り込み、確認することができる。また数値を示すドットによって、「話題1」と「話題2」が関連して述べられているという傾向を把握することができる。
With the above configuration, it is possible to grasp topics that are strongly related to only a specific topic or topics that are widely related to a plurality of topics. Then, it is possible to narrow down and confirm documents having commonality with respect to the points written from the two viewpoints of “
(クラスタの固有表現分析)
表8は行の分類項目をクラスタ名である「クラスタ1」、「クラスタ2」とし、列の分類項目を固有表現のカテゴリ名である「固有表現カテゴリA」、「固有表現カテゴリB」とした場合のマトリクスである。ここで固有表現とは、商品名、組織名、地名、人名などの固有名詞や、日時、期間、金額、数量、URL(Uniform Resource Locator)、メールアドレス、電話番号など、物や数を識別する情報である。したがって「固有表現カテゴリA」などは、具体的な固有名詞など、またはその集合になる。例えば、「山田」、「田中」といった固有名詞のほか、それらを包含する集合として「人名」としてもよい。このマトリクスの目的は、各クラスタにどのように固有表現が分布しているかを把握する点にある。
(Cluster specific expression analysis)
In Table 8, the row classification items are “
ここで数値1として例えば、「クラスタ1」に分類された文書集合の文書数n1のうち、「固有表現カテゴリA」が抽出された文書集合の文書数nA_1の割合、すなわちnA_1/n1なる値を表示する。数値2〜4も同様である。このようなマトリクスを表示することにより、話題と固有表現とをクロス分析することができ、地域や人物、組織名等に密接に関連する話題や、それ以外の話題について容易に知見を得ることができる。
Here, as a
(語句の時系列分析)
表9は行の分類項目を、文書から抽出された語句である「語句1」、「語句2」とし、列の分類項目を文書に関連付けて記憶された作成日、登録日などの時系列単位である「時系列単位A」、「時系列単位B」とした場合のマトリクスである。文書から語句を抽出する処理は、情報表示装置10の外部の装置が行ってよく、このとき情報表示装置10の記憶部12には抽出された語句と各文書とが関連付けて記憶されている。また時系列単位は(分類結果の時系列分析)において説明したのと同様の分類項目である。このマトリクスの目的は、文書中に出現する語句を時系列分析する点にある。
(Time series analysis of words)
Table 9 uses “word /
抽出された語句のうち、表9のマトリクスの行の分類項目に表示する語句の数、すなわち行の数はあらかじめ設定しておく。例えば頻度が上位の20語句などとする。ここで数値1として例えば、「語句1」を含む文書集合の文書数n1のうち、「時系列単位A」に属する文書集合の文書数nA_1の割合、すなわちnA_1/n1なる値を表示する。数値2〜4も同様である。
Of the extracted words / phrases, the number of words / phrases to be displayed in the classification item of the matrix row in Table 9, that is, the number of rows, is set in advance. For example, it is assumed that the top 20 words are frequently used. Here, as a
処理対象の文書が商品に関する顧客の問い合わせや苦情などである場合、文書の本文が例えば「印刷でエラーが発生した」であると「印刷」、「エラー」、「発生」という語句が抽出され、行の分類項目となる。表9のマトリクスはこれらの語句を含む文書数の経時変化を表示する。これにより、例えばある時期に急激に増加した語句に着目して分析を行うことが容易になり、顧客の声の変化や問題点の迅速な把握が可能になる。 If the document to be processed is a customer inquiry or complaint about a product, and the text of the document is, for example, “An error has occurred in printing”, the words “print”, “error”, “occurrence” are extracted, This is a line classification item. The matrix in Table 9 displays the change over time in the number of documents containing these words. Thereby, for example, it becomes easy to perform analysis while paying attention to words that have increased rapidly at a certain time, and it becomes possible to quickly grasp changes in customer voices and problems.
(フレーズによる意見傾向分析)
表10は行の分類項目を文書より抽出された名詞句である「名詞句1」、「名詞句2」とし、列の分類項目を文書より抽出された形容詞句である「形容詞句A」、「形容詞句B」とした場合のマトリクスである。列の分類項目は形容詞句に代わり動詞句、あるいは形容詞句と動詞句の組み合わせでもよい。(語句の時系列分析)と同様、文書から名詞句、形容詞句、動詞句を抽出する処理は、情報表示装置10の外部の装置が行ってよい。このマトリクスの目的は、抽出された名詞句と、形容詞句あるいは動詞句との係り受けの関係、すなわちフレーズの一覧を文書数とともに視覚化する点にある。
(Phrase opinion analysis)
Table 10 uses “
ここで数値1として例えば、形容詞句と係り受けをなす「名詞句1」の出現数n1に対する、「名詞句1」と「形容詞句A」による係り受けの出現数nA_1の割合、すなわちnA_1/n1なる値を表示する。数値2〜4も同様である。列の分類項目を動詞句や形容詞句と動詞句の組み合わせとした場合も同様の数値を表示する。表示切替ボタンを表示させることで、それらのマトリクスを切替えて表示できるようにする。また行の分類項目である、形容詞句などと係り受けをなす名詞句の数が多い場合は、出現数n1が上位である名詞句のみを表示するよう、あらかじめ表示する名詞句の数の上限を設定しておく。
Here, as a
このようなマトリクスを表示することにより、文書中に出現する係り受けを一覧表示でき、何がどう書かれているか、といった文書のポイントの傾向を容易に把握することができる。例えば処理対象の文書が商品に関するアンケートの回答文などである場合、名詞句「液晶」について、「見にくい」、「大きい」、「小さい」などの形容詞句との係り受け関係が抽出され、各分類項目として表示される。また出現頻度の大小が視覚的に示される。これにより「液晶」についての印象や評価を容易に確認することができる。 By displaying such a matrix, it is possible to display a list of dependencies appearing in the document, and to easily grasp the tendency of the points of the document such as what is written and how. For example, if the document to be processed is an answer to a questionnaire about a product, the dependency relationship between the noun phrase “liquid crystal” and adjective phrases such as “difficult to see”, “large”, “small”, etc. is extracted. Displayed as an item. The appearance frequency is visually shown. Thereby, the impression and evaluation about "liquid crystal" can be confirmed easily.
(クラスタとフレーズによる意見傾向分析)
表11は行の分類項目をクラスタ名である「クラスタ1」、「クラスタ2」とし、列の分類項目を文書から抽出されたフレーズである「フレーズA」、「フレーズB」とした場合のマトリクスである。このマトリクスの目的は、クラスタとフレーズの関係を把握する点にある。
(Analysis of opinion trends using clusters and phrases)
Table 11 shows a matrix in which the row classification items are cluster names “
ここで数値1として例えば、「クラスタ1」に属する文書集合の文書数n1に対する、当該文書集合に含まれる「フレーズA」の出現数nA_1の割合、すなわちnA_1/n1なる値を表示する。数値2〜4も同様である。列の分類項目であるフレーズは階層構造を有することができる。この場合は上述したように、階層を切替えてマトリクスを表示できるようにする。例えば被修飾名詞句や形容詞句ごとに集計したものを表示したり、階層構造を展開して被修飾名詞句と形容詞句を列の分類項目として共に表示したりする。また異なるフレーズの数が多い場合は、出現数が上位であるフレーズのみを表示するよう、あらかじめ表示するフレーズの数の上限を設定しておく。
Here, as a
このようなマトリクスを表示することにより、あるクラスタにはどのようなフレーズが頻出するか、など、クラスタとフレーズとの関係を取得でき、どの話題について何がどう書かれているか、といった文書のポイントの傾向をより的確に把握することができる。例えば処理対象の文書がカメラに関するアンケートの回答文などである場合、クラスタ1「本体」に属する文書集合に、フレーズA「ほこり−つきやすい」、フレーズB「ほこり−入りやすい」といったフレーズの出現数が多ければ、カメラの本体にほこりがつきやすいという問題があることが容易に把握される。 By displaying such a matrix, it is possible to obtain the relationship between clusters and phrases, such as what phrases frequently appear in a cluster, and document points such as what is written about what topic. Can be grasped more accurately. For example, when the document to be processed is a response to a questionnaire regarding a camera, the number of phrases such as phrase A “dust-easy” and phrase B “dust-easy” appears in the document set belonging to cluster 1 “main body”. If there are many, it will be easily understood that there is a problem that the camera body is likely to be dusty.
(フレーズを利用した属性分析)
表12は行の分類項目を文書から抽出されたフレーズである「フレーズ1」、「フレーズ2」とし、列の分類項目を文書に関連付けて記憶された属性の値である「属性A」、「属性B」とした場合のマトリクスである。このマトリクスの目的は、フレーズと属性の関係を把握する点にある。
(Attribute analysis using phrases)
In Table 12, “
ここで数値1として例えば、処理対象の文書集合における「フレーズ1」の出現数n1に対する、「属性A」に属する文書集合における「フレーズ1」の出現数nA_1の割合、すなわちnA_1/n1なる値を表示する。数値2〜4も同様である。この数値によって、あるフレーズについて出現割合の高い属性を把握することができる。あるいは数値1として「属性A」に属する文書集合におけるフレーズの出現数nAに対する、「属性A」に属する文書集合における「フレーズ1」の出現数nA_1の割合、すなわちnA_1/nAなる値を表示してもよい。この数値によって、ある属性の値について、出現割合の高いフレーズを把握することができる。
Here, as a
また、列の分類項目表示領域53のいずれかの分類項目、すなわち属性の値を選択して本文表示を行うと、当該属性に属する文書集合の本文が表示されるようにする。一方、行の分類項目表示領域55のいずれかの分類項目、すなわちフレーズを選択して本文表示を行うと、当該フレーズを含む文書集合の本文が表示されるようにする。また、図形表示領域57のあるドットの領域を選択して本文表示を行うと、対応するフレーズを含み、対応する属性に属する文書集合の本文が表示されるようにする。
Further, when any of the classification items in the column classification
行の分類項目であるフレーズは(クラスタとフレーズによる意見傾向分析)と同様、階層構造を有していてよく、この場合は上述したように階層を切替えてマトリクスを表示できるようにする。また異なるフレーズの数が多い場合は、出現数が上位であるフレーズのみを表示するよう、あらかじめ表示するフレーズの数の上限を設定しておく。さらに行の分類項目は、フレーズに代わり共起頻度上位タームペアとしてもよい。共起頻度上位タームペアとは、一文中に出現する語句のペアを頻度順に並べてその上位を取得したものである。 Phrases, which are classification items of rows, may have a hierarchical structure, similar to (opinion trend analysis based on clusters and phrases). In this case, as described above, the hierarchy is switched so that the matrix can be displayed. When there are a large number of different phrases, the upper limit of the number of phrases to be displayed is set in advance so that only the phrases with the highest number of occurrences are displayed. Furthermore, the line classification item may be a co-occurrence frequency upper term pair instead of the phrase. The co-occurrence frequency upper term pair is obtained by arranging the word / phrase pairs appearing in one sentence in the order of frequency and acquiring the higher rank.
このようなマトリクスを表示することにより、何がどうである、何をどうして欲しいといった、文書のポイントを把握できるフレーズの出現度合いを、文書に対応する属性と関連づけて取得することができる。これにより、例えば処理対象の文書が顧客の意見であった場合に、顧客の性別ごとに何をどうして欲しいかの傾向を把握したり、時系列単位で何がどうであるかの推移を容易に把握することができる。 By displaying such a matrix, it is possible to acquire the degree of appearance of a phrase that can grasp the point of the document, such as what is what and what is desired, in association with the attribute corresponding to the document. For example, when the document to be processed is a customer's opinion, for example, it is possible to grasp the trend of what you want to do for each gender of the customer, and to easily change what is in time series. I can grasp it.
(アフェクト度時系列分析)
表13は行の分類項目を評価フレーズに含まれる名詞句である「評価フレーズの名詞句1」、「評価フレーズの名詞句2」とし、列の分類項目を文書に関連付けて記憶された作成日、登録日などの時系列単位である「時系列単位A」、「時系列単位B」とした場合のマトリクスである。ここで評価フレーズとは文書から抽出されたフレーズのうち、評価に係るフレーズのことであり、例えば、被修飾名詞句「画質」と形容詞句「悪い」のような係り受けである。このマトリクスの目的は、アフェクト度の経時変化を把握する点にある。
(Affect degree time series analysis)
Table 13 shows that the classification items in the row are the noun phrases “evaluation
ここで数値1として例えば、「時系列単位A」に属する文書集合における「評価フレーズの名詞句1」のアフェクト度を表示する。数値2〜4も同様である。ここでアフェクト度は評価の度合いを数値化したものであり次のように定義される。
印象表現のアフェクト度=程度副詞の程度値×印象表現語のアフェクト度
被修飾名詞句のアフェクト度=Σ(印象表現のアフェクト度×印象表現語を含む印象表現の頻度)/(アフェクト度が得られた印象表現語の頻度)
Here, as the
Impression expression effect level = Degree adverb degree value x Impression expression word effect degree Modified noun phrase effect degree = Σ (Impression expression effect degree x Impression expression frequency including impression expression word) / (Affect degree obtained) Frequency of impression expression words)
ここでΣは算出結果の合計である。アフェクト度の算出に先立ち、あらかじめ印象表現語とその印象表現語が表すアフェクト度とを関連付けて記憶部12に記憶させておく。また程度副詞が印象表現語をどの程度強調するかを表す程度値を、各程度副詞と関連付けて記憶部12に記憶させておく。これにより上記の定義を用いて印象表現のアフェクト度が得られる。また被修飾名詞句のアフェクト度は定義のとおり、同じ名詞句を有する印象表現について、頻度を考慮したそれぞれの印象表現のアフェクト度を足し合わせ、さらにアフェクト度が得られた印象表現の数で割ることによって得られる。この数値は名詞句の印象表現あたりのアフェクト度であり、被修飾名詞句が表している対象に対する情動性を表している。
Here, Σ is the sum of the calculation results. Prior to the calculation of the effect level, the impression expression word and the effect level represented by the impression expression word are associated with each other and stored in the
例えばある文書集合において、被修飾名詞句「ボディー」に係る形容詞句として「キュート」が2回、「頑丈」が2回、「アンバランス」1回が出現した場合を考える。それらの形容詞句のアフェクト度がそれぞれ「3」、「3」、「−1」であるとき、「ボディー」のアフェクト度は(3×2+3×2+(−3×1))/5=1.8と算出できる。 For example, consider a case where “cute” appears twice, “strong” appears twice, and “unbalance” appears once as an adjective phrase related to the modified noun phrase “body” in a document set. When the degree of effect of these adjective phrases is “3”, “3”, and “−1”, the degree of effect of “body” is (3 × 2 + 3 × 2 + (− 3 × 1)) / 5 = 1. 8 can be calculated.
表13のマトリクスにさらに、アフェクト度の平均を表す行および列を追加して表示してもよい。例えばマトリクスの右側に列を追加し、全期間における「評価フレーズの名詞句1」の平均アフェクト度などをドットで表示したり、マトリクスの下側に行を追加し、「時系列単位A」における全名詞句の平均アフェクト度などをドットで表示してもよい。
In addition to the matrix in Table 13, rows and columns representing the average degree of effect may be added and displayed. For example, a column is added to the right side of the matrix, and the average degree of effect of “evaluation
アフェクト度は正、負の実数値を取りうるため、ドットの色で正負を表し、ドットの大きさで絶対値を表してもよい。例えばアフェクト度が正の場合は青、負の場合は赤、0の場合はグレーというように3色で表示し、絶対値によって大きさを決定する。このような構成とすることにより、1つの画面内でアフェクト度の推移を名詞句ごとに追うことができ、比較や分析が容易になる。 Since the degree of effect can be a positive or negative real value, the dot color may represent positive or negative, and the dot size may represent an absolute value. For example, when the degree of effect is positive, it is displayed in three colors such as blue, when it is negative, red when it is 0, and the size is determined by the absolute value. By adopting such a configuration, the transition of the degree of effect can be followed for each noun phrase in one screen, and comparison and analysis are facilitated.
また、列の分類項目表示領域53のいずれかの分類項目、すなわち時系列単位を選択して本文表示を行うと、当該時系列単位に属する文書集合のうち評価フレーズの名詞句を含む文書集合の本文が表示されるようにする。一方、行の分類項目表示領域55のいずれかの分類項目、すなわち評価フレーズの名詞句を選択して本文表示を行うと、当該評価フレーズの名詞句を含む文書集合の本文が表示されるようにする。また、図形表示領域57のあるドットの領域を選択して本文表示を行うと、対応する評価フレーズの名詞句を含む文書集合のうち、対応する時系列単位に属する文書集合の本文が表示されるようにする。この際、本文に含まれる評価フレーズを属性として抜き出して表示する。
Further, when any of the classification items in the column classification
図10は表13のマトリクス構成において文書の本文を表示させたときの表示部18における画面の構成例を示している。本文表示画面108は文書データ表示領域110を含む。文書データ表示領域110は、被修飾名詞句表示領域112、形容詞句表示領域114、本文表示領域116、および属性表示領域118を含む。同図は例えば、商品であるカメラに関する顧客の感想文などを処理対象としており、評価フレーズの名詞句として「撮影」を含む文書集合を選択して本文を表示させた場合の画面である。そのため被修飾名詞句表示領域112には全ての文において「撮影」と記載されている。
FIG. 10 shows a configuration example of the screen in the
また、各文書に含まれる評価フレーズの形容詞句が本文から抜き出され、形容詞句表示領域114に記載されている。これにより、本文表示領域116に記載されている各文書の評価のポイントを一見して確認することができる。属性表示領域118には文書を作成した人の性別や年代などの属性が記載されている。これにより、どのような顧客層がどのような評価をしているかの傾向を把握しながら、場合によって本文を参照し具体的な内容を確認する、といったことが一画面で行え、集計や分析を効率的に行うことができる。
In addition, the adjective phrase of the evaluation phrase included in each document is extracted from the text and described in the adjective
図11および図12は、同じく表13のマトリクス構成において文書の本文を表示させたときの表示部18における画面構成の別の例を示している。この例では2段階の処理により本文を表示する。まず1段階目として選択した名詞句を含む文書集合における、当該名詞句を含む評価フレーズの出現数およびアフェクト度を一覧表示する。図11はその際の画面構成例を示している。評価フレーズカウント表示画面128は、被修飾名詞句表示領域120および形容詞句表示領域122を含む。被修飾名詞句表示領域120には、表13のマトリクス表示において選択されたドットに対応する、評価フレーズの名詞句およびその出現数が表示される。同図では名詞句「撮影」および出現数「37」が表示されている。
11 and 12 show another example of the screen configuration in the
形容詞句表示領域122には、選択されたドットに対応する名詞句と係り受けをなす形容詞句およびその出現数とアフェクト度が表示される。同図では形容詞句として「不向き」、「よい」、「〜安定」が表示され、それぞれの出現数が「7」、「3」、「2」、アフェクト度が「不評 中」、「好評 中」、「不評 低」と表示されている。ここでアフェクト度の表示は、各形容詞句のアフェクト度を言葉によって表現している。すなわち、アフェクト度が正の値であれば好評、負の値であれば不評であり、さらにその程度を高、中、低の3段階で表している。例えばアフェクト度が−3の形容詞句は「不評 中」、アフェクト度が4.5の形容詞句は「好評 高」などと表示する。それらの対応関係はあらかじめ設定して記憶部12に記憶させておく。
The adjective
評価フレーズカウント表示画面128において形容詞句選択チェックボックス124がチェックされたら、本文表示の2段階目として、形容詞句のいずれかを含む文書集合、すなわち表13のマトリクスで選択したドットに対応した文書集合の本文を表示する。図12はその際の画面構成例を示している。なお、評価フレーズカウント表示画面128において個々の形容詞句の先頭にあるチェックボックスがチェックされた場合は、各形容詞句を含む文書集合の本文のみを表示する。
When the adjective phrase
図12における本文表示画面130は、全文表示指示領域132、形容詞句表示領域136、本文表示領域138、クラスタ名表示領域140、属性表示領域142を含む。形容詞句表示領域136には、評価フレーズカウント表示画面128に表示した形容詞句を表示し、本文表示領域138には各形容詞句を含む文書のうち、該当箇所を含む所定長の文を表示する。同図では例えば、形容詞句「不向き」を含む7件の文書の本文が、上から順に表示され、次の形容詞句「よい」を含む3件の文書の本文が、その次に表示されている。本文表示では着目する名詞句および形容詞句を枠で囲ったり色付けを行うなどして強調表示する。
The
クラスタ名表示領域140には各文書が属するクラスタのクラスタ名、例えば「大き」、「室内」、「動画」などを表示する。これにより表示している文書が主に何を話題にしたものであるかが容易に把握できる。属性表示領域142には図10の画面例と同様、文書を作成した人の性別や年代などが記載される。また、各行の先頭に表示した全文表示指示領域132がクリックされた場合は、選択された行の文書の全文をさらに表示する。
The cluster
本文表示を2段階にすることにより、アフェクト度や出現数などを確認したうえで本文を表示させることができ、文書集合が多数となった場合でも効率よく絞り込みが行える。またアフェクト度、出現数、クラスタ名、本文といった多角的なデータを容易に関連付けて理解することができる。 By making the text display in two stages, it is possible to display the text after confirming the degree of influence and the number of appearances, and it is possible to efficiently narrow down even when there are a large number of document sets. In addition, various data such as the degree of effect, the number of appearances, the cluster name, and the text can be easily associated and understood.
(アフェクト度属性分析)
表14は行の分類項目を文書集合に含まれる印象表現語句である「印象表現語句1」、「印象表現語句2」とし、列の分類項目を文書に関連付けて記憶された属性の名前である「属性A」、「属性B」とした場合のマトリクスである。このマトリクスの目的は、用いられる印象表現と属性との関係をアフェクト度を利用して把握する点にある。
(Affect degree attribute analysis)
Table 14 shows the name of the attribute stored in association with the document with the column classification item being “
ここで数値1として例えば、「属性A」に属する文書集合における「印象表現語句1」の頻度を考慮したアフェクト度を表示する。数値2〜4も同様である。例えば「印象表現語句1」が「キュート」、「印象表現語句2」が「アンバランス」なる語句であり、「属性A」が「男性」、「属性B」が「女性」であったとする。「キュート」の固有のアフェクト度が3、「男性」および「女性」が作成した文書における「キュート」の頻度がそれぞれ2、および10であるとする。また、「アンバランス」の固有のアフェクト度が−3、「男性」および「女性」が作成した文書における「アンバランス」の頻度がそれぞれ12、および4であるとする。このとき頻度を考慮した各語句のアフェクト度は固有のアフェクト度に頻度を乗算して得られるため、数値1は6、数値2は30、数値3は−36、数値4は−12となる。
Here, as the
図13はこのデータをドットで表した場合のマトリクスを示している。同図のマトリクス50において列の分類項目欄52には「男性」、「女性」なる属性名が表示され、行の分類項目欄54には「キュート」、「アンバランス」なる印象表現語句が表示されている。図形表示欄56にはドットの大きさおよび色で、各印象表現語句のアフェクト度が属性ごとに表示されている。ここでは表示の便宜上、白色および黒色でアフェクト度の正および負を表している。
FIG. 13 shows a matrix when this data is represented by dots. In the
このようなマトリクスを表示することにより、例えば「女性」はアフェクト度が正の表現、すなわち好評の評価をする際に「キュート」という語句を多く用いる、不評の評価をする際、「アンバランス」という語句はどちらかといえば「男性」が多く用いる、といった、印象表現と属性との関係を傾向として把握することができる。 By displaying such a matrix, for example, “female” has a positive degree of effect, that is, the word “cute” is often used when evaluating a favorable evaluation. It is possible to grasp the relationship between the impression expression and the attribute as a tendency, such as “man” is often used.
(FAQ作成支援)
表15は行の分類項目を顧客からの問合せ文をクラスタリングした際のクラスタ名である「クラスタ1(問合せ)」、「クラスタ2(問合せ)」とし、列の分類項目を問合せ文に対する回答文をクラスタリングした際のクラスタ名である「クラスタA(回答)」、「クラスタB(回答)」とした場合のマトリクスである。問合せ文および回答文は、電子メールや葉書に記載された文章や、電話における音声を文書化したものなどである。行および列に表示させるクラスタの数は同一としてよい。このマトリクスの目的は問合せに対する回答のばらつきや、回答に対する問合せのばらつきを把握する点にある。
(FAQ preparation support)
Table 15 shows “cluster 1 (query)” and “cluster 2 (query)” which are cluster names when query statements from customers are clustered as row classification items, and column classification items are response sentences to the query text. This is a matrix in the case of “cluster A (answer)” and “cluster B (answer)” which are cluster names when clustering. The inquiry sentence and the answer sentence are sentences written in an e-mail or a postcard, or a voice documented on a telephone. The number of clusters displayed in the rows and columns may be the same. The purpose of this matrix is to grasp the variation of answers to queries and the variation of queries to answers.
ここで数値1として例えば、「クラスタ1(問合せ)」に属する文書集合の文書数n1のうち、「クラスタA(回答)」に属する文書集合の文書数nA_1の割合、すなわちnA_1/n1なる値を表示する。数値2〜4も同様である。この値は問合せの内容に対する回答の内容のばらつきを表す。一方、数値1として例えば「クラスタA(回答)」に属する文書集合の文書数nAのうち、「クラスタ1(問合せ)」に属する文書集合の文書数nA_1の割合、すなわちnA_1/nAなる値を表示してもよい。この値は回答の内容に対する問合せの内容のばらつきを表す。なおユーザがマトリクス表示領域51をクリックすることによりこれらの数値を切替えて表示するようにしてもよい。
Here, as the
例えばある問合せに対して回答の内容のばらつきが大きい場合、そのような問合せに対する回答基準を明確化する必要がある。このように問合せの内容に対する回答の内容のばらつきをマトリクス表示することにより、回答する側の改善点を把握することができる。また、回答の内容に対する問合せの内容のばらつきをマトリクス表示することにより、問合せ者と回答者の用いる用語のばらつきを把握したり、よくある回答からFAQを作成するために回答の類似性を把握したりすることができる。 For example, when there is a large variation in the content of answers to a certain inquiry, it is necessary to clarify the answer criteria for such an inquiry. In this way, by displaying the variation of the answer contents with respect to the contents of the inquiry in a matrix, the improvement point on the answering side can be grasped. In addition, by displaying the variation in the content of the query with respect to the content of the response in a matrix, it is possible to grasp the variation in the terms used by the inquirer and the respondent, and to understand the similarity of the responses in order to create a FAQ from the common answers. Can be.
(FAQ検索文時系列分析)
表16は行の分類項目をFAQ検索において質問者が入力した検索文である「検索文1」、「検索文2」とし、列の分類項目を入力された時系列単位である「時系列単位A」、「時系列単位B」とした場合のマトリクスである。ここで検索文とは目的のドキュメントを検索するためにFAQ検索システムにおいて入力された、「郵便番号」といった検索文字列、あるいは「7桁の郵便番号について知りたい」といった文章のことである。表16に表示する検索文は頻度が上位のものとし、表示させる数はあらかじめ設定しておく。このマトリクスの目的は、FAQ検索において入力された検索文の経時変化を把握する点にある。
(FAQ search time series analysis)
Table 16 uses “
ここで数値1として例えば、全期間における「検索文1」の入力件数n1に対する、「時系列単位A」に入力された「検索文1」の入力件数nA_1の割合、すなわちnA_1/n1なる値を表示する。数値2〜4も同様である。この数値により、ある検索文の入力頻度が高い時期などを特定できる。一方、数値1として例えば「時系列単位A」に入力された検索文の入力件数nAにおける「検索文1」の入力件数nA_1の割合、すなわちnA_1/nAなる値を表示してもよい。この数値により、ある期間において入力件数の多い検索文などを特定できる。なおユーザがマトリクス表示領域51をクリックすることによりこれらの数値を切替えて表示するようにしてもよい。
Here, as a
また行の分類項目は検索文そのものでもよいし、検索文から抽出した語句別に分類項目としてもよい。このようなマトリクスを表示することにより、例えば問合せが増加している検索文について把握でき、当該問合せに対応するコンテンツを拡充させたり商品の問題点を抽出したり、といった改善に向けた対策を迅速に立てることができる。 The classification item of the line may be the search sentence itself, or may be a classification item for each phrase extracted from the search sentence. By displaying such a matrix, it is possible to grasp, for example, search sentences with increasing inquiries, and to quickly take measures for improvement such as expanding the content corresponding to the inquiries and extracting product problems. Can stand up.
行の分類項目を質問文から抽出された語句として同様のマトリクスを表示してもよい。ここで質問文とはFAQに含まれる質問、すなわち“よくある質問”のことであり、例えば「印刷でエラーが発生した」といった文章である。このような文章に対し語句抽出処理を行い抽出された語句によって分類を行う。上記の文章では例えば「印刷」、「エラー」、「発生」という語句が抽出される。語句の抽出処理は情報表示装置10の外部の装置が行ってもよく、その場合は抽出された語句を文書および属性と関連づけて記憶部12に記憶しておく。行の分類項目を質問文から抽出された語句とした場合も、検索文と同様の効果を得ることができる。
A similar matrix may be displayed with the line category items as words extracted from the question sentence. Here, the question sentence is a question included in the FAQ, that is, a “frequently asked question”, for example, a sentence such as “an error has occurred in printing”. Phrase extraction processing is performed on such sentences, and classification is performed based on the extracted phrases. In the above sentence, for example, the words “print”, “error”, and “occurrence” are extracted. The phrase extraction process may be performed by a device external to the
(FAQ検索文のカテゴリ分析)
表17は行の分類項目をFAQ検索において質問者が入力した検索文である「検索文1」、「検索文2」とし、列の分類項目を検索文に対応するカテゴリ名である「カテゴリA」、「カテゴリB」とした場合のマトリクスである。このマトリクスの目的は、FAQ検索において入力された検索文をカテゴリごとの割合として把握する点にある。カテゴリは、作成されたFAQに付与される項目についての情報であり、例えばプリンタについてのFAQであれば「用紙設定・印刷」や「はがき」などである。検索文の入力時にカテゴリの指定を行うことにより、検索文とカテゴリとを関連付けて記憶しておくこともできる。
(Category analysis of FAQ search sentences)
In Table 17, “
ここで数値1として例えば、「検索文1」の全入力件数n1のうち、「カテゴリA」に属する「検索文1」の入力件数nA_1の割合、すなわちnA_1/n1なる値を表示する。数値2〜4も同様である。また行の分類項目は検索文そのものでもよいし、検索文から抽出した語句別に分類項目としてもよい。このようなマトリクスを表示することにより、同じ検索文でも分類される割合の高くなりやすいカテゴリを特定したり、複数のカテゴリに対する分布が類似する検索文を特定したりできる。例えばコンピュータに関する検索において複数のカテゴリで用いられる「ドライバ」なる検索文が、「機種」や「OS」といったカテゴリのうちどのカテゴリで検索されることが多いか、などの傾向を把握することができる。
Here, as the
なお(分類結果の時系列分析)と同様、あらかじめ各カテゴリを社内の部門に割り当て、ユーザが行の分類項目表示領域55をクリックした際に、各カテゴリが属する部門別に集計し直したマトリクスを表示するようにしてもよい。
As with (Time Series Analysis of Classification Results), each category is assigned to internal departments in advance, and when the user clicks on the classification
(FAQ質問文語句のカテゴリ分布把握)
表18は行の分類項目をFAQの質問文から抽出された語句である「質問文の語句1」、「質問文の語句2」とし、列の分類項目を質問文に対応するカテゴリ名である「カテゴリA」、「カテゴリB」とした場合のマトリクスである。このマトリクスの目的は、質問文に含まれる語句がどのようなカテゴリに分布しているかを把握する点にある。
(Understanding the category distribution of FAQ questions)
Table 18 is a category name corresponding to a question sentence with column classification items as “
ここで数値1として例えば、「質問文の語句1」を含む質問文の数n1のうち、「カテゴリA」に属する質問文の数nA_1の割合、すなわちnA_1/n1なる値を表示する。数値2〜4も同様である。このようなマトリクスを表示することにより、質問文に含まれる語句のカテゴリに対する分布を把握することができる。例えばあるカテゴリにのみ属している質問文の語句は、カテゴリを特徴づける語句である可能性が高い。したがってFAQの作成する際、当該語句を含む質問文に付与するカテゴリの決定に有用な情報となる。
Here, for example, a ratio of the number nA_1 of question sentences belonging to “category A” out of the number n1 of question sentences including “
また2、3個のカテゴリに分布し、そのうち1つのカテゴリに属する割合が極端に高い語句があった場合、分布割合の低いカテゴリに属する質問文は、誤ったカテゴリが付与されている可能性がある。またカテゴリの内容と直接関係ないにも関わらずその語句を使用している質問文である可能性もある。このような観点からこのマトリクス表示は、作成済みのFAQにおいて付与されているカテゴリが正確かどうかを判断するための材料となる。 Also, if there are words that are distributed in a few categories and the ratio of one of them is extremely high, the question sentence that belongs to the category with a low distribution ratio may have an incorrect category. is there. In addition, there is a possibility that the question sentence uses the phrase even though it is not directly related to the contents of the category. From this point of view, this matrix display is a material for determining whether or not the category assigned in the prepared FAQ is accurate.
さらに複数のカテゴリに比較的均等に分布し、かつカテゴリ名にもなっている語句がある場合は、作成済みのFAQにおいてカテゴリの構成に問題がある可能性が考えられる。例えば質問文「印刷時にエラーが出ます」が「印刷」カテゴリに属し、質問文「アップグレード時にエラーが出ます」が「アップグレード」カテゴリに属し、質問文「予期せぬエラーが発生しました、といわれる」が「エラー」カテゴリに属している場合、複数のカテゴリで「エラー」なる語句が使用されているにも関わらず、「エラー」というカテゴリが存在している。このような場合はカテゴリの構成に問題がある可能性が高い。マトリクスを表示することにより以上述べたような問題点の洗い出しを容易に行うことができる。 Furthermore, if there are words that are distributed relatively evenly in a plurality of categories and are also category names, there is a possibility that there is a problem with the category structure in the created FAQ. For example, the question text “Error during printing” belongs to the “Print” category, the question text “Error during upgrade” belongs to the “Upgrade” category, and the question text “An unexpected error has occurred.” When “is” belongs to the “error” category, the category “error” exists even though the word “error” is used in a plurality of categories. In such a case, there is a high possibility that there is a problem with the category configuration. By displaying the matrix, the problems as described above can be easily identified.
(FAQカテゴリ数の時系列分析)
表19は行の分類項目をFAQの質問文に対応するカテゴリ名である「カテゴリ1」、「カテゴリ2」とし、列の分類項目を、質問文を作成した時系列単位である「時系列単位A」、「時系列単位B」、「時系列単位C」とした場合のマトリクスである。このマトリクスの目的は、質問文の数の経時変化をカテゴリごとに把握する点にある。
(Time series analysis of the number of FAQ categories)
In Table 19, “
ここで数値1として例えば、「カテゴリ1」に属する質問文のうち「時系列単位A」に作成された質問文の数nA_1を表示する。数値2〜6も同様である。あるいは、時系列単位Bに作成された質問文に関する数値2および5、および時系列単位Cに作成された質問文に関する数値3および6を、時系列単位Aに作成された質問文の数である数値1および4からの変化量または変化の割合としてもよい。例えば「カテゴリ1」に属する質問文のうち「時系列単位A」に作成された質問文の数をnA_1、「時系列単位B」に作成された質問文の数をnB_1とすると、数値2を変化量nB_1−nA_1あるいは変化の割合nB_1/nA_1とする。図3に示したマトリクスのように、ドットの色と大きさによって変化の割合と絶対値とを同時に表示するようにしてもよい。
Here, as the
このようなマトリクスを表示することにより、あるカテゴリに属するFAQの件数が急に増加したなどの変化を容易に把握することができ、問題が起こっているカテゴリを発見したりカテゴリ間のバランス調整の必要性を認識したり、というように問題の発生を即座に認識することができる。このような効果をより確実に得るために、変化量や変化の割合にあらかじめしきい値を設定しておき、当該しきい値を超えた時点でユーザに通知を行う機能を設けてもよい。通知は画面にその旨の警告を表示してもよいし、問題となっているカテゴリについてユーザが設定したアドレスに電子メールを自動送信してもよい。 By displaying such a matrix, it is possible to easily grasp changes such as a sudden increase in the number of FAQs belonging to a certain category, and to find out the category in which a problem occurs or to adjust the balance between categories. Recognize the necessity and immediately recognize the occurrence of a problem. In order to obtain such an effect more reliably, a threshold value may be set in advance for the amount of change and the rate of change, and a function of notifying the user when the threshold value is exceeded may be provided. For the notification, a warning to that effect may be displayed on the screen, or an e-mail may be automatically transmitted to an address set by the user for the category in question.
(専門知識分析)
表20は行の分類項目を、文書に含まれる専門用語である「専門用語1」、「専門用語2」とし、列の分類項目を、文書を作成した担当者である「担当者A」、「担当者B」とした場合のマトリクスである。ここで専門用語に関する情報は、あらかじめ外部辞書などから記憶部12に記憶させておく。このマトリクスの目的は、問合せに対する回答文や営業日報などで使用している専門用語を、作成者ごとに把握する点にある。
(Expertise analysis)
In Table 20, the classification item of the row is “
ここで数値1として例えば、全担当者が「専門用語1」を使用した回数n1に対する、「担当者A」が「専門用語1」を使用した回数nA_1の割合、すなわちnA_1/n1なる値を表示する。数値2〜4も同様である。このようなマトリクスを表示することにより、各担当者が有する専門知識のレベルや得意分野、苦手分野を把握でき、担当者教育や担当変更などを効率的に行うことができる。
Here, as a
以上のべた本実施の形態によれば、文書集合をユーザが指定した様々な手法で分類し、分類結果に関する情報をマトリクス上のドットで表示することにより視覚化する。これにより、高度な分類手法を用いた場合でも、分類結果の相関関係を1つの画面で直感的に把握することができる。またマトリクスの行や列をなす分類項目は、一覧表示からのドラッグアンドドロップなどの簡単な操作で設定するため、異なる分類項目によるマトリクスを次々表示させて傾向を比較することによる知見を得ることができる。1つのマトリクスは2次元の情報であるが、複数のマトリクスを比較していくことができると多次元解析が実現され、得られる情報量が格段に増加する。 According to the above-described embodiment, the document set is classified by various methods specified by the user, and the information related to the classification result is visualized by displaying with dots on the matrix. Thereby, even when an advanced classification method is used, the correlation between the classification results can be intuitively grasped on one screen. In addition, since the classification items that make up the rows and columns of the matrix are set by simple operations such as drag and drop from the list display, it is possible to obtain knowledge by comparing the trends by displaying the matrix with different classification items one after another. it can. One matrix is two-dimensional information. However, if a plurality of matrices can be compared, multidimensional analysis is realized, and the amount of information obtained is greatly increased.
さらに膨大なデータベースを処理対象としても、文書に適した分類項目を選択することができるため、効率のよい分類処理が可能となり、最終的に所望の文書を取得するまでの絞込みを効率よく行える。また文書の属性の有無や形式などに関わらずどのような文書でも処理が可能なため、文書の検索や商品の分析などに幅広く利用できるほか、分類処理自体の妥当性をチェックするなどシステム自身の調整も行うことができる。各用途において得られる多様な効果は上述したとおりである。 Furthermore, even if an enormous database is to be processed, classification items suitable for the document can be selected, so that efficient classification processing is possible, and it is possible to efficiently narrow down until a desired document is finally obtained. In addition, since any document can be processed regardless of the presence / absence and format of the document, it can be widely used for searching documents, analyzing products, etc., and checking the validity of the classification process itself. Adjustments can also be made. Various effects obtained in each application are as described above.
以上、本発明を実施の形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。 The present invention has been described based on the embodiments. This embodiment is an exemplification, and it will be understood by those skilled in the art that various modifications can be made to combinations of the respective constituent elements and processing processes, and such modifications are also within the scope of the present invention. is there.
10 情報表示装置、 12 記憶部、 14 分類処理部、 16 マトリクス生成部、 18 表示部、 20 入力部、 22 マトリクス表示部、 50 マトリクス、 51 マトリクス表示領域、 52 列の分類項目欄、 54 行の分類項目欄、 56 図形表示欄、60 マトリクス表示画面、 62 分類項目選択領域、 66 文書集合指定領域、 67 ソート指示ボタン、 68 絞込み指示ボタン、 80 横方向ガイド線、 82 縦方向ガイド線、 84 縦方向情報表示領域、 86 横方向情報表示領域。 10 information display devices, 12 storage units, 14 classification processing units, 16 matrix generation units, 18 display units, 20 input units, 22 matrix display units, 50 matrices, 51 matrix display areas, 52 columns of classification item fields, 54 rows Classification item field, 56 graphic display field, 60 matrix display screen, 62 classification item selection area, 66 document set designation area, 67 sort instruction button, 68 narrowing instruction button, 80 horizontal direction guide line, 82 vertical direction guide line, 84 vertical direction Direction information display area, 86 Horizontal direction information display area.
Claims (17)
前記記憶部が記憶した複数の文書を、第1の分類手法および第2の分類手法で分類することにより2系列の文書集合群を形成する分類処理部と、
前記分類処理部が実施した前記第1の分類手法および第2の分類手法による分類結果の相関関係を、前記2系列の文書集合群を行および列に展開し文書集合群同士の積集合に係る数値情報を所定の図形で表現した2次元マトリクスとして表示するマトリクス表示部と、
を備えたことを特徴とする情報表示装置。 A storage unit for storing a plurality of documents;
A classification processing unit that forms a plurality of document set groups by classifying a plurality of documents stored in the storage unit by a first classification method and a second classification method;
The correlation between the classification results obtained by the first classification method and the second classification method performed by the classification processing unit is related to the intersection of the document sets by expanding the two series of document sets into rows and columns. A matrix display unit for displaying numerical information as a two-dimensional matrix expressed in a predetermined figure;
An information display device comprising:
前記第1の分類手法および前記第2の分類手法の少なくともいずれかは前記分類処理部が実施したクラスタリング手法であり、
前記マトリクス表示部は、前記分類処理部がクラスタリングの実施に際し各文書から抽出した語句から所定の基準により選択した代表語句を分類項目として前記2次元マトリクスの見出しに表示することを特徴とする請求項1または2に記載の情報表示装置。 The classification processing unit classifies a plurality of documents stored in the storage unit according to a predetermined clustering method based on similarity of words included in the document,
At least one of the first classification method and the second classification method is a clustering method performed by the classification processing unit,
The matrix display unit displays a representative phrase selected according to a predetermined criterion from phrases extracted from each document when the classification processing unit performs clustering as a classification item on a heading of the two-dimensional matrix. 3. The information display device according to 1 or 2.
前記マトリクス表示部は、ある分類項目に属する文書集合から抽出した語句から所定の基準により選択した代表語句を少なくとも1つ含む、別の分類項目に属する文書集合の割合を、前記図形で表現することを特徴とする請求項5に記載の情報表示装置。 Both the first classification method and the second classification method are the same clustering method performed by the classification processing unit,
The matrix display unit expresses a ratio of a document set belonging to another classification item including at least one representative word / phrase selected from a word / phrase extracted from a document set belonging to a certain classification item by the graphic. The information display device according to claim 5.
前記分類処理部は前記記憶部が記憶した前記複数の文書を、前記固定分類項目へ分類し、
前記第1の分類手法および前記第2の分類手法はいずれも、前記分類処理部が実施した前記固定分類項目への分類であり、
前記マトリクス表示部は、各固定分類項目に属する文書集合から抽出された語句を用いて算出した、前記固定分類項目の組み合わせごとの類似度を前記図形で表現することを特徴とする請求項1または2に記載の情報表示装置。 The storage unit further stores preset fixed classification items,
The classification processing unit classifies the plurality of documents stored in the storage unit into the fixed classification items,
Both the first classification method and the second classification method are classifications into the fixed classification items performed by the classification processing unit,
The said matrix display part represents the similarity for every combination of the said fixed classification item calculated with the word extracted from the document set which belongs to each fixed classification item with the said figure, or characterized by the above-mentioned. 2. The information display device according to 2.
前記分類処理部は前記分類項目の各階層に対応した分類を実施し、
前記マトリクス表示部は、ユーザの選択指示により前記分類項目の階層に対応した分類結果を表す前記2次元マトリクスを切替えて表示することを特徴とする請求項1または2に記載の情報表示装置。 Either of the first classification method and the second classification method is a classification method in which classification items form a hierarchical structure,
The classification processing unit performs classification corresponding to each hierarchy of the classification items,
The information display device according to claim 1, wherein the matrix display unit switches and displays the two-dimensional matrix that represents a classification result corresponding to the classification item hierarchy according to a selection instruction of a user.
前記記憶部が記憶した複数の文書を所定の分類手法で分類することにより複数の文書集合を形成する分類処理部と、
前記分類処理部が分類した各文書集合から抽出された語句の出現数、または語句の組み合わせの出現数に基づき当該語句に係る数値情報を算出し、前記分類処理部が実施した分類の結果と前記語句に係る数値情報との相関関係を、前記語句に係る数値情報を所定の図形で表現した2次元マトリクスとして表示するマトリクス表示部と、
を備えたことを特徴とする情報表示装置。 A storage unit for storing a plurality of documents;
A classification processing unit that forms a plurality of document sets by classifying the plurality of documents stored in the storage unit by a predetermined classification method;
Based on the number of occurrences of words / phrases extracted from each document set classified by the classification processing unit or the number of occurrences of combinations of words / phrases, the numerical information related to the words / phrases is calculated, and the result of classification performed by the classification processing unit and A matrix display for displaying a correlation with numerical information related to a phrase as a two-dimensional matrix expressing the numerical information related to the phrase in a predetermined figure;
An information display device comprising:
前記マトリクス表示部は、各文書集合から抽出された前記印象表現語を含むフレーズに含まれる被修飾名詞句ごとに、当該被修飾名詞句に対する評価の度合いを前記データに基づき算出して前記所定の図形で表現することを特徴とする請求項12に記載の情報表示装置。 The storage unit further stores data associating a predetermined impression expression word with a numerical value indicating a degree of evaluation represented by each impression expression word,
The matrix display unit calculates, for each modified noun phrase included in the phrase including the impression expression word extracted from each document set, a degree of evaluation of the modified noun phrase based on the data, The information display device according to claim 12, wherein the information display device is represented by a figure.
選択された第1の分類手法および第2の分類手法で前記複数の文書を分類し、2系列の文書集合群を形成するステップと、
前記第1の分類手法および第2の分類手法による分類結果の相関関係を、前記2系列の文書集合群を行および列に展開し文書集合群同士の積集合に係る数値情報を所定の図形で表現した2次元マトリクスとして表示するステップと、
を含むことを特徴とする情報表示方法。 Receiving a selection input of a first classification method and a second classification method for classifying a plurality of documents from a user;
Classifying the plurality of documents with the selected first classification method and second classification method to form a two-line document set group;
The correlation between the classification results obtained by the first classification method and the second classification method is expressed as follows: the two series of document set groups are expanded into rows and columns, and numerical information relating to a product set of the document set groups is expressed in a predetermined figure. Displaying as a represented two-dimensional matrix;
An information display method comprising:
選択された第1の分類手法および第2の分類手法で前記複数の文書を分類し、2系列の文書集合群を形成する機能と、
前記第1の分類手法および第2の分類手法による分類結果の相関関係を、前記2系列の文書集合群を行および列に展開し文書集合群同士の積集合に係る数値情報を所定の図形で表現した2次元マトリクスとして表示する機能と、
をコンピュータに実現させることを特徴とするコンピュータプログラム。 A function of accepting selection input of a first classification method and a second classification method for classifying a plurality of documents from a user;
A function of classifying the plurality of documents by the selected first classification method and second classification method to form a two-line document set group;
The correlation between the classification results obtained by the first classification method and the second classification method is expressed as follows: the two series of document set groups are expanded into rows and columns, and numerical information relating to a product set of the document set groups is expressed in a predetermined figure. A function to display as a expressed two-dimensional matrix;
A computer program for causing a computer to realize the above.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2006265319A JP2008084151A (en) | 2006-09-28 | 2006-09-28 | Information display device and information display method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2006265319A JP2008084151A (en) | 2006-09-28 | 2006-09-28 | Information display device and information display method |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2008084151A true JP2008084151A (en) | 2008-04-10 |
Family
ID=39354939
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2006265319A Pending JP2008084151A (en) | 2006-09-28 | 2006-09-28 | Information display device and information display method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2008084151A (en) |
Cited By (14)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010079826A (en) * | 2008-09-29 | 2010-04-08 | Nec Biglobe Ltd | Information processor, and contrast information output method and program |
| JP2011054137A (en) * | 2009-09-04 | 2011-03-17 | Qualica Inc | Text processing apparatus and computer program |
| JP2011128705A (en) * | 2009-12-15 | 2011-06-30 | Toshiba Corp | Information processing apparatus and program |
| JP2013050896A (en) * | 2011-08-31 | 2013-03-14 | Toshiba Corp | Faq preparation support system and program |
| JP2014063343A (en) * | 2012-09-21 | 2014-04-10 | Nippon Telegr & Teleph Corp <Ntt> | Clustering quality improvement method |
| JP2015056020A (en) * | 2013-09-11 | 2015-03-23 | 株式会社東芝 | Document classification device |
| JP2016212799A (en) * | 2015-05-13 | 2016-12-15 | 日本電信電話株式会社 | Display control device, control method for display control device, and program |
| JPWO2019102533A1 (en) * | 2017-11-22 | 2020-02-27 | 花王株式会社 | Document classification device |
| JP2021009574A (en) * | 2019-07-01 | 2021-01-28 | ヤフー株式会社 | Information processing equipment, information processing methods and information processing programs |
| JPWO2021090373A1 (en) * | 2019-11-06 | 2021-05-14 | ||
| JP2022089674A (en) * | 2020-12-04 | 2022-06-16 | 国立大学法人山梨大学 | Target element ranking system, method, and program |
| JP2023102384A (en) * | 2022-01-12 | 2023-07-25 | ヤフー株式会社 | Information processing device, information processing method and information processing program |
| WO2023166578A1 (en) * | 2022-03-02 | 2023-09-07 | 日本電気株式会社 | Labeling assistance system, labeling assistance method, and labeling assistance program |
| JPWO2023166579A1 (en) * | 2022-03-02 | 2023-09-07 |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2001092825A (en) * | 1999-09-17 | 2001-04-06 | Nec Corp | Device and method for processing information |
| JP2002041571A (en) * | 2000-07-28 | 2002-02-08 | Victor Co Of Japan Ltd | Information retrieving device |
| JP2005085017A (en) * | 2003-09-09 | 2005-03-31 | Kawatetsu Techno Res Corp | Information processing apparatus and information processing method |
| JP2005165858A (en) * | 2003-12-04 | 2005-06-23 | Inpatekku Kk | Matrix map display device |
| JP2005292871A (en) * | 2004-03-31 | 2005-10-20 | Nomura Research Institute Ltd | Technical literature marketability analysis system and marketability analysis program |
-
2006
- 2006-09-28 JP JP2006265319A patent/JP2008084151A/en active Pending
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2001092825A (en) * | 1999-09-17 | 2001-04-06 | Nec Corp | Device and method for processing information |
| JP2002041571A (en) * | 2000-07-28 | 2002-02-08 | Victor Co Of Japan Ltd | Information retrieving device |
| JP2005085017A (en) * | 2003-09-09 | 2005-03-31 | Kawatetsu Techno Res Corp | Information processing apparatus and information processing method |
| JP2005165858A (en) * | 2003-12-04 | 2005-06-23 | Inpatekku Kk | Matrix map display device |
| JP2005292871A (en) * | 2004-03-31 | 2005-10-20 | Nomura Research Institute Ltd | Technical literature marketability analysis system and marketability analysis program |
Cited By (26)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010079826A (en) * | 2008-09-29 | 2010-04-08 | Nec Biglobe Ltd | Information processor, and contrast information output method and program |
| JP2011054137A (en) * | 2009-09-04 | 2011-03-17 | Qualica Inc | Text processing apparatus and computer program |
| JP2011128705A (en) * | 2009-12-15 | 2011-06-30 | Toshiba Corp | Information processing apparatus and program |
| JP2013050896A (en) * | 2011-08-31 | 2013-03-14 | Toshiba Corp | Faq preparation support system and program |
| CN103020035A (en) * | 2011-08-31 | 2013-04-03 | 株式会社东芝 | FAQ production support system |
| CN103020035B (en) * | 2011-08-31 | 2016-05-11 | 株式会社东芝 | FAQ production support system |
| JP2014063343A (en) * | 2012-09-21 | 2014-04-10 | Nippon Telegr & Teleph Corp <Ntt> | Clustering quality improvement method |
| JP2015056020A (en) * | 2013-09-11 | 2015-03-23 | 株式会社東芝 | Document classification device |
| JP2016212799A (en) * | 2015-05-13 | 2016-12-15 | 日本電信電話株式会社 | Display control device, control method for display control device, and program |
| US10984344B2 (en) | 2017-11-22 | 2021-04-20 | Kao Corporation | Document classifying device |
| JPWO2019102533A1 (en) * | 2017-11-22 | 2020-02-27 | 花王株式会社 | Document classification device |
| CN111373392A (en) * | 2017-11-22 | 2020-07-03 | 花王株式会社 | Document classification device |
| JP2021009574A (en) * | 2019-07-01 | 2021-01-28 | ヤフー株式会社 | Information processing equipment, information processing methods and information processing programs |
| JP7177013B2 (en) | 2019-07-01 | 2022-11-22 | ヤフー株式会社 | Information processing device, information processing method and information processing program |
| JPWO2021090373A1 (en) * | 2019-11-06 | 2021-05-14 | ||
| WO2021090373A1 (en) * | 2019-11-06 | 2021-05-14 | 三菱電機ビルテクノサービス株式会社 | User evaluation index calculation method for buildings and user evaluation index calculation device |
| JP7186897B2 (en) | 2019-11-06 | 2022-12-09 | 三菱電機ビルソリューションズ株式会社 | Building User Evaluation Index Calculation Method and User Evaluation Index Calculation Device |
| JP7573267B2 (en) | 2020-12-04 | 2024-10-25 | 国立大学法人山梨大学 | System, method and program for ranking target elements |
| JP2022089674A (en) * | 2020-12-04 | 2022-06-16 | 国立大学法人山梨大学 | Target element ranking system, method, and program |
| JP2023102384A (en) * | 2022-01-12 | 2023-07-25 | ヤフー株式会社 | Information processing device, information processing method and information processing program |
| JPWO2023166578A1 (en) * | 2022-03-02 | 2023-09-07 | ||
| JPWO2023166579A1 (en) * | 2022-03-02 | 2023-09-07 | ||
| WO2023166579A1 (en) * | 2022-03-02 | 2023-09-07 | 日本電気株式会社 | Labelling assistance system, labelling assistance method, and labelling assistance program |
| WO2023166578A1 (en) * | 2022-03-02 | 2023-09-07 | 日本電気株式会社 | Labeling assistance system, labeling assistance method, and labeling assistance program |
| JP7758149B2 (en) | 2022-03-02 | 2025-10-22 | 日本電気株式会社 | Labeling support system, labeling support method, and labeling support program |
| JP7758150B2 (en) | 2022-03-02 | 2025-10-22 | 日本電気株式会社 | Labeling support system, labeling support method, and labeling support program |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11328128B2 (en) | System and method for analysis and navigation of data | |
| US11645317B2 (en) | Recommending topic clusters for unstructured text documents | |
| US12197873B2 (en) | Creation of component templates based on semantically similar content | |
| US20190324981A1 (en) | User interface for visualizing search data | |
| US8180767B2 (en) | Inferred relationships from user tagged content | |
| US11182540B2 (en) | Passively suggesting text in an electronic document | |
| US20190318407A1 (en) | Method for product search using the user-weighted, attribute-based, sort-ordering and system thereof | |
| CN118511490A (en) | System and method for monitoring related indexes | |
| JP2013225319A (en) | Visual multidimensional retrieval | |
| US11769006B2 (en) | Parsing and reflowing infographics using structured lists and groups | |
| CN116882414B (en) | Automatic comment generation method and related device based on large-scale language model | |
| JP2008084151A (en) | Information display device and information display method | |
| US20230419044A1 (en) | Tagging for subject matter or learning schema | |
| US11775144B2 (en) | Place-based semantic similarity platform | |
| IT201900005326A1 (en) | AUTOMATED SYSTEM AND METHOD FOR EXTRACTION AND PRESENTATION OF QUANTITATIVE INFORMATION THROUGH PREDICTIVE DATA ANALYSIS | |
| US20250251850A1 (en) | Interactive patent visualization systems and methods | |
| JP2019160134A (en) | Sentence processing device and sentence processing method | |
| CN115982351A (en) | Examination question evaluation method and related device, electronic equipment, storage medium | |
| Mohapatra et al. | Driving Sustainable Practices in Industry 6.0: A Study on Article Detection with Fuzzy-Wuzzy and Supervised Machine Learning Algorithms | |
| CN118690039B (en) | A graphical display method for search engine retrieval results | |
| JP7776221B2 (en) | Location-based semantic similarity platform | |
| He et al. | Intention-oriented classification of the visual representation of numerical data | |
| Bogaard | Using Metadata to Understand Search Behavior in Digital Libraries | |
| Pflüger | A method for describing, analyzing, and exploring visual art collections | |
| Al Hosani et al. | Sentiment Analysis of Movie Reviews Using Apache Spark MLlib: A Big Data Approach |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090803 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110623 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110712 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20111108 |