[go: up one dir, main page]

JP2012141910A - Information acquisition device - Google Patents

Information acquisition device Download PDF

Info

Publication number
JP2012141910A
JP2012141910A JP2011000902A JP2011000902A JP2012141910A JP 2012141910 A JP2012141910 A JP 2012141910A JP 2011000902 A JP2011000902 A JP 2011000902A JP 2011000902 A JP2011000902 A JP 2011000902A JP 2012141910 A JP2012141910 A JP 2012141910A
Authority
JP
Japan
Prior art keywords
text
question
answer
information acquisition
determination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011000902A
Other languages
Japanese (ja)
Other versions
JP5560207B2 (en
Inventor
Konagi Uchibe
こなぎ 内部
Yasutsugu Morimoto
康嗣 森本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2011000902A priority Critical patent/JP5560207B2/en
Publication of JP2012141910A publication Critical patent/JP2012141910A/en
Application granted granted Critical
Publication of JP5560207B2 publication Critical patent/JP5560207B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】 質問と回答の対で構成されるテキストデータから有用な情報を抽出する。
【解決手段】 質問と回答の内容をそれぞれ解析し、それらの解析結果を組合せることで有用な情報を抽出する。具体的には、質問と回答の対から成るテキストデータを入力する入力手段と、前記テキストデータから情報を抽出する情報抽出手段と、前記情報抽出手段が抽出した結果を出力する出力手段とを備え、前記情報抽出手段は、上記入力手段による入力の質問部分テキストを解析する質問テキスト解析手段と,同入力の回答部分テキストを解析する回答テキスト解析手段と,上記質問テキスト解析手段と上記回答テキスト解析手段の解析結果からテキストの適合判定を行う適合テキスト判定手段を含む、情報取得装置とする。
【選択図】図1
PROBLEM TO BE SOLVED: To extract useful information from text data composed of a pair of a question and an answer.
The contents of the question and the answer are analyzed, and useful information is extracted by combining the analysis results. Specifically, an input means for inputting text data composed of a pair of a question and an answer, an information extraction means for extracting information from the text data, and an output means for outputting a result extracted by the information extraction means. The information extraction means comprises: question text analysis means for analyzing the question part text input by the input means; answer text analysis means for analyzing the answer part text input thereto; the question text analysis means; and the answer text analysis. The information acquisition apparatus includes a conforming text determination unit that performs text conformity determination from the analysis result of the unit.
[Selection] Figure 1

Description

本発明は、質問と回答の対から成るテキストデータに対する解析技術に関するものである。   The present invention relates to an analysis technique for text data including a pair of a question and an answer.

多くの企業は顧客からの質問や意見要望を受け付ける、サポートサービス部門やコールセンターを有し、質問等の内容と、それらに対する企業側の回答や対応の内容をテキストデータとして記録、蓄積している。このようなデータから顧客のニーズや製品への評価・意見などを捉え、売上げ拡大や新製品開発への手がかりとしようとする企業も多い。有効な手がかりを得るためには、サポートサービス等で蓄積したテキストデータを解析し、必要な情報を抽出する技術が重要となる。   Many companies have a support service department and a call center that accept questions and requests from customers, and record and store the contents of questions and the responses and responses of the companies as text data. Many companies try to capture customer needs and product evaluations and opinions from such data and use them as clues to expand sales and develop new products. In order to obtain effective clues, a technique for analyzing text data accumulated by a support service and extracting necessary information is important.

顧客の意見を収集したテキストデータに対し、形態素解析等、既存のテキスト解析技術を用いて得られる、テキストに含まれる単語の頻度を顧客ニーズとして抽出する技術が特許文献1に開示されている。   Patent Document 1 discloses a technique for extracting the frequency of words contained in a text as customer needs, which is obtained by using an existing text analysis technique such as morphological analysis for text data obtained by collecting customer opinions.

また、顧客からの意見を表現によって、喜びや怒りなどの感情軸で分類する技術が特許文献2に開示されている。   Further, Patent Literature 2 discloses a technique for classifying customer opinions based on emotional axes such as joy and anger based on expression.

特開2007−226568号公報JP 2007-226568 A 特開2003−281161号公報JP 2003-281161 A

特許文献1の方法を用いると、テキストデータに多く現れる単語など、単語ベースの情報は得られる。しかし、サポートサービス等に寄せられる問合せに含まれる単語は、既存製品の名前、製品の機能に関する単語、あるいは関連分野の一般的な専門用語がほとんどである。従って、売上個数などと同等の情報や、対象分野では既知の情報など、当たり前の情報しか得られないという課題があった。   Using the method of Patent Document 1, word-based information such as words that frequently appear in text data can be obtained. However, most of the words included in inquiries sent to support services are the names of existing products, words related to product functions, or general technical terms in related fields. Therefore, there is a problem that only information that is commonplace such as information equivalent to the number of units sold or information known in the target field can be obtained.

また、サポートサービス等へ寄せられる問合せは、ネガティブな意見が大多数であり、特許文献2の方法を用いると、ネガティブな感情に偏った分類しか行えないという課題があった。   In addition, inquiries sent to support services and the like have a large number of negative opinions, and using the method of Patent Document 2, there is a problem that only a classification biased toward negative emotions can be performed.

本発明では、質問と回答の対から成るテキストデータに対して、質問と回答のそれぞれのテキストの内容を解析し、両者の解析結果を組合せることで、単語ベースでは得られない情報や、感情軸よりも具体的な観点からの情報を抽出する。具体的には、質問と回答の対から成るテキストデータを入力する入力手段と、前記テキストデータから情報を抽出する情報抽出手段と、前記情報抽出手段が抽出した結果を出力する出力手段、とを備え、前記情報抽出手段は、上記入力手段による入力の質問部分テキストを解析する質問内容解析手段と,同入力の回答部分テキストを解析する回答内容解析手段と,上記質問内容解析手段と上記回答内容解析手段の解析結果からテキストの適合判定を行う適合テキスト判定手段を含む、情報取得装置とすることを特徴とする。   In the present invention, for text data composed of a pair of a question and an answer, the contents of each text of the question and the answer are analyzed, and the analysis results of both are combined to obtain information and emotion that cannot be obtained on a word basis. Extract information from a specific point of view rather than the axis. Specifically, an input means for inputting text data composed of a pair of a question and an answer, an information extraction means for extracting information from the text data, and an output means for outputting a result extracted by the information extraction means, The information extraction means includes: question content analysis means for analyzing the question part text input by the input means; answer content analysis means for analyzing the answer part text of the input; the question content analysis means; and the answer content The information acquisition device includes a conforming text determination unit that performs text conformity determination from the analysis result of the analysis unit.

本発明によれば、質問と回答から構成されるテキストデータから、有用な情報が取得できるという効果がある。   According to the present invention, there is an effect that useful information can be acquired from text data composed of a question and an answer.

本発明の構成を説明する図である。It is a figure explaining the structure of this invention. 質問回答テーブルを説明する図である。It is a figure explaining a question answer table. 情報抽出プログラムの処理方式を説明する図である。It is a figure explaining the processing system of an information extraction program. 質問内容解析処理の処理方式を説明する図である。It is a figure explaining the processing system of a question content analysis process. 回答内容解析処理の処理方式を説明する図である。It is a figure explaining the processing method of an answer content analysis process. 適合テキスト判定処理の処理方式を説明する図である。It is a figure explaining the processing system of a suitable text determination process. 必要部分テキスト抽出処理の処理方式を説明する図である。It is a figure explaining the processing system of a required partial text extraction process. 適合テキストテーブルを説明する図である。It is a figure explaining a conformity text table. 処理結果の表示例を説明する図である。It is a figure explaining the example of a display of a processing result. 本発明の時系列を説明する図である。It is a figure explaining the time series of this invention. 処理結果の表示例を説明する図である。It is a figure explaining the example of a display of a processing result. 蓄積された結果から統計情報を取得する処理部の構成図を示す図である。It is a figure which shows the block diagram of the process part which acquires statistical information from the accumulate | stored result.

以下、本発明の実施例を図1〜8を参照して説明する。   Embodiments of the present invention will be described below with reference to FIGS.

図1は本実施例の構成について説明する図である。本発明を実現するための装置101は,各種処理を実行するCPU102と,ユーザが入力を行う入力装置103と,各種情報をユーザに提供する出力装置104と,OS106,情報抽出プログラム107などのプログラム類,各種データを格納すると共に処理中の計算結果を一時的に格納する作業メモリ111を格納する記憶装置105からなる。   FIG. 1 is a diagram for explaining the configuration of this embodiment. An apparatus 101 for realizing the present invention includes a CPU 102 that executes various processes, an input apparatus 103 that is input by a user, an output apparatus 104 that provides various information to the user, an OS 106, and a program such as an information extraction program 107. And a storage device 105 for storing a work memory 111 for storing various data and temporarily storing calculation results being processed.

入力装置103は、キーボードやマウスなどのデバイスで構成することが可能である。   The input device 103 can be configured with devices such as a keyboard and a mouse.

出力装置104は、ディスプレイなどの表示装置で構成することが可能である。   The output device 104 can be configured by a display device such as a display.

記憶装置105は、SRAMやフラッシュメモリなどの不揮発性メモリで構成することが可能であるほか、プログラム類や不変データをROMに、可変データをRAMに分ける構成としてもよく、半導体メモリではなく、磁気ディスクなどの記憶媒体で構成することも可能である。   The storage device 105 can be configured by a non-volatile memory such as SRAM or flash memory, and may be configured such that programs and invariant data are divided into ROM and variable data is divided into RAM. It can also be configured by a storage medium such as a disk.

図2は本実施例で扱うデータの構成について説明する図である。データは質問回答テーブル201として構成する事ができる。質問テキスト202、回答テキスト203、質問フラグ204、回答フラグ205をテーブルの要素とし、必要に応じて必要な数の属性206を要素に加えてもよい。質問回答テーブル201は記憶装置105に保存される。   FIG. 2 is a diagram for explaining the configuration of data handled in this embodiment. The data can be configured as a question answer table 201. The question text 202, the answer text 203, the question flag 204, and the answer flag 205 may be elements of the table, and a necessary number of attributes 206 may be added to the elements as necessary. The question / answer table 201 is stored in the storage device 105.

質問テキスト202は、サポートサービスやコールセンター等に寄せられる顧客等の質問、意見、要望などを記したテキストである。   The question text 202 is a text that describes questions, opinions, requests, etc. of customers etc. sent to support services, call centers, and the like.

回答テキスト203は、質問テキスト202に対する、回答や対応内容などを記したテキストである。   The answer text 203 is a text that describes an answer, a corresponding content, etc. with respect to the question text 202.

質問フラグ104は、初期値は0とし、後述する質問内容解析の結果に応じて1にする。   The question flag 104 has an initial value of 0 and is set to 1 according to the result of question content analysis described later.

回答フラグ105は、初期値は0とし、後述する回答内容解析の結果に応じて1にする。   The answer flag 105 has an initial value of 0, and is set to 1 according to the result of answer content analysis described later.

属性106領域には、製品名や顧客の種別など質問や回答に関する属性を格納できる。   Attributes relating to questions and answers such as product names and customer types can be stored in the attribute 106 area.

図3は情報抽出プログラム107の処理フローを示す概略PADである。質問回答データテーブルに登録されている各要素に対し、質問内容解析処理301、回答内容解析処理302、適合テキスト判定処理303を実施する。各処理(301、302、303)はそれぞれ質問解析モジュール108、回答解析モジュール109、適合テキスト判定モジュール110の各モジュールで行う処理に相当する。更に、情報抽出プログラム107にモジュールを加えることにより、必要部分テキスト抽出処理304を行ってもよい。   FIG. 3 is a schematic PAD showing the processing flow of the information extraction program 107. For each element registered in the question / answer data table, a question content analysis process 301, an answer content analysis process 302, and a matching text determination process 303 are performed. Each process (301, 302, 303) corresponds to a process performed by each of the question analysis module 108, the answer analysis module 109, and the matching text determination module 110, respectively. Furthermore, the necessary partial text extraction process 304 may be performed by adding a module to the information extraction program 107.

図4は質問内容解析処理301の概略PADである。本処理は質問解析モジュール108により行われる。質問回答テーブル201の処理対象要素の質問テキスト202が、定められた表現ルールを満たすか否かを判定し(401)、満たす場合には質問回答テーブル201の対象要素の質問フラグ204を1にする(402)。上記表現ルールについて、質問者が製品やサービスに対して何らかの要望をしている質問を選別する場合を例として説明する。「変数の下限値を変更したい」「処理Aと処理Bを同時に実行したい」のような質問は、質問者が何かをやりたい、やろうとしているという要望を示す質問である。テキストから「〜したい」などのモダリティにより要望表現を抽出する技術は一般的に知られている。モダリティを抽出ルールとして、質問者が何かをやりたい、要望している、という意志を表す表現を含む質問を選別できる。しかし、モダリティだけでは、「質問したい」「相談したい」など、製品にではなく人に対応して欲しいことを示す質問も含まれてしまうため、人に対する要望を示すような表現を除外ルールとして列挙する。「抽出ルールとして列挙されている表現を含むが、除外ルールに列挙されている表現には一致しない」ことを表現ルールとすることにより、質問者が製品に要望している内容を含む質問テキストを抽出する。   FIG. 4 is a schematic PAD of the question content analysis process 301. This process is performed by the question analysis module 108. It is determined whether or not the question text 202 of the processing target element in the question answer table 201 satisfies a predetermined expression rule (401), and when satisfied, the question flag 204 of the target element of the question answer table 201 is set to 1. (402). The above expression rule will be described by taking as an example a case where a questioner selects a question that he / she desires for a product or service. Questions such as “I want to change the lower limit value of a variable” and “I want to execute process A and process B at the same time” are questions that indicate a desire that the questioner wants to do something or wants to do it. A technique for extracting a desired expression from a text by a modality such as “I want to do” is generally known. Using the modality as an extraction rule, it is possible to select a question that includes an expression that expresses the willingness of the questioner to do or want to do something. However, the modality alone includes questions that indicate that you want people to respond to the product, such as "I want to ask a question" or "I want to consult". To do. By using an expression rule that "includes expressions listed as extraction rules, but does not match expressions listed in exclusion rules", the question text containing the content that the questioner wants for the product Extract.

図5は回答内容解析処理302の概略PADである。本処理は回答解析モジュール109により行われる。質問回答テーブル201の処理対象要素の回答テキスト203が、定められた表現ルールを満たすか否かを判定し(501)、満たす場合には質問回答テーブル201の対象要素の回答フラグ205を1にする(502)。上記表現ルールについて、質問対象事項をサポートしていない旨、回答している回答テキストを選別する場合を例として説明する。「未サポートです」「サポートしておりません」「〜ことはできません」など、質問対象事項をサポートしていないことを示す表現を列挙し、抽出ルールとする。「サポートしておりませんでした」のような過去の状態を示す表現や、「〜では未サポート」のような限定された条件下での状況を示す表現を除外ルールとすることもできる。「抽出ルールとして列挙されている表現を含むが、除外ルールに列挙されている表現には一致しない」ことを表現ルールとすることにより、質問対象事項をサポートしていないという内容の回答テキストを抽出する。   FIG. 5 is a schematic PAD of the response content analysis process 302. This process is performed by the answer analysis module 109. It is determined whether or not the answer text 203 of the processing target element in the question answer table 201 satisfies a predetermined expression rule (501). If it is satisfied, the answer flag 205 of the target element in the question answer table 201 is set to 1. (502). The above expression rule will be described by taking as an example the case of selecting answer texts that answer that the subject matter is not supported. Expressions indicating that the question target item is not supported, such as “not supported”, “not supported”, “cannot be”, are enumerated as extraction rules. An expression indicating a past state such as “Not supported” or an expression indicating a situation under a limited condition such as “Unsupported in” can be used as an exclusion rule. By using an expression rule that includes the expressions listed as extraction rules but does not match the expressions listed in the exclusion rules, the answer text that does not support the question item is extracted. To do.

図6は適合テキスト判定処理303の概略PADである。本処理は適合テキスト判定モジュール110により行われる。対象要素の質問フラグと回答フラグが共に1であるか否かを判定し(601)、共に1である場合には、対象要素の記憶装置105上の格納位置を示すアドレスである、質問回答ポインタを適合テキストテーブル(後述、図8)に格納する。図4、図5の説明において例に示した表現ルールに従うと、質問において、質問者が要望していることに対し、回答ではそれがサポートされていないと回答していることになる。従って、サポートすることによってサービス向上が見込める可能性のある事柄について述べられている質問・回答であるため、重要な情報となる。   FIG. 6 is a schematic PAD of the matching text determination process 303. This process is performed by the matching text determination module 110. It is determined whether or not both the question flag and the answer flag of the target element are 1 (601). If both are 1, the question answer pointer that is an address indicating the storage position of the target element on the storage device 105 Is stored in the matching text table (described later, FIG. 8). According to the expression rules shown as examples in the description of FIGS. 4 and 5, in response to a question, a questioner requests that the answer is not supported. Therefore, this is important information because it is a question / answer describing matters that can be expected to improve the service through support.

これにより、質問と回答をそれぞれ単独で解析しても得られない情報を、両方の解析結果の組合せにより得ることができるようになる。   As a result, information that cannot be obtained by analyzing the question and the answer independently can be obtained by a combination of both analysis results.

図7は必要部分テキスト抽出処理304の概略PADである。この処理は情報抽出プログラム107にモジュールを追加することで実行できる。適合テキスト判定処理303で抽出された要素に対して以下の処理を行う。   FIG. 7 is a schematic PAD of the necessary part text extraction process 304. This process can be executed by adding a module to the information extraction program 107. The following processing is performed on the elements extracted in the matching text determination processing 303.

処理701においては、対象要素の質問テキストに対し、質問内容解析処理302において用いた表現ルールを構成する表現の直前のテキストを抽出する。即ち、図4の説明で用いた表現ルールにおいては、抽出ルールを構成する表現、例えば「〜したい」の「〜」に相当するテキストを抽出対象テキストとすることができる。例えば、「変数の下限値を変更したい」「処理Aと処理Bを同時に実行したい」のような質問テキストからは、それぞれ「変数の下限値を変更」「処理Aと処理Bを同時に実行」を抽出する。句点や接続詞などの直後を抽出開始点とし、抽出ルール表現の直前を抽出終了点とすることで、必要部分テキストを抽出することができる。   In process 701, the text immediately before the expression constituting the expression rule used in the question content analysis process 302 is extracted from the question text of the target element. In other words, in the expression rule used in the description of FIG. 4, an expression constituting the extraction rule, for example, a text corresponding to “to” of “to want” can be set as the extraction target text. For example, from question texts such as “I want to change the lower limit value of a variable” or “I want to execute process A and process B at the same time”, “Change the lower limit value of variable” and “Execute process A and process B at the same time” respectively. Extract. The required partial text can be extracted by setting the extraction start point immediately after the phrase or conjunction and the extraction end point immediately before the extraction rule expression.

処理702においては、対象要素の回答テキストに対し、回答内容解析処理303において用いた表現ルールを構成する表現の直前のテキストを抽出する。即ち、図5の説明で用いた表現ルールにおいては、抽出ルールを構成する表現、「未サポートです」「サポートしておりません」の直前のテキストを抽出対象テキストとすることができる。例えば、「下限値の変更は未サポートです」「処理Aと処理Bの同時実行はサポートしておりません」のような回答テキストからは、それぞれ「下限値の変更」「処理Aと処理Bの同時実行」を抽出する。抽出方法については処理701と同様にできる。   In the process 702, the text immediately before the expression constituting the expression rule used in the answer content analysis process 303 is extracted from the answer text of the target element. That is, in the expression rule used in the description of FIG. 5, the expression immediately before the expression constituting the extraction rule, “not supported” or “not supported” can be set as the extraction target text. For example, response texts such as “Changing the lower limit value is not supported” and “Simultaneous execution of process A and process B are not supported” indicate “change of the lower limit value”, “process A and process B,” respectively. Is executed simultaneously. The extraction method can be the same as the processing 701.

処理701と処理702はどちらか一方を行うようにしてもよい。   Either the process 701 or the process 702 may be performed.

処理703では、処理701と処理702でそれぞれ抽出されたテキストのどちらか一方または両方を選択する。例えば、基本的に処理701の抽出テキストを採用し、処理701の抽出結果の文字数が数文字程度の極端に短い場合など、抽出結果が不十分である際には、処理702の抽出結果を採用するという処理を行う。質問と回答の両者の結果で補完し合うことで精度を向上させることもできる。   In process 703, one or both of the texts extracted in processes 701 and 702 are selected. For example, when the extracted text of the process 701 is basically used, and when the extraction result is insufficient, such as when the number of characters of the extracted result of the process 701 is extremely short, such as several characters, the extracted result of the process 702 is used. The process of doing. The accuracy can be improved by complementing the results of both the question and the answer.

必要部分テキスト抽出処理304により、質問と回答の全文を参照しなくても、要となる事柄をひと目で確認できるようになる。例えば、サポートサービスに収集された情報から、有用な情報として設計部門などの担当部署へ展開するような場合に、必要なテキスト部分だけを一覧として提示することで視認性を向上させられる。出力例については後述する。即ち、必要部分テキスト抽出処理は、本情報取得装置では必須の構成ではないものの、この処理を実行することにより、ユーザの確認の簡便性を高めることができる効果がある。   The necessary part text extraction process 304 makes it possible to confirm important matters at a glance without referring to the full text of the question and the answer. For example, when the information collected by the support service is expanded as useful information to a department in charge such as a design department, visibility is improved by presenting only a necessary text portion as a list. An output example will be described later. That is, the necessary part text extraction processing is not an essential component in the information acquisition apparatus, but by executing this processing, there is an effect that it is possible to improve the convenience of confirmation by the user.

図8は図3の処理結果を格納するデータの構成例について示す図である。データは適合テキストテーブル801として構成することができる。適合テキストテーブル801は記憶装置105に保存される。   FIG. 8 is a diagram showing a configuration example of data for storing the processing result of FIG. The data can be organized as a matching text table 801. The matching text table 801 is stored in the storage device 105.

適合テキスト判定処理303で該当すると判定された質問回答テーブル201の要素への質問回答ポインタ804を格納する。また、必要部分テキスト抽出処理304を実施する場合、抽出した必要部分テキストを格納する(802)。必要であれば属性値803を格納してもよい。   The question answer pointer 804 to the element of the question answer table 201 determined to be applicable in the matching text determination processing 303 is stored. When the necessary part text extraction process 304 is performed, the extracted necessary part text is stored (802). If necessary, an attribute value 803 may be stored.

質問回答ポインタ804により、質問回答テーブル201を参照できるため、質問回答テーブル201の属性206に質問受付日時、製品名、質問者の種別などを格納しておくことにより、適合テキストテーブル801に格納された処理結果を分類できる。   Since the question answer table 201 can be referred to by the question answer pointer 804, the question acceptance date / time, the product name, the type of the questioner, etc. are stored in the attribute 206 of the question answer table 201, so that they are stored in the conformance text table 801. The processing results can be classified.

質問受付日時または回答日時のような時間情報を格納しておけば、時間的な増減の推移がわかる。また、製品名からは製品ごとの、質問者の種別を、例えば業種別に記録しておくと、業種別の結果が得られる。   By storing time information such as the date and time when a question is received or the date and time of answering, it is possible to know a change in time. Further, if the type of the questioner for each product is recorded from the product name, for example, by industry, the result for each industry can be obtained.

図12は適合テキスト判定処理303で得られ、蓄積された結果から統計情報を取得する処理部の構成図である。統計情報取得モジュール1201は、類似度計算部1202と集計部1203から成り、図1の情報抽出プログラム107内のモジュールとして実現できる。   FIG. 12 is a configuration diagram of a processing unit that obtains statistical information from the accumulated results obtained by the matching text determination processing 303. The statistical information acquisition module 1201 includes a similarity calculation unit 1202 and a totaling unit 1203, and can be realized as a module in the information extraction program 107 in FIG.

類似度計算部1202において、必要部分テキスト802に含まれる単語の一致数により類似度を求め、類似度が一定値を超えた場合に同件と判定する。適合テキストテーブル801の属性値803として、同件である要素のアドレスやIDをリストや配列で保持することにより、適合テキストテーブル801の各要素がどの要素と同件であるかという情報を保存できる。   The similarity calculation unit 1202 obtains the similarity based on the number of matching words included in the necessary partial text 802, and determines that the case is the same when the similarity exceeds a certain value. By storing the addresses and IDs of the elements that are the same as a list or array as the attribute value 803 of the compatible text table 801, it is possible to store information as to which element each element of the compatible text table 801 is the same as. .

集計部1203において、同件数を計算する。同件数が多いということは要望が多いことを示しているため、より重要な内容であることが認識できる。同件内容を時間や製品などで分類すれば、より詳細な情報を取得できる。   The totaling unit 1203 calculates the number of cases. A large number of cases indicates that there are many requests, so it can be recognized that the content is more important. More detailed information can be obtained by classifying the content of the case by time or product.

図9は図3の処理結果の表示画面の例である。質問の受付月又は回答の受付月ごとに分け、タブ選択(901、902、903)により各月の結果を表示する例を示している。対象となる製品名904、必要部分テキスト抽出304で抽出したテキストの内容905を表示する。内容905には必要なテキストだけが書かれているため、簡略で読みやすい表示となる。前述のように同件数を求め、件数906を表示しても良い。図9では受付時期で分類して表示しているが、製品名、質問者の業種など、質問回答テーブル201の属性206に格納した他の情報を用いて分類することができるし、表示項目を増やすことも可能である。   FIG. 9 shows an example of the processing result display screen of FIG. An example is shown in which the results of each month are displayed by tab selection (901, 902, 903), divided into question acceptance months or answer acceptance months. The target product name 904 and the text content 905 extracted by the necessary part text extraction 304 are displayed. Since only necessary text is written in the contents 905, the display becomes simple and easy to read. As described above, the same number may be obtained and the number 906 may be displayed. In FIG. 9, the information is classified and displayed according to the reception time, but it can be classified using other information stored in the attribute 206 of the question answer table 201 such as the product name and the type of the questioner. It is also possible to increase.

図10は本実施例の時系列図である。質問・回答テキストやその他属性値を含むデータを入力装置103から入力する1001と、CPU102により質問回答テーブル201の形式に変換され、記憶装置105に格納される1002。入力装置103からの情報抽出要求1003を受けて、CPU102は記憶装置105からデータを取得し1004、情報抽出プログラム107により情報抽出処理を行い、処理結果を記憶装置105に格納する1005。入力装置103から結果表示要求1006を受けると、CPU102は記憶装置105から結果データを取得し1007、出力装置104に結果を表示する1008。結果表示1008は、結果表示要求1006がなくても、情報抽出要求1003を受けて、情報抽出処理が終了した時点で行う方式としてもよい。   FIG. 10 is a time series diagram of this embodiment. Data including a question / answer text and other attribute values is input 1001 from the input device 103, and converted into a question / answer table 201 format by the CPU 102 and stored in the storage device 105 1002. In response to the information extraction request 1003 from the input device 103, the CPU 102 acquires data from the storage device 105 1004, performs information extraction processing by the information extraction program 107, and stores the processing result in the storage device 105 1005. When the result display request 1006 is received from the input device 103, the CPU 102 acquires result data from the storage device 105 1007 and displays 1008 on the output device 104 1008. Even if there is no result display request 1006, the result display 1008 may be a method that is performed when the information extraction process is completed upon receipt of the information extraction request 1003.

図4の質問内容解析処理301の概略PADにおいて、判定処理401の表現ルールを、可能か否かを問う表現を抽出するルールとする例について説明する。「処理Tのログの出力先を変更できますか?」「出力メッセージの制御は可能ですか」など、質問者がある事柄を実行できるかどうかを問う質問は一般的である。このような質問は、可能や不可能を表すモダリティと疑問を表すモダリティを併用することで抽出できる。例えば、「できますか」「できませんか」「可能か」などの表現を列挙し、これらを含むことを表現ルールとする。   In the outline PAD of the question content analysis process 301 in FIG. 4, an example will be described in which the expression rule of the determination process 401 is a rule for extracting an expression asking whether or not it is possible. Questions that ask whether a questioner can execute a certain matter, such as “Can the log output destination of the process T be changed?” Or “Can the output message be controlled?” Are common. Such a question can be extracted by using a modality representing possible or impossible and a modality representing question. For example, expressions such as “Can you do”, “Can you do” or “Can you do” are enumerated, and including them is used as an expression rule.

上記の質問内容解析処理301の判定処理401の表現ルールに対し、図5の回答内容解析処理302の概略PADの判定処理501の表現ルールを、不可能であることを示す表現を抽出するルールとする。この表現ルールも不可能を表現するモダリティを用いた抽出ルールすることで作成できる。即ち、「できません」「不可能です」など不可能を示す表現を列挙し、これらを含むことを表現ルールとする。   In contrast to the expression rule of the determination process 401 of the question content analysis process 301 described above, the expression rule of the outline PAD determination process 501 of the answer content analysis process 302 of FIG. To do. This expression rule can also be created by making an extraction rule using a modality expressing the impossibility. That is, expressions that indicate impossibility such as “cannot be performed” and “impossible” are listed, and the inclusion of these expressions is used as an expression rule.

上記による質問内容解析処理301と回答内容解析処理302の結果から、適合テキスト判定処理303を行うと、可能性を問う質問に対し、できないと回答している質問と回答の対が得られる。   From the results of the question content analysis process 301 and the answer content analysis process 302 described above, when the matching text determination process 303 is performed, a question-answer pair that cannot be answered to a question asking about possibility is obtained.

更に、実施例1と同様に必要部分テキスト抽出処理304を実施して、結果を適合テキストテーブル801に格納し、格納されたデータを集計して、同件ケースの数を取得できる。同件が多い事柄は、ニーズが多いにも関わらず、実現できていない事柄であるため、この事柄をできるようにすることで、ユーザの利便性を向上させられる。   Further, the necessary partial text extraction process 304 is performed in the same manner as in the first embodiment, the result is stored in the matching text table 801, and the stored data is aggregated to obtain the number of the same case. The matter with many cases is a matter that has not been realized even though there are many needs, so the convenience of the user can be improved by making this matter possible.

図4の質問内容解析処置301の判定処理401の表現ルールを実施例2と同様とし、図5の回答内容解析処理302の概略PADにおいて、判定処理501の表現ルールを、代替策を提示する表現を抽出するルールとする例について説明する。例えば、「コマンドAでは変数Xを変更できません。ただし、ファイルBの定義文でXの値を変更すれば、変数Xを別の値に変更できます。」「関数Fではご質問の操作は実現できません。代わりに関数Gを使用して下さい。」のように、質問者が質問したやり方では実現できなくても、別の方法を用いれば目的を達成できる場合に、その方法を教えるというケースはよく起こる。このような代替策を回答しているケースをまとめておけば、同種の質問を受けたときに、一から調べなくてもすぐに回答できるため、レスポンス時間を短縮できる。また、同種の質問が多い場合には、質問してきたやり方の方が、より一般的である可能性も見出せるため、その方法で実現できるような仕様変更を検討するきっかけとしても有効である。   The expression rule of the determination process 401 of the question content analysis process 301 in FIG. 4 is the same as that in the second embodiment, and the expression rule of the determination process 501 is an expression that presents an alternative measure in the schematic PAD of the answer content analysis process 302 in FIG. A description will be given of an example in which the rule is used to extract. For example, “Command A cannot change variable X. However, if you change the value of X in the definition statement of file B, you can change variable X to another value.” If you can't do it the way the questioner asked you, but if you can achieve the goal by using another method, you can use the function G instead. " It happens often. Summarizing the cases where such alternatives are answered, the response time can be shortened because the same type of question can be answered immediately without searching from the beginning. In addition, when there are many similar questions, it is possible to find a possibility that the method of asking questions is more general, and it is also effective as an opportunity to study specification changes that can be realized by that method.

判定処理501の表現ルールを、「ただし、〜れば、…できます。」「代わりに、…して下さい。」といった、代替策を提示する表現を列挙し、列挙した表現を含むこと、とすることで、代替策を提示している回答を抽出できる。
図7の必要部分テキスト抽出処理304において、代替策の内容を表すテキストを抽出する処理を行ってもよい。「ただし」と「れば」の間に挟まれたテキストや、「代わりに」と「して下さい」の間など抽出ルールを作成することで抽出できる。抽出結果は適合テキストテーブル801の属性欄803に格納できる。
The expression rule of the determination process 501 is to enumerate expressions that present alternatives, such as “However, if you can ...”, “Please, instead ...”, and include the enumerated expressions. By doing so, you can extract answers that present alternatives.
In the necessary part text extraction process 304 of FIG. 7, a process of extracting text representing the contents of the alternative may be performed. It can be extracted by creating an extraction rule such as text between “how” and “if”, or between “instead” and “please”. The extraction result can be stored in the attribute column 803 of the matching text table 801.

図11は質問と代替策の表示例である。製品名1101、質問の内容1102、代替策1103を一覧表示している。質問回答テーブル201の属性欄206の格納情報により、表示項目を増やすことも可能である。新規の質問と同様の質問が含まれていれば、代替策がすぐにわかるため、回答時間を短縮できる。   FIG. 11 is a display example of questions and alternative measures. A list of product names 1101, question contents 1102, and alternative measures 1103 is displayed. It is also possible to increase the number of display items according to the information stored in the attribute column 206 of the question / answer table 201. If a question is included that is similar to a new question, the answer time can be reduced because the alternatives are readily known.

本願発明は、例えばサポートサービスやコールセンターに電話、メール、文書等で寄せられたり、Web上で収集される顧客等からの質問とそれに対する回答のテキストデータ分析に適用できる。   The present invention can be applied to, for example, text data analysis of questions from customers and the like collected by the telephone, e-mail, documents, etc. to support services and call centers, and collected on the Web.

101 情報抽出装置, 102 CPU,103 入力装置,104 出力装置,105 記憶装置,106 OS, 107 情報抽出プログラム, 108 質問解析モジュール,109 回答解析モジュール,110 適合テキスト判定モジュール,111 作業メモリ,201 質問回答テーブル, 202 質問テキスト、203 回答テキスト、204 質問フラグ、205 回答フラグ、206 属性、 301 質問内容解析処理、302 回答内容解析処理、303 適合テキスト判定処理、304 必要部分テキスト抽出処理、801 適合テキストテーブル、 802 必要部分テキスト、803 属性、804 質問回答ポインタ。   DESCRIPTION OF SYMBOLS 101 Information extraction device, 102 CPU, 103 Input device, 104 Output device, 105 Storage device, 106 OS, 107 Information extraction program, 108 Question analysis module, 109 Answer analysis module, 110 Conformance text determination module, 111 Work memory, 201 Question Answer table, 202 Question text, 203 Answer text, 204 Question flag, 205 Answer flag, 206 Attribute, 301 Question content analysis processing, 302 Answer content analysis processing, 303 Conformance text determination processing, 304 Necessary partial text extraction processing, 801 Conformance text Table, 802 Required text, 803 attribute, 804 Question answer pointer.

Claims (9)

質問テキストと回答テキストの対から成るテキストデータを入力する入力手段と、
前記質問テキストを解析する質問内容解析手段と、
前記回答テキストを解析する回答内容解析手段と、
前記質問内容解析手段と前記回答内容解析手段の解析結果からテキストの適合判定を行う適合テキスト判定手段と、
前記適合テキスト判定手段にて判定した結果を出力する出力手段とを有することを特徴とする情報取得装置。
An input means for inputting text data composed of a pair of question text and answer text;
A question content analysis means for analyzing the question text;
An answer content analyzing means for analyzing the answer text;
A conformance text determination means for performing text conformity determination from the analysis results of the question content analysis means and the answer content analysis means;
And an output means for outputting a result determined by the matching text determination means.
更に、前記適合テキスト判定手段が適合としたテキストデータから、必要な部分テキストを抽出する必要部分テキスト抽出手段を有し、
前記抽出した結果を前記判定した結果として出力することを特徴とする請求項1記載の情報取得装置。
Furthermore, it has a necessary partial text extracting means for extracting a necessary partial text from the text data that is adapted by the matching text determination means,
The information acquisition apparatus according to claim 1, wherein the extracted result is output as the determination result.
前記判定した結果には時間情報が付加されており、前記判定した結果と共に前記時間情報も出力されることを特徴とする請求項1記載の情報取得装置。   The information acquisition apparatus according to claim 1, wherein time information is added to the determination result, and the time information is output together with the determination result. 更に、前記質問テキストに属する属性を格納したテーブルを記憶する記憶手段を有することを特徴とする請求項1記載の情報取得装置。   2. The information acquisition apparatus according to claim 1, further comprising storage means for storing a table storing attributes belonging to the question text. 前記属性に基づいて、前記判定した結果を分類して出力することを特徴とする請求項4記載の情報取得装置。   The information acquisition apparatus according to claim 4, wherein the determination result is classified and output based on the attribute. 前記必要部分テキスト抽出手段は、前記質問テキスト又は/及び前記回答テキストについて、予め定めた抽出ルールに基づいて、前記必要な部分テキストを抽出することを特徴とする請求項2記載の情報取得装置。   3. The information acquisition apparatus according to claim 2, wherein the necessary part text extracting unit extracts the necessary part text based on a predetermined extraction rule for the question text and / or the answer text. 更に、複数の前記必要な部分テキストから、前記必要な部分テキストに含まれる単語の一致度による類似度を求める類似度計算部と、
前記類似度を求めた結果、同案件と認定された案件を集計する集計部とを有することを特徴とする請求項2記載の情報取得装置。
Furthermore, from a plurality of the necessary partial texts, a similarity calculation unit for obtaining a similarity according to the degree of coincidence of words included in the necessary partial text;
The information acquisition apparatus according to claim 2, further comprising: a totaling unit that tabulates the cases that are recognized as the result of obtaining the similarity.
前記適合テキスト判定手段は、可能性を問う前記質問テキストと、不可能を示す前記回答テキストの対を抽出することを特徴とする請求項1記載の情報取得装置。   The information acquisition apparatus according to claim 1, wherein the matching text determination unit extracts a pair of the question text asking for possibility and the answer text indicating impossibility. 前記適合テキスト判定手段は、前記質問テキストとそれに対する代替策を示す前記回答テキストとの対を抽出することを特徴とする請求項1記載の情報取得装置。   The information acquisition apparatus according to claim 1, wherein the matching text determination unit extracts a pair of the question text and the answer text indicating an alternative to the question text.
JP2011000902A 2011-01-06 2011-01-06 Information acquisition device Expired - Fee Related JP5560207B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011000902A JP5560207B2 (en) 2011-01-06 2011-01-06 Information acquisition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011000902A JP5560207B2 (en) 2011-01-06 2011-01-06 Information acquisition device

Publications (2)

Publication Number Publication Date
JP2012141910A true JP2012141910A (en) 2012-07-26
JP5560207B2 JP5560207B2 (en) 2014-07-23

Family

ID=46678112

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011000902A Expired - Fee Related JP5560207B2 (en) 2011-01-06 2011-01-06 Information acquisition device

Country Status (1)

Country Link
JP (1) JP5560207B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160041980A1 (en) * 2014-08-07 2016-02-11 International Business Machines Corporation Answering time-sensitive questions
US9430557B2 (en) 2014-09-17 2016-08-30 International Business Machines Corporation Automatic data interpretation and answering analytical questions with tables and charts
US9460075B2 (en) 2014-06-17 2016-10-04 International Business Machines Corporation Solving and answering arithmetic and algebraic problems using natural language processing
JP2025014962A (en) * 2023-07-20 2025-01-30 Lineヤフー株式会社 Information processing device, information processing method, and information processing program

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002304401A (en) * 2001-04-05 2002-10-18 Toshiba Corp Questionnaire processing device, questionnaire processing method and program
JP2002352057A (en) * 2001-05-25 2002-12-06 Nec Fielding Ltd Method and system for management of help desk service
JP2003108568A (en) * 2001-09-26 2003-04-11 Communication Research Laboratory Sentence classifying method and device
JP2003150622A (en) * 2001-11-13 2003-05-23 Canon Inc Information retrieval device
JP2005293529A (en) * 2004-03-31 2005-10-20 Toramatsu Shintani Customer's knowledge discovering/analyzing method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002304401A (en) * 2001-04-05 2002-10-18 Toshiba Corp Questionnaire processing device, questionnaire processing method and program
JP2002352057A (en) * 2001-05-25 2002-12-06 Nec Fielding Ltd Method and system for management of help desk service
JP2003108568A (en) * 2001-09-26 2003-04-11 Communication Research Laboratory Sentence classifying method and device
JP2003150622A (en) * 2001-11-13 2003-05-23 Canon Inc Information retrieval device
JP2005293529A (en) * 2004-03-31 2005-10-20 Toramatsu Shintani Customer's knowledge discovering/analyzing method

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNG200300654004; 那須川哲哉: 'コールセンターにおけるテキストマイニング' 人工知能学会誌 第16巻,第2号, 20010301, p.219-225, (社)人工知能学会 *
CSNJ200510006093; 松本和之、外1名: 'FAQ生成機能を持つ新しい電子掲示板の提案' 第66回(平成16年)全国大会講演論文集(2) 人工知能と認知科学 , 20040309, p.2-185,2-186 *
JPN6014002445; 松本和之、外1名: 'FAQ生成機能を持つ新しい電子掲示板の提案' 第66回(平成16年)全国大会講演論文集(2) 人工知能と認知科学 , 20040309, p.2-185,2-186 *
JPN6014002447; 那須川哲哉: 'コールセンターにおけるテキストマイニング' 人工知能学会誌 第16巻,第2号, 20010301, p.219-225, (社)人工知能学会 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9460075B2 (en) 2014-06-17 2016-10-04 International Business Machines Corporation Solving and answering arithmetic and algebraic problems using natural language processing
US9495355B2 (en) 2014-06-17 2016-11-15 International Business Machines Corporation Solving and answering arithmetic and algebraic problems using natural language processing
US9613091B2 (en) * 2014-08-07 2017-04-04 International Business Machines Corporation Answering time-sensitive questions
US9514185B2 (en) * 2014-08-07 2016-12-06 International Business Machines Corporation Answering time-sensitive questions
US20160041980A1 (en) * 2014-08-07 2016-02-11 International Business Machines Corporation Answering time-sensitive questions
US20170161261A1 (en) * 2014-08-07 2017-06-08 International Business Machines Corporation Answering time-sensitive questions
US9916303B2 (en) * 2014-08-07 2018-03-13 International Business Machines Corporation Answering time-sensitive questions
US9430558B2 (en) 2014-09-17 2016-08-30 International Business Machines Corporation Automatic data interpretation and answering analytical questions with tables and charts
US9430557B2 (en) 2014-09-17 2016-08-30 International Business Machines Corporation Automatic data interpretation and answering analytical questions with tables and charts
US10275713B2 (en) 2014-09-17 2019-04-30 International Business Machines Corporation Automatic data interpretation and answering analytical questions with tables and charts
US10275712B2 (en) 2014-09-17 2019-04-30 International Business Machines Corporation Automatic data interpretation and answering analytical questions with tables and charts
JP2025014962A (en) * 2023-07-20 2025-01-30 Lineヤフー株式会社 Information processing device, information processing method, and information processing program
JP7747694B2 (en) 2023-07-20 2025-10-01 Lineヤフー株式会社 Information processing device, information processing method, and information processing program

Also Published As

Publication number Publication date
JP5560207B2 (en) 2014-07-23

Similar Documents

Publication Publication Date Title
JP6783483B2 (en) Display device
JP2015036945A (en) Question answer control program, question answer control server, and question answer control method
JP6836294B2 (en) Search material information storage device
JP6425297B2 (en) Purchasing information utilization system, purchasing information utilization method, and program
CN108959453B (en) Information extraction method and device based on text clustering and readable storage medium
US20220114624A1 (en) Digital Content Text Processing and Review Techniques
JP5560207B2 (en) Information acquisition device
JP2019008530A (en) Business activity assisting system, business activity assisting method and business activity assisting program
US20220129491A1 (en) Method for supporting agent and computing device thereof
JP6677794B1 (en) Evaluation device, evaluation method and program
Wetzels et al. Measuring customer service quality in international marketing channels: a multimethod approach
JPWO2019003395A1 (en) Call center conversation content display system, method and program
JP6508327B2 (en) Text visualization system, text visualization method, and program
JP2019200713A (en) Information processing device, information processing method, and information processing program
JP2010211575A (en) Information evaluation support system
JP2005190284A (en) Information classification apparatus and information classification method
US20180081966A1 (en) Text visualization system, text visualization method, and recording medium
US20180322108A1 (en) Item name association processing method, computer-readable recording medium, and information processing apparatus
JP2010157122A (en) Sample merchandise questionnaire management system
JP2007140841A (en) Information processing apparatus and control method thereof
JP6700450B1 (en) Document output system, document output method, and document output program
JP4762767B2 (en) Total processing device, total processing method, total processing program, and total processing system
CN108182608B (en) Electronic device, product recommendation method, and computer-readable storage medium
JP6716919B2 (en) INFORMATION EXTRACTION DEVICE, EXTRACTION METHOD, AND EXTRACTION PROGRAM
CN119396860B (en) Population data sample expansion method, dialogue question-answering system, electronic device and storage medium

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120521

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130618

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140128

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140318

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140513

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140609

R151 Written notification of patent or utility model registration

Ref document number: 5560207

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees