JP2010056682A - E-mail receiver and method of receiving e-mail, e-mail transmitter and e-mail transmission method, mail transmission server - Google Patents
E-mail receiver and method of receiving e-mail, e-mail transmitter and e-mail transmission method, mail transmission server Download PDFInfo
- Publication number
- JP2010056682A JP2010056682A JP2008217206A JP2008217206A JP2010056682A JP 2010056682 A JP2010056682 A JP 2010056682A JP 2008217206 A JP2008217206 A JP 2008217206A JP 2008217206 A JP2008217206 A JP 2008217206A JP 2010056682 A JP2010056682 A JP 2010056682A
- Authority
- JP
- Japan
- Prior art keywords
- greeting
- text
- word
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
- Information Transfer Between Computers (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】 不適切な電子メールの交換を防止し、誤解が生じたり、誤送信によるトラブルの発生を防止するための技術を提供すること。
【解決手段】 通信ネットワークを介して外部のサーバからの電子メールを受信する電子メール受信装置であって、通信ネットワークに接続して電子メールを受信するメール受信処理手段201と、受信した電子メールから挨拶文を抽出する挨拶文抽出処理手段202と、少なくとも該挨拶文に含まれる語句情報を用いて、該挨拶文が含む語感の種類を判定する挨拶文語感判定処理手段203と、電子メールと共に、判定された該挨拶文の語感種類情報を出力する受信メール出力処理手段204とを備える。
【選択図】 図2PROBLEM TO BE SOLVED: To provide a technique for preventing inappropriate exchange of e-mails and preventing occurrence of misunderstanding or trouble due to erroneous transmission.
An e-mail receiving apparatus that receives an e-mail from an external server via a communication network, which is connected to the communication network and receives an e-mail, and from the received e-mail Along with the e-mail, the greeting text extraction processing means 202 for extracting the greeting text, the greeting text feeling determination processing means 203 for determining the type of word feeling included in the greeting text using at least the phrase information included in the greeting text, And a received mail output processing unit 204 that outputs the sensation type information of the determined greeting.
[Selection] Figure 2
Description
本発明は、コンピュータによる電子メールの送受信に係る技術に関し、特に電子メールに含まれる語感を自動的に判定する技術に関わる。 The present invention relates to a technique related to transmission / reception of an electronic mail by a computer, and more particularly to a technique for automatically determining a word feeling included in an electronic mail.
日常の連絡手段として電子メールの利用が普及し、企業等における業務上の連絡や、個人間の私的なメールの交換が行われている。
電子メールはごく簡単な操作で送受信が行え、相手方に即時に送達する特徴があるため、ちょっとした連絡でも電子メールを利用したり、会話と同じように頻繁にメールを交換する場合が増えている。
The use of e-mail has become widespread as a daily communication means, and business communication in companies and private mail exchange between individuals are performed.
Since e-mail can be sent and received with very simple operations and delivered immediately to the other party, the use of e-mail for even a small amount of communication and the frequent exchange of e-mails just like conversations are increasing.
一方、電子メールを使って連絡をとる問題点も少なくない。例えば、添付するファイルを間違えて誤った宛先に機密情報を送信してしまう問題や、手軽に情報を送信できるため会社から不正に情報を送信してしまうケースも発生している。
また、気軽に送信ができる反面、文章をよく吟味せずに送信したために誤解が生じ、人間関係が損なわれることもある。すなわち、手紙であれば送ること自体が手間がかかるために文章をよく吟味して送るのが一般的であるし、電話であれば相手の反応を確かめながら話をするため、大きな誤解を生じることは少ない。
しかし、電子メールの場合には、極端な場合、「はい」か「いいえ」だけを答えるような文章を送ることもあり、正確にニュアンスや真意が相手に伝わらず、感情的な行き違いに発展することがある。
On the other hand, there are not a few problems of contacting using e-mail. For example, there is a problem that confidential information is transmitted to an incorrect destination by mistake in an attached file, or that information is transmitted from a company illegally because information can be easily transmitted.
In addition, although it can be transmitted easily, misrepresentation occurs because the text is not examined carefully, and human relations may be impaired. In other words, since it is time-consuming to send a letter, it is common to carefully review the text, and to send a call while checking the other party's reaction. There are few.
However, in the case of e-mail, in extreme cases, a sentence that only answers “yes” or “no” may be sent, and the nuance and true intention will not be accurately conveyed to the other party, leading to an emotional misunderstanding. Sometimes.
さらに、同姓の相手にメールを送信する場合に、不注意で別の相手にメールを送信してしまうことがある。特に相手が目上の重要な人物の場合などに、友人宛のメールを送って不快な思いをさせてしまうこともある。 Furthermore, when sending an email to a partner with the same surname, the email may be inadvertently sent to another partner. In particular, when the other party is an important person, you may feel uncomfortable by sending an e-mail to a friend.
相手方からメールを受信する場合にも、普段からどのようなメールを書く相手なのかを把握することで、相手の心情に変化が生じているのかを知ることができるが、従来は毎回の相手の書き方を記憶し、記憶に基づいて判断せざるを得なかった。
相手方が多数になった場合には、すべてを把握することは不可能であり、相手の微妙な心情の変化を察知することが難しく、円滑なコミュニケーションの障害になっていた。
Even when receiving mail from the other party, you can know what kind of mail you normally write, so you can know if the other person's feelings have changed, I had to remember how to write and make judgments based on the memory.
When the number of opponents became large, it was impossible to grasp all of them, and it was difficult to detect subtle changes in the emotions of the opponents, which hindered smooth communication.
従来、誤送信を防止するための技術はいくつか提案されている。
例えば、特許文献1によれば、電子メールの宛先と件名の組み合わせ、あるいは宛先とキーワードの組み合わせとが一致した場合に、警告を出力する技術が提案されている。
この方法は、宛先とキーワードの一致だけをルールベースで比較するだけであるから、誤った相手に別件のメールを送付するのを防止するにとどまり、上述したような、メールの書き方が不適当である、といったことまで検出できるものではない。
Conventionally, several techniques for preventing erroneous transmission have been proposed.
For example, according to Patent Document 1, a technique for outputting a warning when a combination of an e-mail destination and a subject or a combination of an address and a keyword matches is proposed.
Since this method only compares the address and keyword match on a rule basis, it only prevents sending another email to the wrong party, and the above-mentioned email writing method is inappropriate. It is not something that can be detected.
本件発明に関連する技術として、本件発明者らにより、非特許文献1〜4の技術が開示されている。
非特許文献1は、日本語の副詞について、その単語がもつ肯定・否定・中立の3種類の極性を評価極性として付与した副詞辞書の作成について述べている。
非特許文献2は、Webテキストについて意見ごとに分類する分類タグを付与する技術について述べている。
非特許文献3は、日本語の副詞について、話者の表現意図を種類によって分類し、副詞辞書を構築すると共に、機械学習を利用して副詞を自動分類する技術について述べている。
非特許文献4は、新聞記事について機械学習を用いて肯定・否定・中立で意見を分類する方法について述べている。
As techniques related to the present invention, the present inventors have disclosed techniques of Non-Patent Documents 1 to 4.
Non-Patent Document 1 describes the creation of an adverb dictionary for a Japanese adverb, in which three polarities of the word, affirmation, denial, and neutrality, are assigned as evaluation polarities.
Non-Patent Document 2 describes a technique for providing a classification tag for classifying Web text for each opinion.
Non-Patent Document 3 describes a technique for classifying a speaker's expression intention by type for a Japanese adverb, constructing an adverb dictionary, and automatically classifying adverbs using machine learning.
Non-Patent Document 4 describes a method of classifying opinions based on affirmation, denial, and neutrality using machine learning for newspaper articles.
本発明は、上記従来技術の有する問題点に鑑みて創出されたものであり、不適切な電子メールの交換を防止し、誤解が生じたり、誤送信によるトラブルの発生を防止するための技術を提供することを目的とする。 The present invention was created in view of the above-described problems of the prior art, and is a technique for preventing inappropriate exchange of e-mails and preventing occurrence of misunderstandings or troubles due to erroneous transmission. The purpose is to provide.
本発明は上記課題の解決のために次のような手段を用いる。
請求項1に記載の発明は、通信ネットワークを介して外部のサーバからの電子メールを受信する電子メール受信装置を提供する。この電子メール受信装置には、通信ネットワークに接続して電子メールを受信するメール受信処理手段と、受信した電子メールから挨拶文を抽出する挨拶文抽出処理手段と、少なくとも挨拶文に含まれる語句情報を用いて、挨拶文が含む語感の種類を判定する挨拶文語感判定処理手段と、電子メールと共に、判定された挨拶文の語感種類情報を出力する受信メール出力処理手段とを備える。
The present invention uses the following means for solving the above problems.
The invention described in claim 1 provides an e-mail receiving apparatus for receiving e-mail from an external server via a communication network. The e-mail receiving apparatus includes a mail reception processing unit that receives an e-mail by connecting to a communication network, a greeting text extraction processing unit that extracts a greeting from the received e-mail, and at least phrase information included in the greeting Is used to determine the type of sensation included in the greeting text, and the received mail output processing means is used to output the sensation type information of the determined greeting text together with the e-mail.
請求項2に記載の発明によれば、前記挨拶文抽出処理手段において、電子メール中の挨拶文のテキスト情報又は出現箇所情報を予め格納した挨拶文規則データベースと、挨拶文データベースを参照して、テキスト情報と電子メールに含まれるテキストとの比較処理により関連する挨拶文を抽出するか、電子メールに含まれるテキストから出現箇所情報に従って挨拶文を抽出する挨拶文規則抽出部とを備えることを特徴とする。 According to the invention of claim 2, in the greeting text extraction processing means, referring to the greeting text rule database in which the text information or the appearance location information of the greeting text in the e-mail is stored in advance, and the greeting text database, A greeting text rule extracting unit is provided that extracts a related greeting text by comparing text information and text included in an e-mail, or extracts a greeting text from text included in an e-mail according to appearance location information. And
請求項3に記載の発明によれば、前記挨拶文抽出処理手段において、電子メール中のどの部分が挨拶文であるかを予め定義した教師データを用い、教師データにおける挨拶文の出現箇所情報、テキスト情報、品詞、あらかじめ挨拶に用いる語句を備えた挨拶表現辞書に含まれる単語か否か、電子メールの送信者又は受信者の情報、電子メールの件名の語句の少なくともいずれかを素性として機械学習し、その結果を格納した挨拶文学習データベースを備える。そして、前記受信した電子メールを入力して、挨拶文学習データベースを参照して機械学習処理により挨拶文を抽出する挨拶文機械学習抽出部を備えた電子メール受信装置を提供する。 According to the invention of claim 3, in the greeting text extraction processing means, using teacher data that predefines which part in the e-mail is a greeting text, the appearance location information of the greeting text in the teacher data, Machine learning based on at least one of the following features: text information, part of speech, whether or not a word is included in a greeting expression dictionary with words used for greetings in advance, e-mail sender or recipient information, and e-mail subject words And a greeting text learning database storing the results. An electronic mail receiving apparatus including a greeting text machine learning extraction unit that inputs the received electronic mail and extracts a greeting text by machine learning processing with reference to a greeting text learning database.
請求項4に記載の発明によれば、前記挨拶文語感判定処理手段において、電子メール中の挨拶文のテキスト情報について各挨拶文に対応する語感種類情報を予め格納した挨拶文語感規則データベースと、前記挨拶文抽出処理手段で抽出された挨拶文と、挨拶文語感規則データベースとの比較処理又は所定の演算処理により挨拶文語感種類を判定する挨拶文語感規則判定部とを備えた電子メール受信装置を提供することができる。 According to the invention of claim 4, in the greeting text word feeling determination processing means, greeting text word feeling rule database in which word feeling type information corresponding to each greeting text is stored in advance for text information of the greeting text in the e-mail; An e-mail receiving device comprising: a greeting text extracted by the greeting text extraction processing means and a greeting text word feeling rule determination unit for determining a greeting text word feeling type by a comparison process with a greeting text word feeling rule database or a predetermined calculation process Can be provided.
請求項5に記載の発明によれば、前記挨拶文語感判定処理手段において、電子メール中の挨拶文から判定されるべき語感の種類情報を予め定義した教師データを用い、教師データにおける挨拶文の出現箇所情報、テキスト情報、品詞、あらかじめ挨拶に用いる語句を備えた挨拶表現辞書に含まれる単語か否か、電子メールの送信者又は受信者の情報、電子メールの件名の語句の少なくともいずれかを素性として機械学習し、その結果を格納した挨拶文語感学習データベースを用いる。
そして、少なくとも前記挨拶文抽出処理手段で抽出された挨拶文を入力して、挨拶文語感学習データベースを参照して機械学習処理により語感種類情報を判定する挨拶文語感機械学習判定部を備えた電子メール受信装置を提供する。
According to the fifth aspect of the present invention, the greeting text sensation determination processing means uses teacher data that predefines the type of linguistic feeling to be determined from the greeting text in the e-mail. Appearance location information, text information, part of speech, whether or not it is a word included in the greeting expression dictionary with words used for greetings in advance, information on the sender or recipient of the email, at least one of the words in the subject of the email Machine learning is used as a feature, and a greeting text learning database storing the results is used.
An electronic device comprising a greeting text / feeling machine learning determination unit that inputs at least the greeting text extracted by the greeting text extraction processing means and determines the speech type information by machine learning processing with reference to the greeting text / feeling learning database A mail receiving device is provided.
請求項6に記載の発明によれば、前記電子メール受信装置において、前記メール受信処理手段が受信した電子メールにおいて、少なくとも電子メールの送信者の情報と、その電子メールに係る語感種類情報とを記憶手段に格納する過去履歴格納処理手段と、電子メールの受信時又は所定の契機に、受信した電子メールと、送信者の情報が一致する過去履歴を参照して、語感種類情報の履歴又は変化を検出する過去履歴検出手段と、少なくとも受信した電子メールと共に履歴又は変化を出力する過去履歴出力手段とを備えた電子メール受信装置を提供することができる。 According to the sixth aspect of the present invention, in the electronic mail receiving device, in the electronic mail received by the mail reception processing means, at least information on the sender of the electronic mail and word sense type information related to the electronic mail are included. History or change of sensation type information with reference to past history storage processing means to be stored in storage means, and past history in which the received e-mail and sender's information match at the time of e-mail reception or at a predetermined opportunity It is possible to provide an e-mail receiving device that includes a past history detecting means for detecting a history and a past history output means for outputting a history or a change together with at least the received e-mail.
請求項7に記載の発明によれば、前記電子メール受信装置において、少なくとも電子メールのテキストに含まれる語句情報を用いて、テキストが含む語感の種類を判定する電子メール語感判定処理手段を備える構成であって、電子メール語感判定処理手段が、複数の語句に対応する語感種類情報を予め格納した極性辞書データベースと、テキストに含まれる語句と、極性辞書データベースとの比較処理又は所定の演算処理によりテキストの語感種類を判定する電子メール語感規則判定部とを備える。
本構成において、受信メール出力処理手段において、テキスト又はテキストの語感種類を出力することを特徴とする。
According to a seventh aspect of the present invention, the electronic mail receiving apparatus includes an electronic mail utterance determination processing unit that determines the type of sensation included in the text using at least phrase information included in the text of the electronic mail. In this case, the e-mail word sense determination processing means performs a comparison process or a predetermined calculation process between the polarity dictionary database in which word type information corresponding to a plurality of words is stored in advance, the words included in the text, and the polarity dictionary database. An e-mail word sense rule judging unit for judging the word sense type.
In this configuration, the received mail output processing means outputs the text or the text sensation type.
請求項8に記載の発明によれば、前記電子メール受信装置において、少なくとも電子メールのテキストに含まれる語句情報を用いて、テキストが含む語感の種類を判定する電子メール語感判定処理手段を備える。
本構成において、電子メール語感判定処理手段が、複数の語句に対応する語感種類情報を予め格納した極性辞書データベースと、電子メールから判定されるべき語感の種類情報を予め定義した教師データを用い、教師データにおけるテキスト情報、極性辞書にある語句を含むか否か又はその語感種類情報、電子メールの送信者又は受信者の情報、電子メールの件名の語句の少なくともいずれかを素性として機械学習し、その結果を格納した電子メール語感学習データベースと、少なくとも受信した前記電子メールを入力して、電子メール語感学習データベースを参照して機械学習処理により語感種類情報を判定する電子メール語感機械学習判定部とを備える。そして、前記受信メール出力処理手段において、テキスト又はテキストの語感種類を出力することを特徴とする。
According to an eighth aspect of the present invention, the electronic mail receiving device includes an electronic mail feeling determination processing means for determining a kind of word feeling included in the text using at least word / phrase information included in the text of the electronic mail.
In this configuration, the e-mail feeling determination processing means uses a polarity dictionary database that pre-stores feeling type information corresponding to a plurality of phrases, and teacher data that predefines the type information of the feeling to be determined from the e-mail, Machine learning using text information in teacher data, whether or not it contains words or phrases in the polarity dictionary, or its kind of feeling information, information on the sender or recipient of an email, at least one of words in the subject of an email as a feature, An e-mail word sense learning database storing the result, and an e-mail word sense machine learning determination unit that inputs at least the received e-mail and determines word type information by machine learning processing with reference to the e-mail word sense learning database; Is provided. The received mail output processing means outputs the text or the text sensation type.
請求項9に記載の発明によれば、通信ネットワークを介して外部のサーバに向けて電子メールを送信する電子メール送信装置を提供することもできる。
本装置には、送信する電子メールを入力する送信メール入力処理手段と、送信する電子メールから挨拶文を抽出する挨拶文抽出処理手段と、少なくとも挨拶文に含まれる語句情報を用いて、挨拶文が含む語感の種類を判定する挨拶文語感判定処理手段と、判定された挨拶文の語感種類情報を出力する語感出力処理手段とを備えたことを特徴とする。
本装置には、上記の他に、通信ネットワークに接続して指定された宛先に向けて電子メールを送信する公知のメール送信処理手段を備える。
According to the ninth aspect of the present invention, it is also possible to provide an e-mail transmission device that transmits an e-mail to an external server via a communication network.
The apparatus includes a transmission mail input processing means for inputting an electronic mail to be transmitted, a greeting text extraction processing means for extracting a greeting text from the electronic mail to be transmitted, and at least a phrase text included in the greeting text. A greeting sentence word feeling determination processing means for determining the kind of word feeling included in the voice message, and a word feeling output processing means for outputting the word feeling kind information of the determined greeting sentence.
In addition to the above, this apparatus includes known mail transmission processing means for transmitting an e-mail to a specified destination connected to a communication network.
請求項10に記載の発明によれば、前記挨拶文抽出処理手段において、電子メール中の挨拶文のテキスト情報又は出現箇所情報を予め格納した挨拶文規則データベースと、挨拶文データベースを参照して、テキスト情報と電子メールに含まれるテキストとの比較処理により関連する挨拶文を抽出するか、電子メールに含まれるテキストから出現箇所情報に従って挨拶文を抽出する挨拶文規則抽出部とを備えた電子メール送信装置を提供することができる。
According to the invention described in
請求項11に記載の発明によれば、前記挨拶文抽出処理手段において、電子メール中のどの部分が挨拶文であるかを予め定義した教師データを用い、教師データにおける挨拶文の出現箇所情報、テキスト情報、品詞、あらかじめ挨拶に用いる語句を備えた挨拶表現辞書に含まれる単語か否か、電子メールの送信者又は受信者の情報、電子メールの件名の語句の少なくともいずれかを素性として機械学習し、その結果を格納した挨拶文学習データベースを用いる。
そして、前記送信する電子メールを入力して、挨拶文学習データベースを参照して機械学習処理により挨拶文を抽出する挨拶文機械学習抽出部を備える。
According to the eleventh aspect of the present invention, the greeting text extraction processing means uses teacher data that predefines which part in the e-mail is a greeting text, Machine learning based on at least one of the following features: text information, part of speech, whether or not a word is included in a greeting expression dictionary with words used for greetings in advance, e-mail sender or recipient information, and e-mail subject words Then, a greeting text learning database storing the results is used.
A greeting text machine learning extraction unit is provided that inputs the e-mail to be transmitted and extracts a greeting text by machine learning processing with reference to the greeting text learning database.
請求項12に記載の発明によれば、前記挨拶文語感判定処理手段において、電子メール中の挨拶文のテキスト情報について各挨拶文に対応する語感種類情報を予め格納した挨拶文語感規則データベースと、挨拶文抽出処理手段で抽出された挨拶文と、挨拶文語感規則データベースとの比較処理又は所定の演算処理により挨拶文語感種類を判定する挨拶文語感規則判定部とを備えた電子メール送信装置を提供することができる。
According to the invention described in
請求項13に記載の発明によれば、前記挨拶文語感判定処理手段において、電子メール中の挨拶文から判定されるべき語感の種類情報を予め定義した教師データを用い、教師データにおける挨拶文の出現箇所情報、テキスト情報、品詞、あらかじめ挨拶に用いる語句を備えた挨拶表現辞書に含まれる単語か否か、電子メールの送信者又は受信者の情報、電子メールの件名の語句の少なくともいずれかを素性として機械学習し、その結果を格納した挨拶文語感学習データベースを用いる。
そして、少なくとも前記挨拶文抽出処理手段で抽出された挨拶文を入力して、挨拶文語感学習データベースを参照して機械学習処理により語感種類情報を判定する挨拶文語感機械学習判定部とを備える。
According to the invention of claim 13, the greeting text word feeling determination processing means uses teacher data in which the kind information of the word feeling to be determined from the greeting text in the email is defined in advance, and the greeting text in the teacher data Appearance location information, text information, part of speech, whether or not it is a word included in the greeting expression dictionary with words used for greetings in advance, information on the sender or recipient of the email, at least one of the words in the subject of the email Machine learning is used as a feature, and a greeting text learning database storing the results is used.
A greeting text / feeling machine learning determination unit that inputs at least the greeting text extracted by the greeting text extraction processing means and determines the word feeling type information by machine learning processing with reference to the greeting text word feeling learning database.
請求項14に記載の発明によれば、前記電子メール送信装置において、送信メール入力処理手段が入力した電子メールにおいて、少なくとも電子メールの送信者の情報と、その電子メールに係る語感種類情報とを記憶手段に格納する過去履歴格納処理手段と、電子メールの送信時又は所定の契機に、送信する電子メールと、受信者の情報が一致する過去履歴を参照して、語感種類情報の履歴又は変化を検出する過去履歴検出手段と、少なくとも送信する電子メールと共に履歴又は変化を出力する過去履歴出力手段とを備えた電子メール送信装置を提供することができる。 According to the invention described in claim 14, in the electronic mail transmitting apparatus, in the electronic mail input by the transmitted mail input processing means, at least information on the sender of the electronic mail and linguistic type information related to the electronic mail are included. History or change of word sense type information with reference to past history storage processing means to be stored in storage means, and past history in which e-mail to be sent and recipient information match at the time of e-mail transmission or at a predetermined opportunity It is possible to provide an e-mail transmission apparatus including a past history detection unit that detects a history and a past history output unit that outputs a history or a change together with at least an e-mail to be transmitted.
請求項15に記載の発明によれば、前記電子メール送信装置において、少なくとも前記電子メールのテキストに含まれる語句情報を用いて、テキストが含む語感の種類を判定する電子メール語感判定処理手段を備える構成であって、電子メール語感判定処理手段が、複数の語句に対応する語感種類情報を予め格納した極性辞書データベースと、テキストに含まれる語句と、極性辞書データベースとの比較処理又は所定の演算処理によりテキストの語感種類を判定する電子メール語感規則判定部とを備え、前記語感出力処理手段において、テキスト又はテキストの語感種類を出力することを特徴とする。 According to the fifteenth aspect of the present invention, the electronic mail transmitting device includes an electronic mail feeling determination processing means for determining a kind of word feeling included in the text using at least word / phrase information included in the text of the electronic mail. A configuration in which the e-mail word sense determination processing means stores a word dictionary type information corresponding to a plurality of words in advance, a comparison process between words included in the text and the polarity dictionary database, or a predetermined calculation process. And an e-mail sensation rule determination unit for determining the sensation type of the text, and the sensation output processing means outputs the sensation type of the text or text.
請求項16に記載の発明によれば、電子メール送信装置において、少なくとも前記電子メールのテキストに含まれる語句情報を用いて、テキストが含む語感の種類を判定する電子メール語感判定処理手段を備える。
本構成において、電子メール語感判定処理手段が、複数の語句に対応する語感種類情報を予め格納した極性辞書データベースと、電子メールから判定されるべき語感の種類情報を予め定義した教師データを用い、教師データにおけるテキスト情報、極性辞書にある語句を含むか否か又はその語感種類情報、電子メールの送信者又は受信者の情報、電子メールの件名の語句の少なくともいずれかを素性として機械学習し、その結果を格納した電子メール語感学習データベースを用いる。
そして、少なくとも受信した前記電子メールを入力して、電子メール語感学習データベースを参照して機械学習処理により語感種類情報を判定する電子メール語感機械学習判定部とを備え、前記語感出力処理手段において、テキスト又はテキストの語感種類を出力することを特徴とする。
According to the sixteenth aspect of the present invention, the electronic mail transmitting device includes an electronic mail feeling determination processing means for determining a kind of word feeling included in the text by using at least phrase information included in the text of the electronic mail.
In this configuration, the e-mail feeling determination processing means uses a polarity dictionary database that pre-stores feeling type information corresponding to a plurality of phrases, and teacher data that predefines the type information of the feeling to be determined from the e-mail, Machine learning using text information in teacher data, whether or not it contains words or phrases in the polarity dictionary, or its kind of feeling information, information on the sender or recipient of an email, at least one of words in the subject of an email as a feature, An e-mail linguistic learning database storing the results is used.
Then, at least the received e-mail is input, and an e-mail word sense machine learning determination unit that determines word sense type information by machine learning processing with reference to an e-mail word sense learning database, It is characterized by outputting the text or the feeling type of the text.
請求項17に記載の発明によれば、前記電子メール送信装置において、送信する電子メールに付加すべき挨拶文を自動的に提示する挨拶文提示処理手段を備える構成であって、挨拶文提示処理手段が、前記過去履歴格納処理手段の過去履歴を参照し、送信する電子メールの少なくとも受信者の情報と一致する過去履歴における挨拶文を抽出する過去履歴挨拶文抽出処理部と抽出された挨拶文の一部又は全部を提示する挨拶文提示処理部とを備えることができる。 According to the seventeenth aspect of the present invention, the electronic mail transmitting device includes a greeting text presentation processing means for automatically presenting a greeting text to be added to the electronic mail to be transmitted. The means refers to the past history of the past history storage processing means, and extracts a past history greeting text extraction processing section for extracting a greeting text in the past history that matches at least the recipient information of the e-mail to be transmitted, and the extracted greeting text A greeting sentence presentation processing unit that presents a part or all of the message.
請求項18に記載の発明によれば、クライアント端末からのメールデータを受信して、メールデータに含まれる宛先アドレスに向けてメールを送信するメール送信サーバを提供することもできる。
本サーバには、前記請求項9ないし17に記載の電子メール送信装置を備え、上記の語感出力処理手段又は過去履歴出力手段、挨拶文提示処理手段の少なくともいずれかの手段からの出力結果の全部又は所定の条件に該当する一部をクライアント端末又は所定の管理用端末に通知し、少なくとも電子メールを宛先に送信するか否かを照会する端末照会処理手段を備えたことを特徴とする。
According to the eighteenth aspect of the present invention, it is possible to provide a mail transmission server that receives mail data from a client terminal and transmits mail toward a destination address included in the mail data.
The server includes the electronic mail transmitting device according to any one of claims 9 to 17, and all the output results from at least one of the above-mentioned speech output processing means, past history output means, and greeting sentence presentation processing means. Alternatively, a terminal inquiry processing means for notifying a client terminal or a predetermined management terminal of a part corresponding to a predetermined condition and inquiring whether or not to send at least an e-mail to a destination is provided.
請求項19に記載の発明によれば、通信ネットワークを介して外部のサーバからの電子メールを受信するコンピュータの電子メール受信方法を提供することができる。
本方法において、メール受信処理手段が、通信ネットワークに接続して電子メールを受信するメール受信処理ステップ、挨拶文抽出処理手段が、受信した電子メールから挨拶文を抽出する挨拶文抽出処理ステップ、挨拶文語感判定処理手段が、少なくとも挨拶文に含まれる語句情報を用いて、挨拶文が含む語感の種類を判定する挨拶文語感判定処理ステップ、受信メール出力処理手段が、電子メールと共に、判定された挨拶文の語感種類情報を出力する受信メール出力処理ステップを有することを特徴とする。
According to the nineteenth aspect of the present invention, it is possible to provide an electronic mail receiving method for a computer that receives an electronic mail from an external server via a communication network.
In this method, a mail reception processing means connects to a communication network to receive an e-mail, a mail reception processing step, a greeting text extraction processing means extracts a greeting text from the received e-mail, a greeting text extraction processing step, a greeting The sentence feeling determination processing means uses at least the phrase information included in the greeting sentence, the greeting sentence word feeling determination processing step for determining the kind of word feeling included in the greeting sentence, and the received mail output processing means are determined together with the e-mail. It has the received mail output process step which outputs the sensation kind information of a greeting.
請求項20に記載の発明によれば、通信ネットワークを介して外部のサーバに向けて電子メールを送信するコンピュータの電子メール送信方法を提供することができる。
本方法において、送信メール入力処理手段が、送信する電子メールを入力する送信メール入力処理ステップ、挨拶文抽出処理手段が、送信する電子メールから挨拶文を抽出する挨拶文抽出処理ステップ、挨拶文語感判定処理手段が、少なくとも挨拶文に含まれる語句情報を用いて、挨拶文が含む語感の種類を判定する挨拶文語感判定処理ステップ、語感出力処理手段が、判定された挨拶文の語感種類情報を出力する語感出力処理ステップを有することを特徴とする。
According to the twentieth aspect of the present invention, it is possible to provide an e-mail transmission method for a computer that transmits an e-mail to an external server via a communication network.
In this method, a transmission mail input processing means inputs a transmission mail input processing step for inputting an electronic mail to be transmitted; a greeting text extraction processing means extracts a greeting text from the electronic mail to be transmitted; The determination processing means uses at least the phrase information included in the greeting text to determine the type of sensation included in the greeting text, and the utterance output processing means determines the sensation type information of the determined greeting text. It has a word output process step for outputting.
本発明は、上記構成を備えることにより次のような効果を奏する。
請求項1又は19に記載の発明によると、受信した電子メールから挨拶文を抽出し、その語感の種類を判定してユーザに示すことができるので、ユーザはそれが丁寧なメールなのか、形式的なメールなのか、親しげなメールなのか、といった電子メールの語感を客観的に把握することができ、読み手の意図を正確に知ることに寄与する。
特に、本発明は比較的パターンに分類しやすく、送信者と受信者との関係を表すことの多い挨拶文に着目することで、語感を効率的に判定することを特徴とする。
The present invention has the following effects by providing the above configuration.
According to the invention described in claim 1 or 19, a greeting can be extracted from the received e-mail, and the type of sensation can be determined and shown to the user. This makes it possible to objectively grasp the e-mail word sense, such as whether it is an e-mail or a friendly e-mail, and contributes to knowing the reader's intention accurately.
In particular, the present invention is characterized in that the sensation is efficiently determined by focusing on greetings that are relatively easy to classify into patterns and often represent the relationship between the sender and the receiver.
請求項2に記載の発明によると、挨拶文抽出処理において、あらかじめユーザが定義したルールベースによる抽出を行うことができるので、簡易な抽出方法を実現することができる。また、ルールベースを用いることで、確実に語感を表現する語句を含む電子メールについては正確に判定することができる。 According to the second aspect of the present invention, in the greeting sentence extraction process, extraction based on a rule base defined in advance by the user can be performed, so that a simple extraction method can be realized. Further, by using the rule base, it is possible to accurately determine an e-mail including a phrase that expresses a sense of word.
請求項3に記載の発明によると、機械学習モジュールを用い、その素性として、挨拶文の出現箇所情報、テキスト情報、品詞、あらかじめ挨拶に用いる語句を備えた挨拶表現辞書に含まれる単語か否か、電子メールの送信者又は受信者の情報、電子メールの件名の語句を使うことで高精度な挨拶文の抽出に寄与する。
特に、挨拶文が出現する箇所は一般に文頭、文末が多いことや、挨拶文に使われる語句、構文、品詞などの文法的情報を素性として用いることで良好に判定することができる。さらに、電子メールのドメイン名から挨拶文を含みやすいかどうかに影響する場合もあり、これを素性とすることもできる。
According to the third aspect of the present invention, whether or not the word is included in the greeting expression dictionary having the appearance part information of the greeting sentence, the text information, the part of speech, and the phrase used for the greeting in advance as a feature using the machine learning module. By using the information of the sender or receiver of the e-mail and the word / phrase of the subject of the e-mail, it contributes to the extraction of a highly accurate greeting.
In particular, it is possible to make a good determination by using a grammatical information such as a phrase, syntax, part of speech, etc. used in a greeting sentence as a feature, because a part where a greeting sentence appears generally has many sentence heads and sentence endings. Furthermore, it may affect whether it is easy to include a greeting from the domain name of the e-mail, and this can be used as a feature.
請求項4に記載の発明によると、挨拶文語感判定処理手段において挨拶文語感規則データベースを用い、ルールベースによる語感の判定を行うことができる。
挨拶文は定型的な文章、語句が多く、ルールベースによっても比較的良好な判定を行うことができ、簡易、高速な判定手法を実現できる。
特に、複数の送信ユーザの電子メールを本装置を介して送信する構成では、ルールベースで機械的に不適切な内容のメールを検出することができる。
According to the fourth aspect of the present invention, it is possible to determine the word feeling based on the rule base using the greeting sentence word feeling rule database in the greeting sentence word feeling determination processing means.
Many greetings are typical sentences and phrases, and a relatively good determination can be made by the rule base, and a simple and high-speed determination method can be realized.
In particular, in a configuration in which e-mails of a plurality of sending users are transmitted via this apparatus, it is possible to detect a mail with inappropriate content on a rule basis.
請求項5に記載の発明によると、機械学習モジュールを用い、その素性として、挨拶文の出現箇所情報、テキスト情報、品詞、あらかじめ挨拶に用いる語句を備えた挨拶表現辞書に含まれる単語か否か、電子メールの送信者又は受信者の情報、電子メールの件名の語句を使うことで高精度な語感の判定に寄与する。
特に、挨拶文が出現する箇所や、回数、挨拶文に使われる語句、構文、品詞などの文法的情報を素性として用いることで良好に判定することができる。さらに、電子メールのドメイン名から送信者と受信者の関係が現れることもあるためこれを素性とすることもできる。
According to the fifth aspect of the present invention, whether or not the word is included in the greeting expression dictionary having the appearance part information of the greeting sentence, the text information, the part of speech, and the phrase used for greeting in advance as the feature using the machine learning module. By using the information of the sender or receiver of the e-mail and the phrase of the subject of the e-mail, it contributes to the determination of the word feeling with high accuracy.
In particular, it is possible to make a good determination by using as features the location where the greeting appears, the number of times, grammatical information such as phrases, syntax, parts of speech used in the greeting. Furthermore, since the relationship between the sender and the receiver may appear from the domain name of the e-mail, this can be used as a feature.
請求項6に記載の発明によると、受信したメールの過去履歴を格納しておくことができるので、電子メールを受信した時や、ユーザが指定した時などの所定の契機に、同じ送信者の過去の語感などを参照することができる。例えば、同じ差出人からのメールが来た際に過去にもらったメールと比較してその差出人の態度(親密になった。そっけなくなった。怒っているなど)を判定してユーザにその態度を示すことができる。
これにより、大量のメールを受信を行っているユーザでも、手軽にメールの語感の変化をくみ取ることができ、円滑なコミュニケーションに寄与する。
According to the invention described in claim 6, since the past history of the received mail can be stored, when the e-mail is received or specified by the user, the same sender's history is stored. You can refer to past feelings. For example, when an e-mail from the same sender arrives, the attitude of the sender (became intimate, no longer ridiculous, angry, etc.) compared to the e-mail received in the past is shown to the user be able to.
Thereby, even a user who receives a large amount of mail can easily grasp the change in the word feeling of the mail and contribute to smooth communication.
請求項7に記載の発明によれば、上記の挨拶文以外のテキスト、例えばメールの本文や題名などについても、その語感を判定することができる。
その際に、従来技術で述べた極性辞書等を利用し、その辞書に登録された語句とテキストとの比較処理や所定の演算処理で判定することで、複数の文章を含むテキストを対象にしてもコンピュータを用いて容易に当該電子メールの語感を判定することができる。
According to the seventh aspect of the present invention, it is possible to determine the sensation of texts other than the above greetings, for example, the body of a mail or the title.
At that time, by using the polarity dictionary etc. described in the prior art and making a determination by comparing the words and phrases registered in the dictionary with the text or by a predetermined calculation process, the text including a plurality of sentences is targeted. In addition, it is possible to easily determine the word feeling of the e-mail using a computer.
請求項8に記載の発明によれば、機械学習モジュールを用い、その素性として、学習データにおけるテキスト情報、極性辞書にある語句を含むか否か又はその語感種類情報、電子メールの送信者又は受信者の情報、電子メールの件名の語句を使うことで高精度な語感の判定に寄与する。
特に、電子メールに含まれている文章や語句などのテキスト情報を用いたり、極性辞書にある語句を含むかどうか、あるいはその語感種類情報を用いることで良好に判定することができる。さらに、電子メールのドメイン名から送信者と受信者の関係が現れることもあるためこれを素性とすることもできる。
According to the eighth aspect of the present invention, the machine learning module is used, and as its feature, text information in the learning data, whether or not it contains a word or phrase in the polar dictionary, or its sensation type information, sender or reception of e-mail It contributes to the determination of word sense with high accuracy by using the words of the subject and the subject of the e-mail.
In particular, it is possible to make a good determination by using text information such as sentences and phrases included in the e-mail, whether or not to include words or phrases in the polar dictionary, or using the word sense type information. Furthermore, since the relationship between the sender and the receiver may appear from the domain name of the e-mail, this can be used as a feature.
請求項9又は20に記載の発明によると、送信する電子メールから挨拶文を抽出し、その語感の種類を判定してユーザに示すことができるので、ユーザは送信前、あるいは送信後に、電子メールが適切なものであったのか客観的に把握することができる。これにより、第三者との無用のトラブルを防止することができる。さらに、メールの受信者を勘違いして不適切な語感のメールを送信してしまうことを防ぐことにも寄与する。
特に、本発明は比較的パターンに分類しやすく、送信者と受信者との関係を表すことの多い挨拶文に着目することで、語感を効率的に判定することを特徴とする。
According to the ninth or twentieth aspect of the present invention, since the greeting can be extracted from the e-mail to be transmitted, and the kind of feeling can be determined and shown to the user. Can be objectively grasped whether or not was appropriate. Thereby, an unnecessary trouble with a third party can be prevented. Furthermore, it contributes to preventing an email with an inappropriate language feeling from being misunderstood by the recipient of the email.
In particular, the present invention is characterized in that the sensation is efficiently determined by focusing on greetings that are relatively easy to classify into patterns and often represent the relationship between the sender and the receiver.
請求項10に記載の発明によると、挨拶文抽出処理において、あらかじめユーザが定義したルールベースによる抽出を行うことができるので、簡易な抽出方法を実現することができる。また、ルールベースを用いることで、確実に語感を表現する語句を含む電子メールについては正確に判定することができる。
特に、複数の送信ユーザの電子メールを本装置を介して送信する構成では、ルールベースで機械的に不適切な内容のメールを検出することができる。
According to the tenth aspect of the present invention, in the greeting sentence extraction process, extraction based on a rule base defined in advance by the user can be performed, so that a simple extraction method can be realized. Further, by using the rule base, it is possible to accurately determine an e-mail including a phrase that expresses a sense of word.
In particular, in a configuration in which e-mails of a plurality of sending users are transmitted via this apparatus, it is possible to detect a mail with inappropriate content on a rule basis.
請求項11に記載の発明によると、機械学習モジュールを用い、その素性として、挨拶文の出現箇所情報、テキスト情報、品詞、あらかじめ挨拶に用いる語句を備えた挨拶表現辞書に含まれる単語か否か、電子メールの送信者又は受信者の情報、電子メールの件名の語句を使うことで高精度な挨拶文の抽出に寄与する。
特に、挨拶文が出現する箇所は一般に文頭、文末が多いことや、挨拶文に使われる語句、構文、品詞などの文法的情報を素性として用いることで良好に判定することができる。さらに、電子メールのドメイン名から挨拶文を含みやすいかどうかに影響する場合もあり、これを素性とすることもできる。
According to the invention of
In particular, it is possible to make a good determination by using a grammatical information such as a phrase, syntax, part of speech, etc. used in a greeting sentence as a feature, because a part where a greeting sentence appears generally has many sentence heads and sentence endings. Furthermore, it may affect whether it is easy to include a greeting from the domain name of the e-mail, and this can be used as a feature.
請求項12に記載の発明によると、挨拶文語感判定処理手段において挨拶文語感規則データベースを用い、ルールベースによる語感の判定を行うことができる。
挨拶文は定型的な文章、語句が多く、ルールベースによっても比較的良好な判定を行うことができ、簡易、高速な判定手法を実現できる。
According to the twelfth aspect of the present invention, it is possible to determine the sensation based on the rule base by using the greeting sentence sensation rule database in the greeting sentence sensation determination processing means.
Many greetings are typical sentences and phrases, and a relatively good determination can be made by the rule base, and a simple and high-speed determination method can be realized.
請求項13に記載の発明によると、機械学習モジュールを用い、その素性として、挨拶文の出現箇所情報、テキスト情報、品詞、あらかじめ挨拶に用いる語句を備えた挨拶表現辞書に含まれる単語か否か、電子メールの送信者又は受信者の情報、電子メールの件名の語句を使うことで高精度な語感の判定に寄与する。
特に、挨拶文が出現する箇所や、回数、挨拶文に使われる語句、構文、品詞などの文法的情報を素性として用いることで良好に判定することができる。さらに、電子メールのドメイン名から送信者と受信者の関係が現れることもあるためこれを素性とすることもできる。
According to the invention of claim 13, whether or not the word is included in the greeting expression dictionary having the appearance part information of the greeting sentence, the text information, the part of speech, and the word / phrase used for the greeting in advance, using the machine learning module. By using the information of the sender or receiver of the e-mail and the phrase of the subject of the e-mail, it contributes to the determination of the word feeling with high accuracy.
In particular, it is possible to make a good determination by using as features the location where the greeting appears, the number of times, grammatical information such as phrases, syntax, parts of speech used in the greeting. Furthermore, since the relationship between the sender and the receiver may appear from the domain name of the e-mail, this can be used as a feature.
請求項14に記載の発明によると、メール送信装置に入力したメールの過去履歴を格納しておくことができるので、電子メールを送信する時や、ユーザが指定した時などの所定の契機に、同じ受信者に送信した過去の電子メールの語感などを参照することができる。例えば、同じ差出人に対してメールする際に過去に送ったメールと同程度の挨拶文を作成して送信することに役立つ。
挨拶文が異なる場合は、異なり具合に応じた注意喚起をうながすメッセージを出すようにすることもできる。
According to the invention described in claim 14, since the past history of the mail input to the mail transmitting device can be stored, when sending an e-mail or when a user designates, for example, It is possible to refer to feelings of past e-mails sent to the same recipient. For example, when e-mailing the same sender, it is useful to create and send a greeting similar to that sent in the past.
If the greetings are different, a message that prompts attention depending on the situation can be issued.
請求項15に記載の発明によれば、上記の挨拶文以外のテキスト、例えばメールの本文や題名などについても、その語感を判定することができる。
その際に、従来技術で述べた極性辞書等を利用し、その辞書に登録された語句とテキストとの比較処理や所定の演算処理で判定することで、複数の文章を含むテキストを対象にしてもコンピュータを用いて容易に当該電子メールの語感を判定することができる。
According to the fifteenth aspect of the present invention, it is possible to determine the sensation of texts other than the greetings described above, for example, the body and title of an email.
At that time, by using the polarity dictionary etc. described in the prior art and making a determination by comparing the words and phrases registered in the dictionary with the text or by a predetermined calculation process, the text including a plurality of sentences is targeted. In addition, it is possible to easily determine the word feeling of the e-mail using a computer.
請求項16に記載の発明によれば、機械学習モジュールを用い、その素性として、学習データにおけるテキスト情報、極性辞書にある語句を含むか否か又はその語感種類情報、電子メールの送信者又は受信者の情報、電子メールの件名の語句を使うことで高精度な語感の判定に寄与する。
特に、電子メールに含まれている文章や語句などのテキスト情報を用いたり、極性辞書にある語句を含むかどうか、あるいはその語感種類情報を用いることで良好に判定することができる。さらに、電子メールのドメイン名から送信者と受信者の関係が現れることもあるためこれを素性とすることもできる。
According to the invention described in claim 16, using a machine learning module, the feature includes text information in the learning data, whether or not a word or phrase in the polarity dictionary is included, or its sensation type information, sender or receiver of an e-mail It contributes to the determination of word sense with high accuracy by using the words of the subject and the subject of the e-mail.
In particular, it is possible to make a good determination by using text information such as sentences and phrases included in the e-mail, whether or not to include words or phrases in the polar dictionary, or using the word sense type information. Furthermore, since the relationship between the sender and the receiver may appear from the domain name of the e-mail, this can be used as a feature.
請求項17に記載の発明によれば、挨拶文提示処理手段を設けて送信する電子メールに付加すべき挨拶文を自動的に提示することができるので、必要かつ適切な挨拶文を簡便に電子メールに付加することができる。
また、前回の挨拶文と同程度の語感の文章を加えたり、言い回しだけ異なる挨拶文を入れることなどにより円滑なコミュニケーションに寄与する。
According to the seventeenth aspect of the present invention, since a greeting sentence to be added to an email to be transmitted can be automatically presented by providing a greeting sentence presentation processing means, a necessary and appropriate greeting can be easily and electronically transmitted. Can be added to mail.
In addition, it contributes to smooth communication by adding sentences with the same level of feeling as the previous greeting, or by adding greetings that differ only in wording.
請求項18に記載の発明によれば、クライアント端末において送信しようとする電子メールを本発明の電子メール送信装置において受信して、そのメールに含まれる挨拶文が適切か否かを判定することができる。請求項9ないし13、15、16に記載の電子メール送信装置を組み込む場合には、語感種類情報をクライアント端末や、会社等において社員の送信メールを管理するための管理用端末などに通知することができる。これにより、メールを送信しようとした本人や、管理者等があらかじめ不適切なメールを知り、送信をとりやめる等の対応をとることができる。 According to the invention described in claim 18, the electronic mail to be transmitted at the client terminal is received by the electronic mail transmitting apparatus of the present invention, and it is determined whether or not the greeting included in the mail is appropriate. it can. When the electronic mail transmitting device according to any one of claims 9 to 13, 15, and 16 is incorporated, the sensation type information is notified to a client terminal or a management terminal for managing an employee's transmitted mail in a company or the like. Can do. As a result, it is possible for the person who is trying to send the e-mail, the administrator, etc. to know the inappropriate e-mail in advance and take action such as canceling the e-mail transmission.
また、請求項14に記載の電子メール送信装置を組み込む場合には、過去履歴をクライアント端末や管理用端末に送信することができる。
請求項17に記載の発明によれば、以前送信したときの挨拶文を、クライアント端末や管理用端末に送信することができる。
これにより、以前の挨拶文と比較したり、以前の挨拶文を利用して同程度の挨拶文を付加することができ、円滑なコミュニケーションに寄与する。
In addition, when the electronic mail transmitting apparatus according to claim 14 is incorporated, the past history can be transmitted to the client terminal or the management terminal.
According to the seventeenth aspect of the present invention, it is possible to transmit the greeting sent from the previous transmission to the client terminal or the management terminal.
As a result, it is possible to compare with the previous greeting text or add a similar greeting text using the previous greeting text, contributing to smooth communication.
本発明の実施形態を、図面に示す実施例を基に説明する。なお、実施形態は下記に限定されるものではない。本発明は、電子メールの受信装置、送信装置を提供するが、これらは別々に構成してもよいし、1個のコンピュータにより構成してもよい。 Embodiments of the present invention will be described based on examples shown in the drawings. The embodiment is not limited to the following. The present invention provides an e-mail receiving device and transmitting device, which may be configured separately or by a single computer.
実施例1に係る構成は、図1に示すように1台の端末(10)内に受信装置(11)と、メール送信装置(12)とを形成する。このような構成は、一般的なパーソナルコンピュータの電子メールアプリケーションソフト(以下、メールソフト)と同様であり、本実施例の構成はメールソフトの機能として実装するものである。
周知のようにメールソフトには受信機能と送信機能とがあり、インターネットを通して外部の送信サーバ、受信サーバと通信する。
The configuration according to the first embodiment forms a receiving device (11) and a mail transmitting device (12) in one terminal (10) as shown in FIG. Such a configuration is the same as that of an electronic mail application software (hereinafter referred to as mail software) of a general personal computer, and the configuration of this embodiment is implemented as a function of the mail software.
As is well known, mail software has a reception function and a transmission function, and communicates with an external transmission server and reception server through the Internet.
以下、メールの受信機能について、受信装置(11)の構成を、メールの送信機能について、メール送信装置(12)の構成としてそれぞれ説明する。各構成を明らかにするために別の図に示すが、同一の処理を行う処理部は適宜共用することができる。 Hereinafter, the configuration of the receiving device (11) with respect to the mail receiving function and the configuration of the mail transmitting device (12) with respect to the mail transmitting function will be described. In order to clarify each structure, it shows in another figure, but the process part which performs the same process can be shared suitably.
本発明の請求項1、2、4及び19に係る受信装置(11)の構成と処理方法を説明する。
図2は本発明に係る電子メール受信装置(以下、受信装置と呼ぶ)(11)の構成図である。本装置における処理のフローチャートを図3に示す。本発明は公知のパーソナルコンピュータにより容易に実現することが可能であり、演算処理や機械学習、テキスト処理などを司るCPU(20)によって本発明の各ステップを実行処理する。CPU(20)は周知のようにメモリ(図示しない)と協働して動作し、キーボードやマウス(21)などの入力手段の他、出力結果を表示するモニタ(22)、ハードディスク等の外部記憶装置(23)などを備えている。
また、インターネット等のネットワークと接続するネットワークアダプタ(24)を備えて入出力データを入力することができる。
The configuration and processing method of the receiving apparatus (11) according to claims 1, 2, 4 and 19 of the present invention will be described.
FIG. 2 is a block diagram of an electronic mail receiver (hereinafter referred to as receiver) (11) according to the present invention. A flowchart of processing in this apparatus is shown in FIG. The present invention can be easily realized by a known personal computer, and each step of the present invention is executed and processed by a CPU (20) that controls arithmetic processing, machine learning, text processing, and the like. As is well known, the CPU (20) operates in cooperation with a memory (not shown). In addition to input means such as a keyboard and a mouse (21), a monitor (22) for displaying output results and an external storage such as a hard disk. A device (23) is provided.
In addition, a network adapter (24) connected to a network such as the Internet can be provided to input / output data.
そして、CPU(20)にはメール受信処理部(201)、挨拶文抽出処理部(202)、挨拶文語感判定処理部(203)、受信メール出力部(204)が設けられている。
そして、公知のプログラミング言語によって記載されたプログラムがCPU(20)及びそれと連動するハードウェアを動作させて、以下に説述する各部(201)〜(204)の機能が実現される。
The CPU (20) is provided with a mail reception processing unit (201), a greeting text extraction processing unit (202), a greeting text word feeling determination processing unit (203), and a received mail output unit (204).
And the program described by the well-known programming language operates CPU (20) and the hardware linked with it, The function of each part (201)-(204) demonstrated below is implement | achieved.
外部記憶装置(23)には、電子メール中の挨拶文のテキスト情報又は出現箇所情報を格納した挨拶文規則データベース(231)と、電子メール中の挨拶文のテキスト情報について各挨拶文に対応する語感種類情報を予め格納した挨拶文語感規則データベース(232)とを記録している。 In the external storage device (23), the greeting text rule database (231) storing the text information or appearance location information of the greeting text in the e-mail, and the greeting text text information in the e-mail correspond to each greeting text. A greeting sentence word sense database (232) in which word kind information is stored in advance is recorded.
本実施例では、規則に基づいて(ルールベース)、挨拶文の抽出処理や挨拶文の語感を判定する処理を行う構成について説明する。
以下、図3に示す処理フローチャートを用いて、本発明の各処理を詳細に説述する。
まずメール受信処理部(201)がネットワークアダプタ(24)を通して送られてくるメールデータを受信する。(メール受信処理ステップ:S10)CPU(20)において実行されているのがメールクライアントソフトの場合には、ユーザ名とパスワードの認証によりメールサーバにログインして、該メールサーバからデータが送られてくる。CPU(20)で実行されているのがメール受信サーバソフトである場合には、送信者のメール送信サーバから送られてくるメールのデータが、本処理(S10)によってユーザ用の記憶領域に格納される。
In the present embodiment, a configuration will be described in which a greeting sentence extraction process and a process for determining the sensation of a greeting sentence are performed based on a rule (rule base).
Hereinafter, each processing of the present invention will be described in detail using the processing flowchart shown in FIG.
First, the mail reception processing unit (201) receives mail data sent through the network adapter (24). (Mail reception processing step: S10) When the CPU (20) is executing mail client software, the user is logged in to the mail server by authenticating the user name and password, and data is sent from the mail server. come. If the CPU (20) is executing the mail receiving server software, the mail data sent from the sender's mail transmitting server is stored in the user storage area by this processing (S10). Is done.
受信したメールのテキストデータから挨拶文抽出処理部(202)が挨拶文抽出処理(S11)を実行処理する。
本実施例ではここでルールベースによる挨拶文の抽出処理を行う。すなわち、挨拶文規則データベースに、表1又は表2のようなデータテーブルを格納する。
The greeting text extraction processing unit (202) executes the greeting text extraction processing (S11) from the received text data of the mail.
In the present embodiment, a greeting text extraction process based on the rule base is performed here. That is, a data table such as Table 1 or Table 2 is stored in the greeting text rule database.
表1では、一般的に見られる挨拶文を登録しており、挨拶文抽出処理部(202)ではこれらの挨拶文の文字列と、受信したメールのテキストデータの文字列とを比較し、一致するものを抽出する。例えば、番号2の「いつも大変お世話になっております」を参照し、テキストデータから同一又は類似の文章(これらを関連する文章と呼ぶ)を抽出する。
類似する場合とは、例えば漢字を用いるかどうかの表記のぶれ、句読点の位置の違い、一部の語句の加除などを含む。
In Table 1, greetings that are commonly seen are registered, and the greeting text extraction processing unit (202) compares the text strings of these greeting texts with the text data text of the received mail and matches them. Extract what to do. For example, referring to the number 2 “I am always indebted”, the same or similar sentences (referred to as related sentences) are extracted from the text data.
The case of similarity includes, for example, blurring of whether or not to use kanji, differences in the position of punctuation marks, addition and removal of some words, and the like.
「いつも大変お世話になっております」であれば、「いつもお世話になっております」「いつもお世話になっています」「大変おせわになっております」などのようなものは全て関連する文章に該当する。これらは予め漢字と読みを定義したり、加除される可能性のある語句を定義しておいて、表記のぶれに対応できるようにしてもよい。 If you ’re always very helpful, everything like “I ’m always indebted”, “I ’m always indebted”, “I ’m very indebted”, etc. are all related Applicable to sentences. For these, kanji and reading may be defined in advance, or words that may be added or removed may be defined so as to be able to deal with blurring of notation.
関連する文章であるかどうかは、挨拶文規則データベースに登録された文を含む1文のうち、何文字が一致しているかによって判定することもできる。例えば、挨拶文規則データベースに「いつも大変お世話になっております」という16文字の挨拶文が登録されていたときに、受信した電子メールのテキストデータを順に調べていくと「平素皆様には大変お世話になっております」という1文(19文字)があったとする。
両者で重なる文字列は「大変お世話になっております」の13文字であるから、両者の類似度は全文字数を分母、共通する文字数を分子とした分数同士を積算して
(13/16)×(13/19)=0.468
と計算することもできる。
また、全文字数同士の和を分母、共通する文字数同士の和を分子として、
(13+13)/(16+19)=0.743
と計算することもできる。
Whether or not it is a related sentence can also be determined by how many characters are matched in one sentence including sentences registered in the greeting sentence rule database. For example, when a 16-character greeting text “I am always indebted to you” is registered in the greeting text rule database, if you check the text data of the received e-mail in order, Suppose you have a sentence (19 characters).
Since the overlapping character strings are 13 characters “Thank you very much”, the similarity between them is the sum of the fractions with the total number of characters as the denominator and the common number of characters as the numerator (13/16) × (13/19) = 0.468
Can also be calculated.
In addition, the sum of the total number of characters is the denominator, the sum of the number of common characters is the numerator,
(13 + 13) / (16 + 19) = 0.743
Can also be calculated.
上記では文字数によって類似度を計算したが、公知の技術で形態素解析を行い、一致する形態素の数や割合から類似度を求め、それが閾値以上のときに類似すると判定してもよい。
このような類似度の計算方法は多様なものが知られているが、そのいずれを用いてもよい。そして、このような類似度の演算を行って、所定の閾値を超える場合に、その一文を挨拶文として抽出することができる。
In the above description, the similarity is calculated based on the number of characters. However, morpheme analysis may be performed using a known technique, the similarity may be obtained from the number and ratio of matching morphemes, and may be determined to be similar when the value is equal to or greater than a threshold value.
Various methods for calculating the degree of similarity are known, and any of them may be used. And when such a similarity calculation is performed and a predetermined threshold value is exceeded, the one sentence can be extracted as a greeting sentence.
また、表2では挨拶文の出現位置により挨拶文を抽出する構成を示している。すなわち、番号7のように電子メールの先頭、具体的にはメールの本文の第1文を挨拶文と規定おき、どのような文であったとしても挨拶文であると定義することができる。
この場合、第1文はとにかく挨拶文として抽出されるため、挨拶文であれば支障なく語感の判定ができるし、全く挨拶にならない文章であっても後段の挨拶文語感判定処理において、不適切な語感を含むメールと判断されるため十分良好に作用する。
Table 2 shows a configuration in which a greeting text is extracted based on the appearance position of the greeting text. That is, the top of the e-mail, specifically, the first sentence of the body of the e-mail as number 7 is defined as a greeting, and any sentence can be defined as a greeting.
In this case, since the first sentence is extracted as a greeting sentence anyway, if it is a greeting sentence, it is possible to determine the word feeling without any trouble. Even if the sentence does not greet at all, it is inappropriate in the greeting sentence word feeling determination process at the later stage. It works well enough because it is judged to be a mail that contains a sense of word.
その他、番号5の「ありがとうございます」のような語句の場合、本文の先頭や末尾付近に出現するときには挨拶文である可能性が高く、それ以外は具体的な内容に関しての謝辞である可能性が高いため、出現位置を限定しておくことで、挨拶文を効果的に抽出することができる。 In addition, in the case of words such as “Thank you” with the number 5, it is highly likely that it is a greeting when it appears near the beginning or end of the text, and otherwise it may be an acknowledgment for the specific content Therefore, greeting texts can be extracted effectively by limiting the appearance positions.
出現位置は、表2のように文字数で定義する他、行数で定義する方法、本文全体の中の割合、例えば文頭から5%以内、といったように定義することもできる。もちろん、文頭から20%〜50%の範囲というように中間の範囲を定義することもできる。 The appearance position can be defined by the number of characters as shown in Table 2, a method of defining by the number of lines, a ratio in the whole text, for example, within 5% from the beginning of the sentence, and the like. Of course, an intermediate range such as 20% to 50% from the beginning of the sentence can be defined.
次に、挨拶文語感判定処理(S12)について説明する。
本実施例では、語感の判定についても挨拶文語感規則データベース(232)を用いてルールベースで判定する方法を示す。挨拶文語感規則データベース(232)の例を表3に示す。
Next, the greeting sentence feeling determination process (S12) will be described.
In the present embodiment, a method of determining a feeling based on a rule base using a greeting sentence feeling rule database (232) is also shown. Table 3 shows an example of the greeting sentence feeling rule database (232).
挨拶文語感規則データベース(232)には、挨拶文と、それに対応する語感が定義されている。語感としては、単に全体的な印象で、「肯定」「中立」「否定」というように語感種類を定義してもよい。
本実施例では、語感をいくつかの尺度で分類して定義する例を示した。すなわち、番号Aの挨拶文は、肯定的な印象を持ち、喜びを表し、外部者に対する挨拶文であることを示す。同様にBの挨拶文は中立的な印象、恐縮を表す。Cの挨拶文は共感を関係者に対して示すものである。Dの挨拶文は中立的な印象で恐縮を関係者に示している。
In the greeting sentence word sense rule database (232), a greeting sentence and a corresponding word feeling are defined. As the word feeling, the kind of word feeling may be defined as “affirmation”, “neutral”, or “denial” simply by the overall impression.
In this embodiment, an example is shown in which word feeling is classified and defined on several scales. That is, the greeting with the number A has a positive impression, expresses joy, and indicates that it is a greeting to the outsider. Similarly, the B greeting expresses a neutral impression and excuse. The greeting of C shows empathy to the people concerned. D's greeting is neutral and shows excuses to the people involved.
このような語感種類は、非特許文献2でも述べているように表4のような分類方法を用いることもできる。
本発明の語感種類情報としては、これらの語感種類を適宜組み合わせて用いてもよい。
As described in Non-Patent Document 2, the classification method as shown in Table 4 can also be used for such sensation types.
As the sensation type information of the present invention, these sensation types may be used in appropriate combination.
挨拶文語感判定処理部(203)は、挨拶文抽出処理部(202)が抽出した挨拶文と、挨拶文語感規則データベース(232)の内容とを比較して対応する語感種類を決定する。例えば、挨拶文として「お疲れ様です」が抽出されたとき、挨拶文語感判定処理部(203)は「肯定・共感・関係者」を語感種類と判定する。 The greeting text word feeling determination processing unit (203) determines the corresponding word feeling type by comparing the greeting text extracted by the greeting text extraction processing unit (202) and the contents of the greeting text word feeling rule database (232). For example, when “Thank you for your work” is extracted as a greeting, the greeting sentence feeling determination processing unit (203) determines “affirmation / sympathy / related party” as the kind of feeling.
挨拶文語感判定処理(S12)でも、上記挨拶文抽出処理(S11)と同様に、語感の判定を類似文まで拡張することもできる。この場合も類似度を計算し、類似した挨拶文の語感を判定できるようにしてもよい。 In the greeting sentence word feeling determination process (S12), the word feeling determination can be extended to a similar sentence as in the greeting sentence extraction process (S11). In this case as well, the degree of similarity may be calculated so that the feeling of similar greetings can be determined.
最後に、受信メール出力部(204)の処理によって、判定された語感種類をユーザに対してモニタ(22)から表示する。(受信メール出力処理:S13)
ユーザは表示された語感種類を見て、受け取ったメールが客観的にどのようなニュアンス、文意をもつものであるのかを把握することができる。
Finally, the type of sensation determined by the process of the received mail output unit (204) is displayed to the user from the monitor (22). (Received mail output processing: S13)
The user can grasp what kind of nuance and meaning the received mail has objectively by looking at the displayed sensation type.
出力方法としては、モニタ(22)において表示してもよいし、外部記憶装置(23)にログとして記録するだけでもよい。ログを定期的に、所定の管理者に送信するようにしてもよい。 As an output method, the data may be displayed on the monitor (22) or may be recorded as a log in the external storage device (23). The log may be periodically transmitted to a predetermined administrator.
実施例2として、本発明の請求項6に係る受信装置(11)の構成と処理方法を説明する。すなわち、図4に示すように受信装置(11)に電子メールの送信者や語感種類情報を外部記憶装置(23)の過去履歴テーブル(233)に格納する過去履歴格納処理部(205)、受信した電子メールと送信者の情報が一致する過去履歴(233)を参照して、語感種類情報の履歴又は変化を検出する過去履歴検出部(206)と、受信した電子メールと共に過去履歴(233)や語感種類情報の変化を出力する過去履歴出力部(207)を備えている。 As a second embodiment, a configuration and processing method of a receiving apparatus (11) according to claim 6 of the present invention will be described. That is, as shown in FIG. 4, a past history storage processing unit (205) that stores an e-mail sender and word sense type information in the past history table (233) of the external storage device (23) in the receiving device (11). The past history (233) for detecting the history or change of the sensation type information with reference to the past history (233) in which the sent email and the sender information match, and the past history (233) together with the received email And a past history output unit (207) for outputting changes in sensation type information.
図5は本実施例の処理の流れ図であり、実施例1の挨拶文語感判定処理(S12)の後に、過去履歴格納処理部(205)が判定された語感種類情報をメールの送信者の情報、例えばメールアドレスや氏名などと共に過去履歴テーブル(233)として格納する。(過去履歴格納ステップ:S14)
過去履歴テーブル(233)の例は表5の通りである。
FIG. 5 is a flowchart of the process of the present embodiment. After the greeting sentence and sensation determination process (S12) of the first embodiment, the sensation type information determined by the past history storage processing unit (205) is the information of the sender of the mail. For example, the past history table (233) is stored together with the e-mail address and name. (Past history storage step: S14)
An example of the past history table (233) is shown in Table 5.
ここでは、過去履歴テーブル(233)に、受信日時や挨拶文そのものも一緒に格納している。そして、次に電子メールの受信処理(S10)を行った時に、過去履歴検出部(206)が過去履歴テーブル(233)から同一の送信者の過去履歴を検出する。
具体的には、メール受信処理部(201)で受信したテキストデータから、送信者欄のメールアドレスを抽出し、過去履歴テーブルの送信者欄で一致するデータを抽出する。
検出されるデータは、過去のメールにおける挨拶文とその語感である。
Here, the reception history and the greeting itself are also stored in the past history table (233). When the next e-mail reception process (S10) is performed, the past history detection unit (206) detects the past history of the same sender from the past history table (233).
Specifically, the mail address in the sender column is extracted from the text data received by the mail reception processing unit (201), and the matching data is extracted in the sender column of the past history table.
The detected data is a greeting text in the past mail and its word feeling.
そして、受信メール出力処理(S13)と同時に、過去履歴の出力処理(S16)も行う。ユーザは受信メールや判定された語感の表示を見ながら、同じ送信者からの挨拶文や語感を表示して比較することができる。
多量のメールを受信するユーザにとって、すべての送信者の過去のメールがどのようなニュアンスで書かれていたかを覚えておくことは難しいが、本発明によればそれが比較可能な形で表示されることにより、送信者の心情の変化を明確に把握することができる。
Then, simultaneously with the received mail output process (S13), the past history output process (S16) is also performed. The user can display and compare greetings and speech from the same sender while viewing the received mail and the display of the determined speech.
It is difficult for users who receive a lot of emails to remember the nuances of past emails of all senders, but according to the present invention they are displayed in a comparable form. Thus, it is possible to clearly grasp the change in the sentiment of the sender.
このような構成に加えて、過去履歴検出部(206)で語感の変化を検出するようにしてもよい。この場合、挨拶文語感判定処理(S12)で判定した語感を過去履歴検出部(206)に入力(図5における一点鎖線)し、過去履歴テーブル(233)の内容と比較する。
そして、例えば語感「肯定・喜び・外部」のうち、いずれか一つでも変化した場合には変化があったとして過去履歴出力ステップ(S16)に進む。
In addition to such a configuration, a change in word feeling may be detected by the past history detection unit (206). In this case, the sensation determined in the greeting sentence sensation determination process (S12) is input to the past history detection unit (206) (dashed line in FIG. 5) and compared with the contents of the past history table (233).
For example, if any one of the words “affirmation / joy / external” has changed, the process proceeds to the past history output step (S 16) assuming that there has been a change.
あるいは特定の尺度について変化があったときにだけ出力するようにしてもよい。すなわち、同じ送信者に対して視点の尺度が変化することは不自然であるから、視点が変化した時に過去履歴を出力するようにしてもよい。 Alternatively, it may be output only when there is a change with respect to a specific scale. That is, since it is unnatural that the scale of the viewpoint changes for the same sender, the past history may be output when the viewpoint changes.
また、態度の尺度においては、各語感種類間に距離を設定しておき、その距離が閾値を超えた変化があったとき過去履歴を出力してもよい。例えば、距離閾値を5として、「喜び」と「怒り」の距離の値が10であったときに、「喜び」であった送信者の心情が、「怒り」に変化したとして、その変化をユーザに警告することができる。 In the attitude scale, a distance may be set between each type of sensation, and a past history may be output when the distance has changed beyond a threshold value. For example, if the distance threshold is 5 and the distance between “joy” and “anger” is 10, and the sentiment of the sender who is “joy” changes to “anger”, the change is The user can be warned.
さらに、挨拶文同士を比較することも可能である。
挨拶文を比較する場合には、少しでも変化すれば出力する方法と、一致度に基づいてある程度異なる場合に出力する方法とがある。
It is also possible to compare greetings.
When comparing greetings, there are a method of outputting if there is a slight change, and a method of outputting when greetings differ to some extent based on the degree of matching.
文字列が完全に一致しているかどうかは一致度を算出しなくても単純な文字列の比較処理で済む。また、挨拶文の場合には意味としては同じでもわずかな言葉の変化でニュアンスが変わることが多い。
例えば、表5の上段の例で「いつも大変お世話になっております」の過去履歴があるときに、受信した挨拶文が「いつもお世話になっております」の場合には一致度はかなり高いが、少しニュアンスに変化がある。
Whether or not the character strings are completely matched can be determined by a simple character string comparison process without calculating the degree of coincidence. In the case of greetings, the nuance is often changed by a slight change of words even though the meaning is the same.
For example, in the example in the upper part of Table 5, if there is a past history of “I am always indebted to you” and the received greeting is “I am always indebted”, the degree of agreement is quite high. However, there is a slight change in nuances.
上述したのと同様の方法により、受信したメールから抽出された挨拶文と、過去履歴テーブル(233)から抽出した挨拶文との一致度を比較し、一致度が一定以上離れたときに、過去履歴出力処理(S16)を行っても良い。 Using the same method as described above, the degree of coincidence between the greeting text extracted from the received mail and the greeting text extracted from the past history table (233) is compared. A history output process (S16) may be performed.
このとき、同義表現辞書をあらかじめ用意し、同義な表現については一致するものとして一致度の計算をする。また、特別表現辞書をあらかじめ用意し、その辞書にある表現が不一致の場合は特に一致度が下がるように計算する。については一致するものとして一致度の計算をすることもできる。 At this time, a synonym expression dictionary is prepared in advance, and the degree of coincidence is calculated assuming that synonymous expressions coincide. Also, a special expression dictionary is prepared in advance, and when the expressions in the dictionary do not match, the calculation is performed so that the degree of matching decreases particularly. It is also possible to calculate the degree of coincidence with respect to.
一致度に応じて、警告の態様を変化させてもよい。例えば、一致度が比較的高い場合には、「注意:挨拶文の語感が変化しています」と表示する一方、一致度が低い場合には、「警告:語感が大きく変化しています。対応に注意が必要です」と表示し、ユーザにより注意を促すことができる。 The warning mode may be changed according to the degree of coincidence. For example, when the degree of matching is relatively high, “Caution: The wording of the greeting is changing” is displayed. When the degree of matching is low, “Warning: The wording is changing greatly.” Needs attention. ”, The user can be alerted.
語感が変化したかどうかを上記のような所定の演算や規則に基づいて検出する方法に限らず、後述する機械学習によって検出することもできる。この場合、挨拶文又は語感種類の組み合わせと、その組み合わせの場合に検出すべきか否かを付与した結果を教師データとして用意する。素性には挨拶文の文字列又は語感種類を用いる。
過去履歴検出部(206)に備えた機械学習モジュールによりまず機械学習を行い、その学習結果は外部記憶装置(23)に格納しておく。
次に過去履歴検出処理(S15)を実行する際には、該学習結果を参照し、機械学習モジュールが所定の演算を行うことで、検出処理を行う。このような機械学習を用いること
It is not limited to the method of detecting whether or not the sensation changes based on the above-described predetermined calculation or rule, but can also be detected by machine learning described later. In this case, a combination of a greeting text or sensation type and a result of giving whether or not to detect in the case of the combination is prepared as teacher data. For the feature, a character string of a greeting text or a feeling type is used.
Machine learning is first performed by the machine learning module provided in the past history detection unit (206), and the learning result is stored in the external storage device (23).
Next, when the past history detection process (S15) is executed, the learning result is referred to, and the machine learning module performs a predetermined calculation to perform the detection process. Use machine learning like this
素性には、送信者の情報を用いてもよい。この場合、送信者によって、変化が検出されやすいかどうかに差を設けることができ、特に注意の必要な送信者と、変化してもそれほど注意を要しない送信者を区別して検出することができる。 The sender's information may be used for the feature. In this case, it is possible to make a difference depending on whether or not the change is easily detected depending on the sender, and it is possible to distinguish and detect a sender that requires special attention and a sender that does not require much attention even if it changes. .
実施例3として、本発明の請求項1、3、5に係る受信装置(11)の構成と処理方法を説明する。本実施例は機械学習を用いて、挨拶文抽出処理(S11)や挨拶文語感判定処理(S12)を行うものである。
図6は本実施例における挨拶文抽出処理部(202)の詳細構成図、図7は挨拶文抽出処理(S11)において機械学習を用いる場合の処理流れ図、図8は挨拶文語感判定処理部(203)の詳細構成図、図9は挨拶文語感判定処理(S12)において機械学習を用いる場合の処理流れ図である。
As a third embodiment, the configuration and processing method of the receiving apparatus (11) according to claims 1, 3, and 5 of the present invention will be described. In this embodiment, greeting text extraction processing (S11) and greeting text feeling determination processing (S12) are performed using machine learning.
FIG. 6 is a detailed block diagram of the greeting text extraction processing unit (202) in this embodiment, FIG. 7 is a processing flowchart when machine learning is used in the greeting text extraction processing (S11), and FIG. 203) is a detailed configuration diagram, and FIG. 9 is a processing flowchart in the case of using machine learning in the greeting text word feeling determination processing (S12).
最初に挨拶文抽出処理について図6及び図7を用いて説明する。メール受信処理(S10)の後、そのテキストデータから機械学習の演算に用いる素性を抽出する。(素性抽出ステップ:S11a)
素性については後述の機械学習処理の詳細において説明するが、例えば形態素解析によりデータ内容のテキストを形態素に分割し、所定の素性を抽出する。この素性抽出は、機械学習の際にも同様の処理を行っている。
First, greeting text extraction processing will be described with reference to FIGS. After the mail reception process (S10), features used for machine learning calculation are extracted from the text data. (Feature extraction step: S11a)
The feature will be described in detail in the machine learning process described later. For example, the text of the data content is divided into morphemes by morphological analysis, and a predetermined feature is extracted. This feature extraction is performed in the same way during machine learning.
機械学習処理部(2023)は予め用意されている外部記憶装置(23)の挨拶文学習結果(2025)を用い、素性抽出部で抽出された素性を入力として挨拶文機械学習抽出処理(S11b)を実行する。挨拶文学習結果(2025)は用いる機械学習モデルによってデータ形式は異なるが、例えば学習過程で動的に変化したパラメータの集合である。 The machine learning processing unit (2023) uses the greeting text learning result (2025) of the external storage device (23) prepared in advance, and uses the feature extracted by the feature extraction unit as an input for greeting text machine learning extraction processing (S11b) Execute. The greeting text learning result (2025) is, for example, a set of parameters that dynamically change during the learning process, although the data format differs depending on the machine learning model used.
この結果抽出された挨拶文を次の挨拶文語感判定処理(S12)で用いる。
次に挨拶文語感判定処理について図8及び図9を用いて説明する。受信したメールのテキストデータから機械学習の演算に用いる素性を抽出する。(素性抽出ステップ:S12a)この素性抽出に関して、上記挨拶文抽出処理(S11)でも機械学習を用いる場合には、上記の素性抽出処理(S11a)において同時に素性を抽出しておいてもよい。
The greeting text extracted as a result is used in the next greeting text feeling determination process (S12).
Next, greeting sentence feeling determination processing will be described with reference to FIGS. Features used for machine learning operations are extracted from the text data of the received mail. (Feature Extraction Step: S12a) Regarding this feature extraction, if machine learning is used in the greeting text extraction processing (S11), the features may be extracted simultaneously in the feature extraction processing (S11a).
機械学習処理部(2033)は予め用意されている外部記憶装置(23)の語感学習結果(2035)を用い、素性抽出部で抽出された素性を入力として挨拶文語感機械学習判定処理(S12b)を実行する。語感学習結果(2035)は用いる機械学習モデルによってデータ形式は異なるが、例えば学習過程で動的に変化したパラメータの集合である。 The machine learning processing unit (2033) uses the word learning result (2035) of the external storage device (23) prepared in advance, and uses the feature extracted by the feature extraction unit as an input for greeting text word feeling machine learning determination processing (S12b). Execute. The linguistic learning result (2035) is a set of parameters that dynamically change during the learning process, for example, although the data format differs depending on the machine learning model used.
以上の2つの処理によって受信メール出力処理(S13)に進む。
本実施例では、挨拶文抽出処理(S11)と挨拶文語感判定処理(S12)の両方で機械学習処理を用いる構成を示すが、いずれか1つはルールベースによるものでもよい。また、例えばルールベースによる方法と共に実行処理し、まずルールベースによって処理を行った後に、残りのテキストデータに対して再び機械学習による処理を行ってもよい。
The process proceeds to the received mail output process (S13) by the above two processes.
In the present embodiment, a configuration in which machine learning processing is used in both the greeting text extraction processing (S11) and the greeting text word feeling determination processing (S12) is shown, but any one of them may be based on a rule base. Further, for example, the execution processing may be performed together with the rule base method, and after the processing is first performed based on the rule base, the remaining text data may be processed again by machine learning.
次に、本発明の実施において用いることのできる機械学習方法について主に挨拶文抽出処理を例に説明する。
本実施例における挨拶文抽出処理部では教師データ入力部(2021)、解−素性対抽出部(2022)、機械学習処理部(2023)、抽出部(2024)がそれぞれ設けられる。
Next, a machine learning method that can be used in the implementation of the present invention will be described mainly by taking an example of greeting text extraction processing.
The greeting text extraction processing unit in the present embodiment includes a teacher data input unit (2021), an answer-feature pair extraction unit (2022), a machine learning processing unit (2023), and an extraction unit (2024).
機械学習の手法は公知の機械学習モジュールにおける学習過程と、それを用いた解の推定過程とが一体的に成り立つものである。本発明の実施において、学習過程は必ずしも必須ではなく外部記憶装置(23)には機械学習の結果形成された挨拶文学習結果(2025)を備えておくだけでもよい。その場合には、挨拶文抽出処理部(202)に必要なのは各機械学習手法に従って順序を判定する抽出部(2024)だけである。 In the machine learning method, a learning process in a known machine learning module and a solution estimation process using the learning process are integrated. In the implementation of the present invention, the learning process is not necessarily required, and the external storage device (23) may be provided only with the greeting text learning result (2025) formed as a result of machine learning. In that case, the greeting sentence extraction processing unit (202) only needs an extraction unit (2024) that determines the order according to each machine learning method.
機械学習の手法は、様々なものが公知であるが、ここでは各手法を簡単に説明する。問題−解の組のセットを多く用意し、それで学習を行ない、どういう問題のときにどういう解になるかを学習し、その学習結果を利用して、新しい問題のときも解を推測できるようにする方法である(例えば、下記の非特許文献5〜非特許文献7参照)。 Various methods of machine learning are known, but each method will be briefly described here. Prepare many sets of problem-solution pairs, learn with them, learn what kind of solution is the problem, and use the learning results to guess the solution even for new problems (For example, see Non-Patent Document 5 to Non-Patent Document 7 below).
どういう問題のときに、という問題の状況を機械に伝える際に、素性(解析に用いる情報で問題を構成する各要素)が必要になる。問題を素性によって表現するのである。例えば、日本語文末表現の時制の推定の問題において、
問題:「彼が話す。」−−−解「現在」
が与えられた場合に、素性の一例は、「彼が話す。」「が話す。」「話す。」「す。」「。」となる。
In order to convey to the machine the situation of the problem such as what kind of problem, features (each element constituting the problem with information used for analysis) are required. The problem is expressed by the feature. For example, in the problem of estimating the tense of Japanese sentence ending expressions,
Problem: "He speaks." ---- "Current"
Is given as an example, “He speaks.” “Speaks.” “Speaks.” “Su.” “.”.
すなわち、機械学習の手法は、素性の集合−解の組のセットを多く用意し、それで学習を行ない、どういう素性の集合のときにどういう解になるかを学習し、その学習結果を利用して、新しい問題のときもその問題から素性の集合を取り出し、その素性の場合の解を推測する方法である。 In other words, the machine learning method prepares many sets of feature set-solution pairs, performs learning, learns what kind of solution the feature set becomes, and uses the learning result. This is a method of extracting a set of features from a new problem and inferring a solution in the case of the feature.
機械学習処理は、図10のように分散したテキストデータをどのように分類するのか、その分類結果(解)を得る。本発明では、入出力データに分散するテキストデータ中の形態素を素性とすれば、それらからデータ種類の分類を行うことになる。すなわち、分類先が判定するデータ種類である。
機械学習処理部(2023)における機械学習の手法として、例えば、k近傍法、シンプルベイズ法、決定リスト法、最大エントロピー法、サポートベクトルマシン法などの手法を用いる。
The machine learning process obtains the classification result (solution) as to how the distributed text data is classified as shown in FIG. In the present invention, if morphemes in text data distributed in input / output data are used as features, the data types are classified from them. That is, the data type determined by the classification destination.
As a machine learning method in the machine learning processing unit (2023), for example, a k neighborhood method, a simple Bayes method, a decision list method, a maximum entropy method, a support vector machine method, or the like is used.
k近傍法は、最も類似する一つの事例のかわりに、最も類似するk個の事例を用いて、このk個の事例での多数決によって分類先(解)を求める手法である。kは、あらかじめ定める整数の数字であって、一般的に、1から9の間の奇数を用いる。 The k-nearest neighbor method is a method for obtaining a classification destination (solution) by using the k most similar cases instead of the most similar case, and by majority decision of the k cases. k is a predetermined integer number, and generally an odd number between 1 and 9 is used.
シンプルベイズ法は、ベイズの定理にもとづいて各分類になる確率を推定し、その確率値が最も大きい分類を求める分類先とする方法である。 The Simple Bayes method is a method of estimating the probability of each classification based on Bayes' theorem and determining the classification having the highest probability value as a classification destination.
シンプルベイズ法において、文脈bで分類aを出力する確率は、以下の数1で与えられる。 In the Simple Bayes method, the probability of outputting the classification a in the context b is given by the following formula 1.
ただし、ここで文脈bは、あらかじめ設定しておいた素性fj (∈F,1≦j≦k)の集合である。p(b)は、文脈bの出現確率である。ここで、分類aに非依存であって定数のために計算しない。P(a)(ここでPはpの上部にチルダ)とP(fi|a)は、それぞれ教師データから推定された確率であって、分類aの出現確率、分類aのときに素性fiを持つ確率を意味する。P(fi|a)として最尤推定を行って求めた値を用いると、しばしば値がゼロとなり、数2の値がゼロで分類先を決定することが困難な場合が生じる。そのため、スームージングを行う。ここでは、以下の数3を用いてスームージングを行ったものを用いる。 Here, the context b is a set of features f j (εF, 1 ≦ j ≦ k) set in advance. p (b) is the appearance probability of the context b. Here, since it is independent of the classification a and is a constant, it is not calculated. P (a) (where P is a tilde at the top of p) and P (f i | a) are probabilities estimated from the teacher data, respectively, and the appearance probability of class a, and the feature f for class a means the probability of having i . When the value obtained by performing maximum likelihood estimation as P (f i | a) is used, the value often becomes zero, and it may be difficult to determine the classification destination because the value of Equation 2 is zero. Therefore, smoothing is performed. Here, the smoothing using the following equation 3 is used.
ただし、freq(fi,a)は、素性fiを持ちかつ分類がaである事例の個数、freq(a)は、分類がaである事例の個数を意味する。 However, freq (f i, a), the number of cases has a feature f i and classification is a, freq (a), the classification means the number of cases is a.
決定リスト法は、素性と分類先の組とを規則とし、それらをあらかじめ定めた優先順序でリストに蓄えおき、検出する対象となる入力が与えられたときに、リストで優先順位の高いところから入力のデータと規則の素性とを比較し、素性が一致した規則の分類先をその入力の分類先とする方法である。 The decision list method uses features and combinations of classification destinations as rules, stores them in the list in a predetermined priority order, and when input to be detected is given, from the highest priority in the list This is a method in which input data is compared with the feature of the rule, and the classification destination of the rule having the same feature is set as the classification destination of the input.
決定リスト方法では、あらかじめ設定しておいた素性fj( ∈F,1≦j≦k)のうち、いずれか一つの素性のみを文脈として各分類の確率値を求める。ある文脈bで分類aを出力する確率は以下の数4によって与えられる。 In the decision list method, the probability value of each classification is obtained using only one of the features f j (εF, 1 ≦ j ≦ k) set in advance as the context. The probability of outputting classification a in a context b is given by
(数4)
p(a|b)=p(a|fmax )
ただし、fmax は以下の数5によって与えられる。
(Equation 4)
p (a | b) = p (a | fmax)
However, fmax is given by the following equation 5.
また、P(ai|fj)(ここでPはpの上部にチルダ)は、素性fjを文脈に持つ場合の分類aiの出現の割合である。 Further, P (a i | f j ) (where P is a tilde at the top of p) is a rate of appearance of the classification a i when the feature f j is included in the context.
最大エントロピー法は、あらかじめ設定しておいた素性fj (1≦j≦k)の集合をFとするとき、以下所定の条件式(数6)を満足しながらエントロピーを意味する数7を最大にするときの確率分布p(a,b)を求め、その確率分布にしたがって求まる各分類の確率のうち、最も大きい確率値を持つ分類を求める分類先とする方法である。 In the maximum entropy method, assuming that a set of preset features f j (1 ≦ j ≦ k) is F, the number 7 representing entropy is maximized while satisfying a predetermined conditional expression (Equation 6) below. This is a method of obtaining a probability distribution p (a, b) for the classification and obtaining a classification having the largest probability value among the respective classification probabilities obtained according to the probability distribution.
ただし、A、Bは分類と文脈の集合を意味し、gj(a,b)は文脈bに素性fj があって、なおかつ分類がaの場合1となり、それ以外で0となる関数を意味する。また、P(ai|fj)(ここでPはpの上部にチルダ)は、既知データでの(a,b)の出現の割合を意味する。 However, A and B mean a set of classifications and contexts, and g j (a, b) is a function that is 1 if the context b has a feature f j and the classification is a, and is 0 otherwise. means. Further, P (a i | f j ) (where P is a tilde at the top of p) means the rate of occurrence of (a, b) in the known data.
数6は、確率pと出力と素性の組の出現を意味する関数gをかけることで出力と素性の組の頻度の期待値を求めることになっており、右辺の既知データにおける期待値と、左辺の求める確率分布に基づいて計算される期待値が等しいことを制約として、エントロピー最大化( 確率分布の平滑化) を行なって、出力と文脈の確率分布を求めるものとなっている。最大エントロピー法の詳細については、以下の非特許文献8に記載されている。 Equation 6 is to obtain the expected value of the frequency of the output and feature pair by multiplying the probability p and the function g meaning the appearance of the pair of output and feature, The entropy maximization (smoothing of the probability distribution) is performed on the assumption that the expected values calculated based on the probability distribution obtained on the left side are equal, and the probability distribution of the output and the context is obtained. Details of the maximum entropy method are described in Non-Patent Document 8 below.
サポートベクトルマシン法は、空間を超平面で分割することにより、二つの分類からなるデータを分類する手法である。図11にサポートベクトルマシン法のマージン最大化の概念を示す。図11において、白丸は正例、黒丸は負例を意味し、実線は空間を分割する超平面を意味し、破線はマージン領域の境界を表す面を意味する。図11(A)は、正例と負例の間隔が狭い場合(スモールマージン)の概念図、図11(B)は、正例と負例の間隔が広い場合(ラージマージン)の概念図である。 The support vector machine method is a method of classifying data composed of two classifications by dividing a space by a hyperplane. FIG. 11 shows the concept of margin maximization in the support vector machine method. In FIG. 11, a white circle means a positive example, a black circle means a negative example, a solid line means a hyperplane that divides the space, and a broken line means a surface that represents the boundary of the margin area. FIG. 11A is a conceptual diagram when the interval between the positive example and the negative example is narrow (small margin), and FIG. 11B is a conceptual diagram when the interval between the positive example and the negative example is wide (large margin). is there.
このとき、二つの分類が正例と負例からなるものとすると、教師データにおける正例と負例の間隔(マージン) が大きいものほどオープンデータで誤った分類をする可能性が低いと考えられ、図11(B)に示すように、このマージンを最大にする超平面を求めそれを用いて分類を行う。 At this time, assuming that the two classifications consist of positive examples and negative examples, the larger the interval (margin) between the positive examples and the negative examples in the teacher data, the lower the possibility of incorrect classification with open data. As shown in FIG. 11B, a hyperplane that maximizes this margin is obtained, and classification is performed using the hyperplane.
基本的には上記のとおりであるが、通常、教師データにおいてマージンの内部領域に少数の事例が含まれてもよいとする手法の拡張や、超平面の線形の部分を非線型にする拡張(カーネル関数の導入) がなされたものが用いられる。 Basically, it is as described above. Usually, an extension of the technique that a small number of cases may be included in the inner area of the margin in the teacher data, or an extension that makes the linear part of the hyperplane nonlinear ( Kernel function introduced) is used.
この拡張された方法は、以下の識別関数(数8)を用いて分類することと等価であり、その識別関数の出力値が正か負かによって二つの分類を判別することができる。 This extended method is equivalent to classification using the following discriminant function (Equation 8), and the two classes can be discriminated depending on whether the output value of the discriminant function is positive or negative.
ただし、xは識別したい事例の文脈(素性の集合) を、xiとyj (i=1,...,l,yj∈{1,−1})は教師データの文脈と分類先を意味し、関数sgnは、
sgn(x)=1(x≧0)
−1(otherwise )
であり、また、各αiは数10と数11の制約のもと数9を最大にする場合のものである。
Where x is the context (set of features) to be identified, and x i and y j (i = 1,..., L, y j ε {1, -1}) are the context of the teacher data and the classification destination And the function sgn is
sgn (x) = 1 (x ≧ 0)
-1 (otherwise)
Further, each α i is for the case where the number 9 is maximized under the constraints of the
また、関数Kはカーネル関数と呼ばれ、様々なものが用いられるが、本形態では以下の多項式のものを用いる。 The function K is called a kernel function, and various functions are used. In this embodiment, the following polynomial is used.
(数12)
K(x,y)=(x・y+1)d
C、dは実験的に設定される定数である。例えば、Cはすべての処理を通して1に固定した。また、dは、1と2の二種類を試している。ここで、αi>0となるxi は、サポートベクトルと呼ばれ、通常、数8の和をとっている部分は、この事例のみを用いて計算される。つまり、実際の解析には教師データのうちサポートベクトルと呼ばれる事例のみしか用いられない。
(Equation 12)
K (x, y) = (x · y + 1) d
C and d are constants set experimentally. For example, C was fixed at 1 throughout all treatments. Moreover, two types of 1 and 2 are tried for d. Here, x i satisfying α i > 0 is called a support vector, and the portion taking the sum of Expression 8 is usually calculated using only this case. That is, only actual cases called support vectors are used for actual analysis.
なお、拡張されたサポートベクトルマシン法の詳細については、以下の非特許文献9および非特許文献10に記載されている。
Details of the extended support vector machine method are described in Non-Patent Document 9 and
サポートベクトルマシン法は、分類の数が2個のデータを扱うものである。したがって、分類の数が3個以上の事例を扱う場合には、通常、これにペアワイズ法またはワンVSレスト法などの手法を組み合わせて用いることになる。 The support vector machine method handles data with two classifications. Therefore, when handling cases with three or more classifications, a pair-wise method or a one-VS rest method is usually used in combination with this.
ペアワイズ法は、n個の分類を持つデータの場合に、異なる二つの分類先のあらゆるペア(n(n−1)/2個)を生成し、各ペアごとにどちらがよいかを二値分類器、すなわちサポートベクトルマシン法処理モジュールで求めて、最終的に、n(n−1)/2個の二値分類による分類先の多数決によって、分類先を求める方法である。 In the pairwise method, in the case of data having n classifications, every pair (n (n-1) / 2) of two different classification destinations is generated, and a binary classifier indicates which is better for each pair. That is, it is obtained by the support vector machine method processing module and finally obtains the classification destination by majority decision of the classification destination by n (n−1) / 2 binary classification.
ワンVSレスト法は、例えば、a、b、cという三つの分類先があるときは、分類先aとその他、分類先bとその他、分類先cとその他、という三つの組を生成し、それぞれの組についてサポートベクトルマシン法で学習処理する。そして、学習結果による推定処理において、その三つの組のサポートベクトルマシンの学習結果を利用する。推定するべき候補が、その三つのサポートベクトルマシンではどのように推定されるかを見て、その三つのサポートベクトルマシンのうち、その他でないほうの分類先であって、かつサポートベクトルマシンの分離平面から最も離れた場合のものの分類先を求める解とする方法である。例えば、ある候補が、「分類先aとその他」の組の学習処理で作成したサポートベクトルマシンにおいて分離平面から最も離れた場合には、その候補の分類先は、aと推定する。 For example, when there are three classification destinations a, b, and c, the one VS rest method generates three sets of classification destination a and other, classification destination b and other, classification destination c and other, The learning process is performed on the set of the support vector machine method. Then, in the estimation process based on the learning result, the learning results of the three sets of support vector machines are used. See how the three support vector machines are estimated as candidates to be estimated. Of the three support vector machines, it is the non-other classification target and the separation plane of the support vector machine. This is a method for obtaining a classification destination of a thing farthest from the object. For example, when a candidate is farthest from the separation plane in the support vector machine created by the learning process of “classification destination a and others”, the candidate classification destination is estimated as a.
以上のような機械学習処理方法の機械学習モデルを備えて本発明は挨拶文の抽出を行う。すなわち、受信した電子メールの文章について、挨拶文であるか否かを順に判定し、挨拶文と判定されたものを抽出する。
機械学習モデルの結果としては、挨拶文であるか否かの2種類に分類する、あるいは挨拶文である確率を求めることができる。
また、挨拶文の語感の種類に分類する場合には、表4に示したような多数の語感種類に分類する問題となる。
With the machine learning model of the machine learning processing method as described above, the present invention extracts greetings. That is, the received e-mail text is determined in turn as to whether or not it is a greeting text, and what is determined as a greeting text is extracted.
As a result of the machine learning model, it can be classified into two types of greetings or whether it is a greeting.
Moreover, when classifying into the sensation types of greetings, it becomes a problem to classify into many sensation types as shown in Table 4.
このような言語処理における機械学習モデルとしては、サポートベクトルマシンや最大エントロピー法による分類成果が比較的良いことが知られており、本発明でも機械学習モデルにサポートベクトルマシン、あるいは最大エントロピー法を用いても良い。 As a machine learning model in such language processing, it is known that the classification result by the support vector machine or the maximum entropy method is relatively good. In the present invention, the support vector machine or the maximum entropy method is used for the machine learning model. May be.
図12に示すように作成された挨拶文学習結果(2025)を用いて抽出部(2024)の演算処理により分類先の例えば確度が算出される。
その場合、いずれか1つの判定結果を出力するために外部記憶装置(23)に定義しておく所定閾値(2027)を参照して抽出部(2024)が閾値比較処理を行い、閾値を超えた最大の分類先を判定結果として出力する。
For example, the accuracy of the classification destination is calculated by the calculation process of the extraction unit (2024) using the greeting text learning result (2025) created as shown in FIG.
In that case, the extraction unit (2024) performs a threshold comparison process with reference to a predetermined threshold (2027) defined in the external storage device (23) in order to output any one determination result, and the threshold is exceeded. The largest classification destination is output as the judgment result.
図示しないが、挨拶文語感機械学習判定処理(12b)についても、上記と同様の処理を行っている。 Although not shown, the same process as described above is performed for the greeting text language sense machine learning determination process (12b).
次に、挨拶文の学習の過程について図7を用いてさらに詳述する。
学習の際には教師データ入力部(2021)が予め用意してある教師データを入力する。教師データは、外部記憶装置等に格納しておけばよい。教師データには、予めデータ種類の分かっているテキストが含まれており、解として挨拶文である、挨拶文でないとする。解の定め方は機械学習方法や必要となる結果に応じて適宜設計することができる。
その上で、上記した機械学習方法のいずれかによって解の求め方は次のように異なる。
Next, the process of learning a greeting will be described in detail with reference to FIG.
At the time of learning, teacher data input unit (2021) inputs teacher data prepared in advance. The teacher data may be stored in an external storage device or the like. It is assumed that the teacher data includes a text whose data type is known in advance and is not a greeting, which is a greeting as a solution. The method of determining the solution can be designed as appropriate according to the machine learning method and the required result.
In addition, the method of obtaining a solution differs as follows depending on any of the machine learning methods described above.
例えば、本発明の実施の形態において、機械学習の手法としてk近傍法を用いる場合、教師データ入力部(2021)で入力した教師データから解−素性対抽出部(2022)で素性を抽出(S20)する。機械学習処理部(2023)が抽出された素性の集合のうち重複する素性の割合(同じ素性をいくつ持っているかの割合)にもとづく事例同士の類似度を定義(S21)して、前記定義した類似度と事例とを学習結果情報として挨拶文学習結果(2025)に記憶(S22)しておく。 For example, in the embodiment of the present invention, when the k-nearest neighbor method is used as the machine learning method, the feature-feature pair extraction unit (2022) extracts features from the teacher data input by the teacher data input unit (2021) (S20). ) The machine learning processing unit (2023) defines the similarity between cases based on the ratio of overlapping features (the ratio of how many of the same features) in the extracted feature set (S21). The similarity and the case are stored as learning result information in the greeting text learning result (2025) (S22).
そして、抽出部(2024)は、電子メールのテキストデータから素性抽出部が抽出したデータについて、挨拶文学習結果(2025)において定義されたデータ種類の確率と、素性とを参照して、そのデータが正解である可能性が高い順にk個の素性を挨拶文学習結果(2025)の事例から選択し、選択したk個の素性での多数決によって最も確からしい分類先(挨拶文か、挨拶文でないか)を解として推定する。 The extraction unit (2024) refers to the data type probability defined in the greeting text learning result (2025) and the feature of the data extracted by the feature extraction unit from the e-mail text data. K features are selected from the example of the greeting text learning result (2025) in descending order of the possibility that the answer is correct, and the most probable classification destination (not greeting text or greeting text) is determined by a majority decision based on the selected k features. Is estimated as the solution.
すなわち、抽出部(2024)では、抽出された各データに対して、どのような解(分類先)になりやすいかの度合いを、選択したk個の素性での多数決の票数、ここではある挨拶文か、挨拶文でないかという分類が獲得した票数とする。 That is, in the extraction unit (2024), the degree of what kind of solution (classification destination) is likely to be obtained for each piece of extracted data is determined based on the number of votes of majority vote with the selected k features, here a greeting It is the number of votes obtained by the classification of whether it is a sentence or a greeting.
また、機械学習手法として、シンプルベイズ法を用いる場合には、機械学習処理部(2023)が機械学習処理(S21)として、教師データの事例について、前記事例の解と素性の集合との組を学習結果情報として挨拶文学習結果(2025)に記憶する。 Further, when the simple Bayes method is used as the machine learning method, the machine learning processing unit (2023) performs a machine learning process (S21) to set a pair of a solution of the case and a set of features as an example of the teacher data. It memorize | stores in a greeting sentence learning result (2025) as learning result information.
そして、抽出部(2024)は、メール受信処理部(201)がデータ内容を受信(S10)したときに、挨拶文学習結果(2025)の学習結果情報の解と素性の集合との組をもとに、ベイズの定理にもとづいて素性抽出部で取得した素性の集合について、挨拶文か、挨拶文でないかの分類になる確率を算出して、その確率の値が最も大きい分類を、そのデータについての素性の分類(解)と推定する。 Then, when the mail reception processing unit (201) receives the data content (S10), the extraction unit (2024) has a set of a solution of the learning result information of the greeting text learning result (2025) and a set of features. For the feature set acquired by the feature extraction unit based on Bayes' theorem, calculate the probability of classifying the greeting as a greeting or not as a greeting and classify the classification with the highest probability as the data The feature classification (solution) for is estimated.
すなわち、抽出部(2024)では、抽出されたデータについての素性の集合の場合にある解となりやすさの度合いを、各分類になる確率、ここでは挨拶文か、挨拶文でないかという分類になる確率とする。 That is, in the extraction unit (2024), the probability of becoming a certain solution in the case of a set of features about the extracted data is a probability of being classified into each classification, here, a classification of greeting text or not greeting text. Probability.
機械学習手法として決定リスト法を用いる場合には、機械学習処理部(2023)が機械学習処理(S21)として、教師データの事例について、素性と分類先との規則を所定の優先順序で並べたリストを挨拶文学習結果(2025)に記憶する。そして、メール受信処理部(201)がデータ内容を受信(S10)したときに、抽出部(2024)は、挨拶文学習結果(2025)のリストの優先順位の高い順に、抽出された表現対の候補の素性と規則の素性とを比較し、素性が一致した規則の分類先をその候補の分類先(解)として推定する。 When the decision list method is used as the machine learning method, the machine learning processing unit (2023) arranges the rules of the features and the classification destinations in a predetermined priority order as examples of the teacher data as the machine learning process (S21). The list is stored in the greeting text learning result (2025). Then, when the mail reception processing unit (201) receives the data contents (S10), the extraction unit (2024) extracts the expression pairs extracted in descending order of priority from the list of greeting text learning results (2025). The feature of the candidate is compared with the feature of the rule, and the classification destination of the rule having the same feature is estimated as the classification destination (solution) of the candidate.
すなわち、抽出部(2024)では、抽出されたデータについてその素性の集合の場合にある解となりやすさの度合いを、所定の優先順位またはそれに相当する数値、尺度、ここでは挨拶文か、挨拶文でないかという分類になる確率のリストにおける優先順位とする。 That is, in the extraction unit (2024), the degree of the likelihood of being a solution in the case of a set of features of the extracted data is determined according to a predetermined priority or a numerical value or scale corresponding thereto, a greeting sentence or a greeting sentence here. The priority in the list of probabilities that the classification is not.
また、機械学習手法として最大エントロピー法を使用する場合には、機械学習処理部(2023)は、教師データの事例から解となりうる分類を特定し、所定の条件式を満足しかつエントロピーを示す式を最大にするときの素性の集合と解となりうる分類の二項からなる確率分布を求めて挨拶文学習結果(2025)に記憶する。そして、メール受信処理部(201)がデータ内容を受信(S10)したときに、抽出部(2024)は、挨拶文学習結果(2025)の確率分布を利用して、抽出されたファイルについてその素性の集合についてその解となりうる分類の確率を求めて、最も大きい確率値を持つ解となりうる分類を特定し、その特定した分類をその候補の解と推定する。すなわち、抽出部(2024)では、抽出されたデータについてその素性の集合の場合にある解となりやすさの度合いを、各分類になる確率、ここでは挨拶文か、挨拶文でないかという分類になる確率とする。 When the maximum entropy method is used as the machine learning method, the machine learning processing unit (2023) specifies a class that can be a solution from the example of the teacher data, satisfies a predetermined conditional expression, and indicates an entropy. A probability distribution composed of a set of features when maximizing and a binomial classification that can be a solution is obtained and stored in the greeting text learning result (2025). Then, when the mail reception processing unit (201) receives the data contents (S10), the extraction unit (2024) uses the probability distribution of the greeting text learning result (2025) to identify the feature of the extracted file. The probability of the classification that can be the solution for the set of is determined, the classification that can be the solution having the largest probability value is identified, and the identified classification is estimated as the candidate solution. That is, in the extraction unit (2024), the degree of the likelihood of becoming a certain solution in the case of the set of features of the extracted data is the probability of being classified into each classification, here, the classification of whether it is a greeting sentence or not a greeting sentence. Probability.
機械学習手法としてサポートベクトルマシン法を使用する場合には、機械学習処理部(2023)は、教師データの事例から解となりうる分類を特定し、分類を正例と負例に分割して、カーネル関数を用いた所定の実行関数にしたがって事例の素性の集合を次元とする空間上で、その事例の正例と負例の間隔を最大にし、かつ正例と負例を超平面で分割する超平面を求めて挨拶文学習結果(2025)に記憶する。 When the support vector machine method is used as the machine learning method, the machine learning processing unit (2023) specifies a class that can be a solution from the example of the teacher data, divides the class into a positive example and a negative example, In a space whose dimension is a set of case features according to a predetermined execution function using a function, the interval between the positive example and the negative example of the case is maximized, and the positive example and the negative example are divided by a hyperplane. The plane is obtained and stored in the greeting text learning result (2025).
そしてメール受信処理部(201)がデータ内容を受信(S10)したときに、抽出部(2024)は、挨拶文学習結果(2025)の超平面を利用して、抽出されたデータについての素性の集合が超平面で分割された空間において正例側か負例側のどちらにあるかを特定し、その特定された結果にもとづいて定まる分類を、その候補の解と推定する。 When the mail reception processing unit (201) receives the data content (S10), the extraction unit (2024) uses the hyperplane of the greeting text learning result (2025) to identify the feature of the extracted data. Whether the set is on the positive example side or the negative example side in the space divided by the hyperplane is specified, and the classification determined based on the specified result is estimated as the candidate solution.
すなわち、抽出部(2024)では、抽出されたデータについてその素性の集合の場合にある解となりやすさの度合いを、分離平面からの正例(出現順が正しいデータ)の空間への距離の大きさとする。より詳しくは、挨拶文である場合を正例、挨拶文でない場合を負例とする場合に、分離平面に対して正例側の空間に位置するデータが挨拶文と判断され、その事例の分離平面からの距離をそのデータが挨拶文である度合いとする。 That is, in the extraction unit (2024), the degree of the likelihood of becoming a solution in the case of the set of features of the extracted data is determined based on the distance from the separation plane to the space of the positive example (data in which the appearance order is correct). Say it. More specifically, when a greeting is a positive example and a non-greeting is a negative example, the data located in the space on the positive example side with respect to the separation plane is determined as a greeting and the case is separated. Let the distance from the plane be the degree that the data is a greeting.
さらに、本発明では機械学習の手法として、公知のニューラルネットワークによる方法、重回帰分析による方法を用いることもできる。
例えば、求める分類が2種類であれば重回帰分析を利用することができる。重回帰分析をコンピュータ上で実行する方法については、非特許文献11に詳しい。
Furthermore, in the present invention, a method using a known neural network or a method using multiple regression analysis can be used as a machine learning method.
For example, if there are two types of classification to be obtained, multiple regression analysis can be used. The method of executing the multiple regression analysis on a computer is detailed in
重回帰分析の場合は、素性の数だけ説明変数xを用意し、素性のありなしを、その説明変数xの値を1,0で表現する。目的変数(被説明変数)は、ある分類の場合を値1、他の分類の場合を値0として求めればよい。 In the case of multiple regression analysis, as many explanatory variables x as the number of features are prepared, and the presence / absence of the features is expressed by 1, 0. The objective variable (explained variable) may be obtained with a value of 1 for a certain classification and a value of 0 for another classification.
以上に説述した通り、本発明は公知の任意の機械学習手法を備えた機械学習モジュールを用いることで、挨拶文学習結果(2025)を生成した上で、抽出部(2024)が、データの種類を的確に判定する。 As described above, the present invention generates a greeting text learning result (2025) by using a machine learning module equipped with any known machine learning technique, and the extraction unit (2024) Determine the type accurately.
図8及び図9に示す挨拶文語感判定処理についても上記と同様であり、図6の教師データ入力部(2021)を教師データ入力部(2031)に、解ー素性対抽出部(2022)を解ー素性対抽出部(2032)に、機械学習処理部(2023)を機械学習処理部(2033)に、抽出部(2024)を判定部(2034)にそれぞれ読み替えることで上記説明が妥当する。図7の素性抽出処理(S20)〜学習結果出力(S22)、教師データ(2026)、挨拶文学習結果(2025)が、それぞれ図9の(S30)〜学習結果出力(S32)、教師データ(2036)、挨拶文学習結果(2035)に対応する。
図12に示した所定閾値(2027)を、挨拶文語感判定処理(S12b)においても外部記憶装置(23)に備えてもよい。
8 and 9 is the same as the above, and the teacher data input unit (2021) of FIG. 6 is replaced with the teacher data input unit (2031), and the feature-feature pair extraction unit (2022) is replaced. The above description is valid by replacing the feature-feature pair extraction unit (2032), the machine learning processing unit (2023) with the machine learning processing unit (2033), and the extraction unit (2024) with the determination unit (2034). The feature extraction process (S20) to learning result output (S22), teacher data (2026), and greeting text learning result (2025) in FIG. 7 are respectively converted into (S30) to learning result output (S32) and teacher data ( 2036), corresponding to the greeting text learning result (2035).
The predetermined threshold (2027) shown in FIG. 12 may be provided in the external storage device (23) also in the greeting sentence feeling determination process (S12b).
本発明では、素性として教師データにおける挨拶文の出現箇所情報、テキスト情報、品詞、あらかじめ挨拶に用いる語句を備えた挨拶表現辞書に含まれる単語か否か、電子メールの送信者又は受信者の情報、電子メールの件名の語句の一部又は全部を用いることができる。 In the present invention, the appearance location information of the greeting text in the teacher data, the text information, the part of speech, whether the word is included in the greeting expression dictionary provided with the words used in advance for greetings, information on the sender or receiver of the e-mail Some or all of the words in the subject line of the e-mail can be used.
挨拶文の出現箇所情報を素性に用いる場合とは、挨拶文抽出処理においては、前記したように挨拶文が特定の場所に偏って出現しやすいことに着目したものである。挨拶文語感判定処理においては、同じ語句であっても、出現箇所によってそのニュアンスが異なる場合があることに着目している。 The case where the appearance information of the greeting text is used as the feature is based on the fact that in the greeting text extraction process, the greeting text tends to appear biased to a specific place as described above. In the greeting sentence feeling determination process, attention is paid to the fact that the nuances of the same words may differ depending on the appearance location.
挨拶文のテキスト情報、品詞を素性に用いる場合とは、挨拶文抽出処理においては、挨拶文がある程度定型的な語句によって構成されていることに着目し、語句やその品詞を素性とすることで挨拶文を抽出することに寄与する。また、挨拶文語感判定処理においては、語句によってまさに語感が決まることに由来し、さらに同じ文字列であっても品詞によって意味、語感が異なることに着目している。
電子メールの件名についても同様のことが言える。
The text information and the part of speech of the greeting are used for the feature. In the greeting extraction process, paying attention to the fact that the greeting is composed of a certain type of phrase, Contributes to extracting greetings. In the greeting sentence feeling determination process, attention is paid to the fact that the word feeling is determined by the phrase, and that the meaning and feeling differ depending on the part of speech even for the same character string.
The same is true for the email subject.
挨拶表現辞書に含まれる単語か否かを素性に用いる場合とは、挨拶文抽出処理においては、挨拶文がある程度定型的な語句によって構成されていることに着目し、特に挨拶表現以外には用いられない語句を辞書として登録しておくことで、そのキーワードが入っていれば確実に挨拶文と言えるようなものを簡便に抽出することができる。
また、挨拶文語感判定処理においても、語句によって語感が決まることに由来している。
The case of using whether or not a word is included in the greeting expression dictionary means that in the greeting sentence extraction process, pay attention to the fact that the greeting sentence is composed of a certain standard phrase, especially used for other than the greeting expression By registering words that cannot be used as a dictionary, it is possible to easily extract words that can be said to be surely greetings if the keywords are included.
In the greeting sentence feeling determination process, the word feeling is determined by the phrase.
電子メールの送信者又は受信者の情報を素性に用いる場合とは、挨拶文抽出処理においては、送信者がどういった人物であるか、送信者と受信者の関係などによって挨拶文と言えるかどうかが変化することに着目している。例えば、介護関係の話題を頻繁に話し合っている相手とは、「お世話」などの文言が入っていても、挨拶文ではないと判定すべきである。送信者、受信者の情報を用いることでこうした判定も可能となる。
挨拶文語感判定処理においては、特に送信者と受信者の関係が重要である。同じ「ありがとうございます」でも送信者が上司、受信者が部下の関係にあるときには、強い感謝の意味を持つが、送信者が販売店、受信者が顧客の場合には、一般的な挨拶となる。
When email sender or recipient information is used as a feature, in the greeting text extraction process, whether the sender is a person or a greeting text depending on the relationship between the sender and the receiver We focus on how things change. For example, a partner who frequently discusses topics related to care should be determined not to be a greeting even if a word such as “care” is included. Such a determination can be made by using the information of the sender and the receiver.
In the greeting sentence feeling determination process, the relationship between the sender and the receiver is particularly important. The same “Thank you”, but when the sender is a boss and the receiver is in a subordinate relationship, there is a strong sense of gratitude, but when the sender is a store and the receiver is a customer, Become.
本発明は、以上のような各素性に着目して、機械学習処理を行うことで高精度な処理を図るものである。
なお、各素性はいずれか1つを用いればよいが、特に挨拶文のテキスト情報と品詞が重要であり、それに加えて出現箇所情報を組み合わせてもよい。本発明はこれらの素性を中心として実施することが好ましい。
The present invention aims at high-precision processing by performing machine learning processing by paying attention to the above features.
Any one of the features may be used, but the text information and the part of speech of the greeting are particularly important, and the appearance location information may be combined in addition thereto. The present invention is preferably carried out with these features as the center.
(1)固有表現抽出のために機械学習を用いる手法
上記のような素性を抽出する際に、予め人手により定義しなくても次のような固有表現の抽出技術を用いることで、自動的に抽出処理を行うことができる。
機械学習を用いて固有表現を抽出する手法がある(例えば、以下の非特許文献12参照)。
(1) A method that uses machine learning to extract proper expressions
When extracting the features as described above, the extraction process can be automatically performed by using the following specific expression extraction technique without being manually defined in advance.
There is a method of extracting a specific expression using machine learning (see, for example,
まず、例えば、「日本の首相は小泉さんです。」という文を、各文字に分割し、分割し た文字について、以下のように、 B−LOCATION、 I−LOCATION等の正解タグを付与することによって、正解を設定する。以下の一列目は、分割された各文字であり、各文字の正解タグは二列目である。
日 B−LOCATION
本 I−LOCATION
の O
首 O
相 O
は O
福 B−PERSON
田 I−PERSON
さ O
ん O
で O
す O
。 O
上記において、B−???は、ハイフン以下の固有表現の種類の始まりを意味するタグである。例えば、 B−LOCATIONは、地名という固有表現の始まりを意味しており、B−PERSONは、人名という固有表現の始まりを意味している。また、I−???は、ハイフン以下の固有表現の種類の始まり以外を意味するタグであり、O はこれら以外である。従って、例えば、文字「日」は、地名という固有表現の始まりに該当する文字であり、文字「本」までが地名という固有表現である。
First, for example, the sentence “The prime minister of Japan is Mr. Koizumi” is divided into each character, and the correct characters such as B-LOCATION and I-LOCATION are assigned to the divided characters as follows. To set the correct answer. The first column below is each divided character, and the correct tag of each character is the second column.
B-LOCATION
I-LOCATION
O
Neck O
Phase O
Is O
Fortune B-PERSON
I-PERSON
O
N
At O
O
. O
In the above, B-? ? ? Is a tag that signifies the start of the type of proper expression below the hyphen. For example, B-LOCATION means the beginning of a unique expression called a place name, and B-PERSON means the beginning of a unique expression called a person name. I-? ? ? Is a tag that means other than the beginning of the type of proper expression below the hyphen, and O is other than these. Therefore, for example, the character “day” is a character that corresponds to the beginning of the unique name “place name”, and the character “book” is the unique name “place name”.
このように、各文字の正解を設定しておき、このようなデータから学習し、新しいデータでこの正解を推定し、この正解のタグから、各固有表現の始まりと、どこまでがその固有表現かを認識して、固有表現を推定する。 In this way, the correct answer of each character is set, learned from such data, this correct answer is estimated with new data, and from this correct answer tag, the beginning of each proper expression and how far it is. Is recognized and the proper expression is estimated.
この各文字に設定された正解のデータから学習するときには、システムによってさまざまな情報を素性という形で利用する。例えば、
日 B−LOCATION
の部分は、
日本−B 名詞−B
などの情報を用いる。日本−B は、日本という単語の先頭を意味し、名詞−Bは、名詞の先頭を意味する。単語や品詞の認定には、例えば前述したChasenによる形態素解析を用いる。上述したChasenは各単語の品詞も推定することができるので、「学校へ行く」を入力すると以下の結果を得る。
When learning from the correct data set for each character, the system uses various information in the form of features. For example,
B-LOCATION
Part of
Japan-B Noun-B
Such information is used. Japan-B means the beginning of the word Japan, and noun-B means the beginning of the noun. For recognition of words and parts of speech, for example, morphological analysis by Chasen described above is used. Since Chasen described above can also estimate the part of speech of each word, the following result is obtained when "going to school" is input.
学校 ガッコウ 学校 名詞−一般
へ ヘ へ 助詞−格助詞−一般
行く イク 行く 動詞−自立 五段・カ行促音便 基本形
EOS
このように各行に一個の単語が入るように分割され、各単語に読みや品詞の情報が付与される。
School Gakkou School Noun-General
To He To Particles-Case particles-General
Go Iku Go Verb-Independence
EOS
In this way, each line is divided so that one word is included, and reading and part-of-speech information are given to each word.
なお、例えば、上記の非特許文献12では、素性として、入力文を構成する文字の、文字自体(例えば、「小」という文字)、字種(例えば、ひらがなやカタカナ等)、品詞情報、タグ情報(例えば、「B−PERSON」等)を利用している。
For example, in the
これら素性を利用して学習する。タグを推定する文字やその周辺の文字にどういう素性が出現するかを調べ、どういう素性が出現しているときにどういうタグになりやすいかを学習し、その学習結果を利用して新しいデータでのタグの推定を行なう。機械学習には、例えばサポートベクトルマシンを用いる。 Learning using these features. Investigate what features appear in the characters that estimate the tag and the surrounding characters, learn what features are likely to appear when the features appear, and use the learning results to create new data Perform tag estimation. For machine learning, for example, a support vector machine is used.
固有表現抽出には、上記の手法の他にも種々の手法がある。例えば、最大エントロピーモデルと書き換え規則を用いて固有表現を抽出する手法がある(非特許文献13参照)。 In addition to the above-described method, there are various methods for extracting the proper expression. For example, there is a technique for extracting a specific expression using a maximum entropy model and a rewrite rule (see Non-Patent Document 13).
また、例えば、以下の非特許文献14に、サポートベクトルマシンを用いて日本語固有
表現抽出を行う手法について記載されている。
Also, for example, in the following Non-Patent Document 14, using a support vector machine,
It describes a technique for extracting expressions.
(2)作成したルールを用いる手法
人手でルールを作って固有表現を取り出すという方法もある。
例えば、
名詞+「さん」だと人名とする
名詞+「首相」だと人名とする
名詞+「株式会社」だと企業名とする
名詞+「町」だと地名とする
名詞+「市」だと地名とする
などである。
(2) Method using the created rule
There is also a method of extracting a specific expression by manually creating a rule.
For example,
If it is noun + "san", it will be named
Noun + “Prime Minister” is the name
Noun + “corporation” is the name of the company + “town” is the place name
For example, a noun + “city” is a place name.
以上の方法によって固有表現を抽出し、抽出された表現のうち、例えば人名や企業名などを解−素性対抽出部(2022)において抽出することができる。 The unique expression is extracted by the above method, and among the extracted expressions, for example, a person name or a company name can be extracted by the solution feature pair extraction unit (2022).
実施例1ではルールベースを用いる方法、実施例2では過去の履歴を参照してユーザに提示する方法、実施例3では機械学習による方法をそれぞれ説明した。本発明では実施例2を実施例3に組み合わせて利用することももちろん可能である。
また、ルールベースによる方法と機械学習による方法は、同時に実装してユーザがオプション指定により選択、併用することもできる。
ルールベースで抽出された挨拶文を、機械学習の教師データとして加入して機械学習処理を行い、それによって学習結果の充実を図ることもできる。
In the first embodiment, a method using a rule base is described, in the second embodiment, a method of presenting to a user with reference to a past history, and in a third embodiment, a method using machine learning is described. In the present invention, it is of course possible to use Example 2 in combination with Example 3.
In addition, the rule-based method and the machine learning method can be implemented at the same time, and the user can select and use them together by specifying options.
Greeting texts extracted on a rule basis can be added as machine learning teacher data to perform machine learning processing, thereby enhancing learning results.
本発明の受信装置(11)は以上のように挨拶文の語感を判定することで、送信者の心情などを理解し、コミュニケーションの円滑を図ろうとするものであるが、請求項7又は8に記載されるように挨拶文以外の本文の語感も考慮することで、さらに精度の高い語感の判定を行うことができる。以下、実施例を示す。 The receiving device (11) of the present invention is to determine the feeling of the greeting as described above to understand the sentiment of the sender and to facilitate the communication. As described, it is possible to determine the utterance with higher accuracy by considering the vocabulary of the text other than the greeting. Examples are shown below.
図13は本実施例における受信装置(11)の構成図である。CPU(20)に電子メール語感判定処理部(208)と、外部記憶装置(23)に極性辞書データベース(234)を備える以外の構成は上記と同様である。 FIG. 13 is a configuration diagram of the receiving device (11) in the present embodiment. The configuration is the same as the above except that the CPU (20) includes an e-mail word sense determination processing unit (208) and the external storage device (23) includes a polarity dictionary database (234).
ここで、極性辞書データベースには、本件発明者らが非特許文献1で提案しているような評価極性付き副詞辞書を用いることもできる。
例えば、表6のように副詞について肯定・否定・中立で評価付けを行っている。
Here, for the polarity dictionary database, an adverb dictionary with evaluation polarity as proposed by the present inventors in Non-Patent Document 1 can also be used.
For example, as shown in Table 6, adverbs are evaluated by affirmation, denial, and neutrality.
副詞に着目することによって、文の評価が可能になる例について述べる。表6の「すっきり」について、「光源を厚み20 mmのパネル枠にすっきり収納しました」という例の場合、副詞「すっきり」がなければ、単に事実を述べただけとして、「中立」の評価として受け取れる文である。
しかし、この文に「すっきり」という副詞が使われていることによって、この文の話者が、文の表している事態を肯定的に評価していると判断することができる。
An example will be described in which a sentence can be evaluated by focusing on adverbs. In the case of “clean” in Table 6, in the case of “cleanly stored the light source in a panel frame with a thickness of 20 mm”, if there is no adverb “clean”, simply state the fact and evaluate “neutral” It can be received.
However, by using the adverb “clean” in this sentence, it can be determined that the speaker of this sentence is positively evaluating the situation represented by the sentence.
次に、副詞以外の文要素による評価と副詞の評価が相関している例について述べる。これは、副詞以外の文要素だけで評価が定まるような文の場合である。「セット間のカルポリ監督の喝が効いたのか、4セット目はきっちり勝ちました。」という例の場合、この文では「きっちり」という副詞がなくても、「勝ちました」という部分から、肯定的な評価と判断することができる。 Next, an example will be described in which evaluations by sentence elements other than adverbs and adverb evaluations are correlated. This is the case for a sentence whose evaluation is determined only by sentence elements other than adverbs. In the case of the example of “Is n’t the Carpel coach's trap between sets effective?” In the case of this sentence, even if there is no adverb “Kitchi” in this sentence, It can be judged as a positive evaluation.
逆に、「この時毛髪内部では程度の差こそあれ、どうしてもダメージを受けてしまいます。」という例の場合、この文では「どうしても」という副詞がなくても、「ダメージを受ける」という部分から、否定的な評価と判断することができる。この時、文の評価値と文中の副詞の評価値が同じであれば、副詞に注目するだけで文の評価を分類することが可能となる。 On the other hand, in the case of “This time, there is a degree of difference inside the hair and it will be damaged by any means.” In this sentence, even if there is no adverb “Absolutely” in this sentence, It can be judged as negative evaluation. At this time, if the evaluation value of the sentence and the evaluation value of the adverb in the sentence are the same, it is possible to classify the evaluation of the sentence only by paying attention to the adverb.
以上のように極性辞書データベースに副詞辞書を用いることで、電子メール語感判定処理部(208)の図示しない規則判定部により、電子メール全文から副詞辞書と一致する文言を抽出し、含まれる副詞の評価極性から電子メールの語感判定を行うことができる。
例えば、複数の副詞が含まれていた場合には、多数決で肯定評価が多ければその電子メールの語感は「肯定」と出力する構成でもよい。
あるいは、副詞ごとに肯定の程度を示す値を定義しておき、演算によって平均値を求め、それが適当な閾値を用いて肯定寄りならば「肯定」、中間値に近ければ「中立」、否定寄りならば「否定」と出力する構成でもよい。
As described above, by using the adverb dictionary in the polar dictionary database, the rule determination unit (not shown) of the email word sense determination processing unit (208) extracts words that match the adverb dictionary from the entire email, and includes adverb E-mail wording can be determined from the evaluation polarity.
For example, in the case where a plurality of adverbs are included, the wording of the e-mail may be output as “affirmed” if there are many positive evaluations by majority vote.
Alternatively, a value indicating the degree of affirmation is defined for each adverb, and an average value is obtained by calculation. If it is affirmative using an appropriate threshold, it is “affirmative”, if it is close to the intermediate value, “neutral”, negative If it is close, it may be configured to output “No”.
さらに、前記した挨拶文語感判定処理部(203)の判定に加えて、電子メール語感判定処理部(208)の判定を加味して、総合的な判定を行ってもよい。この場合、数値により語感の種類を表している場合には、合計値等により演算することもできる。また、それぞれに重みを定義して、重み付けに応じた総合判定を行ってもよい。 Furthermore, in addition to the determination by the greeting text word feeling determination processing unit (203), the determination by the electronic mail word feeling determination processing unit (208) may be taken into consideration to make a comprehensive determination. In this case, when the type of sensation is represented by a numerical value, it can be calculated by a total value or the like. Moreover, a weight may be defined for each, and comprehensive determination according to the weight may be performed.
電子メール語感判定処理部(208)の判定に、機械学習を用いることもできる。図14は本処理に関わる処理流れ図である。
機械学習の手法については上記の実施例と同様であるから省略するが、電子メール語感判定処理(S14)における素性抽出処理(S14a)は図7のS11aと対応し、メール語感学習結果(電子メール語感学習データベース)によって判定するメール語感機械学習判定処理(S14b)は図7のS11bと対応する。
また、挨拶文学習結果(2025)と教師データ(2026)は、メール語感学習結果(2045)、教師データ(2046)に、素性抽出処理(S20)〜学習結果出力処理(S22)は、素性抽出処理(S40)〜学習結果出力処理(S42)に対応する。
上記教師データには、電子メールから判定されるべき語感の種類情報を予め定義しておく。
Machine learning can also be used for the determination by the e-mail word sense determination processing unit (208). FIG. 14 is a processing flowchart relating to this processing.
Since the machine learning method is the same as in the above embodiment, the feature extraction process (S14a) in the e-mail word sense determination process (S14) corresponds to S11a in FIG. The mail word sensation machine learning determination process (S14b) determined by the word sensation learning database corresponds to S11b in FIG.
In addition, the greeting text learning result (2025) and the teacher data (2026) are sent to the mail speech feeling learning result (2045), and the teacher data (2046) are sent to the feature extraction process (S20) to the learning result output process (S22). This corresponds to the processing (S40) to learning result output processing (S42).
In the teacher data, type information of the sensation to be determined from the electronic mail is defined in advance.
本実施例では、素性として、教師データにおけるテキスト情報、極性辞書にある語句を含むか否か又はその語感種類情報、電子メールの送信者又は受信者の情報、電子メールの件名の語句を用いる。 In the present embodiment, text information in teacher data, whether or not to include words / phrases in the polarity dictionary, or feeling type information thereof, information on the sender / receiver of email, and words / phrases in the subject of email are used as features.
テキスト情報を素性に用いる場合とは、電子メールの本文中の任意の語句を素性として、それらの語句がどのように、いくつ出現するか等の情報によって語感を判断する方法であり、言葉通りにその電子メールの語感を判定することになる。 Using text information as a feature is a method that uses any word or phrase in the body of an e-mail as a feature and judges the word feeling based on information such as how and how many such words appear. The feeling of the e-mail is determined.
極性辞書にある語句を含むか否かを素性に用いる場合は、ルールベースでの判定方法に近いが、上記したような多数決や平均値ではなく、他の素性と合わせて機械学習により判定する方法である。極性辞書が語句ごとに極性を定義するのではなく、例えば「肯定」を示す辞書の場合には、「極性辞書にある語句を含むか否か」だけを素性とすることができる。
そして、表6のように語感種類情報も含む辞書の場合には、その語感種類情報をも素性に用いる必要がある。
When using whether or not to include a word or phrase in the polar dictionary as a feature, it is close to the rule-based determination method, but it is not a majority vote or average value as described above, but a method that is determined by machine learning in combination with other features It is. The polarity dictionary does not define the polarity for each word, but, for example, in the case of a dictionary indicating “affirmation”, only “whether or not a word in the polarity dictionary is included” can be used as a feature.
In the case of a dictionary including sensation type information as shown in Table 6, it is necessary to use the sensation type information for the feature.
電子メールの送信者又は受信者の情報と電子メールの件名の語句を素性に用いる場合は、前記挨拶文語感判定処理における意義と同様である。 When the information of the sender or receiver of the e-mail and the word / phrase of the subject of the e-mail are used for the feature, the meaning is the same as that in the greeting sentence feeling determination process.
電子メール本文の語感種類判定により、メール本文の種類分けを行って、受信メール出力処理でユーザに提示してもよい。
すなわち、本文内容から、緊急の回答が必要なメールであるかどうか、メール受信者に対する注意事項が記載されているメールかどうか、お礼のメールか、クレームのメールかなどを上記の語感と同様の方法によって機械学習し、その学習結果を用いてユーザに提示することができる。
Depending on the sensation type determination of the e-mail text, the mail text may be classified and presented to the user in the received mail output process.
That is, from the content of the text, whether it is an email that requires an urgent response, whether it is an email that contains notes for the email recipient, whether it is a thank-you email or a complaint email, etc. Machine learning can be performed by the method, and the learning result can be presented to the user.
緊急の回答が必要なメールであるかどうかを機械学習する場合には、学習データベースには緊急の回答が必要なメールと、必要のないメールとを用い、分類先は「緊急の回答が必要」「緊急の回答が必要ない」の2種類になる。分類先を複数にして緊急の回答が必要な程度を示す値、例えば5段階に分類する構成でもよい。 When machine learning is performed to determine whether an urgent response is required, the learning database uses emails that require urgent responses and emails that do not need them. There are two types: “No urgent answer is required”. A plurality of classification destinations may be used, and a value indicating the degree to which an urgent answer is required, for example, a configuration in which classification is made into five levels may be used.
同様に、注意事項が記載されているメールかどうかの場合にも、学習データベースには注意事項が記載されているメールと、記載されていないメールとを用い、分類先は「注意事項が記載されている」「注意事項が記載されていない」の2種類になる。分類先を複数にして注意事項の程度を5段階で分類してもよい。 Similarly, in the case of whether or not an e-mail contains precautions, the learning database uses e-mails that contain precautions and e-mails that are not described. Yes "and" Notices are not described ". A plurality of classification destinations may be used to classify the precautions in five levels.
お礼のメールかどうか、クレームのメールかどうかについても同様であり、学習データベースにはお礼のメールとそれ以外のメール、クレームのメールとそれ以外のメールをそれぞれ用いて機械学習してもよい。また、お礼のメールとクレームのメールは対極にあるため、「お礼のメール」「クレームのメール」「それ以外のメール」により学習して、3つの分類先に分類する構成でもよい。 The same applies to whether it is a thank-you mail or a complaint mail, and machine learning may be performed using a thank-you mail and other mails, or a complaint mail and other mails in the learning database. In addition, since the thank-you mail and the claim mail are opposite to each other, the learning may be performed by “thank-you mail”, “claim mail”, and “other mail” and classified into three classification destinations.
これらの場合の素性には、メール本文の単語列、文字列、メールの送受信者の情報、メールの件名の単語、文字列を利用することが好ましい。
また、それぞれの課題に応じた重要表現を、カイ二乗検定などの特徴分析により抽出しておき、その表現も素性に利用することができる。
For the features in these cases, it is preferable to use a word string, a character string, information on a mail sender / receiver, a word in a mail subject, and a character string.
In addition, important expressions corresponding to each problem can be extracted by feature analysis such as chi-square test, and the expressions can also be used for features.
上記実施例1において、本発明は1台のパーソナルコンピュータに受信装置(11)とメール送信装置(12)とを一体で構成できることを述べた。
実施例5として、本発明の請求項9、10、12及び20に係るメール送信装置(12)の構成と処理方法を説明する。
図15は本発明に係る電子メール送信装置(以下、送信装置と呼ぶ)(12)の構成図である。本装置における処理のフローチャートを図16に示す。本発明は公知のパーソナルコンピュータにより容易に実現することが可能であり、受信装置(11)同様、CPU(30)、キーボードやマウス(31)などの入力手段、出力結果を表示するモニタ(32)、ハードディスク等の外部記憶装置(33)、ネットワークアダプタ(34)を備える。
In the first embodiment, it has been described that the present invention can integrate the receiving device (11) and the mail transmitting device (12) into one personal computer.
As a fifth embodiment, the configuration and processing method of the mail transmission device (12) according to
FIG. 15 is a block diagram of an electronic mail transmission device (hereinafter referred to as a transmission device) (12) according to the present invention. A flowchart of processing in this apparatus is shown in FIG. The present invention can be easily realized by a known personal computer. Like the receiving device (11), the CPU (30), input means such as a keyboard and a mouse (31), and a monitor (32) for displaying output results. An external storage device (33) such as a hard disk, and a network adapter (34).
そして、CPU(30)には送信メール入力処理部(301)、挨拶文抽出処理部(302)、挨拶文語感判定処理部(303)、語感出力処理部(304)、メール送信処理部(305)が設けられている。
そして、公知のプログラミング言語によって記載されたプログラムがCPU(30)及びそれと連動するハードウェアを動作させて、以下に説述する各部(301)〜(305)の機能が実現される。
The CPU (30) includes a transmission mail input processing unit (301), a greeting sentence extraction processing unit (302), a greeting sentence word feeling determination processing part (303), a word feeling output processing part (304), and a mail transmission processing part (305). ) Is provided.
And the program described by the well-known programming language operates CPU (30) and the hardware linked with it, The function of each part (301)-(305) demonstrated below is implement | achieved.
外部記憶装置(33)には、電子メール中の挨拶文のテキスト情報又は出現箇所情報を格納した挨拶文規則データベース(331)と、電子メール中の挨拶文のテキスト情報について各挨拶文に対応する語感種類情報を予め格納した挨拶文語感規則データベース(332)とを記録している。 In the external storage device (33), the greeting text rule database (331) storing the text information of the greeting text in the e-mail or the appearance location information, and the text information of the greeting text in the e-mail correspond to each greeting text. A greeting text word sense rule database (332) in which word sense type information is stored in advance is recorded.
本実施例では、規則に基づいて(ルールベース)、挨拶文の抽出処理や挨拶文の語感を判定する処理を行う構成について説明する。
以下、図16に示す処理フローチャートを用いて、本発明の各処理を詳細に説述する。
まず送信メール入力処理部(301)がユーザがキーボード(31)を用いて入力した電子メールや、ネットワークアダプタ(24)を通してユーザ端末から送られてくるメールデータを取得し、CPU(30)における処理に用いる。(送信メール入力処理ステップ:S50)
In the present embodiment, a configuration will be described in which a greeting sentence extraction process and a process for determining the sensation of a greeting sentence are performed based on a rule (rule base).
Hereinafter, each processing of the present invention will be described in detail with reference to a processing flowchart shown in FIG.
First, the outgoing mail input processing unit (301) acquires the electronic mail input by the user using the keyboard (31) and the mail data sent from the user terminal through the network adapter (24), and the processing in the CPU (30) Used for. (Sent mail input processing step: S50)
受信したメールのテキストデータから挨拶文抽出処理部(302)が挨拶文抽出処理(S51)を実行処理する。
本実施例では実施例1と同様に、ルールベースにより挨拶文の抽出処理を行う。ここで用いる挨拶文規則データベース(331)は実施例1の同データベース(231)と同様の構成であり、受信装置(11)と一体構成の場合には共用してもよい。
A greeting text extraction processing unit (302) executes a greeting text extraction process (S51) from the text data of the received mail.
In this embodiment, as in the first embodiment, the greeting text is extracted based on the rule base. The greeting sentence rule database (331) used here has the same configuration as the database (231) of the first embodiment, and may be shared in the case of an integrated configuration with the receiving device (11).
次の挨拶文語感判定処理(S52)についても実施例1の同処理(S12)と同様であり、挨拶文語感規則データベース(332)は受信装置(11)の同データベース(232)と共用することができる。 The next greeting text / feeling determination process (S52) is the same as the processing (S12) of the first embodiment, and the greeting text / feeling rule database (332) is shared with the database (232) of the receiving device (11). Can do.
そして、送信装置においては、語感出力処理部(304)から判定された語感をユーザに向けて出力(S53)する。出力形態は任意であるが、例えばユーザが入力して送信使用としている電子メールの画面上に、語感情報をあわせて表示することができる。
また、挨拶文の箇所に着色したり、反転表示したりして、挨拶文がどの部分であるかを
明示すると共に、その語感情報を提示してもよい。
Then, in the transmission device, the word feeling determined by the word feeling output processing unit (304) is output to the user (S53). Although the output form is arbitrary, for example, the linguistic information can be displayed together on the screen of an e-mail input by the user and used for transmission.
Further, the portion of the greeting may be clearly indicated by coloring or highlighting the portion of the greeting, and the linguistic information may be presented.
送信装置(12)として、メール送信処理部(305)は、公知の方法により入力された電子メールを指定された宛先に送信処理(S54)する。図16では、語感出力処理(S53)と同時に行う構成を示しているが、後述するように語感出力処理(S53)の
後に行ってもよいし、所定の条件を満たすときに送信するようにしてもよい。
As the transmission device (12), the mail transmission processing unit (305) performs transmission processing (S54) of the electronic mail input by a known method to a designated destination. Although FIG. 16 shows a configuration that is performed simultaneously with the speech output process (S53), it may be performed after the speech output process (S53) as will be described later, or transmitted when a predetermined condition is satisfied. Also good.
実施例6として、本発明の請求項14に係る送信装置(12)(図17に示す)の構成と処理方法を説明する。すなわち、送信装置(12)に電子メールの受信者や語感種類情報を外部記憶装置(33)の過去履歴テーブル(333)に格納する過去履歴格納処理部(305)、送信する電子メールと送信者の情報が一致する過去履歴(333)を参照して、語感種類情報の履歴又は変化を検出する過去履歴検出部(307)と、過去履歴(333)や語感種類情報の変化を出力する過去履歴出力部(308)を備えている。 As a sixth embodiment, a configuration and processing method of a transmission device (12) (shown in FIG. 17) according to claim 14 of the present invention will be described. That is, the past history storage processing unit (305) for storing the e-mail recipient and speech sense type information in the past history table (333) of the external storage device (33), the e-mail to be sent and the sender The past history detection unit (307) that detects the history or change of the sensation type information with reference to the past history (333) with the same information, and the past history that outputs the change of the past history (333) and sensation type information An output unit (308) is provided.
図18は本実施例の処理の流れ図であり、挨拶文語感判定処理(S52)の後に、過去履歴格納処理部(305)が判定された語感種類情報をメールの受信者(宛先)の情報、例えばメールアドレスや氏名などと共に過去履歴テーブル(333)として格納する。(過去履歴格納ステップ:S55)
過去履歴テーブル(333)の例は表7の通りである。
FIG. 18 is a flowchart of the process of the present embodiment. After the greeting sentence feeling determination process (S52), the feeling type information determined by the past history storage processing unit (305) is changed to the information of the mail recipient (destination), For example, the past history table (333) is stored together with the e-mail address and name. (Past history storage step: S55)
An example of the past history table (333) is shown in Table 7.
ここでは、過去履歴テーブル(333)に、送信日時や挨拶文そのものも一緒に格納している。そして、次に送信メール入力処理(S50)が行われた時に、過去履歴検出部(307)が過去履歴テーブル(333)から同一の送信者の過去履歴を検出する。
具体的には、送信メール入力処理部(301)で取得したテキストデータから、宛先(To,Cc,Bcc)欄のメールアドレスを抽出し、過去履歴テーブルの受信者欄で一致するデータを抽出する。
検出されるデータは、過去のメールにおける挨拶文とその語感である。
Here, the transmission history and the greeting itself are also stored in the past history table (333). When the outgoing mail input process (S50) is performed next, the past history detection unit (307) detects the past history of the same sender from the past history table (333).
Specifically, the mail address in the destination (To, Cc, Bcc) column is extracted from the text data acquired by the transmission mail input processing unit (301), and the matching data is extracted in the recipient column of the past history table. .
The detected data is a greeting text in the past mail and its word feeling.
そして、語感出力処理(S53)と同時に、過去履歴の出力処理(S57)も行う。ユーザは自分が送ろうとしている送信メールに付した挨拶文が、過去の挨拶文と同程度であるか、変化がついているか、などを把握することができる。
また、仮に宛先を間違えて送ろうとした場合でも、立場の異なる相手に付す挨拶文は異なることが多いため、挨拶文が大きく異なっていることから気がつきやすい。これにより誤送の防止にも寄与する。
Then, the past history output process (S57) is also performed simultaneously with the speech output process (S53). The user can grasp whether the greeting attached to the outgoing mail that he / she wants to send is comparable to the past greeting or whether it has changed.
Also, even if an attempt is made to send the wrong address, the greetings given to the opponents in different positions are often different, so that the greetings are very different, so it is easy to notice. This also contributes to prevention of misdelivery.
このような構成に加えて、過去履歴検出部(307)で語感の変化を検出するようにしてもよい。この場合、挨拶文語感判定処理(S52)で判定した語感を過去履歴検出部(307)に入力(図18における一点鎖線)し、過去履歴テーブル(333)の内容と比較する。(過去履歴検出ステップ:S56)
そして、例えば語感「肯定・喜び・外部」のうち、いずれか一つでも変化した場合には変化があったとして過去履歴出力ステップ(S57)に進む。
In addition to such a configuration, a change in word feeling may be detected by the past history detection unit (307). In this case, the sensation determined in the greeting sentence sensation determination process (S52) is input to the past history detection unit (307) (the chain line in FIG. 18) and compared with the contents of the past history table (333). (Past history detection step: S56)
For example, if any one of the word feelings “affirmation / joy / external” has changed, the process proceeds to the past history output step (S57) assuming that there has been a change.
あるいは特定の尺度について変化があったときにだけ出力するようにしてもよい。すなわち、同じ宛先に対して視点の尺度が変化することは不自然であるから、視点が変化した時に過去履歴を出力するようにしてもよい。 Alternatively, it may be output only when there is a change with respect to a specific scale. That is, since it is unnatural that the viewpoint scale changes for the same destination, the past history may be output when the viewpoint changes.
また、態度の尺度においては、各語感種類間に距離を設定しておき、その距離が閾値を超えた変化があったとき過去履歴を出力してもよい。例えば、距離閾値を5として、「喜び」と「怒り」の距離の値が10であったときに、「喜び」であったユーザの心情が、「怒り」に変化したとして、ユーザに警告し、冷静なメールの作成を促すことにも寄与する。 In the attitude scale, a distance may be set between each type of sensation, and a past history may be output when the distance has changed beyond a threshold value. For example, when the distance threshold is 5 and the distance between “joy” and “anger” is 10, the user is warned that the emotion of the user who has been “joy” has changed to “anger”. , Which also contributes to encouraging the creation of cool emails.
挨拶文同士を比較する構成、同義表現辞書を用いる構成、一致度に応じて警告の態様を変化させる構成、機械学習により語感の変化を検出する構成など、いずれも受信装置(11)と同様の構成をとることができる。
送信装置(12)においては、特に挨拶文の過去履歴を出力する構成は有用である。上述したように、挨拶文はわずかな変化でも相手への印象を左右することがある。しかし、多数の相手先に送っていると、前にどのような挨拶文を書いたのかを忘れ、前回よりも丁寧でない文言に変えてしまう場合がある。そこで送信装置(12)では過去履歴を抽出し、完全に一致しない場合には警告する構成が好ましい。また、本構成は誤字脱字を見つける場合にも好適である。
A configuration for comparing greetings, a configuration using a synonym expression dictionary, a configuration for changing a warning mode according to the degree of coincidence, a configuration for detecting a change in linguistic sense by machine learning, and the like, are all the same as the receiving device (11) Configuration can be taken.
In the transmission device (12), a configuration that outputs a past history of greetings is particularly useful. As mentioned above, even a slight change in the greeting may affect the impression of the other party. However, if you send it to many other parties, you may forget what kind of greeting you wrote before and change it to a less polite word than the previous one. Therefore, it is preferable that the transmission device (12) extracts the past history and warns when it does not completely match. This configuration is also suitable for finding typographical errors.
本発明の請求項17に記載のように、送信装置(12)において、挨拶文提示処理手段として作用する過去履歴出力部(308)が、ユーザに対して付加するのに適当な挨拶文を提示する構成ととってもよい。
すなわち、過去履歴検出部(307)において、挨拶文が含まれていないと検出された場合や、語感に大きな変化があり不適切と判断された場合に、図示しない過去履歴挨拶文抽出処理部が同一の宛先の挨拶文を抽出し、図示しない挨拶文提示処理部からユーザに対して過去履歴を提示する。この提示の方法は、直接モニタ(32)で表示する構成でも、ネットワークを通じてユーザ端末に表示させる構成でもよい。
ユーザが入力手段等から選択した場合には挨拶文を本文中に挿入する。
As described in claim 17 of the present invention, in the transmission device (12), the past history output unit (308) acting as a greeting text presentation processing means presents an appropriate greeting text to be added to the user. It is good also as composition to do.
That is, when the past history detection unit (307) detects that a greeting is not included, or when it is determined that there is a large change in speech feeling and is inappropriate, a past history greeting text extraction processing unit (not shown) A greeting text of the same destination is extracted, and a past history is presented to the user from a greeting text presentation processing unit (not shown). This presentation method may be configured to display directly on the monitor (32) or to be displayed on the user terminal through the network.
When the user selects from the input means or the like, a greeting is inserted into the text.
さらに、ユーザに選択を促さず、すべてのメールについて自動的に挨拶文を付加する構成でもよい。その場合、過去履歴出力処理(S57)は当該メールに挨拶文を加入する処理となる。 Furthermore, a configuration may be adopted in which greetings are automatically added to all mails without prompting the user to select. In that case, the past history output process (S57) is a process of adding a greeting to the mail.
図18に示すように、本実施例では語感出力処理(S53)や過去履歴出力処理(S57)の後にメール送信処理(S54)を行う。この方法では、上記挨拶文提示処理部の処理によって、適切な挨拶文を選択した後に、メール送信を行うこともできる。 As shown in FIG. 18, in the present embodiment, the mail transmission process (S54) is performed after the speech output process (S53) and the past history output process (S57). In this method, it is also possible to send an e-mail after selecting an appropriate greeting by the processing of the greeting text presentation processing section.
実施例7として、本発明の請求項9、11、13に係る送信装置(12)の構成と処理方法を説明する。本実施例は機械学習を用いて、挨拶文抽出処理(S11)や挨拶文語感判定処理(S12)を行うものである。
図6は本実施例における挨拶文抽出処理部(302)の詳細構成図は図6と同様、挨拶文語感判定処理部(303)の詳細構成図は図8と同様である。また、挨拶文抽出処理(S51)は、図7の挨拶文抽出処理(S11)及び素性抽出処理(S20)〜学習結果出力処理(S22)の処理と同様であるから、図示を省略する。挨拶文語感判定処理(S52)も、図9の挨拶文抽出処理(S12)及び素性抽出処理(S30)〜学習結果出力処理(S32)の処理と同様であるから、図示を省略する。
As a seventh embodiment, a configuration and a processing method of the transmission device (12) according to
6 is the same as FIG. 6 in the detailed configuration diagram of the greeting sentence extraction processing unit (302) in this embodiment, and the same as that of FIG. 8 in the detailed configuration diagram of the greeting sentence word feeling determination processing unit (303). The greeting sentence extraction process (S51) is the same as the greeting sentence extraction process (S11) and the feature extraction process (S20) to the learning result output process (S22) in FIG. The greeting text word feeling determination process (S52) is also the same as the greeting text extraction process (S12) and the feature extraction process (S30) to the learning result output process (S32) in FIG.
最初に挨拶文抽出処理について図6及び図7を用いて説明する。送信メール入力処理(S50)の後、そのテキストデータから機械学習の演算に用いる素性を抽出する。(素性抽出ステップ:S11a)
機械学習処理部(2023)は予め用意されている外部記憶装置(23)の挨拶文学習結果(2025)を用い、素性抽出部で抽出された素性を入力として挨拶文機械学習抽出処理(S11b)を実行する。挨拶文学習結果(2025)は用いる機械学習モデルによってデータ形式は異なるが、例えば学習過程で動的に変化したパラメータの集合である。
First, greeting text extraction processing will be described with reference to FIGS. After the outgoing mail input process (S50), the features used for the machine learning calculation are extracted from the text data. (Feature extraction step: S11a)
The machine learning processing unit (2023) uses the greeting text learning result (2025) of the external storage device (23) prepared in advance, and uses the feature extracted by the feature extraction unit as an input for greeting text machine learning extraction processing (S11b) Execute. The greeting text learning result (2025) is, for example, a set of parameters that dynamically change during the learning process, although the data format differs depending on the machine learning model used.
この結果抽出された挨拶文を次の挨拶文語感判定処理(S52)で用いる。
次に挨拶文語感判定処理について図8及び図9を用いて説明する。送信するメールのテキストデータから機械学習の演算に用いる素性を抽出する。(素性抽出ステップ:S12a)この素性抽出に関して、上記挨拶文抽出処理(S11)でも機械学習を用いる場合には、上記の素性抽出処理(S11a)において同時に素性を抽出しておいてもよい。
The greeting text extracted as a result is used in the next greeting text word feeling determination process (S52).
Next, greeting sentence feeling determination processing will be described with reference to FIGS. Features used for machine learning operations are extracted from text data of emails to be sent. (Feature Extraction Step: S12a) Regarding this feature extraction, if machine learning is used in the greeting text extraction processing (S11), the features may be extracted simultaneously in the feature extraction processing (S11a).
機械学習処理部(2033)は予め用意されている外部記憶装置(23)の語感学習結果(2035)を用い、素性抽出部で抽出された素性を入力として挨拶文語感機械学習判定処理(S12b)を実行する。語感学習結果(2035)は用いる機械学習モデルによってデータ形式は異なるが、例えば学習過程で動的に変化したパラメータの集合である。 The machine learning processing unit (2033) uses the word learning result (2035) of the external storage device (23) prepared in advance, and uses the feature extracted by the feature extraction unit as an input for greeting text word feeling machine learning determination processing (S12b). Execute. The linguistic learning result (2035) is a set of parameters that dynamically change during the learning process, for example, although the data format differs depending on the machine learning model used.
以上の2つの処理によって語感出力処理(S53)に進む。
本実施例では、挨拶文抽出処理(S51)と挨拶文語感判定処理(S52)の両方で機械学習処理を用いる構成を示すが、いずれか1つはルールベースによるものでもよい。また、例えばルールベースによる方法と共に実行処理し、まずルールベースによって処理を行った後に、残りのテキストデータに対して再び機械学習による処理を行ってもよい。
The sensation output process (S53) is performed by the above two processes.
In the present embodiment, a configuration in which machine learning processing is used in both the greeting text extraction processing (S51) and the greeting text word feeling determination processing (S52) is shown, but any one of them may be based on a rule base. Further, for example, the execution processing may be performed together with the rule base method, and after the processing is first performed based on the rule base, the remaining text data may be processed again by machine learning.
本発明の送信装置(12)は以上のように挨拶文の語感を判定することで、メールを送信するユーザに対して、不適切なメールを送信することを抑制させ、コミュニケーションの円滑を図ろうとするものであるが、請求項15又は16に記載されるように挨拶文以外の本文の語感も考慮することで、さらに精度の高い語感の判定を行うことができる。
該技術については受信装置(11)の実施例4の構成と同様であるから説明を省略する。
As described above, the transmission device (12) of the present invention determines the sensation of the greeting, thereby suppressing the transmission of inappropriate mail to the user who transmits the mail, thereby facilitating communication. However, as described in the fifteenth or sixteenth aspect, it is possible to determine the utterance with higher accuracy by considering the utterance of the text other than the greeting.
Since this technique is the same as that of the fourth embodiment of the receiving apparatus (11), description thereof is omitted.
以上、説明してきたように本発明は、電子メールの挨拶文や本文から文章の語感を検出して、ユーザに提示することを特徴とするものである。本発明でいう「語感」とは言葉のもつ微妙な印象、主観的印象であって、語感により文章のニュアンスや、文章の種類、文意などが分類できるものである。
受信時においては送信者の意図を知り、電子メールの種類(緊急の回答が必要かどうか、お礼のメールか、など)を受信者であるユーザに明示することができる。送信時においても、送信者であるユーザに客観的な評価を伝え、支障のないメール送信を促すことができる。
As described above, the present invention is characterized in that the sensation of a sentence is detected from an e-mail greeting or text and presented to the user. The “sense of sensation” as used in the present invention is a subtle impression or subjective impression of a word, and the nuance of a sentence, the type of sentence, the meaning of a sentence, etc. can be classified by the sense of word.
At the time of reception, the sender's intention can be known, and the type of electronic mail (whether an urgent reply is necessary, thank you mail, etc.) can be clearly indicated to the user who is the receiver. Even at the time of transmission, an objective evaluation can be transmitted to the user who is the sender, and mail transmission without trouble can be promoted.
本発明は、上記実施例5ないし8に示したような送信装置(12)を備えたメール送信サーバ(請求項18)として提供することもできる。
すなわち、図19に示すように、送信装置(12)を内部に備えたメール送信サーバ(40)を配置し、クライアント端末(41)から送信されるメールを送信装置(12)の送信メール入力処理部(301)(図15参照)が入力し、挨拶文抽出処理(S51)、挨拶文語感判定処理(S52)等(図16参照)の各処理を実行する。そして、語感出力処理部(304)から出力された語感種類情報を、端末照会処理部(401)からクライアント端末(41)や管理用端末(42)に送信する。
The present invention can also be provided as a mail transmission server (claim 18) provided with the transmission device (12) as shown in the fifth to eighth embodiments.
That is, as shown in FIG. 19, a mail transmission server (40) provided with a transmission device (12) is arranged, and a mail transmitted from the client terminal (41) is sent to the transmission device (12) by a transmission mail input process. The unit (301) (see FIG. 15) inputs and executes each process such as a greeting sentence extraction process (S51), a greeting sentence word feeling determination process (S52), and the like (see FIG. 16). Then, the sensation type information output from the sensation output processing unit (304) is transmitted from the terminal inquiry processing unit (401) to the client terminal (41) and the management terminal (42).
これらの各端末(41)(42)はいずれも公知のパーソナルコンピュータで構成することができ、クライアント端末(41)では周知のメールソフトウェアが実行される。このようなクライアント端末(41)とメール送信サーバ(40)の動作は一般的なインターネットのメール送信処理として公知であるから詳述しない。 Each of these terminals (41) and (42) can be constituted by a known personal computer, and known mail software is executed at the client terminal (41). Since the operations of the client terminal (41) and the mail transmission server (40) are well known as general Internet mail transmission processing, they will not be described in detail.
端末照会処理部(401)の動作としては、判定された語感種類情報の全部を通知するようにしてもよいし、所定の条件に該当する語感種類情報の場合だけを通知してもよい。所定の条件の例としては語感種類が「否定」の場合や、語感種類が変化した場合などを用いることもできる。
クライアント端末(41)には常に送信する一方で、管理用端末(42)には「否定」の語感のときだけ送信するといった構成でもよい。
このクライアント端末(41)や管理用端末(42)に、このままメールを送信してよいかどうかを照会し、その結果を受信する。送信してよい場合にはメール送信処理部(305)から宛先にメールを送信する。
As an operation of the terminal inquiry processing unit (401), all of the determined sensation type information may be notified, or only in the case of the sensation type information corresponding to a predetermined condition. As an example of the predetermined condition, a case where the sensation type is “No” or a case where the sensation type changes can be used.
A configuration may be employed in which transmission is always made to the client terminal (41), while transmission is made only to the management terminal (42) when the word is “No”.
The client terminal (41) or the management terminal (42) is inquired whether or not the mail can be transmitted as it is, and the result is received. If transmission is possible, the mail transmission processing unit (305) transmits the mail to the destination.
このように、本発明のメール送信サーバ(40)は所定の条件に応じてクライアント端末から送信しようとした電子メールの送信を中断して、語感出力処理部(304)からユーザ端末に判定結果を送信し、ユーザの確認を求めることもできる。この構成は例えば企業のメール送信サーバに本装置を実装し、社員が不適切なメールを送信することを防止するのに役立つ。 As described above, the mail transmission server (40) of the present invention interrupts the transmission of the electronic mail to be transmitted from the client terminal according to the predetermined condition, and the determination result is sent from the speech output processing unit (304) to the user terminal. You can also send and ask for user confirmation. This configuration is useful for, for example, mounting this apparatus on a corporate mail transmission server and preventing employees from sending inappropriate mail.
クライアント端末(41)において、例えば「そのまま送信」「修正」などを選んで、前者の場合には端末照会処理部(401)にその旨の指示信号を送信して、メール送信装置(12)から外部PC(43)に向けてメールを送信する。後者の場合には修正した送信メールを再び語感を判定する。
語感種類情報に限らず、端末照会処理部(401)からは過去履歴出力部(308)から出力された過去履歴や、過去の挨拶文などが送信される構成でもよい。
過去の挨拶文が送信された場合、クライアント端末(41)ではその提示に従って、挨拶文を選択できるようにしてもよい。
In the client terminal (41), for example, “send as it is” or “modify” is selected, and in the case of the former, an instruction signal to that effect is sent to the terminal inquiry processing unit (401) and sent from the mail sending device (12). A mail is transmitted to the external PC (43). In the latter case, the sensation of the corrected outgoing mail is determined again.
The terminal inquiry processing unit (401) may transmit a past history output from the past history output unit (308), a past greeting, or the like without being limited to the sensation type information.
When a past greeting is transmitted, the client terminal (41) may be able to select a greeting according to the presentation.
次に、上記各実施例の処理において利用可能な技術を挙げる。適用例を例示する他、設計事項の範囲内で適宜各技術を用いることができる。 Next, technologies that can be used in the processing of each of the above embodiments will be listed. In addition to exemplifying application examples, each technique can be used as appropriate within the scope of design matters.
(類似文書の検索技術)
まず、挨拶文抽出処理において挨拶文規則に格納された挨拶文と、抽出しようとする挨拶文の関連性を判定する際や、過去履歴検出処理において、過去履歴テーブルから類似のメールデータを検出する際に、類似文書の検索技術を用いることができる。
データ収集の後、収集されたデータ形態素解析を行ってからそれによって得られた該データを構成する単語群A(本発明において、単語群は単数又は複数の単語を言う。)を、多く含む類似情報データの抽出方法を説明する。
(Search technology for similar documents)
First, similar mail data is detected from the past history table when determining the relevance between the greeting text stored in the greeting text rule in the greeting text extraction process and the greeting text to be extracted. In this case, a similar document search technique can be used.
After data collection, the collected data morphological analysis is performed, and then the word group A (in the present invention, the word group refers to one or a plurality of words) constituting the data obtained by the analysis is similar. A method for extracting information data will be described.
(1) 基本的な方法 (TF・IDF 法) の説明
(数13)
score(D) = Σ ( tf(w,D) * log(N/df(w)) )
w ∈W で加算
Wはキーワードの集合、tf(w,D)は収集されたデータでのwの出現回数、df(w)は全文書でWが出現した文書の数、Nは文書の総数
数13に示す式において、score(D) が高い文書データを類似した類似情報データとして出力する。
(1) Explanation of basic method (TF / IDF method)
(Equation 13)
score (D) = Σ (tf (w, D) * log (N / df (w)))
Add by w ∈ W
W is a set of keywords, tf (w, D) is the number of occurrences of w in the collected data, df (w) is the number of documents in which W appears in all documents, and N is the total number of documents. The document data having a high score (D) is output as similar similar data.
(2) Robertson らの Okapi weightingの説明
本方法は、非特許文献15に記載されている。
(2) Explanation of Oka wetting by Robertson et al.
This method is described in Non-Patent Document 15.
Okapi の式なら
(数14)
score(D) = Σ ( tf(w,D)/(tf(w,D) + length/delta) * log(N/df(w)) )
w ∈W で加算
lengthはデータDの長さ、delta はデータの長さの平均、データの長さは、データのバイト数、また、データに含まれる単語数などを使う。
If it is an expression of Okapi (Equation 14)
score (D) = Σ (tf (w, D) / (tf (w, D) + length / delta) * log (N / df (w)))
Add by w ∈ W
The length is the length of the data D, the delta is the average length of the data, and the length of the data is the number of bytes of the data, the number of words included in the data, or the like.
さらに、以下の情報検索を行うこともできる。
(Okapi の参考文献)
非特許文献16,17に開示されるようなOkapiの式、SMARTの式を用いることもできる。より高度な情報検索の方法として、tf・idf を使うだけの式でなく、これらの OkapiのSMARTの式を用いてもよい。
Further, the following information search can be performed.
(Okapi reference)
The Okapi formula and SMART formula as disclosed in Non-Patent Documents 16 and 17 can also be used. As a more advanced information retrieval method, these Okapi SMART formulas may be used instead of formulas using only tf · idf.
これらの方法では、tf・idf だけでなく、記事の長さなども利用して、より高精度な情報検索を行うことができる。 In these methods, more accurate information retrieval can be performed using not only tf · idf but also the length of an article.
今回の、単語群Aをより多く含む記事の抽出方法では、さらに、Rocchio’s formula (非特許文献18)を使うことができる。 In this method of extracting articles containing more word groups A, Rocchio's formula (Non-patent Document 18) can be used.
この方法は、log(N/df(w))のかわりに、
(数15)
{E(t) + k_af * (RatioC(t) − RatioD(t))} *log(N/df(w))
を使う。
In this method, instead of log (N / df (w))
(Equation 15)
{E (t) + k_af * (RatioC (t) −RatioD (t))} * log (N / df (w))
use.
E(t) = 1 (元の検索にあったキーワード)
= 0 (それ以外)
RatioC(t) はデータ群Bでのt の出現率
RatioD(t) は記事群Cでのt の出現率
log(N/df(w))を上式でおきかえた式でscore(D)を求めて、その値が大きいものほど単語群Aをより多く含む記事として取り出すものである。
E (t) = 1 (keyword in the original search)
= 0 (other than that)
RatioC (t) is the occurrence rate of t in data group B
RatioD (t) is the occurrence rate of t in the article group C
The score (D) is obtained by replacing the log (N / df (w)) with the above equation, and the larger the value, the more the word group A is extracted.
score(D)のΣの加算の際に足す単語wの集合Wは、元のキーワードと、単語群Aの両方とする。ただし、元のキーワードと、単語群Aは重ならないようにする。 A set W of words w to be added when Σ of score (D) is added is assumed to be both the original keyword and the word group A. However, the original keyword and the word group A should not overlap.
また、他の方法として、score(D)のΣの加算の際に足す。単語wの集合Wは、単語群Aのみとする。ただし、元のキーワードと、単語群Aは重ならないようにする。 As another method, it is added when Σ of score (D) is added. The set W of words w is only the word group A. However, the original keyword and the word group A should not overlap.
ここでは roccio の式で複雑な方法をとったが、単純に、単語群Aの単語の出現回数の和が大きいものほど、単語群Aをより多く含む記事として取り出すようにしてもよいし、また、単語群Aの出現の異なりの大きいものほど、単語群Aをより多く含む記事として取り出すようにしてもよい。 Here, a complicated method is used with the formula of roccio. However, as the sum of the number of appearances of the words in the word group A is larger, it may be taken out as an article containing more word groups A. Alternatively, the larger the difference in the appearance of the word group A, the more the word group A may be taken out as an article.
次に、収集されたデータ群Bの類似文章を抽出する方法を説明する。
記事同士の類似度を定義する。この類似度は、tf・idf や okapiや smartを使うとよい。tf・idf や okapiや smartなどにおける、記事Dとクエリを比較する二つの記事xとyとするとしてよい。そして、x、yの両方に含まれる単語をwとするとよい。
Next, a method for extracting similar sentences in the collected data group B will be described.
Define the similarity between articles. The similarity may be tf · idf, okapi, or smart. Two articles x and y that compare an article D and a query in tf.idf, okapi, smart, or the like may be used. A word included in both x and y is preferably w.
各単語を次元と、各単語のスコアを要素とするベクトルを作成し、記事xのベクトルを記事xに含まれる単語を使ってベクトル(vector _x)にし、また、記事yのベクトルを記事yに含まれる単語を使ってベクトル(vector _y)にし、それらベクトルの余弦(cos(vector _x,vector_y)) の値を記事の類似度としてもよい。各単語のスコアの算出には、tf・idf やokapi やsmart を用いるとよい。 A vector having each word as a dimension and the score of each word as an element is created, the vector of article x is changed to a vector (vector_x) using words contained in article x, and the vector of article y is changed to article y. It is good also considering the value of the cosine (cos (vector_x, vector_y)) of those vectors as the similarity of articles | goods using the word contained, and making it a vector (vector_y). For the calculation of the score of each word, tf · idf, okapi, and smart may be used.
それらの式のΣの後ろの部分の式がスコアの算出の式となる。その式の値が各単語のスコアとなる。 The expression after the Σ of those expressions is the expression for calculating the score. The value of the expression is the score for each word.
tf・idf だと tf(w,D) * log(N/df(w))
okapi だと tf(w,D)/(tf(w,D) + length/delta) * log(N/df(w))
がその式となる。
If tf · idf, then tf (w, D) * log (N / df (w))
If it is okapi, tf (w, D) / (tf (w, D) + length / delta) * log (N / df (w))
Is the formula.
また、単語群Aをより多く含む記事の抽出においてもこのベクトルの余弦(cos(vector_x,vector_y)) の値を求め、この値が大きい記事ほど単語群Aをより多く含む記事と判断してもよい。この場合は、単語群Aに含まれる単語を使ってベクトル(vector _x)にし、記事に含まれる単語を使ってベクトル(vector _y)にして求める。 In addition, even in the extraction of articles containing more word groups A, the value of the cosine (cos (vector_x, vector_y)) of this vector is obtained, and an article with a larger word value is judged to be an article containing more word groups A. Good. In this case, the word included in the word group A is used as a vector (vector_x), and the word included in the article is used as a vector (vector_y).
データ群Bと記事情報データxの類似度には、次の方法などがある。
(1)データ群Bのうち記事情報データxと最も類似するデータと、記事情報データxの類似度をその類似度とする方法
(2)データ群Bのうち記事情報データxと最も類似しない記事と、記事情報データxの類似度をその類似度とする方法
(3)データ群Bのすべての記事と記事情報データxの類似度の平均をその類似度とする方法
他の方法でもよいが、このようにして、データ群Bと記事情報データxの類似度を求めて、その類似度が大きいものを類似記事として取り出すことができる。
The similarity between the data group B and the article information data x includes the following methods.
(1) Data group B that is most similar to article information data x and a method that uses the similarity of article information data x as the similarity (2) Article that is most similar to article information data x in data group B And (3) a method in which the average of the similarities of all articles in the data group B and the article information data x is used as the similarity.
Although other methods may be used, the similarity between the data group B and the article information data x can be obtained in this way, and the article having a high similarity can be extracted as a similar article.
なお、他の方法としては、データ群Bに偏って出現する単語を先の方法で取り出し、そして、その単語も利用して、Rocchio’s formula に基づく Score(D) を計算し、Score(D)の大きいものを類似データとして取り出してもよい。 As another method, a word that appears biased in the data group B is extracted by the previous method, and score (D) based on Rocchio's formula is calculated using the word, and score (D ) May be extracted as similar data.
この方法により、類似する文章を取り出すことができ、本発明ではこれを類似のメール群として抽出してもよい。
なお、上述した単語群Aを含む記事を抽出による方法と、ここで説明した類似記事を取り出す方法とを両方実行してそれぞれ記事を抽出してもよい。
By this method, a similar sentence can be taken out, and in the present invention, this may be extracted as a similar mail group.
Note that the article may be extracted by executing both the above-described method of extracting articles including the word group A and the method of extracting similar articles described here.
ここで、単語群Aを含む記事を抽出による方法の場合には、正規化が必要になる。正規化としては、入力のキーワード群とまったく同じキーワード群の文書があると仮定し、その文書のスコアを算出する。そしてそのスコアで、類似度を割ることにより、正規化した類似度を算出することができる。なお、正規化の方法は任意である。 Here, in the case of the method based on extraction of articles including the word group A, normalization is required. As normalization, it is assumed that there is a document having the same keyword group as the input keyword group, and the score of the document is calculated. Then, the normalized similarity can be calculated by dividing the similarity by the score. Note that the normalization method is arbitrary.
また、非特許文献19に開示される言い換え技術を用いて、類似判定を行うこともできる。本方法では、まず同義語の言い換えの変形規則をたくさん用意し、これを用いて文章の言い換えを行う。類似度の大きくなる言い換えを行っていき、最も類似度の高くなった文同士で類似度を求める。類似度は、例えばある文章に含まれる複数のキーワードとその周辺に出現するパターンが、他方の文章でどれだけ抽出されるか、その総数をスコアとして算出することができるが、これに限らず周知の方法によって類似度は算出することができる。
この言い換えは、類似度を求める両方の文を言い換えても良い。
Similarity determination can also be performed using a paraphrase technique disclosed in Non-Patent Document 19. In this method, first, a large number of synonym paraphrasing transformation rules are prepared, and the paraphrasing is performed using these rules. Paraphrasing with increasing similarity is performed, and the similarity is obtained between sentences having the highest similarity. The similarity can be calculated as a score, for example, how many keywords included in one sentence and the pattern appearing in the vicinity are extracted in the other sentence, but not limited to this. The similarity can be calculated by this method.
This paraphrase may be paraphrased for both sentences for which the degree of similarity is obtained.
このように言い換えを行ってから類似度を求める方が、文同士が似た状態になるため、より正確に文同士の類似度を算出することができる。 In this way, when the degree of similarity is calculated after paraphrasing, the sentences are in a similar state, and thus the degree of similarity between sentences can be calculated more accurately.
(関連する挨拶文の抽出に機械学習を用いる方法)
次に、挨拶文規則抽出部で関連する挨拶文の抽出に機械学習を用いる方法もある。
上記では、関連するかどうかは、予め漢字の読みなどを定義しておき、ルールベースで関連する挨拶文を抽出していたが、この抽出自体に機械学習モデルを用いて抽出の妥当性を判断することもできる。
(Method of using machine learning to extract related greetings)
Next, there is a method of using machine learning to extract a related greeting text in the greeting text rule extraction unit.
In the above, whether or not it is related is defined by reading kanji in advance and extracting related greetings on a rule basis. The machine learning model is used for this extraction itself to determine the validity of the extraction. You can also
CPU(20)には上記の挨拶文の類似度を算出する手法を備えた類似度算出部(図示しない)と、機械学習モデルにより類似挨拶文としての妥当性を評価する類似挨拶文評価部(図示しない)とを設ける。
そして予め似挨拶文評価部に含む機械学習モジュールでは次のようにして機械学習を行い、その結果を機械学習結果データとしてハードディスクに格納しておく。
The CPU (20) includes a similarity calculation unit (not shown) having a method for calculating the similarity of the above greetings, and a similar greeting evaluation unit (evaluation of the validity as a similar greeting using a machine learning model) (Not shown).
The machine learning module included in the similar greeting evaluation unit performs machine learning in the following manner and stores the result on the hard disk as machine learning result data.
機械学習のために、挨拶文抽出処理部(202)で抽出されたデータと、挨拶文規則データベース(231)のデータ群を大量に用意し、これを機械学習モジュールに入力する学習用の入力データとする。
挨拶文抽出処理部(202)で抽出されたデータが本当に挨拶文として妥当か否かを人手によって判定し、その結果を学習用の出力データとする。
For machine learning, a large amount of data extracted from the greeting text extraction processing unit (202) and a data group of the greeting text rule database (231) are prepared, and the input data for learning is input to the machine learning module. And
It is manually determined whether or not the data extracted by the greeting text extraction processing unit (202) is really valid as a greeting text, and the result is used as output data for learning.
同時に、類似度算出部において、学習用挨拶文及び該学習用挨拶文規則データベース中の文章の類似度を算出する。この類似度の算出方法は上記の通りであり、類似度として類似する、しないの2値の結果でもよいし、類似の度合いを示す数値でもよい。
そして、機械学習における素性として、入力データの取得データを構成する単語列と、記事データ群を構成する単語列と共に、類似度とを用いる。
At the same time, the similarity calculator calculates the similarity between the learning greeting text and the text in the learning greeting text rule database. The method for calculating the similarity is as described above. The similarity may be a binary result that is similar or not, or may be a numerical value indicating the degree of similarity.
And as a feature in machine learning, a word string constituting input data acquisition data and a word string constituting an article data group are used together with similarity.
このような類似挨拶文評価部を備え、挨拶文規則データベース(231)から抽出される挨拶文群と、関連性ありと判定されたデータとを入力して該挨拶文群が抽出する対象として妥当か否かを判定する。判定結果に応じて挨拶文抽出部(202)が出力する。
機械学習モジュールにおける機械学習の方法は上述した様々な方法のいずれかを用いることができ、このときの判定結果は、「妥当である」「妥当でない」と出力される場合と、妥当である確率が出力される場合がある。前者の場合には「妥当である」記事データ群を出力すればよく、後者の場合には所定の閾値を超える確率の場合に出力すればよい。
Provided with such a similar greeting text evaluation unit, it is appropriate as an object to be extracted by the greeting text group by inputting the greeting text group extracted from the greeting text rule database (231) and the data determined to be relevant. It is determined whether or not. The greeting sentence extraction unit (202) outputs the result according to the determination result.
Any of the various methods described above can be used as the machine learning method in the machine learning module, and the judgment result at this time is output as “valid” or “invalid”, and the probability of being valid. May be output. In the former case, an “appropriate” article data group may be output, and in the latter case, it may be output when the probability exceeds a predetermined threshold.
(言い換えを行った上で、類似度により抽出する方法)
本発明ではさらに、CPUに上記言い換えの技術を備えた単語列置換部(図示しない)と上記類似度算出部を設けて、該単語列置換部において電子メールから抽出された挨拶文に含まれる単語列を順次置換しながら、挨拶文規則データベース(331)の文章との類似度を類似度算出部で算出する。そして、常に類似度が高まるように単語列を置換していき、もっとも類似度が高くなるときの類似度が所定の閾値を超えたときに挨拶文として抽出することもできる。
(Method of extracting by similarity after paraphrasing)
In the present invention, a word string replacement unit (not shown) provided with the above paraphrasing technique and a similarity calculation unit are provided in the CPU, and the word included in the greeting sentence extracted from the e-mail in the word string replacement unit The similarity calculation unit calculates the similarity with the text in the greeting text rule database (331) while sequentially replacing the columns. Then, the word string is replaced so that the degree of similarity always increases, and it can be extracted as a greeting when the degree of similarity exceeds the predetermined threshold when the degree of similarity is highest.
(出力の方法)
本発明では、語感を出力処理する際や、過去の挨拶文として出力処理する際に、次のような技術を提供することができる。
その1つは、クラスタリング処理により、語感や挨拶文同士をまとめて出力することである。
(Output method)
In the present invention, the following technique can be provided when a speech is output or when a past greeting is output.
One of them is to collectively output speech feelings and greetings by clustering processing.
(A)クラスタリングの説明
クラスタリングにはさまざまな方法がある。一般的なものを以下に記述する。
(A) Description of clustering There are various methods for clustering. The general ones are described below.
(階層クラスタリング(ボトムアップクラスタリング)の説明)
最も近い成員同士をくっつけていき、クラスターを作る。クラスターとクラスター同士
も(クラスターと成員同士も)、最も近いクラスター同士をくっつける。
クラスター間の距離の定義は様々あるので以下に説明する。
(Explanation of hierarchical clustering (bottom-up clustering))
Connect the closest members together to create a cluster. Clusters and clusters
No (clusters and members) also connect the nearest clusters.
Since there are various definitions of the distance between clusters, it will be described below.
・クラスターAとクラスターBの距離を、クラスターAの成員とクラスターBの成員の
距離の中で最も小さいものをその距離とする方法
・クラスターAとクラスターBの距離を、クラスターAの成員とクラスターBの成員の
距離の中で最も大きいものをその距離とする方法
・クラスターAとクラスターBの距離を、すべてのクラスターAの成員とクラスターB
の成員の距離の平均をその距離とする方法
・クラスターAとクラスターBの距離を、すべてのクラスターAの成員の位置の平均を
そのクラスターの位置とし、すべてのクラスターBの成員の位置の平均をそのクラスター
の位置とし、その位置同士の距離の平均をその距離とする方法
・ The distance between cluster A and cluster B is the distance between members of cluster A and cluster B.
The method of setting the smallest distance among the distances
・ The distance between cluster A and cluster B is the distance between members of cluster A and cluster B.
The method of taking the largest distance among the distances
・ Distance between cluster A and cluster B, all members of cluster A and cluster B
The average of the members' distance is the distance
・ The distance between cluster A and cluster B, and the average position of all members of cluster A
The cluster position, and the average of all cluster B member positions
And the average of the distances between the positions is the distance.
・ウォード法と呼ばれる方法もある。以下、ウォード法の説明をする。
(数16)
W = Σ Σ (x(i,j) − ave _x(i)) ^ 2
^は指数を意味する。
There is also a method called the Ward method. Hereinafter, the Ward method will be described.
(Equation 16)
W = ΣΣ (x (i, j) −ave_x (i)) ^ 2
^ Means exponent.
一つ目の
Σは i=1からi=g までの加算
二つ目の
Σは j=1からj=niまでの加算
x(i,j)は i番目のクラスターの j番目の成員の位置
ave _x(i)は i番目のクラスターのすべての成員の位置の平均
クラスター同士をくっつけていくと、Wの値が増加するが、ウォード法では、Wの値が なるべく大きくならないようにクラスター同士をくっつけていく。
First
Σ is an addition from i = 1 to i = g
Second
Σ is an addition from j = 1 to j = ni
x (i, j) is the position of j-th member of i-th cluster
ave_x (i) is the average of the positions of all members of the i-th cluster. When the clusters are joined together, the value of W increases, but in the Ward method, the clusters are separated so that the value of W is not as large as possible. I will stick together.
成員の位置は、記事から単語を取り出し、その単語の種類をベクトルの次元とし、各単語のベクトルの要素の値を、単語の頻度やその単語のtf・idf (すなわち、tf(w,D) * log(N/df(w))) 、その単語のOkapi の式 (すなわち、 tf(w,D)/(tf(w,D)+length/delta)*log(N/df(w))) としたベクトルを作成し、それをその成員の位置とする。 The position of the member is a word extracted from the article, the type of the word is a vector dimension, the value of the vector element of each word is the frequency of the word, tf · idf of the word (ie, tf (w, D)) * Log (N / df (w))), Okapi's formula for the word (ie, tf (w, D) / (tf (w, D) + length / delta) * log (N / df (w))) And make it a member's position.
(トップダウンクラスタリング(非階層クラスタリング)の説明)
以下、トップダウンのクラスタリング(非階層クラスタリング)の方法を説明する。
(Description of top-down clustering (non-hierarchical clustering))
Hereinafter, a method of top-down clustering (non-hierarchical clustering) will be described.
(最大距離アルゴリズムの説明)
ある成員をとる。次にその成員と最も離れた成員をとる。これら成員をそれぞれのクラスターの中心とする。それぞれのクラスター中心と、成員の距離の最小値を、各成員の距 離として、その距離が最も大きい成員をあらたなクラスターの中心とする。これを繰り返す。あらかじめ定めた数のクラスターになったときに、繰り返しをやめる。また、クラスター間の距離があらかじめ定めた数以下になると繰り返しをやめる。また、クラスターの良さをAIC情報量基準などで評価してその値を利用して繰り返しをやめる方法もある。各成員は、最も近いクラスター中心の成員となる。
(Explanation of maximum distance algorithm)
Take a member. Next, take the member farthest from that member. These members will be the center of each cluster. The minimum distance between each cluster center and the member is taken as the distance of each member, and the member with the largest distance is the center of the new cluster. Repeat this. When the number of clusters reaches a predetermined number, stop repeating. Moreover, the repetition is stopped when the distance between the clusters is equal to or less than a predetermined number. In addition, there is a method in which the goodness of the cluster is evaluated based on an AIC information amount standard and the repetition is stopped using the value. Each member becomes the closest cluster-centered member.
(K平均法の説明)
あらかじめ定めた個数k個にクラスタリングすることを考える。k個成員をランダムに選ぶ、それをクラスターの中心とする。各成員は最も近いクラスター中心の成員となる。クラスター内の各成員の平均をそれぞれのクラスターの中心とする。各成員は最も近いクラスター中心の成員となる。また、クラスター内の各成員の平均をそれぞれのクラスターの中心とする。これらを繰り返す。そして、クラスターの中心が移動しなくなると繰り返しをやめる。又は、あらかじめ定めた回数だけ繰り返してやめる。その最終的なクラスター中心のときのクラスター中心を使ってクラスターを求める。各成員は最も近いクラスター中心の成員となる。
(Explanation of K-mean method)
Consider clustering into a predetermined number k. Choose k members at random, and use it as the center of the cluster. Each member becomes the closest cluster-centered member. The average of each member in the cluster is the center of each cluster. Each member becomes the closest cluster-centered member. Moreover, the average of each member in a cluster is made into the center of each cluster. Repeat these. When the center of the cluster stops moving, it stops repeating. Or, repeat it a predetermined number of times. The cluster is obtained using the cluster center at the time of the final cluster center. Each member becomes the closest cluster-centered member.
(単語群によるクラスタリングの説明)
クラスタリングに類似する文書分類の方法として、あらかじめ分類先毎に単数又は複数の単語群を定義しておき、入力された情報に該単語群が含まれるか否かにより分類先に分類する方法がある。該文書分類方法についても本発明ではクラスタリングに含まれる。
入力された情報の中で複数の分類先の単語群が含まれる場合には、含まれる数が多い単語群の分類先に分類してもよいし、各単語群に重みの値をつけておき、その重みが大きい単語群の分類先に分類するようにしてもよい。
(Explanation of clustering by word group)
As a document classification method similar to clustering, there is a method in which one or a plurality of word groups are defined in advance for each classification destination and classified into classification destinations based on whether or not the input information includes the word group. . The document classification method is also included in the clustering in the present invention.
When the input information includes a plurality of classification target word groups, the input information may be classified into the word group classification destinations with a large number of classifications, and a weight value is assigned to each word group. The words may be classified into the word group having a large weight.
このようにして、クラスタリングをする。クラスタリングの方法は、これら以外にも様々な方法が公知であるので、それらを利用してもよい。 In this way, clustering is performed. Since various methods other than these are known as clustering methods, they may be used.
本発明では、過去履歴出力部(207)においてモニタ(22)から出力する際の表示態様を次のように変化させることもできる。すなわち、送受信するメールの一部又は全部について、送受信日と語感種類とをそれぞれ座標軸にとり、分布をグラフ表示することができる。 In the present invention, the display mode when outputting from the monitor (22) in the past history output unit (207) can be changed as follows. That is, for some or all of the emails to be transmitted / received, the distribution date can be displayed in a graph with the date of transmission / reception and the type of sensation as the coordinate axes.
例えば、受信日の時系列を横軸、縦軸に肯定の度合いが高いメールほど大にプロットすると、時系列に従って、肯定評価がどのように推移するのかが可視化できる。多量にメールを受信する企業などにおいて、消費者の反応を概要として把握することが容易になる。 For example, if the time series of received date is plotted on the horizontal axis and the higher the degree of affirmation on the vertical axis, it can be visualized how the positive evaluation changes according to the time series. In companies that receive a large amount of mail, it is easy to grasp the consumer's reaction as an overview.
グラフの表示方法としては、プロットによる点の集合で表示する他、肯定件数の推移を示す折れ線グラフ、肯定の度合いを高度とした等高線グラフ、バブルチャートによる表示方法などを用いることができる。 As a graph display method, in addition to displaying a set of points by plotting, a line graph showing the transition of the number of positive cases, a contour line graph with a high degree of positiveness, a display method using a bubble chart, and the like can be used.
(有意差検定を利用する説明)
上記各実施例で、所定の閾値を用いる場合の閾値の設定方法や、挨拶文・挨拶表現などを抽出する際に、それが特徴的な語句であるかを判定する際には、有意差検定を用いることもできる。以下、これを説明する。
・二項検定の場合の説明
AのCの出現数をNとする。AのBでの出現数をN1とする。
N2=N−N1とする。
(Explanation using significant difference test)
In each of the above embodiments, a threshold value setting method when using a predetermined threshold value, and when determining whether or not it is a characteristic word when extracting a greeting sentence / greeting expression, etc., a significant difference test Can also be used. This will be described below.
・ Explanation for binomial test
Let N be the number of occurrences of C in A. Let N1 be the number of occurrences of A at B.
Let N2 = N−N1.
AがCに現れたときにそれがB中に現れる確率を0.5と仮定して、Nの総出現のうち、 N2回以下、AがCに出現してBに出現しなかった確率を求める。 Assuming that the probability that A will appear in B when it appears in C is 0.5, the probability that A will appear in C and not appear in B out of N total occurrences, N2 times or less. Ask.
この確率は、
P1 = Σ C(N1+N2,x) * 0.5 ^(x) * 0.5 ^(N1+N2−x)
(ただし、Σは、x = 0 から x = N2 の和)
(ただし、C(A,B)は、A個の異なったものからB個のものを取り出す場合の数)
(ただし、^は、指数を意味する)
で表され、この確率の値が十分小さければ、N1とN2は等価な確率でない、すなわち、 N1がN2に比べて有意に大きいことと判断できる。
This probability is
P1 = ΣC (N1 + N2, x) * 0.5 ^ (x) * 0.5 ^ (N1 + N2-x)
(Where Σ is the sum of x = 0 to x = N2)
(However, C (A, B) is the number for extracting B objects from A different objects)
(However, ^ means exponent.)
If the value of this probability is sufficiently small, it can be determined that N1 and N2 are not equivalent probabilities, that is, N1 is significantly larger than N2.
5%検定なら
P1が5%よりも小さいこと、10%検定ならP1が10%よりも小さいこと、が有意に大
きいかどうかの判断基準になる。
If 5% test
P1 is less than 5%, and if 10% test, P1 is less than 10%.
It will be a criterion for judging whether or not you want.
N1がN2に比べて有意に大きいと判断されたものを記事群Bに偏って出現する単語とする。また、P1が小さいものほど、記事群Bによく偏って出現する単語とする。 Words in which N1 is determined to be significantly larger than N2 are words that appear biased in the article group B. Also, the smaller P1 is, the more frequently the word appears in the article group B.
・カイ二乗検定の場合の説明
B中のAの出現回数をN1、B中の単語の総出現数をF1、
CにあってBにない、Aの出現回数をN2、
CにあってBにない、単語の総出現数をF2とする。
・ Explanation for chi-square test
The number of occurrences of A in B is N1, the total number of occurrences of words in B is F1,
The number of occurrences of A that is in C and not in B is N2,
Let F2 be the total number of words that are in C but not in B.
N=N1+N2として、
カイ二乗値 = (N * (F1 * (N2 − F2) − (N1 − F1) * F2 )^2 )/((F1 + F2)*(N − (F1 + F2)) * N1 * N2)
を求める。
As N = N1 + N2,
Chi-square value = (N * (F1 * (N2−F2) − (N1−F1) * F2) ^ 2) / ((F1 + F2) * (N− (F1 + F2)) * N1 * N2)
Ask for.
そして、このカイ二乗値が大きいほどR1とR2は有意差があると言え、カイ二乗値が
3.84 よりも大きいとき危険率5%の有意差があると言え、カイ二乗値が 6.63 よりも大
きいとき危険率1%の有意差があると言える。
And as this chi-square value is larger, it can be said that there is a significant difference between R1 and R2, and the chi-square value is
If it is greater than 3.84, it can be said that there is a significant difference of 5% in risk rate, and the chi-square value is greater than 6.63.
It can be said that there is a significant difference of 1% in the risk rate.
N1 > N2 でかつ、カイ二乗値が大きいものほど、記事群Bによく偏って出現する単語とする。 As N1> N2 and the chi-square value is larger, the word appears more biased in the article group B.
・比の検定、正確に言うと、比率の差の検定の説明
p = (F1+F2)/(N1+N2)
p1 = R1
p2 = R2
として、
Z = | p1 − p2| / sqrt ( p * (1 − p) * (1/N1 + 1/N2) )
を求め、(ただし sqrt はルートを意味する) そして、Zが大きいほど、R1とR2は有意差があると言え、Zが 1.96 よりも大きいとき危険率5%の有意差があると言え、Zが 2.58 よりも大きいとき危険率1%の有意差があると言える。
N1>N2 で、かつZが大きいものほど、記事群Bによく偏って出現する単語とする。
・ Ratio test, to be exact, explanation of ratio difference test
p = (F1 + F2) / (N1 + N2)
p1 = R1
p2 = R2
As
Z = | p1-p2 | / sqrt (p * (1-p) * (1 / N1 + 1 / N2))
(Where sqrt means the root) And, as Z is larger, R1 and R2 are more significant, and when Z is greater than 1.96, there is a significant difference of 5% risk. When Z is larger than 2.58, it can be said that there is a significant difference of 1% of the risk rate.
A word that appears more biased in the article group B as N1> N2 and Z is larger.
これら三つの検定の方法と、先の単純に、B中のAの出現率/C中のAの出現率を求めて判定する方法を組み合わせてもよい。 These three test methods may be combined with the method of simply determining the appearance rate of A in B / the appearance rate of A in C.
例えば、危険率5%以上有意差があるもののうち、B中のAの出現率/C中のAの出現率の値が大きいものほど記事群Bによく偏って出現する単語とする。 For example, among those having a significant difference of 5% or more in the risk rate, the higher the appearance rate of A in B / the appearance rate of A in C, the more likely to appear in the article group B.
本実施例において、機械学習を用いた判定の際に、確率が最も高いものや、高い方から順に所定の個数を取り出すことができる。また、ある閾値を設定して、その閾値以上のものを抽出することもできる。所定の閾値以上のもので、かつ確率が高い方から所定の個数だけを抽出してもよい。このようにデータをどのような基準で抽出するかは本発明において任意である。
閾値や所定の個数は予め本装置に備えて固定してもよいし、ユーザが変更できるようにしてもよい。
In the present embodiment, in the determination using machine learning, a predetermined number can be extracted in order from the one with the highest probability or the highest one. It is also possible to set a certain threshold value and extract a value exceeding the threshold value. Only a predetermined number may be extracted from those having a predetermined probability or higher and a higher probability. In this way, the criteria for extracting data in this way are arbitrary.
The threshold value and the predetermined number may be fixed in advance in the apparatus, or may be changed by the user.
(複数の言語への対応)
本発明の電子メールの言語はいかなる言語でもよい。公知の翻訳ソフトをメール受信処理部(201)等に備えて機械翻訳しデータ内容として日本語で取得できるようにしてもよい。例えば英語の電子メールを翻訳ソフトによって日本語に翻訳したあとに本発明処理を行うことができる。また、本発明処理は対象を日本語に限定するものではないので、英語のまま処理を行ってもよい。
挨拶文を抽出した段階で翻訳処理して語感の判定を行う構成でもよい。このようにすると、日本語と英語の両方の言語でメールを送受信している場合にも、前の日本語メールの語感を、後の英語メールの語感との比較に用いてもよい。
(Support for multiple languages)
The language of the e-mail of the present invention may be any language. Known translation software may be provided in the mail reception processing unit (201) or the like and machine-translated to obtain data contents in Japanese. For example, the present invention processing can be performed after an English e-mail is translated into Japanese by translation software. In addition, since the processing of the present invention is not limited to Japanese, processing may be performed in English.
A configuration may also be adopted in which word processing is determined by translation processing at the stage of extracting a greeting. In this way, even when mail is sent and received in both Japanese and English languages, the previous Japanese mail feeling may be used for comparison with the later English mail feeling.
複数の言語で出力する場合には、翻訳結果を表示してもよいし、語感の判定結果のみを表示してもよい。
高度な翻訳ソフトを用いず、単に辞書を照合して単語を置き換えるだけでもよい。
特に、挨拶文は外国語のメールにおいても定型的である場合が多く、単語又は文章による置き換えでも十分に本発明の効果を奏する。
When outputting in a plurality of languages, the translation result may be displayed, or only the determination result of the feeling may be displayed.
Instead of using advanced translation software, you can simply match a dictionary and replace a word.
In particular, greetings are often typical even in foreign language mails, and even if they are replaced by words or sentences, the effects of the present invention are sufficiently achieved.
本発明において電子メール本文の語感を検出する際に、要約処理を行ってから検出処理することもできる。すなわち、長文のメールであって、様々な話題が含まれているときに、全体としての語感を的確に検出することが難しくなる。そこで、要約処理を行った後にその語感を検出することで、重要な部分の語感を検出することができるようになる。 In the present invention, when detecting the sensation of the body text of the electronic mail, the detection process can be performed after the summary process. That is, it is difficult to accurately detect the word feeling as a whole when a long mail is included and various topics are included. Therefore, by detecting the word feeling after performing the summarization process, it becomes possible to detect the word feeling of an important part.
まず、要約処理は公知の様々な手法が知られているが、例えば本発明者らによる特許文献2及び特許文献3の方法に開示される要約手法を用いることができる。
すなわち、特許文献2の方法によれば、要約装置として、文章およびその要約結果である問題と前記要約結果に対する評価を示す複数の分類先である解との組からなる解データを記憶する解データ記憶手段と、解データの問題である文章および要約結果から、例えば要約結果の文のなめらかさを示す情報および要約結果が文章の内容を表示しているかどうかを示す情報を含む所定の情報を素性として抽出する。
First, various known methods are known for the summarization process. For example, the summarization methods disclosed in the methods of Patent Document 2 and Patent Document 3 by the present inventors can be used.
That is, according to the method of Patent Document 2, as summarization apparatus, solution data that stores solution data composed of a combination of a sentence and a problem that is a summary result thereof and a plurality of classification destination solutions that indicate evaluation on the summary result Based on the storage means and the sentences and summary results that are the problem of the solution data, for example, the information indicating the smoothness of the sentences of the summary results and the predetermined information including the information indicating whether or not the summary results display the contents of the sentences Extract as
そして、その解と素性の集合との組を生成する解−素性対抽出手段と、解と前記素性の集合との組を学習結果として学習結果記憶手段に記憶する機械学習手段と、解−素性対抽出手段により抽出される情報を素性とし、入力されたテキストから前記素性の集合を抽出する素性抽出手段と、学習結果である前記解と前記素性の集合との組をもとに、ベイズの定理にもとづいて前記素性抽出手段から得た前記テキストの素性の集合の場合の各分類になる確率を求め、前記確率の値が最も大きい分類を、求める推定解とする評価推定手段とを備える。 A solution-feature pair extraction unit that generates a set of the solution and a set of features; a machine learning unit that stores a set of the solution and the set of features as a learning result in a learning result storage unit; and a solution-feature Based on a set of feature extraction means for extracting the set of features from the input text and information extracted by the pair extraction means, and the solution and the set of features as a learning result, And a probability estimation unit that obtains the probability of each classification in the case of the set of text features obtained from the feature extraction unit based on the theorem, and uses the category having the largest probability value as an estimated solution to be obtained.
また、特許文献3に記載の方法は、機械学習法によりテキストを自動要約する処理で用いる解データを編集する解データ編集処理装置であって、テキストの要約結果を表示装置に表示する要約表示処理手段と、前記要約結果に対する評価の入力を受け付けて前記要約結果の評価とする評価付与処理手段と、前記テキストおよび前記要約結果を問題とし前記評価を解とする解データを出力する解データ出力処理手段とを備える。 The method described in Patent Document 3 is a solution data editing processing device that edits solution data used in processing for automatically summarizing text by a machine learning method, and displays summary results of text on a display device. Means for accepting an evaluation input for the summary result and evaluating the summary result; and a solution data output process for outputting solution data with the text and the summary result as problems and using the evaluation as a solution Means.
以上にあげた方法は、いずれも公知の要約方法に対して、それを評価し、又はその結果をフィードバックすることにより機械学習の精度の向上を図るものであり、これによって効果的な要約方法に寄与する。
もちろん、ここで用いる機械学習方法はシンプルベイズ法に限らず、k近傍法、決定リスト法、最大エントロピー法、サポートベクトルマシン法、ニューラルネットワーク法などいかなるモデルを用いても良い。
All of the above-mentioned methods are intended to improve the accuracy of machine learning by evaluating or feeding back the results of the methods to known summarization methods. Contribute.
Of course, the machine learning method used here is not limited to the simple Bayes method, and any model such as a k-nearest neighbor method, a decision list method, a maximum entropy method, a support vector machine method, or a neural network method may be used.
なお、本発明における要約処理は、機械学習による方法に限らず、公知の任意の要約方法を用いることができる。
例えば、文書の位置、タイトルの単語を含んでいる個数、その文に出現する単語のtfidfの値 のそれぞれの情報を用いて、各文のスコアを求め、そのスコアの大きいものを要約結果とする方法がある。
また、一般にタイトルの単語は重要なため、タイトルの単語を多く含む文を抽出してその文を要約結果とすることができる。
より単純に、文書の第一文など、最初の方を要約文としてもよい。
Note that the summarization processing in the present invention is not limited to the method based on machine learning, and any known summarization method can be used.
For example, the score of each sentence is obtained using the information on the position of the document, the number of words including the title word, and the value of tfidf of the word that appears in the sentence, and the summary result is the one with the highest score. There is a way.
In general, since the title word is important, a sentence including many title words can be extracted and used as a summary result.
More simply, the first sentence such as the first sentence of the document may be a summary sentence.
11 メール受信装置
20 CPU
201 メール受信処理部
202 挨拶文抽出処理部
203 挨拶文語感判定処理部
204 受信メール出力部
21 キーボード・マウス
22 モニタ
23 外部記憶装置
231 挨拶文規則データベース
232 挨拶文語感規則データベース
24 ネットワークアダプタ
11
DESCRIPTION OF
Claims (20)
該通信ネットワークに接続して電子メールを受信するメール受信処理手段と、
受信した電子メールから挨拶文を抽出する挨拶文抽出処理手段と、
少なくとも該挨拶文に含まれる語句情報を用いて、該挨拶文が含む語感の種類を判定する挨拶文語感判定処理手段と、
該電子メールと共に、判定された該挨拶文の語感種類情報を出力する受信メール出力処理手段と
を備えたことを特徴とする電子メール受信装置。 An e-mail receiving device that receives e-mail from an external server via a communication network,
Mail reception processing means for connecting to the communication network and receiving e-mail;
Greeting text extraction processing means for extracting a greeting text from the received e-mail;
A greeting sentence sensation determination processing means for determining a type of sensation included in the greeting sentence using at least phrase information included in the greeting sentence;
An e-mail receiving apparatus comprising: a received e-mail output processing unit that outputs the determined sensation type information of the greeting text together with the e-mail.
電子メール中の挨拶文のテキスト情報又は出現箇所情報を予め格納した挨拶文規則データベースと、
該挨拶文データベースを参照して、該テキスト情報と該電子メールに含まれるテキストとの比較処理により関連する挨拶文を抽出するか、該電子メールに含まれるテキストから該出現箇所情報に従って挨拶文を抽出する挨拶文規則抽出部と
を備えたことを特徴とする請求項1に記載の電子メール受信装置。 In the greeting sentence extraction processing means,
Greeting text rule database pre-stored text information or appearance location information of the greeting text in the email,
By referring to the greeting text database, a related greeting text is extracted by comparing the text information with the text included in the e-mail, or a greeting text is extracted from the text included in the e-mail according to the appearance information. The e-mail receiving device according to claim 1, further comprising: a greeting sentence rule extracting unit for extracting.
電子メール中のどの部分が挨拶文であるかを予め定義した教師データを用い、該教師データにおける挨拶文の出現箇所情報、テキスト情報、品詞、あらかじめ挨拶に用いる語句を備えた挨拶表現辞書に含まれる単語か否か、電子メールの送信者又は受信者の情報、電子メールの件名の語句の少なくともいずれかを素性として機械学習し、その結果を格納した挨拶文学習データベースと、
前記受信した電子メールを入力して、該挨拶文学習データベースを参照して機械学習処理により挨拶文を抽出する挨拶文機械学習抽出部と
を備えたことを特徴とする請求項1又は2に記載の電子メール受信装置。 In the greeting sentence extraction processing means,
Included in the greeting expression dictionary that uses pre-defined teacher data to determine which part of the e-mail is a greeting text, and includes information on the appearance of the greeting text in the teacher data, text information, parts of speech, and phrases used for greetings in advance Whether or not it is a word, machine information of the sender or recipient of the email, at least one of the words of the subject of the email as a feature, and a greeting text learning database storing the results,
3. A greeting text machine learning extraction unit that inputs the received e-mail and extracts a greeting text by machine learning processing with reference to the greeting text learning database. E-mail receiver.
電子メール中の挨拶文のテキスト情報について各挨拶文に対応する語感種類情報を予め格納した挨拶文語感規則データベースと、
前記挨拶文抽出処理手段で抽出された挨拶文と、該挨拶文語感規則データベースとの比較処理又は所定の演算処理により挨拶文語感種類を判定する挨拶文語感規則判定部と
を備えたことを特徴とする請求項1ないし3のいずれかに記載の電子メール受信装置。 In the greeting sentence feeling determination processing means,
About the text information of the greeting text in the e-mail, the greeting text word sense rule database in which the word feeling type information corresponding to each greeting text is stored in advance,
A greeting text word sense rule determination unit that determines a greeting text word feeling type by comparing the greeting text extracted by the greeting text extraction processing means with the greeting text word feeling rule database or by a predetermined calculation process. The electronic mail receiving device according to any one of claims 1 to 3.
電子メール中の挨拶文から判定されるべき語感の種類情報を予め定義した教師データを用い、該教師データにおける挨拶文の出現箇所情報、テキスト情報、品詞、あらかじめ挨拶に用いる語句を備えた挨拶表現辞書に含まれる単語か否か、電子メールの送信者又は受信者の情報、電子メールの件名の語句の少なくともいずれかを素性として機械学習し、その結果を格納した挨拶文語感学習データベースと、
少なくとも前記挨拶文抽出処理手段で抽出された挨拶文を入力して、該挨拶文語感学習データベースを参照して機械学習処理により語感種類情報を判定する挨拶文語感機械学習判定部と
を備えたことを特徴とする請求項1ないし4のいずれかに記載の電子メール受信装置。 In the greeting sentence feeling determination processing means,
Greeting data with greetings appearance information, text information, parts of speech, and phrases used for greetings in advance, using teacher data that pre-defines the type of sensation to be determined from greetings in email Whether it is a word included in the dictionary, information of the sender or recipient of the email, machine learning as a feature of at least one of the words of the subject of the email, and a greeting sentence feeling learning database storing the result,
A greeting sentence feeling machine learning determination unit that inputs at least the greeting sentence extracted by the greeting sentence extraction processing means and determines the word type information by machine learning processing with reference to the greeting sentence word feeling learning database; The electronic mail receiving device according to claim 1, wherein
前記メール受信処理手段が受信した電子メールにおいて、少なくとも電子メールの送信者の情報と、その電子メールに係る語感種類情報とを記憶手段に格納する過去履歴格納処理手段と、
電子メールの受信時又は所定の契機に、受信した電子メールと、送信者の情報が一致する過去履歴を参照して、語感種類情報の履歴又は変化を検出する過去履歴検出手段と、
少なくとも該受信した電子メールと共に該履歴又は変化を出力する過去履歴出力手段と
を備えたことを特徴とする請求項1ないし5のいずれかに記載の電子メール受信装置。 In the electronic mail receiving device,
In the electronic mail received by the mail reception processing means, at least information of the sender of the electronic mail, and past history storage processing means for storing in the storage means the sensation type information related to the electronic mail,
A past history detecting means for detecting a history or change of the sensation type information with reference to a past history in which the received email and the sender's information match at the time of receiving the email or at a predetermined opportunity;
6. The electronic mail receiving apparatus according to claim 1, further comprising: past history output means for outputting the history or change together with at least the received electronic mail.
少なくとも前記電子メールのテキストに含まれる語句情報を用いて、該テキストが含む語感の種類を判定する電子メール語感判定処理手段を備える構成であって、
該電子メール語感判定処理手段が、
複数の語句に対応する語感種類情報を予め格納した極性辞書データベースと、
該テキストに含まれる語句と、該極性辞書データベースとの比較処理又は所定の演算処理により該テキストの語感種類を判定する電子メール語感規則判定部と
を備え、
前記受信メール出力処理手段において、該テキスト又は該テキストの語感種類を出力する
ことを特徴とする請求項1ないし6のいずれかに記載の電子メール受信装置。 In the electronic mail receiving device,
Using at least word / phrase information included in the text of the e-mail, comprising e-mail word feeling determination processing means for determining the kind of word feeling included in the text,
The e-mail word sense determination processing means
A polarity dictionary database pre-stored word sense type information corresponding to a plurality of phrases;
An e-mail word sense rule determining unit that determines the word sense type of the text by comparison processing with the polar dictionary database or predetermined arithmetic processing with the words included in the text,
The electronic mail receiving apparatus according to any one of claims 1 to 6, wherein the received mail output processing means outputs the text or a feeling type of the text.
少なくとも前記電子メールのテキストに含まれる語句情報を用いて、該テキストが含む語感の種類を判定する電子メール語感判定処理手段を備える構成であって、
該電子メール語感判定処理手段が、
複数の語句に対応する語感種類情報を予め格納した極性辞書データベースと、
電子メールから判定されるべき語感の種類情報を予め定義した教師データを用い、該教師データにおけるテキスト情報、極性辞書にある語句を含むか否か又はその語感種類情報、電子メールの送信者又は受信者の情報、電子メールの件名の語句の少なくともいずれかを素性として機械学習し、その結果を格納した電子メール語感学習データベースと、
少なくとも受信した前記電子メールを入力して、該電子メール語感学習データベースを参照して機械学習処理により語感種類情報を判定する電子メール語感機械学習判定部と
を備え、
前記受信メール出力処理手段において、該テキスト又は該テキストの語感種類を出力する
ことを特徴とする請求項1ないし7のいずれかに記載の電子メール受信装置。 In the electronic mail receiving device,
Using at least word / phrase information included in the text of the e-mail, comprising e-mail word feeling determination processing means for determining the kind of word feeling included in the text,
The e-mail word sense determination processing means
A polarity dictionary database pre-stored word sense type information corresponding to a plurality of phrases;
Using teacher data in which the type information of the sensation to be determined from the e-mail is defined in advance, the text information in the teacher data, whether or not it contains a phrase in the polarity dictionary, or the sensation type information, the sender or reception of the e-mail Machine learning with at least one of the user ’s information and / or the subject of the email as a feature,
An e-mail word sense machine learning determination unit that inputs at least the received e-mail and determines the word type information by machine learning processing with reference to the e-mail word sense learning database;
The electronic mail receiving apparatus according to any one of claims 1 to 7, wherein the received mail output processing means outputs the text or a feeling type of the text.
送信する電子メールを入力する送信メール入力処理手段と、
送信する電子メールから挨拶文を抽出する挨拶文抽出処理手段と、
少なくとも該挨拶文に含まれる語句情報を用いて、該挨拶文が含む語感の種類を判定する挨拶文語感判定処理手段と、
判定された該挨拶文の語感種類情報を出力する語感出力処理手段と、
該通信ネットワークに接続して指定された宛先に向けて電子メールを送信するメール送信処理手段と
を備えたことを特徴とする電子メール送信装置。 An e-mail transmission device that transmits an e-mail to an external server via a communication network,
An outgoing mail input processing means for inputting an email to be sent;
Greeting text extraction processing means for extracting a greeting text from an email to be transmitted;
A greeting sentence sensation determination processing means for determining a type of sensation included in the greeting sentence using at least phrase information included in the greeting sentence;
A sensation output processing means for outputting the sensation type information of the determined greeting;
An e-mail transmission apparatus comprising: mail transmission processing means for transmitting an e-mail to a designated destination connected to the communication network.
電子メール中の挨拶文のテキスト情報又は出現箇所情報を予め格納した挨拶文規則データベースと、
該挨拶文データベースを参照して、該テキスト情報と該電子メールに含まれるテキストとの比較処理により関連する挨拶文を抽出するか、該電子メールに含まれるテキストから該出現箇所情報に従って挨拶文を抽出する挨拶文規則抽出部と
を備えたことを特徴とする請求項9に記載の電子メール送信装置。 In the greeting sentence extraction processing means,
Greeting text rule database pre-stored text information or appearance location information of the greeting text in the email,
By referring to the greeting text database, a related greeting text is extracted by comparing the text information with the text included in the e-mail, or a greeting text is extracted from the text included in the e-mail according to the appearance information. The e-mail transmission device according to claim 9, further comprising: a greeting sentence rule extracting unit for extracting.
電子メール中のどの部分が挨拶文であるかを予め定義した教師データを用い、該教師データにおける挨拶文の出現箇所情報、テキスト情報、品詞、あらかじめ挨拶に用いる語句を備えた挨拶表現辞書に含まれる単語か否か、電子メールの送信者又は受信者の情報、電子メールの件名の語句の少なくともいずれかを素性として機械学習し、その結果を格納した挨拶文学習データベースと、
前記送信する電子メールを入力して、該挨拶文学習データベースを参照して機械学習処理により挨拶文を抽出する挨拶文機械学習抽出部と
を備えたことを特徴とする請求項9又は10に記載の電子メール送信装置。 In the greeting sentence extraction processing means,
Included in the greeting expression dictionary that uses pre-defined teacher data to determine which part of the e-mail is a greeting text, and includes information on the appearance of the greeting text in the teacher data, text information, parts of speech, and phrases used for greetings in advance Whether or not it is a word, machine information of the sender or recipient of the email, at least one of the words of the subject of the email as a feature, and a greeting text learning database storing the results,
11. A greeting text machine learning extraction unit that inputs the e-mail to be transmitted and extracts a greeting text by machine learning processing with reference to the greeting text learning database. E-mail sending device.
電子メール中の挨拶文のテキスト情報について各挨拶文に対応する語感種類情報を予め格納した挨拶文語感規則データベースと、
前記挨拶文抽出処理手段で抽出された挨拶文と、該挨拶文語感規則データベースとの比較処理又は所定の演算処理により挨拶文語感種類を判定する挨拶文語感規則判定部と
を備えたことを特徴とする請求項9ないし11のいずれかに記載の電子メール送信装置。 In the greeting sentence feeling determination processing means,
About the text information of the greeting text in the e-mail, the greeting text word sense rule database in which the word feeling type information corresponding to each greeting text is stored in advance,
A greeting text word sense rule determination unit that determines a greeting text word feeling type by comparing the greeting text extracted by the greeting text extraction processing means with the greeting text word feeling rule database or by a predetermined calculation process. The electronic mail transmitting device according to any one of claims 9 to 11.
電子メール中の挨拶文から判定されるべき語感の種類情報を予め定義した教師データを用い、該教師データにおける挨拶文の出現箇所情報、テキスト情報、品詞、あらかじめ挨拶に用いる語句を備えた挨拶表現辞書に含まれる単語か否か、電子メールの送信者又は受信者の情報、電子メールの件名の語句の少なくともいずれかを素性として機械学習し、その結果を格納した挨拶文語感学習データベースと、
少なくとも前記挨拶文抽出処理手段で抽出された挨拶文を入力して、該挨拶文語感学習データベースを参照して機械学習処理により語感種類情報を判定する挨拶文語感機械学習判定部と
を備えたことを特徴とする請求項9ないし12のいずれかに記載の電子メール送信装置。 In the greeting sentence feeling determination processing means,
Greeting data with greetings appearance information, text information, parts of speech, and phrases used for greetings in advance, using teacher data that pre-defines the type of sensation to be determined from greetings in email Whether it is a word included in the dictionary, information of the sender or recipient of the email, machine learning as a feature of at least one of the words of the subject of the email, and a greeting sentence feeling learning database storing the result,
A greeting sentence feeling machine learning determination unit that inputs at least the greeting sentence extracted by the greeting sentence extraction processing means and determines the word type information by machine learning processing with reference to the greeting sentence word feeling learning database; The electronic mail transmitting apparatus according to claim 9, wherein the electronic mail transmitting apparatus is an electronic mail transmitting apparatus.
前記送信メール入力処理手段が入力した電子メールにおいて、少なくとも電子メールの送信者の情報と、その電子メールに係る語感種類情報とを記憶手段に格納する過去履歴格納処理手段と、
電子メールの送信時又は所定の契機に、送信する電子メールと、受信者の情報が一致する過去履歴を参照して、語感種類情報の履歴又は変化を検出する過去履歴検出手段と、
少なくとも該送信する電子メールと共に該履歴又は変化を出力する過去履歴出力手段と
を備えたことを特徴とする請求項9ないし13のいずれかに記載の電子メール送信装置。 In the electronic mail transmitting device,
In the electronic mail input by the outgoing mail input processing means, past history storage processing means for storing in the storage means at least information of the sender of the electronic mail and linguistic type information related to the electronic mail,
A past history detecting means for detecting a history or change of the sensation type information with reference to a past history in which the information of the recipient and the email to be transmitted coincide with when the email is transmitted or at a predetermined opportunity;
14. The electronic mail transmitting device according to claim 9, further comprising: past history output means for outputting the history or change together with at least the electronic mail to be transmitted.
少なくとも前記電子メールのテキストに含まれる語句情報を用いて、該テキストが含む語感の種類を判定する電子メール語感判定処理手段を備える構成であって、
該電子メール語感判定処理手段が、
複数の語句に対応する語感種類情報を予め格納した極性辞書データベースと、
該テキストに含まれる語句と、該極性辞書データベースとの比較処理又は所定の演算処理により該テキストの語感種類を判定する電子メール語感規則判定部と
を備え、
前記語感出力処理手段において、該テキスト又は該テキストの語感種類を出力する
ことを特徴とする請求項9ないし14のいずれかに記載の電子メール送信装置。 In the electronic mail transmitting device,
Using at least word / phrase information included in the text of the e-mail, comprising e-mail word feeling determination processing means for determining the kind of word feeling included in the text,
The e-mail word sense determination processing means
A polarity dictionary database pre-stored word sense type information corresponding to a plurality of phrases;
An e-mail word sense rule determining unit that determines the word sense type of the text by comparison processing with the polar dictionary database or predetermined arithmetic processing with the words included in the text,
The electronic mail transmitting device according to any one of claims 9 to 14, wherein the word output processing means outputs the text or a word type of the text.
少なくとも前記電子メールのテキストに含まれる語句情報を用いて、該テキストが含む語感の種類を判定する電子メール語感判定処理手段を備える構成であって、
該電子メール語感判定処理手段が、
複数の語句に対応する語感種類情報を予め格納した極性辞書データベースと、
電子メールから判定されるべき語感の種類情報を予め定義した教師データを用い、該教師データにおけるテキスト情報、極性辞書にある語句を含むか否か又はその語感種類情報、電子メールの送信者又は受信者の情報、電子メールの件名の語句の少なくともいずれかを素性として機械学習し、その結果を格納した電子メール語感学習データベースと、
少なくとも受信した前記電子メールを入力して、該電子メール語感学習データベースを参照して機械学習処理により語感種類情報を判定する電子メール語感機械学習判定部と
を備え、
前記語感出力処理手段において、該テキスト又は該テキストの語感種類を出力する
ことを特徴とする請求項9ないし15のいずれかに記載の電子メール送信装置。 In the electronic mail transmitting device,
Using at least word / phrase information included in the text of the e-mail, comprising e-mail word feeling determination processing means for determining the kind of word feeling included in the text,
The e-mail word sense determination processing means
A polarity dictionary database pre-stored word sense type information corresponding to a plurality of phrases;
Using teacher data that predefines the type of sensation to be determined from the e-mail, text information in the teacher data, whether or not it contains words in the polarity dictionary, or the sensation type information, sender or reception of the e-mail Machine learning with at least one of the user ’s information and / or the subject of the email as a feature,
An e-mail word sense machine learning determination unit that inputs at least the received e-mail and determines the word type information by machine learning processing with reference to the e-mail word sense learning database;
The electronic mail transmitting device according to any one of claims 9 to 15, wherein the word output processing means outputs the text or a word type of the text.
送信する電子メールに付加すべき挨拶文を自動的に提示する挨拶文提示処理手段を備える構成であって、
該挨拶文提示処理手段が、
前記過去履歴格納処理手段の過去履歴を参照し、送信する電子メールの少なくとも受信者の情報と一致する過去履歴における挨拶文を抽出する過去履歴挨拶文抽出処理部と
抽出された挨拶文の一部又は全部を提示する挨拶文提示処理部と
を備えたことを特徴とする請求項14ないし16のいずれかに記載の電子メール送信装置。 In the electronic mail transmitting device,
A configuration comprising greeting text presentation processing means for automatically presenting a greeting text to be added to the e-mail to be transmitted,
The greeting sentence presentation processing means
A past history greeting text extraction processing unit that refers to the past history of the past history storage processing means and extracts a greeting text in the past history that matches at least the recipient information of the e-mail to be transmitted, and a part of the extracted greeting text An e-mail transmission device according to any one of claims 14 to 16, further comprising: a greeting text presentation processing unit for presenting all of them.
前記請求項9ないし17に記載の電子メール送信装置を備えると共に、
前記語感出力処理手段又は過去履歴出力手段、挨拶文提示処理手段の少なくともいずれかの手段からの出力結果の全部又は所定の条件に該当する一部を該クライアント端末又は所定の管理用端末に通知し、少なくとも電子メールを宛先に送信するか否かを照会する端末照会処理手段を備え、
該電子メール送信装置のメール送信処理手段が、該照会結果に従って、電子メールの送信処理を行う
ことを特徴とするメール送信サーバ。 A mail transmission server that receives mail data from a client terminal and transmits the mail toward a destination address included in the mail data,
The electronic mail transmitting device according to claim 9 to 17 is provided.
Notifying the client terminal or a predetermined management terminal of all the output results from at least one of the speech output processing means, the past history output means, and the greeting sentence presentation processing means, or a part corresponding to a predetermined condition. , Comprising at least terminal inquiry processing means for inquiring whether or not to send an e-mail to a destination,
A mail transmission server, wherein the mail transmission processing means of the electronic mail transmission device performs an electronic mail transmission process according to the inquiry result.
メール受信処理手段が、該通信ネットワークに接続して電子メールを受信するメール受信処理ステップ、
挨拶文抽出処理手段が、受信した電子メールから挨拶文を抽出する挨拶文抽出処理ステップ、
挨拶文語感判定処理手段が、少なくとも該挨拶文に含まれる語句情報を用いて、該挨拶文が含む語感の種類を判定する挨拶文語感判定処理ステップ、
受信メール出力処理手段が、該電子メールと共に、判定された該挨拶文の語感種類情報を出力する受信メール出力処理ステップ
を有することを特徴とする電子メール受信方法。 An electronic mail receiving method for a computer that receives an electronic mail from an external server via a communication network,
A mail reception processing step, wherein the mail reception processing means connects to the communication network and receives an email;
A greeting text extraction processing means for extracting a greeting text from the received e-mail;
A greeting sentence feeling determination processing means, using at least phrase information included in the greeting sentence, a greeting sentence word feeling determination processing step of determining a kind of feeling included in the greeting sentence;
A received mail output processing means, comprising: a received mail output processing step of outputting, together with the electronic mail, the determined sensation type information of the greeting.
送信メール入力処理手段が、送信する電子メールを入力する送信メール入力処理ステップ、
挨拶文抽出処理手段が、送信する電子メールから挨拶文を抽出する挨拶文抽出処理ステップ、
挨拶文語感判定処理手段が、少なくとも該挨拶文に含まれる語句情報を用いて、該挨拶文が含む語感の種類を判定する挨拶文語感判定処理ステップ、
語感出力処理手段が、判定された該挨拶文の語感種類情報を出力する語感出力処理ステップ
を有することを特徴とする電子メール送信方法。 A computer e-mail transmission method for sending an e-mail to an external server via a communication network,
An outgoing mail input processing means for an outgoing email input processing step for inputting an email to be sent;
Greeting text extraction processing means for extracting a greeting text from the email to be transmitted,
A greeting sentence feeling determination processing means, using at least phrase information included in the greeting sentence, a greeting sentence word feeling determination processing step of determining a kind of feeling included in the greeting sentence;
An electronic mail transmission method, wherein the speech output processing means includes a speech output processing step of outputting the determined speech type information of the greeting.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008217206A JP2010056682A (en) | 2008-08-26 | 2008-08-26 | E-mail receiver and method of receiving e-mail, e-mail transmitter and e-mail transmission method, mail transmission server |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008217206A JP2010056682A (en) | 2008-08-26 | 2008-08-26 | E-mail receiver and method of receiving e-mail, e-mail transmitter and e-mail transmission method, mail transmission server |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010056682A true JP2010056682A (en) | 2010-03-11 |
Family
ID=42072178
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008217206A Pending JP2010056682A (en) | 2008-08-26 | 2008-08-26 | E-mail receiver and method of receiving e-mail, e-mail transmitter and e-mail transmission method, mail transmission server |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010056682A (en) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013167985A (en) * | 2012-02-15 | 2013-08-29 | Nomura Research Institute Ltd | Conversation summary generation system and conversation summary generation program |
JP2013171328A (en) * | 2012-02-17 | 2013-09-02 | Nippon Telegr & Teleph Corp <Ntt> | Deviated predicate extracting device, method and program |
WO2013171597A1 (en) * | 2012-05-14 | 2013-11-21 | International Business Machines Corporation | Management of language usage to facilitate effective communication |
JP2017059077A (en) * | 2015-09-18 | 2017-03-23 | ヤフー株式会社 | Information providing apparatus, information providing method, and information providing program |
JP2018504728A (en) * | 2015-11-24 | 2018-02-15 | 小米科技有限責任公司Xiaomi Inc. | Template construction method and apparatus, information recognition method and apparatus |
JP2018101351A (en) * | 2016-12-21 | 2018-06-28 | キヤノンマーケティングジャパン株式会社 | Information processing device, information processing method, and program |
JP2019061419A (en) * | 2017-09-26 | 2019-04-18 | 富士ゼロックス株式会社 | INFORMATION PROCESSING APPARATUS AND INFORMATION PROCESSING PROGRAM |
JPWO2021024430A1 (en) * | 2019-08-07 | 2021-02-11 | ||
JP2022530166A (en) * | 2019-04-29 | 2022-06-27 | グーグル エルエルシー | Network anomaly detection |
JP7106035B1 (en) * | 2021-11-24 | 2022-07-25 | シエンプレ株式会社 | Complaint Occurrence Prediction System, Complaint Occurrence Prediction Method and Program |
JP7285308B1 (en) | 2021-12-21 | 2023-06-01 | 株式会社エクサウィザーズ | Information processing device, information processing method, and program |
-
2008
- 2008-08-26 JP JP2008217206A patent/JP2010056682A/en active Pending
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013167985A (en) * | 2012-02-15 | 2013-08-29 | Nomura Research Institute Ltd | Conversation summary generation system and conversation summary generation program |
JP2013171328A (en) * | 2012-02-17 | 2013-09-02 | Nippon Telegr & Teleph Corp <Ntt> | Deviated predicate extracting device, method and program |
WO2013171597A1 (en) * | 2012-05-14 | 2013-11-21 | International Business Machines Corporation | Management of language usage to facilitate effective communication |
US9442916B2 (en) | 2012-05-14 | 2016-09-13 | International Business Machines Corporation | Management of language usage to facilitate effective communication |
US9460082B2 (en) | 2012-05-14 | 2016-10-04 | International Business Machines Corporation | Management of language usage to facilitate effective communication |
JP2017059077A (en) * | 2015-09-18 | 2017-03-23 | ヤフー株式会社 | Information providing apparatus, information providing method, and information providing program |
US10061762B2 (en) | 2015-11-24 | 2018-08-28 | Xiaomi Inc. | Method and device for identifying information, and computer-readable storage medium |
JP2018504728A (en) * | 2015-11-24 | 2018-02-15 | 小米科技有限責任公司Xiaomi Inc. | Template construction method and apparatus, information recognition method and apparatus |
JP2018101351A (en) * | 2016-12-21 | 2018-06-28 | キヤノンマーケティングジャパン株式会社 | Information processing device, information processing method, and program |
JP2019061419A (en) * | 2017-09-26 | 2019-04-18 | 富士ゼロックス株式会社 | INFORMATION PROCESSING APPARATUS AND INFORMATION PROCESSING PROGRAM |
JP2022530166A (en) * | 2019-04-29 | 2022-06-27 | グーグル エルエルシー | Network anomaly detection |
JP7344314B2 (en) | 2019-04-29 | 2023-09-13 | グーグル エルエルシー | Network anomaly detection |
US11861453B2 (en) | 2019-04-29 | 2024-01-02 | Google Llc | Network anomaly detection |
US12229677B2 (en) | 2019-04-29 | 2025-02-18 | Google Llc | Network anomaly detection |
JPWO2021024430A1 (en) * | 2019-08-07 | 2021-02-11 | ||
JP7106035B1 (en) * | 2021-11-24 | 2022-07-25 | シエンプレ株式会社 | Complaint Occurrence Prediction System, Complaint Occurrence Prediction Method and Program |
WO2023095215A1 (en) * | 2021-11-24 | 2023-06-01 | シエンプレ株式会社 | Complaint occurrence prediction system, complaint occurrence prediction method, and program |
JP7285308B1 (en) | 2021-12-21 | 2023-06-01 | 株式会社エクサウィザーズ | Information processing device, information processing method, and program |
JP2023092278A (en) * | 2021-12-21 | 2023-07-03 | 株式会社エクサウィザーズ | Information processing device, information processing method, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2010056682A (en) | E-mail receiver and method of receiving e-mail, e-mail transmitter and e-mail transmission method, mail transmission server | |
US8380492B2 (en) | System and method for text cleaning by classifying sentences using numerically represented features | |
CN107278300B (en) | Method, system and medium for determining reply content | |
US9880995B2 (en) | Variables and method for authorship attribution | |
US9910886B2 (en) | Visual representation of question quality | |
Denecke | Are SentiWordNet scores suited for multi-domain sentiment classification? | |
Ghosh et al. | Sentiment identification in code-mixed social media text | |
Abulaish et al. | Feature and opinion mining for customer review summarization | |
US20130253910A1 (en) | Systems and Methods for Analyzing Digital Communications | |
JP4911599B2 (en) | Reputation information extraction device and reputation information extraction method | |
JP2008165598A (en) | Reputation information extraction device and reputation information extraction method | |
EP2711849A2 (en) | Learning opinion-related patterns for contextual and domain-dependent opinion detection | |
US8600734B2 (en) | Method for routing electronic correspondence based on the level and type of emotion contained therein | |
Al-Ghadhban et al. | Arabic sarcasm detection in Twitter | |
JP6178208B2 (en) | Question field judgment device and question field judgment method | |
Sheikha et al. | Learning to classify documents according to formal and informal style | |
JP5168620B2 (en) | Data type detection apparatus and data type detection method | |
Bharti et al. | PolitePEER: does peer review hurt? A dataset to gauge politeness intensity in the peer reviews | |
JP2018163660A (en) | Method and system for readability evaluation based on english syllable calculation method | |
JP4854019B2 (en) | Opinion collection system, opinion collection method and opinion collection program | |
Trevisan et al. | A multi-level annotation model for fine-grained opinion detection in German blog comments. | |
Firdous et al. | Exploring Contemporary Arabic Sentiment Analysis: Methods, Challenges, and Future Trends | |
Rubtsova et al. | An approach to construction and analysis of a corpus of short Russian texts intended to train a sentiment classifier | |
Puspitasari et al. | Authorship Analysis In Electronic Texts Using Similarity Comparison Method | |
Zhang et al. | Argument detection in online discussion: A theory based approach |