JP2008170820A - コンテンツ提供システム及び方法 - Google Patents
コンテンツ提供システム及び方法 Download PDFInfo
- Publication number
- JP2008170820A JP2008170820A JP2007005155A JP2007005155A JP2008170820A JP 2008170820 A JP2008170820 A JP 2008170820A JP 2007005155 A JP2007005155 A JP 2007005155A JP 2007005155 A JP2007005155 A JP 2007005155A JP 2008170820 A JP2008170820 A JP 2008170820A
- Authority
- JP
- Japan
- Prior art keywords
- content
- emotion
- emotion type
- word
- stored
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 30
- 230000008451 emotion Effects 0.000 claims description 184
- 238000000605 extraction Methods 0.000 claims description 10
- 230000005540 biological transmission Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 3
- 238000005259 measurement Methods 0.000 description 22
- 230000008569 process Effects 0.000 description 21
- 238000012545 processing Methods 0.000 description 15
- 230000002996 emotional effect Effects 0.000 description 11
- 230000008909 emotion recognition Effects 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 230000036541 health Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 206010016326 Feeling cold Diseases 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【課題】広告効果を高めるため、表示すべき広告等を、話者の感情に基づいて選択する。
【解決手段】話者の音声を取得し(S11)、取得した音声に基づいて話者の感情を分析し(S12)、感情の分析結果をデータベースに蓄積し(S13)、感情分析結果に基づいて画面表示を変更する(S14)。例えば、感情分析結果が「興奮」であったら、「興奮」という感情種別に関連付けて予め記憶されている広告を話者が見ているモニターの画面に表示させる。また、ワードスポッティング結果に基づいて画面表示を変更する(S15)。例えば、会話中から「温泉」という単語が抽出されたら、「温泉」という単語に関連付けて予め記憶されている広告を話者が見ているモニターの画面に表示させる。そして、画面に表示されたバナー広告をマウスなどのポインティングデバイスを用いてクリックすることによってバナー広告のリンク先Webサイトへアクセスする(S16)。
【選択図】 図1
【解決手段】話者の音声を取得し(S11)、取得した音声に基づいて話者の感情を分析し(S12)、感情の分析結果をデータベースに蓄積し(S13)、感情分析結果に基づいて画面表示を変更する(S14)。例えば、感情分析結果が「興奮」であったら、「興奮」という感情種別に関連付けて予め記憶されている広告を話者が見ているモニターの画面に表示させる。また、ワードスポッティング結果に基づいて画面表示を変更する(S15)。例えば、会話中から「温泉」という単語が抽出されたら、「温泉」という単語に関連付けて予め記憶されている広告を話者が見ているモニターの画面に表示させる。そして、画面に表示されたバナー広告をマウスなどのポインティングデバイスを用いてクリックすることによってバナー広告のリンク先Webサイトへアクセスする(S16)。
【選択図】 図1
Description
本発明は、例えばパーソナルコンピュータ及びインターネットを用いて2以上の話者が会話する場合において、入力音声から話題や話者の感情を判定し、その話題や感情に適切な広告やコメントなどのコンテンツをパーソナルコンピュータのモニターに表示させるシステム及び方法に関する。
入力音声から感情を検出する方法及び装置に関する技術が提案されている(例えば、特許文献1参照)。
特願2002−293926号公報
特許文献1では段落[0032]に記載されているように、所定の話者について感情認識を行っているが、不特定の話者の感情を判定することはできなかった。
そこで、本発明は、不特定の話者が不特定の環境で不特定の発話内容で発話した場合であっても、話者の感情を判定し、判定された感情に対して適切なコメントや広告を表示することを可能とする。
そこで、本発明は、不特定の話者が不特定の環境で不特定の発話内容で発話した場合であっても、話者の感情を判定し、判定された感情に対して適切なコメントや広告を表示することを可能とする。
本発明の第1の特徴は、コンテンツ提供システムであって、単語とコンテンツを関連付けて記憶する手段と、会話音声の中から単語を抽出する単語抽出手段と、単語抽出手段によって抽出された単語に関連付けて記憶されているコンテンツを読み取るコンテンツ読み取り手段と、読み取られたコンテンツをコンテンツ再生手段へ送るコンテンツ送信手段と、を備えることにある。
コンテンツとは、例えば広告やコメントを含む。
記憶する手段とは、磁気的、電気的、光学的又は光磁気的に情報を記憶する手段を含み、具体的にはハード・ディスク・ドライブ(HDD)、ランダム・アクセス・メモリ(RAM)、CDドライブ、DVDドライブ、MOドライブを含む。
単語抽出手段とは、ワードスポッティングと称される技術において使用されるものを含む。
コンテンツ再生手段とは、例えばGIF又はJPEG形式の画像やHTMLで記述されたWebサイトを表示可能なパーソナルコンピュータや携帯電話機を言う。
記憶する手段とは、磁気的、電気的、光学的又は光磁気的に情報を記憶する手段を含み、具体的にはハード・ディスク・ドライブ(HDD)、ランダム・アクセス・メモリ(RAM)、CDドライブ、DVDドライブ、MOドライブを含む。
単語抽出手段とは、ワードスポッティングと称される技術において使用されるものを含む。
コンテンツ再生手段とは、例えばGIF又はJPEG形式の画像やHTMLで記述されたWebサイトを表示可能なパーソナルコンピュータや携帯電話機を言う。
本発明の第2の特徴は、第1の特徴に加えて、コンテンツ送信手段によって送信されたコンテンツの履歴を記憶する手段をさらに備え、1つの単語に対して複数のコンテンツが優先順位付きで記憶され、コンテンツ読み取り手段は、単語抽出手段によって抽出された単語に関連付けて記憶されている複数のコンテンツの中から、送信されたコンテンツの履歴を参照して、直近に送信されたコンテンツの次に優先順位が高いコンテンツを読み取ることにある。
「1つの単語に対して複数のコンテンツが優先順位付きで記憶され、」とは、例えば「オンセン」という単語に対して、旅行会社Aの広告が優先順位第1位で記憶され、旅行会社Bの広告が優先順位第2位で記憶され、また「ケーキ」という音声の波形に対して、銀座A店の広告が優先順位第1位で記憶され、青山B店の広告が優先順位第2位で記憶されていることを言う。
「コンテンツ読み取り手段は、単語抽出手段によって抽出された単語に関連付けて記憶されている複数のコンテンツの中から、送信されたコンテンツの履歴を参照して、直近に送信されたコンテンツの次に優先順位が高いコンテンツを読み取る」とは、例えば
「オンセン」という単語が抽出され、
「オンセン」という単語に関連付けられているコンテンツの中での優先順位が第1位の旅行会社Aの広告が送信され、
その後に「ケーキ」という単語が抽出され、「ケーキ」という単語に関連付けられているコンテンツの中での優先順位が第1位の銀座A店又は第2位の青山B店の広告が送信され、
その後に再び「オンセン」という単語が抽出された場合に、「オンセン」という単語に関連付けられているコンテンツの中での優先順位第2位の旅行会社Bの広告を読み取ることを言う。
「オンセン」という単語が抽出され、
「オンセン」という単語に関連付けられているコンテンツの中での優先順位が第1位の旅行会社Aの広告が送信され、
その後に「ケーキ」という単語が抽出され、「ケーキ」という単語に関連付けられているコンテンツの中での優先順位が第1位の銀座A店又は第2位の青山B店の広告が送信され、
その後に再び「オンセン」という単語が抽出された場合に、「オンセン」という単語に関連付けられているコンテンツの中での優先順位第2位の旅行会社Bの広告を読み取ることを言う。
本発明の第3の特徴は、コンテンツ提供システムであって、感情種別とコンテンツを関連付けて記憶する感情種別コンテンツ記憶手段と、音声入力手段から入力された音声の特徴量を算出する特徴量算出手段と、算出された音声特徴量に基づいて、感情種別を判定する感情種別判定手段と、判定された前記感情種別に関連付けて記憶されている前記コンテンツを読み取るコンテンツ読み取り手段と、読み取られたコンテンツをコンテンツ再生手段へ送る送信手段と、を備えることにある。
特徴量算出手段は、音声のパワーの平均、標準偏差、及びピッチの平均、標準偏差などを算出し、それら平均、標準偏差を所定の数式に代入して計算可能な手段である。
本発明の第4の特徴は、第3の特徴に加えて、感情種別判定手段によって判定された感情種別を第1の所定時間毎に記憶する手段と、第1の所定時間毎に記憶された感情種別の中から第2の所定時間毎に1つの感情種別を抽出する感情種別抽出手段と、をさらに備え、コンテンツ読み取り手段は、感情種別抽出手段によって抽出された感情種別に関連付けて記憶されているコンテンツを感情種別コンテンツ記憶手段から読み取ることにある。
感情種別抽出手段は、例えば、感情種別を1秒ごとに記憶し、5秒ごとに直近5秒間で出現頻度が最も多い感情を抽出する。
感情種別抽出手段は、例えば、感情種別を1秒ごとに記憶し、5秒ごとに直近5秒間で出現頻度が最も多い感情を抽出する。
本発明の第5の特徴は、第4の特徴に加えて、コンテンツ送信手段によって送信されたコンテンツの履歴を記憶する手段をさらに備え、1つの感情種別に対して複数のコンテンツが優先順位付きで記憶され、コンテンツ読み取り手段は、感情種別判定手段によって判定された感情種別に関連付けて記憶されている複数のコンテンツの中から、送信されたコンテンツの履歴を参照して、直近に送信されたコンテンツの次に優先順位が高いコンテンツを読み取ることにある。
本発明の第6の特徴は、第3乃至第5の特徴に加えて、音声の特徴量が、音声のパワーの平均及び標準偏差、並びに音声のピッチの平均及び標準偏差であることにある。
本発明の第7の特徴は、コンテンツ提供システムであって、感情種別に関連付けられた広告、単語に関連付けられた広告、及び感情種別と単語の双方に関連付けられたコメントをそれぞれ記憶する手段と、入力された音声に基づいて、感情種別を判定する感情種別判定手段と、会話音声の中から単語を抽出する単語抽出手段と、前記感情種別判定手段によって判定された感情種別に関連付けて記憶されている広告を読み出し、前記単語抽出手段によって抽出された単語に関連付けて記憶されている広告を読み出し、かつ前記感情種別判定手段によって判定された感情種別及び前記単語抽出手段によって抽出された単語に関連付けて記憶されているコメントを読み取る広告コメント読み取り手段と、前記読み取られた広告及びコメントをコンテンツ再生手段へ送るコンテンツ送信手段と、を備えることにある。
本発明によれば、会話に含まれる単語や話者の感情に応じた広告やコメントなどのコンテンツを表示させることが可能となる。
以下に本発明を実施するための最良の形態を説明する。なお、以下の説明は、単なる例示に過ぎず、本発明の技術的範囲は以下の説明に限定されるものではない。
[全体イメージ]
感情音声識別ツールを利用して話者の感情データ及び、会話中の単語を取得(ワードスポッティング)する。ツール利用後、パソコン版Webサイトと携帯版Webサイトを表示する。取得した感情データと単語に基づいて各種サービスを閲覧可能とする。取得した感情データをもとに「声占い」、「声健康」等の各種サービスをブラウザで閲覧することができる。
感情音声識別ツールを利用して話者の感情データ及び、会話中の単語を取得(ワードスポッティング)する。ツール利用後、パソコン版Webサイトと携帯版Webサイトを表示する。取得した感情データと単語に基づいて各種サービスを閲覧可能とする。取得した感情データをもとに「声占い」、「声健康」等の各種サービスをブラウザで閲覧することができる。
[音声感情識別ツール]
音声感情又は会話中に発せられた単語(ワード)に関連づけられた広告及びその広告に関連したコメントを表示させ、その広告がクリックされ、その広告に関連付けられているリンク先のウェブサイトにジャンプさせる確率を高める。
音声感情又は会話中に発せられた単語(ワード)に関連づけられた広告及びその広告に関連したコメントを表示させ、その広告がクリックされ、その広告に関連付けられているリンク先のウェブサイトにジャンプさせる確率を高める。
図20は、音声感情識別ツールの画面デザインの一例を示す。同図に示す画面27は、音声感情に関連づけられたバナー広告271と、会話中に発せられた単語に関連づけられたバナー広告272と、音声感情及び会話中に発せられた単語に関連づけられたコメント273と、音声感情バロメーター274を含む。
バナー広告271は、話者の感情に基づいて選択される。例えば、「興奮」という感情種別と「興奮しているときに表示させる広告」とを関連付けて記憶し、また「悲しい」という感情種別と「悲しいときに表示させる広告」とを関連付けて記憶しておく。そして、話者の感情が「興奮」と判断された場合には、「興奮しているときに表示させる広告」が表示される。話者の感情が「悲しい」と識別された場合には、「悲しいときに表示させる広告」が表示される。
バナー広告272は、会話中に発せられた単語に基づいて選択される。例えば、「温泉」という単語と「オンセンと発音されたときに表示させる広告」とを関連付けて記憶し、また「鍋」という単語と「ナベと発音されたときに表示させる広告」とを関連付けて記憶しておく。そして、会話中に「オンセン」と発音されたと判断された場合には、「オンセンと発音されたときに表示させる広告」が表示される。会話中に「ナベ」と発音されたと判断された場合には、「ナベと発音されたときに表示させる広告」が表示される。
コメント273は、音声感情及び会話中に発せられた単語に基づいて選択される。例えば、「悲しい」という感情種別と「温泉」という単語と「悲しんでいると判断され、かつオンセンと発音されたときに表示させるコメント」とを関連付けて記憶し、また「興奮」という感情種別と「温泉」という単語と「興奮していると判断され、かつオンセンと発音されたときに表示させるコメント」とを関連付けて記憶しておく。そして、話者の感情が「悲しい」と識別され、かつ会話中に「オンセン」と発音されたと判断された場合には、「悲しんでいると判断され、かつオンセンと発音されたときに表示させるコメント」が表示される。また、話者の感情が「興奮している」と識別され、かつ会話中に「オンセン」と発音されたと判断された場合には、「興奮していると判断され、かつオンセンと発音されたときに表示させるコメント」が表示される。
「音声感情に基づいて選択された広告」、「ワードに基づいて選択された広告」、又は「音声感情及びワードに基づいて選択されたコメント」のそれぞれが表示されると高い広告効果が発揮されるため、好ましい。
「音声感情に基づいて選択された広告」、「ワードに基づいて選択された広告」、並びに「音声感情及びワードに基づいて選択されたコメント」が組み合わせて表示されるとより一層高い広告効果が発揮されるため、これら全てが表示されることが好ましい。
[全体フロー]
<感情音声識別ツール利用時>
図1は、感情音声識別ツール利用時の処理の流れを示すフローチャートである。図1に示すように、ステップS11でマイクロフォンなどを用いて音声を取得し、ステップS12で感情を分析し、ステップS13で感情の分析結果をデータベースに蓄積し、ステップS14で分析結果に基づいて画面表示を変更し、またステップS15でワードスポッティング結果から画面表示を変更し、ステップS16でバナー広告などがクリックされリンク先のウェブサイトへアクセスする。
<感情音声識別ツール利用時>
図1は、感情音声識別ツール利用時の処理の流れを示すフローチャートである。図1に示すように、ステップS11でマイクロフォンなどを用いて音声を取得し、ステップS12で感情を分析し、ステップS13で感情の分析結果をデータベースに蓄積し、ステップS14で分析結果に基づいて画面表示を変更し、またステップS15でワードスポッティング結果から画面表示を変更し、ステップS16でバナー広告などがクリックされリンク先のウェブサイトへアクセスする。
<パソコン又は携帯電話でのパーソナルサイト閲覧時>
図2は、パソコン又は携帯電話でのパーソナルサイト閲覧時の処理の流れを示すフローチャートである。図2に示すように、ステップS21でWebサイトにログインし、ステップS22でツール利用時に蓄積されたデータをベースとした各種サービスを閲覧し、ステップS23でバナー広告からリンク先へアクセスする。
図2は、パソコン又は携帯電話でのパーソナルサイト閲覧時の処理の流れを示すフローチャートである。図2に示すように、ステップS21でWebサイトにログインし、ステップS22でツール利用時に蓄積されたデータをベースとした各種サービスを閲覧し、ステップS23でバナー広告からリンク先へアクセスする。
[サービス提供システム全体構成例]
図3は、サービス提供システムの全体構成の一例を示すブロック図である。同図に示す例では、登録メンバー21の会話はマイクロフォン22を介してパーソナルコンピュータ(PC)23に取り込まれる。メンバー認証データベース31は、登録メンバー21の詳細情報(メンバー名、パスワード等)を蓄積する。コンテンツ配信サーバ32は、PC23の感情音声識別ツールからのリクエストを受けて、感情音声結果とメンバー名から決定される表示すべきコメントと広告をコメントサーバ33と広告管理サーバ34から取得し、PC23の音声感情識別ツールにコメントデータと広告データを送信する。
図3は、サービス提供システムの全体構成の一例を示すブロック図である。同図に示す例では、登録メンバー21の会話はマイクロフォン22を介してパーソナルコンピュータ(PC)23に取り込まれる。メンバー認証データベース31は、登録メンバー21の詳細情報(メンバー名、パスワード等)を蓄積する。コンテンツ配信サーバ32は、PC23の感情音声識別ツールからのリクエストを受けて、感情音声結果とメンバー名から決定される表示すべきコメントと広告をコメントサーバ33と広告管理サーバ34から取得し、PC23の音声感情識別ツールにコメントデータと広告データを送信する。
コメントサーバ33は、コンテンツ配信サーバ32から受けた感情音声結果とメンバー名から決定される表示すべきコメントデータをコンテンツ配信サーバ32に送信し、メンバー別の感情音声データ履歴を保持する。広告管理サーバ34は、コンテンツ配信サーバ32から受けた感情音声結果とメンバー名から決定される表示すべき広告データをコンテンツ配信サーバ32に送信し、メンバー別の広告データ履歴を保持する。
感情音声データベース35は、PC23の感情音声識別ツールから送信されてきた特徴量データ26をメンバー(話者21)毎に保存する。パーソナルデータベース36は、PC23の感情音声識別ツールから送信されてきた感情音声識別結果と表示した広告番号(分析結果データ25)をメンバー毎に保存する。分析結果データ25は、パーソナルデータベース36からサイト運営用Webサーバ37へ送られる。
サイト運営用Webサーバ37は、PC23及び携帯電話機24から閲覧可能なサイト環境を構築する。提供サービスデータベース38は、サイト運営用Webサーバ37から受けたメンバー名をもとに、パーソナルデータベース36から最新の感情識別結果を取得し、取得した感情識別結果から「声占い」、「声健康」等の提供サービスデータをサイト運営用Webサーバ37に送信する。
[感情認識の基本コンセプト]
言語や話者に依存しない単純な特徴量として,音量や音高といった韻律成分を用いる。特徴量の所定時間(例えば、過去1秒間)の基本統計量をもって,話者の現在の話し方とする。話し方の定常状態(例えば、過去5秒間の基本統計量)からの逸脱量から,各感情の度合いを求める。
言語や話者に依存しない単純な特徴量として,音量や音高といった韻律成分を用いる。特徴量の所定時間(例えば、過去1秒間)の基本統計量をもって,話者の現在の話し方とする。話し方の定常状態(例えば、過去5秒間の基本統計量)からの逸脱量から,各感情の度合いを求める。
[感情識別ソフトウェア(ツール)を構成するDLL]
感情識別ソフトウェア(ツール)を構成するDLLは、EmotionMonitorDLL.dll、WaveIn.dll、Fft_C.dllなどである。EmotionMonitorDLL.dllは、音声特徴量を算出しその統計量から感情を計測する。音声特徴量には、音声入力波形データ、スペクタル包絡データ、ピッチ軌跡データ、パワー軌跡データが含まれる。WaveIn.dllは、マイクロフォンから音声を取得する。WaveIn.dllは、Windows(登録商標)系オペレーティングシステムでサウンドを録音する場合に、一般的に使用されているマルチメディアAPI(Application Program Interface)を使用して、音声入力デバイスからツールが用意した記憶領域(バッファ)に指定された長さの音声波形を更新格納し利用できるようにする。Fft_C.dllは、高速フーリエ変換に使用可能なAPIであって、周波数スペクトルを計算する。
感情識別ソフトウェア(ツール)を構成するDLLは、EmotionMonitorDLL.dll、WaveIn.dll、Fft_C.dllなどである。EmotionMonitorDLL.dllは、音声特徴量を算出しその統計量から感情を計測する。音声特徴量には、音声入力波形データ、スペクタル包絡データ、ピッチ軌跡データ、パワー軌跡データが含まれる。WaveIn.dllは、マイクロフォンから音声を取得する。WaveIn.dllは、Windows(登録商標)系オペレーティングシステムでサウンドを録音する場合に、一般的に使用されているマルチメディアAPI(Application Program Interface)を使用して、音声入力デバイスからツールが用意した記憶領域(バッファ)に指定された長さの音声波形を更新格納し利用できるようにする。Fft_C.dllは、高速フーリエ変換に使用可能なAPIであって、周波数スペクトルを計算する。
[音声取得から音声感情分析全体フロー]
図4は、音声取得から音声感情分析までの処理の流れを示すフローチャートである。図4に示すように、ステップS41でマイクから音声を取得し、ステップS42でA/D変換をし、ステップS43で離散フーリエ変換をし、ステップS44で音声特徴量を算出し、ステップS45で感情を計測し、ステップS46で感情を出力する。ステップS41、ステップS42で音声を取得し、ステップS43〜46で音声感情を分析する。
図4は、音声取得から音声感情分析までの処理の流れを示すフローチャートである。図4に示すように、ステップS41でマイクから音声を取得し、ステップS42でA/D変換をし、ステップS43で離散フーリエ変換をし、ステップS44で音声特徴量を算出し、ステップS45で感情を計測し、ステップS46で感情を出力する。ステップS41、ステップS42で音声を取得し、ステップS43〜46で音声感情を分析する。
A/D変換(アナログ/ディジタル変換)は、アナログ信号である音声波形を標本化及び量子化を行ってデジタルデータに変換する。例えばサンプリングレート16KHz、分解能16ビットとする。
ステップS44では、音声特徴量を算出する。音声特徴量とは、各バッファ(分析フレーム)についてパワーを求めて得た音声波形全体の軌跡(パワー軌跡)及び各バッファ(分析フレーム)についてピッチを求めて得た音声波形全体の軌跡(ピッチ軌跡)を言う。パワーは、周波数スペクトルの各周波数成分の自乗和を意味する。ピッチは、声の高さ(単位:Hz(ヘルツ))を意味する。
ステップS45では、音声特徴量の統計量から例えば「興奮度」、「悲しみ度」、「わくわく度」、「まったり度」をそれぞれ0.0から1.0まで0.1刻み11段階で0.128秒ごとにリアルタイムに計測する。そして、5回の計測で最頻の感情を「現在の感情」と判定する。「音声特徴量の統計量」とは、例えば直前5秒間のパワー軌跡についての平均、標準偏差及び直前1秒間のパワー軌跡及びピッチ軌跡の平均、標準偏差を言う。平均は、相加平均(算術平均)を意味する。
[音声特徴量算出フロー]
図5は、音声特徴量算出処理の流れを示すフローチャートである。図5は、図4のステップS44を詳しく説明するものである。図5に示すように、ステップS51で自乗和を算出し、ステップS52でパワーの5秒間の平均・標準偏差及び1秒間の平均・標準偏差を算出する。
図5は、音声特徴量算出処理の流れを示すフローチャートである。図5は、図4のステップS44を詳しく説明するものである。図5に示すように、ステップS51で自乗和を算出し、ステップS52でパワーの5秒間の平均・標準偏差及び1秒間の平均・標準偏差を算出する。
また、ステップS54で対数変換をし、ステップS55で離散フーリエ変換をし、ステップS56でピークを検出し、ステップS57でピッチの1秒間の平均・標準偏差を算出する。ステップS43及びステップS54からステップS56までをケプストラム分析と言う。
[不特定の話者への対応]
音声の話者による違い(話者性)を「話し方の定常状態における抑揚の統計量」と定義する。入力音声の短時間平均パワーを5秒間監視し、その基本統計量(平均及び標準偏差)をもって話者性と同定する。同定した話者性を基準に感情認識を行うことにより、話者の声の大きさの違いを吸収する。短時間平均パワーは音声の音量に相当し、2048サンプルの分析フレーム(16KHzサンプリングで0.128秒)のフーリエスペクトルの自乗和を計算する。
音声の話者による違い(話者性)を「話し方の定常状態における抑揚の統計量」と定義する。入力音声の短時間平均パワーを5秒間監視し、その基本統計量(平均及び標準偏差)をもって話者性と同定する。同定した話者性を基準に感情認識を行うことにより、話者の声の大きさの違いを吸収する。短時間平均パワーは音声の音量に相当し、2048サンプルの分析フレーム(16KHzサンプリングで0.128秒)のフーリエスペクトルの自乗和を計算する。
[不特定の音声環境への対応]
音声の環境による違いを「背景雑音のパワーの基本統計量」と定義する。感情識別ソフトウェア起動時に、ユーザが発話しない状態で、自動的に入力音声の短時間平均パワーを5秒間監視し、その基本統計量をもって音声環境と同定する。同定した音声環境を基準に感情認識を行うことにより、周囲のノイズを感情による音声の抑揚と誤認識することを回避する。音声環境の同定は,手動でいつでも行える。
音声の環境による違いを「背景雑音のパワーの基本統計量」と定義する。感情識別ソフトウェア起動時に、ユーザが発話しない状態で、自動的に入力音声の短時間平均パワーを5秒間監視し、その基本統計量をもって音声環境と同定する。同定した音声環境を基準に感情認識を行うことにより、周囲のノイズを感情による音声の抑揚と誤認識することを回避する。音声環境の同定は,手動でいつでも行える。
[不特定の発話内容への対応]
発話内容による違いを「音声の短時間変動」と定義し、長時間では互いに相殺されてその違いが無くなると仮定する。分析フレームごとに感情認識を行う代わりに、過去1秒間の特徴量の基本統計量で行う。特徴量は短時間平均パワー(音量)を用いる。「悲しみ度」及び「わくわく度」については,有声区間についてピッチ(音高)を同時に用いる。過去5秒間から同定される音声環境の基本統計量との比較によって感情認識を行う。
発話内容による違いを「音声の短時間変動」と定義し、長時間では互いに相殺されてその違いが無くなると仮定する。分析フレームごとに感情認識を行う代わりに、過去1秒間の特徴量の基本統計量で行う。特徴量は短時間平均パワー(音量)を用いる。「悲しみ度」及び「わくわく度」については,有声区間についてピッチ(音高)を同時に用いる。過去5秒間から同定される音声環境の基本統計量との比較によって感情認識を行う。
[処理の観点からのまとめ]
不特定の音声環境に対応するために、感情識別ソフトウェア起動後5秒間の環境を監視する(無発話時)。また、不特定の話者に対応するために、感情識別時から遡って過去5秒間の音声を監視する(発話時)。さらに、不特定の発話内容に対応するために、感情識別時から遡って過去1秒間の音声特徴量(パワー、ピッチ)から計算される基本統計量(直前5秒間のパワー平均値、パワー標準偏差。直前1秒間のパワー平均値、パワー標準偏差、ピッチ平均値、ピッチ標準偏差)と、音声環境の基本統計量とを比較する。
不特定の音声環境に対応するために、感情識別ソフトウェア起動後5秒間の環境を監視する(無発話時)。また、不特定の話者に対応するために、感情識別時から遡って過去5秒間の音声を監視する(発話時)。さらに、不特定の発話内容に対応するために、感情識別時から遡って過去1秒間の音声特徴量(パワー、ピッチ)から計算される基本統計量(直前5秒間のパワー平均値、パワー標準偏差。直前1秒間のパワー平均値、パワー標準偏差、ピッチ平均値、ピッチ標準偏差)と、音声環境の基本統計量とを比較する。
[音声環境同定の流れ]
感情識別ソフトウェア起動後5秒間における短時間平均パワー(適宜「パワー」と称する。)の軌跡を保存する。そして、保存したパワー軌跡について、基本統計量(平均及び標準偏差)を算出する。その基本統計量を「音声環境の基本統計量」とする。
感情識別ソフトウェア起動後5秒間における短時間平均パワー(適宜「パワー」と称する。)の軌跡を保存する。そして、保存したパワー軌跡について、基本統計量(平均及び標準偏差)を算出する。その基本統計量を「音声環境の基本統計量」とする。
[話者性同定の流れ]
常に過去5秒間における短時間平均パワーの軌跡を保存する。そして、保存したパワー軌跡について、基本統計量(平均及び標準偏差)を算出する。その基本統計量をもって話者性とする。
常に過去5秒間における短時間平均パワーの軌跡を保存する。そして、保存したパワー軌跡について、基本統計量(平均及び標準偏差)を算出する。その基本統計量をもって話者性とする。
[各感情の認識アルゴリズム]
図6は、興奮度計測処理の流れを示すフローチャートである。興奮度は、声の大きさ(パワー)が大きく保たれると高くなる。
図8は、悲しみ度計測処理の流れを示すフローチャートである。悲しみ度は、声の大きさが大きく保たれると低くなり、声の高さ(ピッチ)が閾値を超えるとより低くなる。すなわち、ぼそぼそと低めの声で話すと、悲しみ度は高くなる。
図9は、わくわく度計測処理の流れを示すフローチャートである。わくわく度は、声の大きさが大きく,声の高さが高いと高くなる。
数6に、まったり度を算出する式を示す。まったり度は、会話に沈黙が増えると高くなる。
図6は、興奮度計測処理の流れを示すフローチャートである。興奮度は、声の大きさ(パワー)が大きく保たれると高くなる。
図8は、悲しみ度計測処理の流れを示すフローチャートである。悲しみ度は、声の大きさが大きく保たれると低くなり、声の高さ(ピッチ)が閾値を超えるとより低くなる。すなわち、ぼそぼそと低めの声で話すと、悲しみ度は高くなる。
図9は、わくわく度計測処理の流れを示すフローチャートである。わくわく度は、声の大きさが大きく,声の高さが高いと高くなる。
数6に、まったり度を算出する式を示す。まったり度は、会話に沈黙が増えると高くなる。
[感情計測フロー]
以下で、各感情の計測処理の流れを説明する。なお、音声特徴量をそれぞれ次の記号で表す。
ピッチ:f、
直前1秒間のピッチ平均値:μ1f、
直前1秒間のピッチ標準偏差:σ1f、
直前1秒間のパワー平均値:μ1p、
直前1秒間のパワー標準偏差:σ1p、
直前5秒間のパワー平均値:μ5p、
直前5秒間のパワー標準偏差:σ5p
以下で、各感情の計測処理の流れを説明する。なお、音声特徴量をそれぞれ次の記号で表す。
ピッチ:f、
直前1秒間のピッチ平均値:μ1f、
直前1秒間のピッチ標準偏差:σ1f、
直前1秒間のパワー平均値:μ1p、
直前1秒間のパワー標準偏差:σ1p、
直前5秒間のパワー平均値:μ5p、
直前5秒間のパワー標準偏差:σ5p
[興奮度計測フロー]
図6に、興奮度計測処理の流れを示す。図7に、過去1秒のパワー平均値と興奮度との関係を示す。過去5秒のパワー平均値を環境雑音と見なし、過去1秒のパワー平均値がそれを上回る場合(ステップS61でYES)、興奮度の評価を行うYのパスを通る。下回る場合(ステップS61でNO)、興奮度は0とする。ステップS61でYESの場合、数1によって興奮度を算出する(ステップS62)。
図6に、興奮度計測処理の流れを示す。図7に、過去1秒のパワー平均値と興奮度との関係を示す。過去5秒のパワー平均値を環境雑音と見なし、過去1秒のパワー平均値がそれを上回る場合(ステップS61でYES)、興奮度の評価を行うYのパスを通る。下回る場合(ステップS61でNO)、興奮度は0とする。ステップS61でYESの場合、数1によって興奮度を算出する(ステップS62)。
[悲しみ度計測フロー]
図8に、悲しみ度計測処理の流れを示す。パワーが過去5秒のパワー平均値を上回る場合(ステップS81でYES)、悲しみ度の評価を行うYのパスを通る。ピッチがμfT(例えば、150Hz)以下の場合は(ステップS83でNO)、パワーの評価のみ用い、ピッチがμfTを上回る場合は(ステップS83でYES)、ピッチからの評価を乗ずる。
図8に、悲しみ度計測処理の流れを示す。パワーが過去5秒のパワー平均値を上回る場合(ステップS81でYES)、悲しみ度の評価を行うYのパスを通る。ピッチがμfT(例えば、150Hz)以下の場合は(ステップS83でNO)、パワーの評価のみ用い、ピッチがμfTを上回る場合は(ステップS83でYES)、ピッチからの評価を乗ずる。
つまり、「ステップS81でYES」かつ「ステップS83でNO」の場合は、「数2の算出値」=「悲しみ度」とする(ステップS82)。「ステップS81でYES」かつ「ステップS83でYES」の場合は、「数2の算出値」×「数3の算出値」=「悲しみ度」とする(ステップS85)。数3中のσfTは、例えば100Hzとする。
[わくわく度計測フロー]
図9に、わくわく度計測処理の流れを示す。過去1秒のピッチ平均値がμfT(例えば、100Hz)を超える場合(ステップS91でYES)、ステップS92で算出した数4の算出値と、ステップS93で算出した数5の算出値との積をわくわく度とする。過去1秒のピッチ平均値がμfT以下の場合はわくわく度=0とする。数4中のσfTは、例えば50Hzとする。
図9に、わくわく度計測処理の流れを示す。過去1秒のピッチ平均値がμfT(例えば、100Hz)を超える場合(ステップS91でYES)、ステップS92で算出した数4の算出値と、ステップS93で算出した数5の算出値との積をわくわく度とする。過去1秒のピッチ平均値がμfT以下の場合はわくわく度=0とする。数4中のσfTは、例えば50Hzとする。
[まったり度計測フロー]
まったり度は、数6によって算出される。過去5秒のパワー平均値を環境雑音と見なし、過去1秒のパワー平均値がそれに一致する場合をまったり度が最大とし、それから離れるに従って指数関数で減少する。
まったり度は、数6によって算出される。過去5秒のパワー平均値を環境雑音と見なし、過去1秒のパワー平均値がそれに一致する場合をまったり度が最大とし、それから離れるに従って指数関数で減少する。
[感情判定]
過去5フレーム(16KHz,フレーム長2048の場合、0.64秒に相当)の4感情の度合いを保存する。次に、各フレームで度合いが最大の感情について、生起回数を1増やす。そして、過去5フレームで累積回数が最大の感情を現在の感情と決定する。
過去5フレーム(16KHz,フレーム長2048の場合、0.64秒に相当)の4感情の度合いを保存する。次に、各フレームで度合いが最大の感情について、生起回数を1増やす。そして、過去5フレームで累積回数が最大の感情を現在の感情と決定する。
[感情測定モニターTypeA画面]
図10は、感情測定モニター画面の一例を示す。音声のスペクトルは、緩やかな起伏である包絡に周期的な細かい凹凸である微細構造が重畳した構造を持つ。
図10は、感情測定モニター画面の一例を示す。音声のスペクトルは、緩やかな起伏である包絡に周期的な細かい凹凸である微細構造が重畳した構造を持つ。
<ケプストラム>
音声波形のパワースペクトルを対数に変換し、さらにフーリエ変換した結果をケプストラムと呼ぶ。ケプストラムの横軸をケフレンシー軸と呼ぶ。スペクトルの横軸の次元が周波数であるから、これをフーリエ変換して得られるケプストラムの横軸の次元は時間軸である。包絡に相当する成分は低ケフレンシー部に、微細構造に相当する部分は高ケフレンシー部に現れる。前者が声道特性(声色)、後者が声帯音源の特性(ピッチ:声の高さ)に相当する。
音声波形のパワースペクトルを対数に変換し、さらにフーリエ変換した結果をケプストラムと呼ぶ。ケプストラムの横軸をケフレンシー軸と呼ぶ。スペクトルの横軸の次元が周波数であるから、これをフーリエ変換して得られるケプストラムの横軸の次元は時間軸である。包絡に相当する成分は低ケフレンシー部に、微細構造に相当する部分は高ケフレンシー部に現れる。前者が声道特性(声色)、後者が声帯音源の特性(ピッチ:声の高さ)に相当する。
閾値によって低ケフレンシー部と高ケフレンシー部に分ける処理をフィルタリングをもじってリフタリングと呼ぶ。リフタリングによって高ケフレンシー部からピークを抽出することによってピッチ周期(声の高さ)を求めることができる。この一連の処理をケプストラム分析と呼ぶ。
[感情測定モニターTypeB画面]
図11は、感情測定モニター画面の他の例を示す。同図に示されているように、音声特徴量の統計量(直前5秒間のパワー平均値、パワー標準偏差。直前1秒間のパワー平均値、パワー標準偏差、ピッチ平均値、ピッチ標準偏差。)を算出し、それら統計量に基づいて「興奮」、「悲しい」、「わくわく」、「まったり」などの各感情の度合いを算出し、感情を判定する。
図11は、感情測定モニター画面の他の例を示す。同図に示されているように、音声特徴量の統計量(直前5秒間のパワー平均値、パワー標準偏差。直前1秒間のパワー平均値、パワー標準偏差、ピッチ平均値、ピッチ標準偏差。)を算出し、それら統計量に基づいて「興奮」、「悲しい」、「わくわく」、「まったり」などの各感情の度合いを算出し、感情を判定する。
[感情の分析結果をデータベースに蓄積]
図12は、感情の分析結果をデータベースに蓄積するまでの流れを示す。同図に示すように、ステップS131で、感情分析結果と音声特徴量を取得する。ステップS132で、インターネット経由でデータベースに接続する。ステップS133で、1秒ごとに感情音声データベース35に特徴量データ26を登録する。ステップS134で、1秒ごとにパーソナルデータベース36に感情分析結果データ25を登録する。
図12は、感情の分析結果をデータベースに蓄積するまでの流れを示す。同図に示すように、ステップS131で、感情分析結果と音声特徴量を取得する。ステップS132で、インターネット経由でデータベースに接続する。ステップS133で、1秒ごとに感情音声データベース35に特徴量データ26を登録する。ステップS134で、1秒ごとにパーソナルデータベース36に感情分析結果データ25を登録する。
[感情分析結果から画面表示の変更]
図13は、感情分析結果から画面表示を変更するまでの流れを示す。同図に示すように、ステップS141で、感情音声分析結果をコンテンツ配信サーバ32に送信する。ステップS142で、コンテンツ配信サーバ32は、パーソナルデータベース36から、感情履歴と広告表示履歴を取得し、その値をもとに広告管理サーバ34から広告データを取得する。ステップS143で、コンテンツ配信サーバ32は、ステップS142で取得した広告表示履歴をもとにコメントデータをコメントサーバ33から取得する。ステップS144で、取得したコメントデータと広告データをPC23の画面に表示させる。
図13は、感情分析結果から画面表示を変更するまでの流れを示す。同図に示すように、ステップS141で、感情音声分析結果をコンテンツ配信サーバ32に送信する。ステップS142で、コンテンツ配信サーバ32は、パーソナルデータベース36から、感情履歴と広告表示履歴を取得し、その値をもとに広告管理サーバ34から広告データを取得する。ステップS143で、コンテンツ配信サーバ32は、ステップS142で取得した広告表示履歴をもとにコメントデータをコメントサーバ33から取得する。ステップS144で、取得したコメントデータと広告データをPC23の画面に表示させる。
ステップS142〜143の広告表示履歴とは、感情履歴をもとにして表示した広告表示の履歴であって、パーソナルデータベース36に蓄積される。例えば、過去1秒間で「悲しみ」の感情結果となった場合に、温泉のバナー広告を表示させる。その表示履歴に基づいて、次回に「悲しみ」の感情結果になった場合には、別の広告を表示させる。表示させるシーケンスについては後述する。
ステップS143の感情履歴とは、ステップS134でパーソナルデータベース36に蓄積した利用者毎の感情分析結果データの履歴を言う。例えば、過去1秒間で判断した感情が「興奮」、「悲しみ」、「わくわく」、「まったり」のどの感情であったかのデータ履歴を言う。より具体的には、4秒前から3秒前までは「興奮」、3秒前から2秒前までは「悲しみ」、2秒前から1秒前までは「わくわく」、そして1秒前から現在までは「まったり」などである。
[広告表示間隔]
感情別広告は、5秒〜10秒間隔で、ワード別広告は、登録ワードを発話したタイミングで各広告をチェンジさせることが好ましい。
感情別広告は、5秒〜10秒間隔で、ワード別広告は、登録ワードを発話したタイミングで各広告をチェンジさせることが好ましい。
[感情別広告及びコメント表示シーケンス]
図14は、感情別広告及びコメントを表示するために必要な各テーブルと処理の流れを示す。同図に示すように、A〜Cテーブルは、パーソナルデータベース36に記憶される。Aテーブルには、パーソナルID及び名前が記憶される。Bテーブルには、パーソナルID、感情履歴時間、及び感情結果が記憶される。Cテーブルには、パーソナルID、表示時間、広告番号、直前表示広告、コメント、及び開示時間が記憶される。Dテーブルは、広告管理サーバ34に記憶される。Dテーブルには、広告番号、広告データ(バイナリデータ)、感情種別、優先順位、及びコメント番号が記憶される。コメントサーバ33のテーブルには、コメント番号、及びコメントが記憶される。
図14は、感情別広告及びコメントを表示するために必要な各テーブルと処理の流れを示す。同図に示すように、A〜Cテーブルは、パーソナルデータベース36に記憶される。Aテーブルには、パーソナルID及び名前が記憶される。Bテーブルには、パーソナルID、感情履歴時間、及び感情結果が記憶される。Cテーブルには、パーソナルID、表示時間、広告番号、直前表示広告、コメント、及び開示時間が記憶される。Dテーブルは、広告管理サーバ34に記憶される。Dテーブルには、広告番号、広告データ(バイナリデータ)、感情種別、優先順位、及びコメント番号が記憶される。コメントサーバ33のテーブルには、コメント番号、及びコメントが記憶される。
感情別広告及びコメントを表示するために必要な処理について説明する。
ステップS1411:1秒毎に感情結果データをパーソナルデータベース36のBテーブルに登録する。図14に示す例では、感情結果「1」は「興奮」、「2」は「悲しい」、「3」は「わくわく」、「4」は「まったり」を示す。
ステップS1411:1秒毎に感情結果データをパーソナルデータベース36のBテーブルに登録する。図14に示す例では、感情結果「1」は「興奮」、「2」は「悲しい」、「3」は「わくわく」、「4」は「まったり」を示す。
ステップS1412:5秒毎にテーブルBの感情結果の中から、もっとも顕著な感情結果を抽出する。図14に示す例では、感情結果「1」が3回出現し、最多出現であるため、「1」が抽出される。出現回数が同じ感情結果が複数存在する場合は、例えば数字が少ない方を抽出する。
ステップS1413:Bテーブルから抽出された感情を第一要素として持つ広告であって、かつCテーブルに記憶されている直前表示広告の中から第二要素がもっとも高い値を取得する。図14に示す例では、この時点においては、1行目のデータ(「直前表示広告」列が「1,1」のレコード)と2行目のデータ(「直前表示広告」列が「1,2」のデータ)のみが記憶されており、3行目のデータ(「直前表示広告」列が「1,3」のデータ)は記憶されていないものとする。このような状況下では、Bテーブルから抽出された感情を第一要素として持ち、かつCテーブルに記憶されている直前表示広告の中の第二要素の最大値は、2行目のデータの「直前表示広告」列の「1,2」の「2」である。
ステップS1414:「ステップS1412で取得した値」と「ステップS1413で取得した値に1をプラスした値」の2つの値から感情種別と優先順位を抽出条件として広告管理サーバ34のDテーブルから行データを絞り込む。図14に示す例では、「感情識別:1、優先順位:3」の行データに絞り込まれる。優先順が最後尾になった場合は、1に戻る。例えば、感情種別1の場合、優先順位は1から3までであるから、優先順位が3になったら、次は優先順位1の行データに絞り込まれる。
ステップS1415:DテーブルからステップS1414で絞り込んだ行の各列のデータが取得される。
ステップS1416:ステップS1415で取得した列データ内のコメント番号(図14に示す例では「eje0019」)をもとにコメントサーバ33からコメントを取得する(図14に示す例では「冬は温泉でしょう!」)。
ステップS1417:ステップS1415で取得した広告データとステップS1416で取得したコメントデータをCテーブルに登録する。
ステップS1418:ステップS1415とステップS1416で取得した各データをコンテンツ配信サーバ32を経由して、PC23のツールに送信する。
ステップS1419:ステップS1418で送信されてきた各データをツールの表示エリアに表示させる。
[ワードスポッティング結果に基づく画面表示の変更]
図15は、ワードスポッティング結果に基づいて画面表示を変更する処理の流れを示す。同図に示すように、ステップS151では、ワードスポティング結果をPC23からコンテンツ配信サーバ32に送信する。
図15は、ワードスポッティング結果に基づいて画面表示を変更する処理の流れを示す。同図に示すように、ステップS151では、ワードスポティング結果をPC23からコンテンツ配信サーバ32に送信する。
ステップS152では、コンテンツ配信サーバ32からコメントサーバ33にアクセスし、ワードスポッティング結果に基づいて表示させるコメントデータをコメントサーバ33から取得する。
ステップS153では、コンテンツ配信サーバ32から広告管理サーバ34にアクセスし、ワードスポッティング結果に基づいて表示させる広告データを広告管理サーバ34から取得する。
ステップS154では、ステップS152で取得したコメントデータとステップS153で取得した広告データをコンテンツ配信サーバ32からPC23に送信し、PC23の画面に表示させる。
ステップS152の「ワードスポッティング」とは、会話中に発した単語の音声波形と抽出したい単語の音声波形が類似であった場合に、特定の単語が発せられたと判断することが可能な技術である。例えば、「おんせんいきたいね!」と発音された場合に、「おんせん」部分の音声波形を抽出し、「温泉」という単語が発音されたと判断することが可能である。そして、本実施形態においては温泉旅行に関するバナー広告が表示される。
[ワード別広告及びコメント表示シーケンス]
図16は、ワード別広告及びコメントを表示するために必要な各テーブルと処理の流れを示す。同図に示すように、Eテーブルは、パーソナルデータベース36に記憶される。Eテーブルには、パーソナルID、表示時間、広告番号、直前表示広告、コメント、開示時間、及びワードIDが記憶される。Fテーブルは、広告管理サーバ34に記憶される。Fテーブルには、広告番号、広告データ(バイナリデータ)、感情種別、優先順位、コメント番号、及びワードIDが記憶される。コメントサーバ33のテーブルには、コメント番号、及びコメントが記憶される。
図16は、ワード別広告及びコメントを表示するために必要な各テーブルと処理の流れを示す。同図に示すように、Eテーブルは、パーソナルデータベース36に記憶される。Eテーブルには、パーソナルID、表示時間、広告番号、直前表示広告、コメント、開示時間、及びワードIDが記憶される。Fテーブルは、広告管理サーバ34に記憶される。Fテーブルには、広告番号、広告データ(バイナリデータ)、感情種別、優先順位、コメント番号、及びワードIDが記憶される。コメントサーバ33のテーブルには、コメント番号、及びコメントが記憶される。
ワード別広告及びコメントを表示するために必要な処理について説明する。
ステップS1511:ワードスポッティング技術を利用して、会話中の音声波形のデジタルデータとワード音声データ内の「ワード音声波形データ」を比較し、該当波形をモニタリングする。
ステップS1511:ワードスポッティング技術を利用して、会話中の音声波形のデジタルデータとワード音声データ内の「ワード音声波形データ」を比較し、該当波形をモニタリングする。
ステップS1512:該当波形があった場合、その該当波形のワードIDを取得する。
ステップS1513:ステップS1512で取得したワードIDと同一の行をパーソナルデータベース36のEテーブルから抽出し、その抽出行内の直前表示広告の第二要素がもっとも高い値(図16に示す例では、「1,2」の「2」)を取得する。
ステップS1514:「ステップS1512で取得した値」、「ステップS1513で取得した値に1をプラスした値」及び「図14のBテーブルから抽出された最も顕著な感情値」の3つの値からワードID、感情種別、優先順位を抽出条件としてFテーブルから行データを絞り込む(図16に示す例では、「感情種別:1、優先順位:3、ワードID:001」の行を抽出)。優先順位が最後尾になった場合は、1に戻る。
ステップS1515:ステップS1514で絞り込んだ行の各列データを取得する。
ステップS1516:ステップS1515で取得した列データ内のコメント番号(図16に示す例では「oke5009」)をもとにコメントサーバ33からコメントデータを取得する(図16に示す例では、「声が元気だね!六本木C店のケーキでウキウキ度アップ!」)。
ステップS1517:ステップS1515で取得した広告データとステップS1516で取得したコメントデータをパーソナルデータベース36のEテーブルに登録する。
ステップS1518:ステップS1515とステップS1516で取得した各データをコンテンツ配信サーバ32を経由して、PC23のツールに送信する。
ステップS1519:ステップS1518でコンテンツ配信サーバ32を経由してPC23に送信されてきたデータをツールの表示エリアに表示させる。
[Webサイトにログイン]
図17は、Webサイトにログインするまでの処理の流れを示す。ステップS211では、音声感情識別ツール又はインターネット閲覧ソフト(IE等)を起動する。ステップS212は、音声感情識別ツールを起動させた場合であって、音声感情識別ツールの表示エリア内に表示されたリンクボタンが押される。以降、システム内動作として、ツール内に保存してある「メンバー名」と「パスワード」を用いて、メンバー認証データベース31において自動認証が行われる。ステップS213は、インターネット閲覧ソフトを起動させた場合であって、インターネット閲覧ソフトによってPC23の画面に表示されるメンバーログインエリアに「メンバー名」と「パスワード」を入力してログインを実行する。ステップS214では、認証が完了し、Webサイト(パーソナルサイト)にログインが完了する。
図17は、Webサイトにログインするまでの処理の流れを示す。ステップS211では、音声感情識別ツール又はインターネット閲覧ソフト(IE等)を起動する。ステップS212は、音声感情識別ツールを起動させた場合であって、音声感情識別ツールの表示エリア内に表示されたリンクボタンが押される。以降、システム内動作として、ツール内に保存してある「メンバー名」と「パスワード」を用いて、メンバー認証データベース31において自動認証が行われる。ステップS213は、インターネット閲覧ソフトを起動させた場合であって、インターネット閲覧ソフトによってPC23の画面に表示されるメンバーログインエリアに「メンバー名」と「パスワード」を入力してログインを実行する。ステップS214では、認証が完了し、Webサイト(パーソナルサイト)にログインが完了する。
[ツール利用時に蓄積されたデータ結果をベースとした各種サービスの閲覧]
図18は、ツール利用時に蓄積されたデータ結果をベースとした各種サービスを閲覧する処理の流れを示す。同図に示すように、ステップS221では、サイト運営用Webサーバ37からパーソナルデータベース36にアクセスし、ログインユーザーの感情音声分析結果を取得する。ステップS222では、取得した分析結果から表示すべき広告を広告管理サーバ34から取得する。ステップS223では、取得した分析結果をベースとした各種サービス内容を提供サービスデータベース38から取得する。ステップS224では、取得した各データをhtmlファイルに埋め込みメンバーのPC23又は携帯電話機24に送信する。
図18は、ツール利用時に蓄積されたデータ結果をベースとした各種サービスを閲覧する処理の流れを示す。同図に示すように、ステップS221では、サイト運営用Webサーバ37からパーソナルデータベース36にアクセスし、ログインユーザーの感情音声分析結果を取得する。ステップS222では、取得した分析結果から表示すべき広告を広告管理サーバ34から取得する。ステップS223では、取得した分析結果をベースとした各種サービス内容を提供サービスデータベース38から取得する。ステップS224では、取得した各データをhtmlファイルに埋め込みメンバーのPC23又は携帯電話機24に送信する。
ステップS222では、ツールを用いて音声を取得している最中にもっとも顕著だった感情をパーソナルデータベース36から抽出し、その感情に合わせて広告を表示させる。例えば、会話が悲しげな場合に「ハワイ旅行」等の広告を表示させる。「会話中にもっとも顕著だった感情を判断する処理」については後述する。
ステップS223では、ツールを用いて音声を取得している最中にもっとも顕著だった感情をパーソナルデータベースから抽出し、その感情に合わせてサービスを表示させる。表示されるサービスは、例えば声占い(感情履歴をもとに占いを表示する)、声健康チェック(感情履歴から健康度合いを表示する)、お勧めライフ(感情履歴からお勧めの生活スタイルを表示する)などである。
[会話中にもっとも顕著だった感情を判断する処理]
直前表示広告の第一要素の統計から最も多い数値を抽出し、その値から「最も顕著だった感情」を導き出す。また同順だった場合は、数値が小さい方を優先する。
直前表示広告の第一要素の統計から最も多い数値を抽出し、その値から「最も顕著だった感情」を導き出す。また同順だった場合は、数値が小さい方を優先する。
図19に、パーソナルデータベース36に記憶されるテーブルCの第2の例を示し、同図を用いて「会話中にもっとも顕著だった感情を判断する処理」を説明する。なお、「直前表示広告の第一要素」とは、図19の例では「直前表示広告」列の各データの第1番目の要素を言う。例えば、「直前表示広告」列の「1,2」中の「1」を言う。図19の例では、「直前表示広告の第一要素」は「1」が6個、「2」が3個であるから、「直前表示広告の第一要素の統計から最も多い数値」は「1」になる。そして、これに対応する感情(例えば、「興奮」)が「最も顕著だった感情」となる。仮に、「直前表示広告の第一要素」が「1」も「2」も同じ個数であったら、数値が小さい方の「1」が「最も顕著だった感情」となる。
22…マイクロフォン
23…パーソナルコンピュータ
25…分析結果データ
26…特徴量データ
31…メンバー認証データベース
32…コンテンツ配信サーバ
33…コメントサーバ
34…広告管理サーバ
35…感情音声データベース
36…パーソナルデータベース
37…サイト運営用Webサーバ
38…提供サービスデータベース
23…パーソナルコンピュータ
25…分析結果データ
26…特徴量データ
31…メンバー認証データベース
32…コンテンツ配信サーバ
33…コメントサーバ
34…広告管理サーバ
35…感情音声データベース
36…パーソナルデータベース
37…サイト運営用Webサーバ
38…提供サービスデータベース
Claims (9)
- 単語とコンテンツを関連付けて記憶する手段と、
会話音声の中から単語を抽出する単語抽出手段と、
前記単語抽出手段によって抽出された単語に関連付けて記憶されている前記コンテンツを読み取るコンテンツ読み取り手段と、
前記読み取られたコンテンツをコンテンツ再生手段へ送るコンテンツ送信手段と、を備えるコンテンツ提供システム。 - 前記コンテンツ送信手段によって送信されたコンテンツの履歴を記憶する手段をさらに備え、
1つの単語に対して複数のコンテンツが優先順位付きで記憶され、
前記コンテンツ読み取り手段は、前記単語抽出手段によって抽出された単語に関連付けて記憶されている前記複数のコンテンツの中から、前記送信されたコンテンツの履歴を参照して、直近に送信されたコンテンツの次に優先順位が高いコンテンツを読み取る請求項1に記載のコンテンツ提供システム。 - 感情種別とコンテンツを関連付けて記憶する感情種別コンテンツ記憶手段と、
音声入力手段から入力された音声の特徴量を算出する特徴量算出手段と、
算出された音声特徴量に基づいて、感情種別を判定する感情種別判定手段と、
判定された前記感情種別に関連付けて記憶されている前記コンテンツを読み取るコンテンツ読み取り手段と、
読み取られたコンテンツをコンテンツ再生手段へ送る送信手段と、を備えるコンテンツ提供システム。 - 前記感情種別判定手段によって判定された感情種別を第1の所定時間毎に記憶する手段と、
第1の所定時間毎に記憶された感情種別の中から第2の所定時間毎に1つの感情種別を抽出する感情種別抽出手段と、をさらに備え、
前記コンテンツ読み取り手段は、前記感情種別抽出手段によって抽出された感情種別に関連付けて記憶されているコンテンツを前記感情種別コンテンツ記憶手段から読み取る請求項1に記載のコンテンツ提供システム。 - 前記コンテンツ送信手段によって送信されたコンテンツの履歴を記憶する手段をさらに備え、
1つの前記感情種別に対して複数の前記コンテンツが優先順位付きで記憶され、
前記コンテンツ読み取り手段は、前記感情種別判定手段によって判定された前記感情種別に関連付けて記憶されている前記複数のコンテンツの中から、前記送信されたコンテンツの履歴を参照して、直近に送信されたコンテンツの次に優先順位が高いコンテンツを読み取る請求項4に記載のコンテンツ提供システム。 - 前記音声の特徴量が、音声のパワーの平均及び標準偏差、並びに音声のピッチの平均及び標準偏差である請求項3乃至5に記載のコンテンツ配信システム。
- 感情種別に関連付けられた広告、単語に関連付けられた広告、及び感情種別と単語の双方に関連付けられたコメントをそれぞれ記憶する手段と、
入力された音声に基づいて、感情種別を判定する感情種別判定手段と、
会話音声の中から単語を抽出する単語抽出手段と、
前記感情種別判定手段によって判定された感情種別に関連付けて記憶されている広告を読み出し、前記単語抽出手段によって抽出された単語に関連付けて記憶されている広告を読み出し、かつ前記感情種別判定手段によって判定された感情種別及び前記単語抽出手段によって抽出された単語に関連付けて記憶されているコメントを読み取る広告コメント読み取り手段と、
前記読み取られた広告及びコメントをコンテンツ再生手段へ送るコンテンツ送信手段と、を備えるコンテンツ提供システム。 - 音声波形とコンテンツを関連付けて予め記憶し、
記憶されている音声波形と音声入力手段から入力された音声の波形とを比較し、類似するか否かを判断し、
入力された音声の波形に類似すると判断された前記音声波形に関連付けて記憶されている前記コンテンツを読み取り、
前記読み取られたコンテンツをコンテンツ再生手段へ送るコンテンツ提供方法。 - 感情種別とコンテンツを関連付けて予め記憶し、
音声入力手段から入力された音声の特徴量を算出し、
算出された音声特徴量に基づいて、感情種別を判定し、
判定された前記感情種別に関連付けて記憶されている前記コンテンツを読み取り、
読み取られたコンテンツをコンテンツ再生手段へ送るコンテンツ提供方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2007005155A JP2008170820A (ja) | 2007-01-12 | 2007-01-12 | コンテンツ提供システム及び方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2007005155A JP2008170820A (ja) | 2007-01-12 | 2007-01-12 | コンテンツ提供システム及び方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2008170820A true JP2008170820A (ja) | 2008-07-24 |
Family
ID=39698948
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2007005155A Pending JP2008170820A (ja) | 2007-01-12 | 2007-01-12 | コンテンツ提供システム及び方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2008170820A (ja) |
Cited By (15)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2011170622A (ja) * | 2010-02-18 | 2011-09-01 | Nec Corp | コンテンツ提供システム、コンテンツ提供方法、およびコンテンツ提供プログラム |
| WO2012174399A3 (en) * | 2011-06-17 | 2013-04-18 | Microsoft Corporation | Selection of advertisements via viewer feedback |
| JP2013109767A (ja) * | 2011-11-23 | 2013-06-06 | Inst For Information Industry | 広告システムおよび広告方法 |
| JP2013206389A (ja) * | 2012-03-29 | 2013-10-07 | Fujitsu Ltd | 親密度算出方法、親密度算出プログラムおよび親密度算出装置 |
| JP2014119879A (ja) * | 2012-12-14 | 2014-06-30 | Nippon Hoso Kyokai <Nhk> | 顔表情評価結果平滑化装置および顔表情評価結果平滑化プログラム |
| US9020820B2 (en) | 2011-06-30 | 2015-04-28 | Fujitsu Limited | State detecting apparatus, communication apparatus, and storage medium storing state detecting program |
| WO2015127361A1 (en) * | 2014-02-23 | 2015-08-27 | Interdigital Patent Holdings, Inc. | Cognitive and affective human machine interface |
| JP2016024631A (ja) * | 2014-07-18 | 2016-02-08 | ヤフー株式会社 | 提示装置、提示方法及び提示プログラム |
| JP2016177442A (ja) * | 2015-03-19 | 2016-10-06 | ヤフー株式会社 | 情報処理装置及び方法 |
| JP2017037658A (ja) * | 2009-02-20 | 2017-02-16 | ボイスボックス テクノロジーズ コーポレーション | 自然言語音声サービス環境においてマルチモーダル機器対話を処理するシステム及び方法 |
| JP2018085120A (ja) * | 2017-12-14 | 2018-05-31 | ヤフー株式会社 | 装置、方法及びプログラム |
| JP2018142357A (ja) * | 2018-04-27 | 2018-09-13 | ヤフー株式会社 | 装置、方法及びプログラム |
| CN111611330A (zh) * | 2019-02-26 | 2020-09-01 | 丰田自动车株式会社 | 信息处理系统、程序、以及控制方法 |
| JP2025044209A (ja) * | 2023-09-19 | 2025-04-01 | ソフトバンクグループ株式会社 | システム |
| JP2025051766A (ja) * | 2023-09-22 | 2025-04-04 | ソフトバンクグループ株式会社 | システム |
-
2007
- 2007-01-12 JP JP2007005155A patent/JP2008170820A/ja active Pending
Cited By (21)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US10553213B2 (en) | 2009-02-20 | 2020-02-04 | Oracle International Corporation | System and method for processing multi-modal device interactions in a natural language voice services environment |
| JP2017037658A (ja) * | 2009-02-20 | 2017-02-16 | ボイスボックス テクノロジーズ コーポレーション | 自然言語音声サービス環境においてマルチモーダル機器対話を処理するシステム及び方法 |
| JP2011170622A (ja) * | 2010-02-18 | 2011-09-01 | Nec Corp | コンテンツ提供システム、コンテンツ提供方法、およびコンテンツ提供プログラム |
| WO2012174399A3 (en) * | 2011-06-17 | 2013-04-18 | Microsoft Corporation | Selection of advertisements via viewer feedback |
| US9077458B2 (en) | 2011-06-17 | 2015-07-07 | Microsoft Technology Licensing, Llc | Selection of advertisements via viewer feedback |
| US9363546B2 (en) | 2011-06-17 | 2016-06-07 | Microsoft Technology Licensing, Llc | Selection of advertisements via viewer feedback |
| US9020820B2 (en) | 2011-06-30 | 2015-04-28 | Fujitsu Limited | State detecting apparatus, communication apparatus, and storage medium storing state detecting program |
| JP2013109767A (ja) * | 2011-11-23 | 2013-06-06 | Inst For Information Industry | 広告システムおよび広告方法 |
| JP2013206389A (ja) * | 2012-03-29 | 2013-10-07 | Fujitsu Ltd | 親密度算出方法、親密度算出プログラムおよび親密度算出装置 |
| JP2014119879A (ja) * | 2012-12-14 | 2014-06-30 | Nippon Hoso Kyokai <Nhk> | 顔表情評価結果平滑化装置および顔表情評価結果平滑化プログラム |
| WO2015127361A1 (en) * | 2014-02-23 | 2015-08-27 | Interdigital Patent Holdings, Inc. | Cognitive and affective human machine interface |
| JP2016024631A (ja) * | 2014-07-18 | 2016-02-08 | ヤフー株式会社 | 提示装置、提示方法及び提示プログラム |
| JP2016177442A (ja) * | 2015-03-19 | 2016-10-06 | ヤフー株式会社 | 情報処理装置及び方法 |
| JP2018085120A (ja) * | 2017-12-14 | 2018-05-31 | ヤフー株式会社 | 装置、方法及びプログラム |
| JP2018142357A (ja) * | 2018-04-27 | 2018-09-13 | ヤフー株式会社 | 装置、方法及びプログラム |
| CN111611330A (zh) * | 2019-02-26 | 2020-09-01 | 丰田自动车株式会社 | 信息处理系统、程序、以及控制方法 |
| JP2020140238A (ja) * | 2019-02-26 | 2020-09-03 | トヨタ自動車株式会社 | 情報処理システム、プログラム、及び制御方法 |
| JP7183864B2 (ja) | 2019-02-26 | 2022-12-06 | トヨタ自動車株式会社 | 情報処理システム、プログラム、及び制御方法 |
| CN111611330B (zh) * | 2019-02-26 | 2023-09-26 | 丰田自动车株式会社 | 信息处理系统、程序、以及控制方法 |
| JP2025044209A (ja) * | 2023-09-19 | 2025-04-01 | ソフトバンクグループ株式会社 | システム |
| JP2025051766A (ja) * | 2023-09-22 | 2025-04-04 | ソフトバンクグループ株式会社 | システム |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2008170820A (ja) | コンテンツ提供システム及び方法 | |
| CN110557589B (zh) | 用于整合记录的内容的系统和方法 | |
| US10770062B2 (en) | Adjusting a ranking of information content of a software application based on feedback from a user | |
| US7788095B2 (en) | Method and apparatus for fast search in call-center monitoring | |
| KR102196400B1 (ko) | 핫워드 적합성을 결정하는 방법 및 장치 | |
| US12118978B2 (en) | Systems and methods for generating synthesized speech responses to voice inputs indicative of a user in a hurry | |
| US10210867B1 (en) | Adjusting user experience based on paralinguistic information | |
| US20130144618A1 (en) | Methods and electronic devices for speech recognition | |
| CN111314566A (zh) | 一种语音质检方法、装置与系统 | |
| Baumeister et al. | The influence of alcoholic intoxication on the fundamental frequency of female and male speakers | |
| KR20200082232A (ko) | 감성 분석 장치, 이를 포함하는 대화형 에이전트 시스템, 감성 분석을 수행하기 위한 단말 장치 및 감성 분석 방법 | |
| US20250168446A1 (en) | Dynamic Insertion of Supplemental Audio Content into Audio Recordings at Request Time | |
| US20210065684A1 (en) | Information processing apparatus, keyword detecting apparatus, and information processing method | |
| CN109634554B (zh) | 用于输出信息的方法和装置 | |
| Tetzloff et al. | Automatic speech recognition in primary progressive apraxia of speech | |
| CN104882146B (zh) | 音频推广信息的处理方法及装置 | |
| CN115331703A (zh) | 一种歌曲人声检测方法及装置 | |
| Lustyk et al. | Evaluation of disfluent speech by means of automatic acoustic measurements | |
| JP2015099290A (ja) | 発話内重要語抽出装置とその装置を用いた発話内重要語抽出システムと、それらの方法とプログラム | |
| Prasetio et al. | Bark frequency cepstral coefficient based sadness emotion level recognition system | |
| US20250349292A1 (en) | Compliance detection using natural language processing | |
| JP2019101399A (ja) | 好感度推定装置、好感度推定方法、プログラム | |
| Haider et al. | Reverberation Time as an Acoustic Biomarker for Speech Impairment in Parkinson Disease | |
| CN119152889A (zh) | 情绪状态信息获取方法、情绪状态信息获取模型训练方法 | |
| CN114783416A (zh) | 基于语音自动分级的语音服务方法及语音客服服务平台 |