JP2008170820A

JP2008170820A - コンテンツ提供システム及び方法

Info

Publication number: JP2008170820A
Application number: JP2007005155A
Authority: JP
Inventors: Takeshi Moriyama; 剛森山
Original assignee: Individual
Current assignee: Individual
Priority date: 2007-01-12
Filing date: 2007-01-12
Publication date: 2008-07-24

Abstract

【課題】広告効果を高めるため、表示すべき広告等を、話者の感情に基づいて選択する。
【解決手段】話者の音声を取得し（Ｓ１１）、取得した音声に基づいて話者の感情を分析し（Ｓ１２）、感情の分析結果をデータベースに蓄積し（Ｓ１３）、感情分析結果に基づいて画面表示を変更する（Ｓ１４）。例えば、感情分析結果が「興奮」であったら、「興奮」という感情種別に関連付けて予め記憶されている広告を話者が見ているモニターの画面に表示させる。また、ワードスポッティング結果に基づいて画面表示を変更する（Ｓ１５）。例えば、会話中から「温泉」という単語が抽出されたら、「温泉」という単語に関連付けて予め記憶されている広告を話者が見ているモニターの画面に表示させる。そして、画面に表示されたバナー広告をマウスなどのポインティングデバイスを用いてクリックすることによってバナー広告のリンク先Ｗｅｂサイトへアクセスする（Ｓ１６）。
【選択図】図１

Description

本発明は、例えばパーソナルコンピュータ及びインターネットを用いて２以上の話者が会話する場合において、入力音声から話題や話者の感情を判定し、その話題や感情に適切な広告やコメントなどのコンテンツをパーソナルコンピュータのモニターに表示させるシステム及び方法に関する。

入力音声から感情を検出する方法及び装置に関する技術が提案されている（例えば、特許文献１参照）。
特願２００２−２９３９２６号公報

特許文献１では段落［００３２］に記載されているように、所定の話者について感情認識を行っているが、不特定の話者の感情を判定することはできなかった。
そこで、本発明は、不特定の話者が不特定の環境で不特定の発話内容で発話した場合であっても、話者の感情を判定し、判定された感情に対して適切なコメントや広告を表示することを可能とする。

本発明の第１の特徴は、コンテンツ提供システムであって、単語とコンテンツを関連付けて記憶する手段と、会話音声の中から単語を抽出する単語抽出手段と、単語抽出手段によって抽出された単語に関連付けて記憶されているコンテンツを読み取るコンテンツ読み取り手段と、読み取られたコンテンツをコンテンツ再生手段へ送るコンテンツ送信手段と、を備えることにある。

コンテンツとは、例えば広告やコメントを含む。
記憶する手段とは、磁気的、電気的、光学的又は光磁気的に情報を記憶する手段を含み、具体的にはハード・ディスク・ドライブ（HDD）、ランダム・アクセス・メモリ（RAM）、ＣＤドライブ、ＤＶＤドライブ、ＭＯドライブを含む。
単語抽出手段とは、ワードスポッティングと称される技術において使用されるものを含む。
コンテンツ再生手段とは、例えばGIF又はJPEG形式の画像やHTMLで記述されたWebサイトを表示可能なパーソナルコンピュータや携帯電話機を言う。

本発明の第２の特徴は、第１の特徴に加えて、コンテンツ送信手段によって送信されたコンテンツの履歴を記憶する手段をさらに備え、１つの単語に対して複数のコンテンツが優先順位付きで記憶され、コンテンツ読み取り手段は、単語抽出手段によって抽出された単語に関連付けて記憶されている複数のコンテンツの中から、送信されたコンテンツの履歴を参照して、直近に送信されたコンテンツの次に優先順位が高いコンテンツを読み取ることにある。

「１つの単語に対して複数のコンテンツが優先順位付きで記憶され、」とは、例えば「オンセン」という単語に対して、旅行会社Ａの広告が優先順位第１位で記憶され、旅行会社Ｂの広告が優先順位第２位で記憶され、また「ケーキ」という音声の波形に対して、銀座Ａ店の広告が優先順位第１位で記憶され、青山Ｂ店の広告が優先順位第２位で記憶されていることを言う。

「コンテンツ読み取り手段は、単語抽出手段によって抽出された単語に関連付けて記憶されている複数のコンテンツの中から、送信されたコンテンツの履歴を参照して、直近に送信されたコンテンツの次に優先順位が高いコンテンツを読み取る」とは、例えば
「オンセン」という単語が抽出され、
「オンセン」という単語に関連付けられているコンテンツの中での優先順位が第１位の旅行会社Ａの広告が送信され、
その後に「ケーキ」という単語が抽出され、「ケーキ」という単語に関連付けられているコンテンツの中での優先順位が第１位の銀座Ａ店又は第２位の青山Ｂ店の広告が送信され、
その後に再び「オンセン」という単語が抽出された場合に、「オンセン」という単語に関連付けられているコンテンツの中での優先順位第２位の旅行会社Ｂの広告を読み取ることを言う。

本発明の第３の特徴は、コンテンツ提供システムであって、感情種別とコンテンツを関連付けて記憶する感情種別コンテンツ記憶手段と、音声入力手段から入力された音声の特徴量を算出する特徴量算出手段と、算出された音声特徴量に基づいて、感情種別を判定する感情種別判定手段と、判定された前記感情種別に関連付けて記憶されている前記コンテンツを読み取るコンテンツ読み取り手段と、読み取られたコンテンツをコンテンツ再生手段へ送る送信手段と、を備えることにある。

特徴量算出手段は、音声のパワーの平均、標準偏差、及びピッチの平均、標準偏差などを算出し、それら平均、標準偏差を所定の数式に代入して計算可能な手段である。

本発明の第４の特徴は、第３の特徴に加えて、感情種別判定手段によって判定された感情種別を第１の所定時間毎に記憶する手段と、第１の所定時間毎に記憶された感情種別の中から第２の所定時間毎に１つの感情種別を抽出する感情種別抽出手段と、をさらに備え、コンテンツ読み取り手段は、感情種別抽出手段によって抽出された感情種別に関連付けて記憶されているコンテンツを感情種別コンテンツ記憶手段から読み取ることにある。
感情種別抽出手段は、例えば、感情種別を１秒ごとに記憶し、５秒ごとに直近５秒間で出現頻度が最も多い感情を抽出する。

本発明の第５の特徴は、第４の特徴に加えて、コンテンツ送信手段によって送信されたコンテンツの履歴を記憶する手段をさらに備え、１つの感情種別に対して複数のコンテンツが優先順位付きで記憶され、コンテンツ読み取り手段は、感情種別判定手段によって判定された感情種別に関連付けて記憶されている複数のコンテンツの中から、送信されたコンテンツの履歴を参照して、直近に送信されたコンテンツの次に優先順位が高いコンテンツを読み取ることにある。

本発明の第６の特徴は、第３乃至第５の特徴に加えて、音声の特徴量が、音声のパワーの平均及び標準偏差、並びに音声のピッチの平均及び標準偏差であることにある。

本発明の第７の特徴は、コンテンツ提供システムであって、感情種別に関連付けられた広告、単語に関連付けられた広告、及び感情種別と単語の双方に関連付けられたコメントをそれぞれ記憶する手段と、入力された音声に基づいて、感情種別を判定する感情種別判定手段と、会話音声の中から単語を抽出する単語抽出手段と、前記感情種別判定手段によって判定された感情種別に関連付けて記憶されている広告を読み出し、前記単語抽出手段によって抽出された単語に関連付けて記憶されている広告を読み出し、かつ前記感情種別判定手段によって判定された感情種別及び前記単語抽出手段によって抽出された単語に関連付けて記憶されているコメントを読み取る広告コメント読み取り手段と、前記読み取られた広告及びコメントをコンテンツ再生手段へ送るコンテンツ送信手段と、を備えることにある。

本発明によれば、会話に含まれる単語や話者の感情に応じた広告やコメントなどのコンテンツを表示させることが可能となる。

以下に本発明を実施するための最良の形態を説明する。なお、以下の説明は、単なる例示に過ぎず、本発明の技術的範囲は以下の説明に限定されるものではない。

［全体イメージ］
感情音声識別ツールを利用して話者の感情データ及び、会話中の単語を取得（ワードスポッティング）する。ツール利用後、パソコン版Webサイトと携帯版Webサイトを表示する。取得した感情データと単語に基づいて各種サービスを閲覧可能とする。取得した感情データをもとに「声占い」、「声健康」等の各種サービスをブラウザで閲覧することができる。

［音声感情識別ツール］
音声感情又は会話中に発せられた単語（ワード）に関連づけられた広告及びその広告に関連したコメントを表示させ、その広告がクリックされ、その広告に関連付けられているリンク先のウェブサイトにジャンプさせる確率を高める。

図２０は、音声感情識別ツールの画面デザインの一例を示す。同図に示す画面２７は、音声感情に関連づけられたバナー広告２７１と、会話中に発せられた単語に関連づけられたバナー広告２７２と、音声感情及び会話中に発せられた単語に関連づけられたコメント２７３と、音声感情バロメーター２７４を含む。

バナー広告２７１は、話者の感情に基づいて選択される。例えば、「興奮」という感情種別と「興奮しているときに表示させる広告」とを関連付けて記憶し、また「悲しい」という感情種別と「悲しいときに表示させる広告」とを関連付けて記憶しておく。そして、話者の感情が「興奮」と判断された場合には、「興奮しているときに表示させる広告」が表示される。話者の感情が「悲しい」と識別された場合には、「悲しいときに表示させる広告」が表示される。

バナー広告２７２は、会話中に発せられた単語に基づいて選択される。例えば、「温泉」という単語と「オンセンと発音されたときに表示させる広告」とを関連付けて記憶し、また「鍋」という単語と「ナベと発音されたときに表示させる広告」とを関連付けて記憶しておく。そして、会話中に「オンセン」と発音されたと判断された場合には、「オンセンと発音されたときに表示させる広告」が表示される。会話中に「ナベ」と発音されたと判断された場合には、「ナベと発音されたときに表示させる広告」が表示される。

コメント２７３は、音声感情及び会話中に発せられた単語に基づいて選択される。例えば、「悲しい」という感情種別と「温泉」という単語と「悲しんでいると判断され、かつオンセンと発音されたときに表示させるコメント」とを関連付けて記憶し、また「興奮」という感情種別と「温泉」という単語と「興奮していると判断され、かつオンセンと発音されたときに表示させるコメント」とを関連付けて記憶しておく。そして、話者の感情が「悲しい」と識別され、かつ会話中に「オンセン」と発音されたと判断された場合には、「悲しんでいると判断され、かつオンセンと発音されたときに表示させるコメント」が表示される。また、話者の感情が「興奮している」と識別され、かつ会話中に「オンセン」と発音されたと判断された場合には、「興奮していると判断され、かつオンセンと発音されたときに表示させるコメント」が表示される。

「音声感情に基づいて選択された広告」、「ワードに基づいて選択された広告」、又は「音声感情及びワードに基づいて選択されたコメント」のそれぞれが表示されると高い広告効果が発揮されるため、好ましい。

「音声感情に基づいて選択された広告」、「ワードに基づいて選択された広告」、並びに「音声感情及びワードに基づいて選択されたコメント」が組み合わせて表示されるとより一層高い広告効果が発揮されるため、これら全てが表示されることが好ましい。

［全体フロー］
＜感情音声識別ツール利用時＞
図１は、感情音声識別ツール利用時の処理の流れを示すフローチャートである。図１に示すように、ステップＳ１１でマイクロフォンなどを用いて音声を取得し、ステップＳ１２で感情を分析し、ステップＳ１３で感情の分析結果をデータベースに蓄積し、ステップＳ１４で分析結果に基づいて画面表示を変更し、またステップＳ１５でワードスポッティング結果から画面表示を変更し、ステップＳ１６でバナー広告などがクリックされリンク先のウェブサイトへアクセスする。

＜パソコン又は携帯電話でのパーソナルサイト閲覧時＞
図２は、パソコン又は携帯電話でのパーソナルサイト閲覧時の処理の流れを示すフローチャートである。図２に示すように、ステップＳ２１でＷｅｂサイトにログインし、ステップＳ２２でツール利用時に蓄積されたデータをベースとした各種サービスを閲覧し、ステップＳ２３でバナー広告からリンク先へアクセスする。

［サービス提供システム全体構成例］
図３は、サービス提供システムの全体構成の一例を示すブロック図である。同図に示す例では、登録メンバー２１の会話はマイクロフォン２２を介してパーソナルコンピュータ（ＰＣ）２３に取り込まれる。メンバー認証データベース３１は、登録メンバー２１の詳細情報（メンバー名、パスワード等）を蓄積する。コンテンツ配信サーバ３２は、ＰＣ２３の感情音声識別ツールからのリクエストを受けて、感情音声結果とメンバー名から決定される表示すべきコメントと広告をコメントサーバ３３と広告管理サーバ３４から取得し、ＰＣ２３の音声感情識別ツールにコメントデータと広告データを送信する。

コメントサーバ３３は、コンテンツ配信サーバ３２から受けた感情音声結果とメンバー名から決定される表示すべきコメントデータをコンテンツ配信サーバ３２に送信し、メンバー別の感情音声データ履歴を保持する。広告管理サーバ３４は、コンテンツ配信サーバ３２から受けた感情音声結果とメンバー名から決定される表示すべき広告データをコンテンツ配信サーバ３２に送信し、メンバー別の広告データ履歴を保持する。

感情音声データベース３５は、ＰＣ２３の感情音声識別ツールから送信されてきた特徴量データ２６をメンバー（話者２１）毎に保存する。パーソナルデータベース３６は、ＰＣ２３の感情音声識別ツールから送信されてきた感情音声識別結果と表示した広告番号（分析結果データ２５）をメンバー毎に保存する。分析結果データ２５は、パーソナルデータベース３６からサイト運営用Ｗｅｂサーバ３７へ送られる。

サイト運営用Ｗｅｂサーバ３７は、ＰＣ２３及び携帯電話機２４から閲覧可能なサイト環境を構築する。提供サービスデータベース３８は、サイト運営用Ｗｅｂサーバ３７から受けたメンバー名をもとに、パーソナルデータベース３６から最新の感情識別結果を取得し、取得した感情識別結果から「声占い」、「声健康」等の提供サービスデータをサイト運営用Ｗｅｂサーバ３７に送信する。

［感情認識の基本コンセプト］
言語や話者に依存しない単純な特徴量として，音量や音高といった韻律成分を用いる。特徴量の所定時間（例えば、過去１秒間）の基本統計量をもって，話者の現在の話し方とする。話し方の定常状態（例えば、過去５秒間の基本統計量）からの逸脱量から，各感情の度合いを求める。

［感情識別ソフトウェア（ツール）を構成するDLL］
感情識別ソフトウェア（ツール）を構成するDLLは、EmotionMonitorDLL.dll、WaveIn.dll、Fft_C.dllなどである。EmotionMonitorDLL.dllは、音声特徴量を算出しその統計量から感情を計測する。音声特徴量には、音声入力波形データ、スペクタル包絡データ、ピッチ軌跡データ、パワー軌跡データが含まれる。WaveIn.dllは、マイクロフォンから音声を取得する。WaveIn.dllは、Windows（登録商標）系オペレーティングシステムでサウンドを録音する場合に、一般的に使用されているマルチメディアＡＰＩ（Application Program Interface）を使用して、音声入力デバイスからツールが用意した記憶領域（バッファ）に指定された長さの音声波形を更新格納し利用できるようにする。Fft_C.dllは、高速フーリエ変換に使用可能なＡＰＩであって、周波数スペクトルを計算する。

［音声取得から音声感情分析全体フロー］
図４は、音声取得から音声感情分析までの処理の流れを示すフローチャートである。図４に示すように、ステップＳ４１でマイクから音声を取得し、ステップＳ４２でＡ／Ｄ変換をし、ステップＳ４３で離散フーリエ変換をし、ステップＳ４４で音声特徴量を算出し、ステップＳ４５で感情を計測し、ステップＳ４６で感情を出力する。ステップＳ４１、ステップＳ４２で音声を取得し、ステップＳ４３〜４６で音声感情を分析する。

Ａ／Ｄ変換（アナログ／ディジタル変換）は、アナログ信号である音声波形を標本化及び量子化を行ってデジタルデータに変換する。例えばサンプリングレート１６ＫＨｚ、分解能１６ビットとする。

ステップＳ４４では、音声特徴量を算出する。音声特徴量とは、各バッファ（分析フレーム）についてパワーを求めて得た音声波形全体の軌跡（パワー軌跡）及び各バッファ（分析フレーム）についてピッチを求めて得た音声波形全体の軌跡（ピッチ軌跡）を言う。パワーは、周波数スペクトルの各周波数成分の自乗和を意味する。ピッチは、声の高さ（単位：Ｈｚ（ヘルツ））を意味する。

ステップＳ４５では、音声特徴量の統計量から例えば「興奮度」、「悲しみ度」、「わくわく度」、「まったり度」をそれぞれ0.0から1.0まで0.1刻み11段階で0.128秒ごとにリアルタイムに計測する。そして、５回の計測で最頻の感情を「現在の感情」と判定する。「音声特徴量の統計量」とは、例えば直前５秒間のパワー軌跡についての平均、標準偏差及び直前１秒間のパワー軌跡及びピッチ軌跡の平均、標準偏差を言う。平均は、相加平均（算術平均）を意味する。

［音声特徴量算出フロー］
図５は、音声特徴量算出処理の流れを示すフローチャートである。図５は、図４のステップＳ４４を詳しく説明するものである。図５に示すように、ステップＳ５１で自乗和を算出し、ステップＳ５２でパワーの５秒間の平均・標準偏差及び１秒間の平均・標準偏差を算出する。

また、ステップＳ５４で対数変換をし、ステップＳ５５で離散フーリエ変換をし、ステップＳ５６でピークを検出し、ステップＳ５７でピッチの１秒間の平均・標準偏差を算出する。ステップＳ４３及びステップＳ５４からステップＳ５６までをケプストラム分析と言う。

［不特定の話者への対応］
音声の話者による違い（話者性）を「話し方の定常状態における抑揚の統計量」と定義する。入力音声の短時間平均パワーを５秒間監視し、その基本統計量（平均及び標準偏差）をもって話者性と同定する。同定した話者性を基準に感情認識を行うことにより、話者の声の大きさの違いを吸収する。短時間平均パワーは音声の音量に相当し、2048サンプルの分析フレーム（16KHzサンプリングで0.128秒）のフーリエスペクトルの自乗和を計算する。

［不特定の音声環境への対応］
音声の環境による違いを「背景雑音のパワーの基本統計量」と定義する。感情識別ソフトウェア起動時に、ユーザが発話しない状態で、自動的に入力音声の短時間平均パワーを５秒間監視し、その基本統計量をもって音声環境と同定する。同定した音声環境を基準に感情認識を行うことにより、周囲のノイズを感情による音声の抑揚と誤認識することを回避する。音声環境の同定は，手動でいつでも行える。

［不特定の発話内容への対応］
発話内容による違いを「音声の短時間変動」と定義し、長時間では互いに相殺されてその違いが無くなると仮定する。分析フレームごとに感情認識を行う代わりに、過去１秒間の特徴量の基本統計量で行う。特徴量は短時間平均パワー（音量）を用いる。「悲しみ度」及び「わくわく度」については，有声区間についてピッチ（音高）を同時に用いる。過去５秒間から同定される音声環境の基本統計量との比較によって感情認識を行う。

［処理の観点からのまとめ］
不特定の音声環境に対応するために、感情識別ソフトウェア起動後５秒間の環境を監視する（無発話時）。また、不特定の話者に対応するために、感情識別時から遡って過去５秒間の音声を監視する（発話時）。さらに、不特定の発話内容に対応するために、感情識別時から遡って過去１秒間の音声特徴量（パワー、ピッチ）から計算される基本統計量（直前５秒間のパワー平均値、パワー標準偏差。直前１秒間のパワー平均値、パワー標準偏差、ピッチ平均値、ピッチ標準偏差）と、音声環境の基本統計量とを比較する。

［音声環境同定の流れ］
感情識別ソフトウェア起動後５秒間における短時間平均パワー（適宜「パワー」と称する。）の軌跡を保存する。そして、保存したパワー軌跡について、基本統計量（平均及び標準偏差）を算出する。その基本統計量を「音声環境の基本統計量」とする。

［話者性同定の流れ］
常に過去５秒間における短時間平均パワーの軌跡を保存する。そして、保存したパワー軌跡について、基本統計量（平均及び標準偏差）を算出する。その基本統計量をもって話者性とする。

［各感情の認識アルゴリズム］
図６は、興奮度計測処理の流れを示すフローチャートである。興奮度は、声の大きさ（パワー）が大きく保たれると高くなる。
図８は、悲しみ度計測処理の流れを示すフローチャートである。悲しみ度は、声の大きさが大きく保たれると低くなり、声の高さ（ピッチ）が閾値を超えるとより低くなる。すなわち、ぼそぼそと低めの声で話すと、悲しみ度は高くなる。
図９は、わくわく度計測処理の流れを示すフローチャートである。わくわく度は、声の大きさが大きく，声の高さが高いと高くなる。
数６に、まったり度を算出する式を示す。まったり度は、会話に沈黙が増えると高くなる。

［感情計測フロー］
以下で、各感情の計測処理の流れを説明する。なお、音声特徴量をそれぞれ次の記号で表す。
ピッチ：ｆ、
直前１秒間のピッチ平均値：μ_1f、
直前１秒間のピッチ標準偏差：σ_1f、
直前１秒間のパワー平均値：μ_1p、
直前１秒間のパワー標準偏差：σ_1p、
直前５秒間のパワー平均値：μ_5p、
直前５秒間のパワー標準偏差：σ_5p

［興奮度計測フロー］
図６に、興奮度計測処理の流れを示す。図７に、過去１秒のパワー平均値と興奮度との関係を示す。過去５秒のパワー平均値を環境雑音と見なし、過去１秒のパワー平均値がそれを上回る場合（ステップＳ６１でＹＥＳ）、興奮度の評価を行うＹのパスを通る。下回る場合（ステップＳ６１でＮＯ）、興奮度は0とする。ステップＳ６１でＹＥＳの場合、数１によって興奮度を算出する（ステップＳ６２）。

［悲しみ度計測フロー］
図８に、悲しみ度計測処理の流れを示す。パワーが過去５秒のパワー平均値を上回る場合（ステップＳ８１でＹＥＳ）、悲しみ度の評価を行うＹのパスを通る。ピッチがμ_fT（例えば、１５０Ｈｚ）以下の場合は（ステップＳ８３でＮＯ）、パワーの評価のみ用い、ピッチがμ_fTを上回る場合は（ステップＳ８３でＹＥＳ）、ピッチからの評価を乗ずる。

つまり、「ステップＳ８１でＹＥＳ」かつ「ステップＳ８３でＮＯ」の場合は、「数２の算出値」＝「悲しみ度」とする（ステップＳ８２）。「ステップＳ８１でＹＥＳ」かつ「ステップＳ８３でＹＥＳ」の場合は、「数２の算出値」×「数３の算出値」＝「悲しみ度」とする（ステップＳ８５）。数３中のσ_fTは、例えば１００Ｈｚとする。

［わくわく度計測フロー］
図９に、わくわく度計測処理の流れを示す。過去１秒のピッチ平均値がμ_fT（例えば、１００Ｈｚ）を超える場合（ステップＳ９１でＹＥＳ）、ステップＳ９２で算出した数４の算出値と、ステップＳ９３で算出した数５の算出値との積をわくわく度とする。過去１秒のピッチ平均値がμ_fT以下の場合はわくわく度＝０とする。数４中のσ_fTは、例えば５０Ｈｚとする。

［まったり度計測フロー］
まったり度は、数６によって算出される。過去５秒のパワー平均値を環境雑音と見なし、過去１秒のパワー平均値がそれに一致する場合をまったり度が最大とし、それから離れるに従って指数関数で減少する。

［感情判定］
過去５フレーム（１６KHz，フレーム長２０４８の場合、０．６４秒に相当）の４感情の度合いを保存する。次に、各フレームで度合いが最大の感情について、生起回数を１増やす。そして、過去５フレームで累積回数が最大の感情を現在の感情と決定する。

［感情測定モニターTypeA画面］
図１０は、感情測定モニター画面の一例を示す。音声のスペクトルは、緩やかな起伏である包絡に周期的な細かい凹凸である微細構造が重畳した構造を持つ。

＜ケプストラム＞
音声波形のパワースペクトルを対数に変換し、さらにフーリエ変換した結果をケプストラムと呼ぶ。ケプストラムの横軸をケフレンシー軸と呼ぶ。スペクトルの横軸の次元が周波数であるから、これをフーリエ変換して得られるケプストラムの横軸の次元は時間軸である。包絡に相当する成分は低ケフレンシー部に、微細構造に相当する部分は高ケフレンシー部に現れる。前者が声道特性（声色）、後者が声帯音源の特性（ピッチ：声の高さ）に相当する。

閾値によって低ケフレンシー部と高ケフレンシー部に分ける処理をフィルタリングをもじってリフタリングと呼ぶ。リフタリングによって高ケフレンシー部からピークを抽出することによってピッチ周期（声の高さ）を求めることができる。この一連の処理をケプストラム分析と呼ぶ。

［感情測定モニターTypeB画面］
図１１は、感情測定モニター画面の他の例を示す。同図に示されているように、音声特徴量の統計量（直前５秒間のパワー平均値、パワー標準偏差。直前１秒間のパワー平均値、パワー標準偏差、ピッチ平均値、ピッチ標準偏差。）を算出し、それら統計量に基づいて「興奮」、「悲しい」、「わくわく」、「まったり」などの各感情の度合いを算出し、感情を判定する。

［感情の分析結果をデータベースに蓄積］
図１２は、感情の分析結果をデータベースに蓄積するまでの流れを示す。同図に示すように、ステップＳ１３１で、感情分析結果と音声特徴量を取得する。ステップＳ１３２で、インターネット経由でデータベースに接続する。ステップＳ１３３で、１秒ごとに感情音声データベース３５に特徴量データ２６を登録する。ステップＳ１３４で、１秒ごとにパーソナルデータベース３６に感情分析結果データ２５を登録する。

［感情分析結果から画面表示の変更］
図１３は、感情分析結果から画面表示を変更するまでの流れを示す。同図に示すように、ステップＳ１４１で、感情音声分析結果をコンテンツ配信サーバ３２に送信する。ステップＳ１４２で、コンテンツ配信サーバ３２は、パーソナルデータベース３６から、感情履歴と広告表示履歴を取得し、その値をもとに広告管理サーバ３４から広告データを取得する。ステップＳ１４３で、コンテンツ配信サーバ３２は、ステップＳ１４２で取得した広告表示履歴をもとにコメントデータをコメントサーバ３３から取得する。ステップＳ１４４で、取得したコメントデータと広告データをＰＣ２３の画面に表示させる。

ステップＳ１４２〜１４３の広告表示履歴とは、感情履歴をもとにして表示した広告表示の履歴であって、パーソナルデータベース３６に蓄積される。例えば、過去1秒間で「悲しみ」の感情結果となった場合に、温泉のバナー広告を表示させる。その表示履歴に基づいて、次回に「悲しみ」の感情結果になった場合には、別の広告を表示させる。表示させるシーケンスについては後述する。

ステップＳ１４３の感情履歴とは、ステップＳ１３４でパーソナルデータベース３６に蓄積した利用者毎の感情分析結果データの履歴を言う。例えば、過去1秒間で判断した感情が「興奮」、「悲しみ」、「わくわく」、「まったり」のどの感情であったかのデータ履歴を言う。より具体的には、４秒前から３秒前までは「興奮」、３秒前から２秒前までは「悲しみ」、２秒前から１秒前までは「わくわく」、そして１秒前から現在までは「まったり」などである。

［広告表示間隔］
感情別広告は、５秒〜１０秒間隔で、ワード別広告は、登録ワードを発話したタイミングで各広告をチェンジさせることが好ましい。

［感情別広告及びコメント表示シーケンス］
図１４は、感情別広告及びコメントを表示するために必要な各テーブルと処理の流れを示す。同図に示すように、Ａ〜Ｃテーブルは、パーソナルデータベース３６に記憶される。Ａテーブルには、パーソナルＩＤ及び名前が記憶される。Ｂテーブルには、パーソナルＩＤ、感情履歴時間、及び感情結果が記憶される。Ｃテーブルには、パーソナルＩＤ、表示時間、広告番号、直前表示広告、コメント、及び開示時間が記憶される。Ｄテーブルは、広告管理サーバ３４に記憶される。Ｄテーブルには、広告番号、広告データ（バイナリデータ）、感情種別、優先順位、及びコメント番号が記憶される。コメントサーバ３３のテーブルには、コメント番号、及びコメントが記憶される。

感情別広告及びコメントを表示するために必要な処理について説明する。
ステップＳ１４１１：１秒毎に感情結果データをパーソナルデータベース３６のＢテーブルに登録する。図１４に示す例では、感情結果「１」は「興奮」、「２」は「悲しい」、「３」は「わくわく」、「４」は「まったり」を示す。

ステップＳ１４１２：５秒毎にテーブルＢの感情結果の中から、もっとも顕著な感情結果を抽出する。図１４に示す例では、感情結果「１」が３回出現し、最多出現であるため、「１」が抽出される。出現回数が同じ感情結果が複数存在する場合は、例えば数字が少ない方を抽出する。

ステップＳ１４１３：Ｂテーブルから抽出された感情を第一要素として持つ広告であって、かつＣテーブルに記憶されている直前表示広告の中から第二要素がもっとも高い値を取得する。図１４に示す例では、この時点においては、１行目のデータ（「直前表示広告」列が「１，１」のレコード）と２行目のデータ（「直前表示広告」列が「１，２」のデータ）のみが記憶されており、３行目のデータ（「直前表示広告」列が「１，３」のデータ）は記憶されていないものとする。このような状況下では、Ｂテーブルから抽出された感情を第一要素として持ち、かつＣテーブルに記憶されている直前表示広告の中の第二要素の最大値は、２行目のデータの「直前表示広告」列の「１，２」の「２」である。

ステップＳ１４１４：「ステップＳ１４１２で取得した値」と「ステップＳ１４１３で取得した値に１をプラスした値」の２つの値から感情種別と優先順位を抽出条件として広告管理サーバ３４のＤテーブルから行データを絞り込む。図１４に示す例では、「感情識別：１、優先順位：３」の行データに絞り込まれる。優先順が最後尾になった場合は、１に戻る。例えば、感情種別１の場合、優先順位は１から３までであるから、優先順位が３になったら、次は優先順位１の行データに絞り込まれる。

ステップＳ１４１５：ＤテーブルからステップＳ１４１４で絞り込んだ行の各列のデータが取得される。

ステップＳ１４１６：ステップＳ１４１５で取得した列データ内のコメント番号（図１４に示す例では「eje0019」）をもとにコメントサーバ３３からコメントを取得する（図１４に示す例では「冬は温泉でしょう！」）。

ステップＳ１４１７：ステップＳ１４１５で取得した広告データとステップＳ１４１６で取得したコメントデータをＣテーブルに登録する。

ステップＳ１４１８：ステップＳ１４１５とステップＳ１４１６で取得した各データをコンテンツ配信サーバ３２を経由して、ＰＣ２３のツールに送信する。

ステップＳ１４１９：ステップＳ１４１８で送信されてきた各データをツールの表示エリアに表示させる。

［ワードスポッティング結果に基づく画面表示の変更］
図１５は、ワードスポッティング結果に基づいて画面表示を変更する処理の流れを示す。同図に示すように、ステップＳ１５１では、ワードスポティング結果をＰＣ２３からコンテンツ配信サーバ３２に送信する。

ステップＳ１５２では、コンテンツ配信サーバ３２からコメントサーバ３３にアクセスし、ワードスポッティング結果に基づいて表示させるコメントデータをコメントサーバ３３から取得する。

ステップＳ１５３では、コンテンツ配信サーバ３２から広告管理サーバ３４にアクセスし、ワードスポッティング結果に基づいて表示させる広告データを広告管理サーバ３４から取得する。

ステップＳ１５４では、ステップＳ１５２で取得したコメントデータとステップＳ１５３で取得した広告データをコンテンツ配信サーバ３２からＰＣ２３に送信し、ＰＣ２３の画面に表示させる。

ステップＳ１５２の「ワードスポッティング」とは、会話中に発した単語の音声波形と抽出したい単語の音声波形が類似であった場合に、特定の単語が発せられたと判断することが可能な技術である。例えば、「おんせんいきたいね！」と発音された場合に、「おんせん」部分の音声波形を抽出し、「温泉」という単語が発音されたと判断することが可能である。そして、本実施形態においては温泉旅行に関するバナー広告が表示される。

［ワード別広告及びコメント表示シーケンス］
図１６は、ワード別広告及びコメントを表示するために必要な各テーブルと処理の流れを示す。同図に示すように、Ｅテーブルは、パーソナルデータベース３６に記憶される。Ｅテーブルには、パーソナルID、表示時間、広告番号、直前表示広告、コメント、開示時間、及びワードＩＤが記憶される。Ｆテーブルは、広告管理サーバ３４に記憶される。Ｆテーブルには、広告番号、広告データ（バイナリデータ）、感情種別、優先順位、コメント番号、及びワードＩＤが記憶される。コメントサーバ３３のテーブルには、コメント番号、及びコメントが記憶される。

ワード別広告及びコメントを表示するために必要な処理について説明する。
ステップＳ１５１１：ワードスポッティング技術を利用して、会話中の音声波形のデジタルデータとワード音声データ内の「ワード音声波形データ」を比較し、該当波形をモニタリングする。

ステップＳ１５１２：該当波形があった場合、その該当波形のワードＩＤを取得する。

ステップＳ１５１３：ステップＳ１５１２で取得したワードＩＤと同一の行をパーソナルデータベース３６のＥテーブルから抽出し、その抽出行内の直前表示広告の第二要素がもっとも高い値（図１６に示す例では、「１,２」の「２」）を取得する。

ステップＳ１５１４：「ステップＳ１５１２で取得した値」、「ステップＳ１５１３で取得した値に１をプラスした値」及び「図１４のＢテーブルから抽出された最も顕著な感情値」の3つの値からワードＩＤ、感情種別、優先順位を抽出条件としてＦテーブルから行データを絞り込む（図１６に示す例では、「感情種別：１、優先順位：３、ワードＩＤ：００１」の行を抽出）。優先順位が最後尾になった場合は、１に戻る。

ステップＳ１５１５：ステップＳ１５１４で絞り込んだ行の各列データを取得する。

ステップＳ１５１６：ステップＳ１５１５で取得した列データ内のコメント番号（図１６に示す例では「oke5009」）をもとにコメントサーバ３３からコメントデータを取得する（図１６に示す例では、「声が元気だね！六本木Ｃ店のケーキでウキウキ度アップ！」）。

ステップＳ１５１７：ステップＳ１５１５で取得した広告データとステップＳ１５１６で取得したコメントデータをパーソナルデータベース３６のＥテーブルに登録する。

ステップＳ１５１８：ステップＳ１５１５とステップＳ１５１６で取得した各データをコンテンツ配信サーバ３２を経由して、ＰＣ２３のツールに送信する。

ステップＳ１５１９：ステップＳ１５１８でコンテンツ配信サーバ３２を経由してＰＣ２３に送信されてきたデータをツールの表示エリアに表示させる。

［Webサイトにログイン］
図１７は、Ｗｅｂサイトにログインするまでの処理の流れを示す。ステップＳ２１１では、音声感情識別ツール又はインターネット閲覧ソフト（ＩＥ等）を起動する。ステップＳ２１２は、音声感情識別ツールを起動させた場合であって、音声感情識別ツールの表示エリア内に表示されたリンクボタンが押される。以降、システム内動作として、ツール内に保存してある「メンバー名」と「パスワード」を用いて、メンバー認証データベース３１において自動認証が行われる。ステップＳ２１３は、インターネット閲覧ソフトを起動させた場合であって、インターネット閲覧ソフトによってＰＣ２３の画面に表示されるメンバーログインエリアに「メンバー名」と「パスワード」を入力してログインを実行する。ステップＳ２１４では、認証が完了し、Ｗｅｂサイト（パーソナルサイト）にログインが完了する。

［ツール利用時に蓄積されたデータ結果をベースとした各種サービスの閲覧］
図１８は、ツール利用時に蓄積されたデータ結果をベースとした各種サービスを閲覧する処理の流れを示す。同図に示すように、ステップＳ２２１では、サイト運営用Ｗｅｂサーバ３７からパーソナルデータベース３６にアクセスし、ログインユーザーの感情音声分析結果を取得する。ステップＳ２２２では、取得した分析結果から表示すべき広告を広告管理サーバ３４から取得する。ステップＳ２２３では、取得した分析結果をベースとした各種サービス内容を提供サービスデータベース３８から取得する。ステップＳ２２４では、取得した各データをhtmlファイルに埋め込みメンバーのＰＣ２３又は携帯電話機２４に送信する。

ステップＳ２２２では、ツールを用いて音声を取得している最中にもっとも顕著だった感情をパーソナルデータベース３６から抽出し、その感情に合わせて広告を表示させる。例えば、会話が悲しげな場合に「ハワイ旅行」等の広告を表示させる。「会話中にもっとも顕著だった感情を判断する処理」については後述する。

ステップＳ２２３では、ツールを用いて音声を取得している最中にもっとも顕著だった感情をパーソナルデータベースから抽出し、その感情に合わせてサービスを表示させる。表示されるサービスは、例えば声占い（感情履歴をもとに占いを表示する）、声健康チェック（感情履歴から健康度合いを表示する）、お勧めライフ（感情履歴からお勧めの生活スタイルを表示する）などである。

［会話中にもっとも顕著だった感情を判断する処理］
直前表示広告の第一要素の統計から最も多い数値を抽出し、その値から「最も顕著だった感情」を導き出す。また同順だった場合は、数値が小さい方を優先する。

図１９に、パーソナルデータベース３６に記憶されるテーブルＣの第２の例を示し、同図を用いて「会話中にもっとも顕著だった感情を判断する処理」を説明する。なお、「直前表示広告の第一要素」とは、図１９の例では「直前表示広告」列の各データの第１番目の要素を言う。例えば、「直前表示広告」列の「１，２」中の「１」を言う。図１９の例では、「直前表示広告の第一要素」は「１」が６個、「２」が３個であるから、「直前表示広告の第一要素の統計から最も多い数値」は「１」になる。そして、これに対応する感情（例えば、「興奮」）が「最も顕著だった感情」となる。仮に、「直前表示広告の第一要素」が「１」も「２」も同じ個数であったら、数値が小さい方の「１」が「最も顕著だった感情」となる。

感情音声識別ツール利用時の処理の流れを示すフローチャートである。パソコン又は携帯電話でのパーソナルサイト閲覧時の処理の流れを示すフローチャートである。サービス提供システムの全体構成の一例を示すブロック図である。音声取得から音声感情分析までの処理の流れを示すフローチャートである。音声特徴量算出処理の流れを示すフローチャートである。興奮度計測処理の流れを示すフローチャートである。過去１秒のパワー平均値と興奮度との関係を示すグラフである。悲しみ度計測処理の流れを示すフローチャートである。わくわく度計測処理の流れを示すフローチャートである。感情測定モニター画面の一例を示す図である。感情測定モニター画面の他の例を示す図である。感情の分析結果をデータベースに蓄積するまでの流れを示す図である。感情分析結果から画面表示を変更するまでの流れを示す図である。感情別広告及びコメントを表示するために必要な各テーブルと処理の流れを示す図である。ワードスポッティング結果に基づいて画面表示を変更する処理の流れを示す図である。ワード別広告及びコメントを表示するために必要な各テーブルと処理の流れを示す図である。Ｗｅｂサイトにログインするまでの処理の流れを示す図である。ツール利用時に蓄積されたデータ結果をベースとした各種サービスを閲覧する処理の流れを示す図である。パーソナルデータベース３６に記憶されるテーブルＣの第２の例を示す図である。音声感情識別ツールの画面デザインの一例を示す図である。

符号の説明

２２…マイクロフォン
２３…パーソナルコンピュータ
２５…分析結果データ
２６…特徴量データ
３１…メンバー認証データベース
３２…コンテンツ配信サーバ
３３…コメントサーバ
３４…広告管理サーバ
３５…感情音声データベース
３６…パーソナルデータベース
３７…サイト運営用Ｗｅｂサーバ
３８…提供サービスデータベース

Claims

単語とコンテンツを関連付けて記憶する手段と、
会話音声の中から単語を抽出する単語抽出手段と、
前記単語抽出手段によって抽出された単語に関連付けて記憶されている前記コンテンツを読み取るコンテンツ読み取り手段と、
前記読み取られたコンテンツをコンテンツ再生手段へ送るコンテンツ送信手段と、を備えるコンテンツ提供システム。
前記コンテンツ送信手段によって送信されたコンテンツの履歴を記憶する手段をさらに備え、
１つの単語に対して複数のコンテンツが優先順位付きで記憶され、
前記コンテンツ読み取り手段は、前記単語抽出手段によって抽出された単語に関連付けて記憶されている前記複数のコンテンツの中から、前記送信されたコンテンツの履歴を参照して、直近に送信されたコンテンツの次に優先順位が高いコンテンツを読み取る請求項１に記載のコンテンツ提供システム。
感情種別とコンテンツを関連付けて記憶する感情種別コンテンツ記憶手段と、
音声入力手段から入力された音声の特徴量を算出する特徴量算出手段と、
算出された音声特徴量に基づいて、感情種別を判定する感情種別判定手段と、
判定された前記感情種別に関連付けて記憶されている前記コンテンツを読み取るコンテンツ読み取り手段と、
読み取られたコンテンツをコンテンツ再生手段へ送る送信手段と、を備えるコンテンツ提供システム。
前記感情種別判定手段によって判定された感情種別を第１の所定時間毎に記憶する手段と、
第１の所定時間毎に記憶された感情種別の中から第２の所定時間毎に１つの感情種別を抽出する感情種別抽出手段と、をさらに備え、
前記コンテンツ読み取り手段は、前記感情種別抽出手段によって抽出された感情種別に関連付けて記憶されているコンテンツを前記感情種別コンテンツ記憶手段から読み取る請求項１に記載のコンテンツ提供システム。
前記コンテンツ送信手段によって送信されたコンテンツの履歴を記憶する手段をさらに備え、
１つの前記感情種別に対して複数の前記コンテンツが優先順位付きで記憶され、
前記コンテンツ読み取り手段は、前記感情種別判定手段によって判定された前記感情種別に関連付けて記憶されている前記複数のコンテンツの中から、前記送信されたコンテンツの履歴を参照して、直近に送信されたコンテンツの次に優先順位が高いコンテンツを読み取る請求項４に記載のコンテンツ提供システム。
前記音声の特徴量が、音声のパワーの平均及び標準偏差、並びに音声のピッチの平均及び標準偏差である請求項３乃至５に記載のコンテンツ配信システム。
感情種別に関連付けられた広告、単語に関連付けられた広告、及び感情種別と単語の双方に関連付けられたコメントをそれぞれ記憶する手段と、
入力された音声に基づいて、感情種別を判定する感情種別判定手段と、
会話音声の中から単語を抽出する単語抽出手段と、
前記感情種別判定手段によって判定された感情種別に関連付けて記憶されている広告を読み出し、前記単語抽出手段によって抽出された単語に関連付けて記憶されている広告を読み出し、かつ前記感情種別判定手段によって判定された感情種別及び前記単語抽出手段によって抽出された単語に関連付けて記憶されているコメントを読み取る広告コメント読み取り手段と、
前記読み取られた広告及びコメントをコンテンツ再生手段へ送るコンテンツ送信手段と、を備えるコンテンツ提供システム。
音声波形とコンテンツを関連付けて予め記憶し、
記憶されている音声波形と音声入力手段から入力された音声の波形とを比較し、類似するか否かを判断し、
入力された音声の波形に類似すると判断された前記音声波形に関連付けて記憶されている前記コンテンツを読み取り、
前記読み取られたコンテンツをコンテンツ再生手段へ送るコンテンツ提供方法。
感情種別とコンテンツを関連付けて予め記憶し、
音声入力手段から入力された音声の特徴量を算出し、
算出された音声特徴量に基づいて、感情種別を判定し、
判定された前記感情種別に関連付けて記憶されている前記コンテンツを読み取り、
読み取られたコンテンツをコンテンツ再生手段へ送るコンテンツ提供方法。