[go: up one dir, main page]

JP2012018544A - 音声出力装置、音声出力方法、及びプログラム - Google Patents

音声出力装置、音声出力方法、及びプログラム Download PDF

Info

Publication number
JP2012018544A
JP2012018544A JP2010155252A JP2010155252A JP2012018544A JP 2012018544 A JP2012018544 A JP 2012018544A JP 2010155252 A JP2010155252 A JP 2010155252A JP 2010155252 A JP2010155252 A JP 2010155252A JP 2012018544 A JP2012018544 A JP 2012018544A
Authority
JP
Japan
Prior art keywords
stroke
input
unit
onomatopoeia
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2010155252A
Other languages
English (en)
Inventor
Michio Aizawa
道雄 相澤
Keita Yoshida
圭太 吉田
Ritsu Wakui
立 和久井
Nobuo Oshimoto
信夫 押本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2010155252A priority Critical patent/JP2012018544A/ja
Publication of JP2012018544A publication Critical patent/JP2012018544A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】音声出力装置において、装置が認識した結果を表現豊かに音声出力することが困難である。
【解決手段】描き始めから描き終わりまでの一連の筆跡を入力する入力部と、入力部により入力された筆跡の形状及び大きさを認識する認識部と、認識部により認識された筆跡を、当該筆跡を構成する線分の数及び当該筆跡の大きさごとにカテゴリに分類する分類部と、分類部により分類されたカテゴリに対応する擬音語又は擬態語を、予め記憶部に記憶された擬音語又は擬態語から選択する選択部と、選択部により選択された擬音語又は擬態語を音声として出力する出力部と、を備える。
【選択図】 図1

Description

本発明は、ユーザの入力に合わせて音声を出力する音声出力装置、音声出力方法、及びプログラムに関する。
ユーザの手書き入力に合わせて音声を出力する装置が知られている。特許文献1では、擬似音声を出力する装置が開示されている。これは、ペン入力の移動速度を算出し、移動速度に応じた擬似音声を出力するというものである。紙に何かを書いているような感触をユーザに与えるという効果がある。また、特許文献2では、文字の認識結果だけではなく単語の認識結果を合わせて音声出力する装置が開示されている。単語や文章としてまとまった入力感をユーザに与えるという効果がある。
また、文字や単語ではなく、擬音語を出力する装置が知られている。特許文献3では、入力された音量に応じた擬音語を文字として撮影画像と合成する装置が開示されている。音を視覚的にユーザに与えることが可能になるという効果がある。
特開平8−190450号公報 特開2002−288588号公報 特開2006−109322号公報
文字やジェスチャを認識する機能と音声出力機能とを有する装置では、装置が認識した結果を音声出力する機能が有用である。さらにユーザの興味を引くためには、オノマトペ(擬音語や擬態語)などを用いることにより、出力される音声が、表現豊かであることが望ましい。
しかしながら、特許文献1に開示されている装置が出力する音声からは、装置の認識結果を確認し難い。また、特許文献2に開示されている装置が出力する音声は単調になる。特許文献3に開示されている装置には、手書き入力と擬音語を対応付ける方法が考慮されていない。つまり、従来は手書き入力された文字等を音声として出力する音声出力装置の認識結果を、表現豊かに音声出力することが困難であるという課題がある。
上記の課題に鑑み、本発明は、手書き入力された文字等の認識結果を表現豊かに音声出力することを目的とする。
上記の目的を達成する本発明に係る音声出力装置は、
描き始めから描き終わりまでの一連の筆跡を入力する入力手段と、
前記入力手段により入力された筆跡の形状及び大きさを認識する認識手段と、
前記認識手段により認識された筆跡を、当該筆跡を構成する線分の数及び当該筆跡の大きさごとにカテゴリに分類する分類手段と、
前記分類手段により分類されたカテゴリに対応する擬音語又は擬態語を、予め記憶手段に記憶された擬音語又は擬態語から選択する選択手段と、
前記選択手段により選択された擬音語又は擬態語を音声として出力する出力手段と、
を備えることを特徴とする。
本発明によれば、手書き入力された文字等の認識結果を表現豊かに音声出力することが可能になる。
(a)音声出力装置に係るハードウェア構成を示すブロック図、(b)音声出力装置の機能構成を示すブロック図。 ストローク辞書152の例を示す図 (a)オノマトペ辞書153の例を示す図、(b)オノマトペ辞書153の例を示す図。 ジェスチャ辞書161の例を示す図。 音声出力装置の処理手順を示すフローチャート。 音声出力装置の動作例を示す図。 ストロークの形状を認識するための処理手順を示すフローチャート。 (a)ストロークの頂点を説明する図、(b)及び(c)入力されたジェスチャの例を示す図。 ストローク文言を簡略化した他のストローク文言へ変更する処理手順を示すフローチャート。 ジェスチャの正しい書き方を音声出力するための処理手順を示すフローチャート。
(第1実施形態)
図1(a)を参照して、本発明に係る音声出力装置のハードウェア構成について説明する。CPU(中央処理装置)101は、システム制御部として装置全体の動作を制御する。ROM102は、制御プログラムを格納する。具体的には、後述する処理を行うためのプログラムを格納している。RAM103は、CPU101のワークエリアを提供し、各種データなどを格納するために用いられる。記憶装置104は、画像データなどを格納するために用いられる。具体的には、SDカードやハードディスク(HDD)などである。タッチパネル105は、指やペンなどによる入力を処理するために用いられる。スピーカ106は、音声を出力するために用いられる。
図1(b)を参照して、音声出力装置の機能構成を示すブロック図について説明する。音声出力装置は、入力部151、ストローク辞書152、オノマトペ辞書153、ストローク処理部154、ストローク認識部155、ストローク分類部156、オノマトペ選択部157、音声出力部158を備える。また、ストローク保持部159、ストローク文言取得部160、ジェスチャ辞書161、ジェスチャ処理部162、ジェスチャ認識部163、ジェスチャ文言取得部164、ジェスチャ実行部165、ヘルプ部166を備える。
入力部151は、ユーザからの入力を受け付ける。ストローク辞書152は、音声出力装置が認識可能な、ユーザからの入力の情報であるストローク(筆跡)の情報を保持する。ストローク(筆跡)とは、ユーザがタッチパネル105に触れてから離れるまでの一連の動作である。オノマトペ辞書153は、ストロークを構成する線分の数を用いて、入力されたストロークの形状をカテゴリごとに分類して記録する。オノマトペとは、擬音語、擬態語を包括的に表す言葉である。ストローク処理部154は、ストロークに関する処理を統括する。ストローク認識部155は、ストローク処理部154から送られる入力座標の列から、ストロークの形状とタッチパネル等の入力領域におけるストロークの大きさを認識する。ストローク分類部156は、ストローク認識部155で認識された形状と大きさを用いて、入力されたストロークをカテゴリに分類する。オノマトペ選択部157は、分類されたカテゴリに対応するオノマトペをオノマトペ辞書153から選択する。音声出力部158は、送られてくるオノマトペ、後述のストローク文言(第1の文言)、後述のジェスチャ文言(第2の文言)、又は、その他の文言を音声出力する。
ストローク保持部159は、入力座標の列を保持する。第1取得手段として機能するストローク文言取得部160は、認識された形状に対応するストローク文言(第1の文言)を、ストローク辞書152から取得する。ジェスチャ辞書161は、1又は2以上のストロークから構成されるジェスチャの情報(図形)を保持する。ジェスチャ処理部162は、ジェスチャに関する処理(図形に対応する処理)を統括する。ジェスチャ認識部163は、ジェスチャ処理部162から送られる入力座標の列を用いて、ジェスチャ(図形)を認識する。第2取得手段として機能するジェスチャ文言取得部164は、ジェスチャ認識部163により認識されたジェスチャに対応するジェスチャ文言(第2の文言)を、ジェスチャ辞書161から取得する。ジェスチャ実行部165は、認識されたジェスチャに対応するコマンドを実行する。ヘルプ部166は、認識されたジェスチャの尤度が小さい場合にジェスチャの正しい書き方を取得する。
以下、上記各処理部における処理について具体的に説明する。入力部151は、タッチパネル105を備える。入力部151は、ユーザが指やペンなどでタッチパネル105に触れると、触れた位置の入力座標を検出し、ペンイベントを生成する。生成されるペンイベントは、penDown、penMove、penUpの3種類である。まず、ユーザの指がタッチパネル105に触れた場合、入力部151はpenDownを生成する。そして、指がタッチパネル105に触れたまま移動した場合、penMoveを生成する。最後に、指がタッチパネル105から離れた場合、penUpを生成する。ペンイベントにおいて検出された入力座標は、後述のストローク保持部159により保持される。また、入力の際に指やペンの代わりにマウスを用いることも可能である。その場合、入力部151はタッチパネル105を備えなくても良い。
そして、ストローク処理部154は、入力部151により生成されるペンイベントを受け取り、ストロークの区切りを検出する。ユーザがタッチパネル105に触れてから離れるまでを1つのストロークと定義する。つまり、1つのストロークは、1つのpenDownで始まり、1または複数のpenMoveが続き、1つのpenUpで終わるというイベント列である。ストローク処理部154は、ストロークの区切りを検出すると、各ペンイベントから入力座標を取り出し、入力座標の列をストローク認識部155へ送る。
図2を参照して、上記ストローク辞書152の例について説明する。ストローク辞書152は、装置が認識可能なストロークの情報を保持している。図2に示すストローク辞書152では、形状名、基準となるストローク、及び対応するストローク文言について7種類のストロークが登録されている。具体的には、横線201、縦線202、小なり203、右向き三角204、左向き三角205、四角206、上半円207の7種類である。
ストローク認識部155は、ストローク処理部154から送られる入力座標の列とストローク辞書152に登録された情報とから、ストロークの形状と大きさを認識する。まずストロークの大きさの認識方法について説明する。ストロークの形状の認識方法については後述する。
ストロークの大きさは以下の方法で認識される。最初に、入力座標の列に外接する矩形を求める。この矩形の幅がタッチパネルの幅の半分以上、又は矩形の高さがタッチパネルの高さの半分以上ある場合に、ストロークの大きさは「大」と認識される。逆に、矩形の幅と高さが共にタッチパネルの高さと幅の半分未満の場合に、ストロークの大きさは「小」と認識される。
ストローク分類部156は、ストローク認識部155により認識された形状と大きさを用いて、入力されたストロークをカテゴリに分類する。分類方法はオノマトペ辞書153に登録されている分類に従う。オノマトペ選択部157は、分類されたカテゴリに対応するオノマトペを、オノマトペ辞書153から選択する。選択したオノマトペは、音声出力部158へ送られる。
図3(a)を参照して、オノマトペ辞書153の例について説明する。図3(a)のオノマトペ辞書153は、図2のストローク辞書152に対応している。すなわち、図2のストローク辞書152に含まれる形状を全て含む。図3(a)のストロークの形状に含まれる「不明1」、「不明2」、「不明3」、「不明4」の形状については後述する。ユーザが入力したストロークに対する音声出力装置の認識結果を、ユーザがオノマトペから確認可能とするために、オノマトペ辞書153は以下の特徴を有する。
オノマトペ辞書153では、ストロークを構成する線分の数を用いて、形状がカテゴリに分類されている。図3(a)の例では、形状は4つのカテゴリに分類されている。それぞれのカテゴリは、ストロークを構成する線分の数が1つ、2つ、3つ、4つの形状を含む。「横線201」、「縦線202」、「上半円207」、及び「不明1」の形状が、線分の数が1つのカテゴリに含まれる。同様に、「小なり203」及び「不明2」が、線分の数が2つのカテゴリに含まれる。「右向き三角204」、「左向き三角205」、及び「不明3」が、線分の数が3つのカテゴリに含まれる。「四角206」、及び「不明4」が、線分の数が4つのカテゴリに含まれる。分類されたカテゴリごとに異なるオノマトペを割り当てる。このようにオノマトペを割り当てると以下の効果が得られる。ストロークを構成する線分の数はストロークの形状と密接な関係がある。そのため、認識されたストロークの形状がオノマトペから想像可能となる。よって、音声出力されるオノマトペをユーザが聞くことで、認識されたストロークの形状を確認することが可能となる。
また、オノマトペ辞書153では、ストロークの大きさをカテゴリに分類している。図3(a)の例では「大」と「小」の2つのカテゴリに分類している。このカテゴリごとに異なるオノマトペを割り当てる。このようにオノマトペを割り当てると以下の効果が得られる。認識されたストロークの大きさがオノマトペから想像可能になる。よって、音声出力されるオノマトペをユーザが聞くことで、認識されたストロークの大きさを確認することが可能となる。
上記説明では、ストロークの形状と大きさのそれぞれをカテゴリに分類しているが、形状のみをカテゴリに分類することも可能である。例えば、大きさを区別しないジェスチャを用いる場合、ストロークの大きさを認識する必要はない。ジェスチャについては後述する。
図3(a)に示す例を用いて、オノマトペの割り当て方法をより詳細に説明する。まず、形状を分類したカテゴリごとに、オノマトペを割り当てる方法について説明する。ストロークを構成する線分の数に合わせてオノマトペの拍数を増減する。拍数とは、オノマトペの基本となる拍(後述の「さ」又は「す」等)を連続する数である。例えば、ストロークの大きさが「小」の場合は次の通りである。基本の拍を「さ」とする。ストロークを構成する線分の数と同じだけ基本の拍を繰り返し、その後に拍「っ」を加え、オノマトペとする。ストロークを構成する線分の数が2の場合、「さ」を2回繰り返し「っ」を加えた「ささっ」をオノマトペとする。ただし、基本の拍の数とストロークを構成する線分の数を必ずしも同数にする必要はない。例えば、ストロークを構成する線分の数が5以上のストロークに、同一のオノマトペを割り当てることも可能である。オノマトペの基本の拍数を、ストロークを構成する線分の数と等しくすると、音声出力されるオノマトペからストロークの形状が容易に想像可能となる。
次に、大きさを分類したカテゴリごとに、オノマトペを割り当てる方法について説明する。ストロークの大きさに合わせて基本の拍を異なるものとする。例えば、大きさが「小」のストロークに対する基本の拍を「さ」とする。そして、大きさが「大」のストロークに対する基本の拍を「す」とする。これにより、認識されたストロークの大きさを容易に確認可能となる。また、基本の拍を繰り返した後に加える拍を異なるものとすると良い。例えば、大きさが「小」のストロークは1拍の「っ」を加える。そして、大きさが「大」のストロークは3拍の「ぅ〜っ」を加える。ストロークを構成する線分の数が2、かつ大きさが「大」の場合、「すすぅ〜っ」をオノマトペとする。大きさが「大」のストロークに対するオノマトペは、大きさが「小」のストロークに対するオノマトペよりも拍数が多くなる。ユーザは、音声出力するオノマトペからストロークの大きさを容易に想像可能となる。
ここではオノマトペとして擬音語を用いる例を説明した。擬音語の代わりに擬態語を用いることも可能である。例えば、形状に円弧を含むストロークと含まないストロークとでカテゴリを分類する。円弧を含むストロークに対するオノマトペを擬態語の「ふわっ」又は「ふわふわっ」とする。ここで「ふわっ」は大きさが「小」の場合で、「ふわふわっ」が大きさが「大」の場合である。円弧を含まないストロークに対しては、図3(a)と同じ擬音語を割り当てる。
以上説明したとおり、ストロークの形状や大きさに、擬音語や擬態語などオノマトペを割り当てることが可能である。割り当てたオノマトペからストロークの形状や大きさが容易に想像可能である。よって、ユーザは音声出力されるオノマトペを聞くことで、認識されたストロークの形状や大きさを確認することが可能となる。また、オノマトペを用いることで表現豊かな音声出力が可能となる。なお、図3(b)は第2実施形態に係るオノマトペ辞書153の例を示す図であり、後述の第2実施形態において説明する。
ストローク保持部159は、ペンイベントから取り出した入力座標の列を保持する。ストローク文言取得部160は、認識された形状に対応するストローク文言を、ストローク辞書152から取得する。ストローク文言は、認識されたストロークの形状を説明する文言である。ここで、取得されたストローク文言に何らかの修正が加えられても良い。取得されたストローク文言は、音声出力部158へ送られる。
一方、ジェスチャ処理部162は、入力された複数のストロークに対して、ジェスチャの区切りを検出する。検出方法については後述する。1つのジェスチャは、1つ又は複数のストロークから構成される。
図4を参照して、ジェスチャ辞書161の例について説明する。例えば、「4枚表示」のジェスチャは「横線201」と「縦線202」の2つのストロークから構成される。また、「1枚表示」のジェスチャは「四角206」の1つのストロークから構成される。検出されたジェスチャ区切り同士の間に含まれる各ストロークに対応する入力座標の列を、ストローク保持部159から取り出す。取り出した入力座標の列はジェスチャ認識部163へ送られる。
図4に示すジェスチャ辞書161の例について補足する。「4枚表示」と「1枚表示」のジェスチャに含まれる点線の矩形は、タッチパネルの位置と大きさを表すガイドである。これらのジェスチャは、ガイドに合わせた位置及び大きさで入力する必要がある。なお、ガイドがないジェスチャは、タッチパネル上の任意の位置に小さく入力する。
ジェスチャ認識部163は、ジェスチャ処理部162から送られる入力座標の列を用いて、ジェスチャを認識する。ジェスチャの認識方法については後述する。ジェスチャ文言取得部164は、認識されたジェスチャに対応するジェスチャ文言を、ジェスチャ辞書161から取得する。ここで、取り出したジェスチャ文言に何らかの修正を加えることも可能である。取得されたジェスチャ文言は音声出力部158へ送られる。ジェスチャ実行部165は、認識されたジェスチャに対応するコマンドを実行する。ヘルプ部166は、認識されたジェスチャの尤度が閾値よりも小さい場合にジェスチャの正しい書き方を取得する。尤度の詳細については後述する。
音声出力部158は、送られてくるオノマトペ、ストローク文言、ジェスチャ文言、又はその他の文言を音声出力する。音声出力には様々な方法を用いることが可能である。例えば、音声合成を用いることが可能である。また、オノマトペなどに対応する音声を予め録音しておき、その録音した音声を再生しても良い。オノマトペに対しては、そのオノマトペから想像可能な効果音を予め録音しておくことも可能である。また、オノマトペなどに対応するMIDIデータを保持しておき、そのMIDIデータをシンセサイザー等を用いて演奏することも可能である。
以上が、各処理部の動作についての説明である。
次に、図5を参照して、本実施形態に係る音声出力装置の処理手順を示すフローチャートについて説明する。また、図6は本実施形態の手書き入力装置の動作例を示す図であり、図5のフローチャートの説明を補足するために用いる。
ステップS501において、ストローク処理部154は、penDownのペンイベントを受け取ったか否かを判定する。受け取った場合(ステップS501;YES)、ステップS502へ進む。受け取らなかった場合(ステップS501;NO)、ステップS513へ進む。
ステップS502において、ストローク処理部154は、受け取ったpenDownのペンイベントから入力座標を取り出す。ストローク文言取得部160は、取り出された入力座標のタッチパネル上での大まかな位置を判定し、この位置に対応する文言を取得する。例えば、タッチパネルの左端付近である場合、図6のID2に示されるように「ひだりのはしから〜」という文言を取得する。なお、タッチパネル上での大まかな位置のそれぞれに対して、対応する文言を予め保持しておくものとする。取得された文言は音声出力部158へ送られる。
ステップS503において、音声出力部158は、送られてきた文言を音声出力する。penDownのペンイベントはストロークの書き始めに生成される。ここでは、音声出力装置が認識したストロークの書き始めの位置を表す文言を、音声出力することになる。ユーザは出力された音声を聞くことにより、装置が認識した書き始めの位置を確認することができる。図6のID6の場合も同様である。
ステップS504において、ストローク処理部154は、ペンイベントから入力座標を取り出す。そして、取り出した入力座標はストローク保持部159で保持される。ステップS505において、ストローク処理部154は、penMoveのペンイベントを受け取ったか否かを判定する。受け取った場合(ステップS505;YES)、ステップS504へ戻る。受け取らなかった場合(ステップS505;NO)、ステップS506へ進む。
ステップS506において、ストローク処理部154は、penUpのペンイベントを受け取ったか否かを判定する。受け取った場合(ステップS506;YES)、ステップS507へ進む。受け取らなかった場合(ステップS506;NO)、ステップS505へ戻る。penUpのペンイベントがストロークの区切りとなる。つまり、ステップS501からステップS506において受け取ったペンイベントの列が1つのストロークとなる。
ステップS507において、ストローク認識部155は、入力されたストロークの形状と大きさを認識する。ステップS508において、ストローク分類部156は、認識された形状と大きさを用いて、入力されたストロークをカテゴリに分類する。ステップS509において、オノマトペ選択部157は、分類されたカテゴリに対応するオノマトペをオノマトペ辞書153から選択する。選択されたオノマトペは音声出力部158へ送られる。なお、ストロークが連続して入力された場合に、簡略化したオノマトペを選択することも可能である。例えば、基本の拍の数を少なくしたものを簡略したオノマトペとする。
ステップS510において、ストローク文言取得部160は、ストローク辞書152から、認識したストロークの形状に対応するストローク文言を取得する。取得された文言は音声出力部158へ送られる。
ステップS511において、音声出力部158は、送られてきたオノマトペを音声出力する。図6のID4の場面に対応する。次に、音声出力部158は、送られてきたストローク文言を音声出力する。図4のID5の場面に対応する。ID5の場面は、ストローク文言取得部160が、取り出した文言に修正を加えた例である。オノマトペとストローク文言との間を違和感なくつなぐために、文言の先頭に助詞「と」を挿入している。ここでは、入力されたストロークに対して、装置が認識した結果が音声出力されることになる。「すぅ〜っ」と「と、よこぼ〜」のように、オノマトペとストローク文言は分けて音声出力部158へ送られる。「すぅ〜っと、よこぼ〜」のようにまとめて送られることはない。これは、後述する冗長な音声出力を避ける処理を容易にするためである。図6のID8の場面では、オノマトペとストローク文言とが共に出力されている。これは、分けて音声出力されたものを1つの場面にまとめたに過ぎない。
次に、ステップS512において、タイマによる計測を開始する。このタイマはジェスチャの区切りを検出するために利用される。
ステップS513において、ジェスチャ処理部162は、タイマによる計測の開始後一定時間が経過したか否かを判定する。一定時間が経過した場合(ステップS513;YES)、ステップS514へ進む。一定時間が経過していない場合(ステップS513;NO)、ステップS501へ進む。最後のストロークが入力された後、一定時間が経過した場合、ジェスチャの区切りと判定する。それまでに入力された1つ以上の複数のストロークをまとめて1つのジェスチャと判定する。
ステップS514において、タイマによる計測を停止する。ステップS515において、ジェスチャ認識部163は、入力されたジェスチャを認識する。ステップS516において、ジェスチャ文言取得部164は、ジェスチャ辞書161から、認識されたジェスチャに対応するコマンドを説明するジェスチャ文言を取得する。取得されたジェスチャ文言は音声出力部158へ送られる。
ステップS517において、音声出力部158は、送られてきたジェスチャ文言を音声出力する。このステップは図6のID9の場面に対応する。ここでは、入力されたジェスチャに対し、装置が認識した結果を音声出力することになる。入力された複数のストロークに関するオノマトペとストローク文言を音声出力した後に、ジェスチャ文言を音声出力することになる。
ステップS518において、ジェスチャ実行部165は、認識されたジェスチャに対応するコマンドを実行する。図6の例では、「4枚表示」のジェスチャが認識される。そのため、ID10の場面において、画面の表示を4枚表示に変更するというコマンドを実行する。
以上の処理により、例えば図6に示すようなユーザのジェスチャ入力に合わせて、以下の音声が出力される。「ひだりのはしから〜。すぅ〜っとよこぼう〜。こんどはうえから〜。すぅ〜っとたてぼ〜。4まいひょうじ〜」。これは「4枚表示」のジェスチャの書き方を説明する音声になっている。ジェスチャの入力に合わせてその書き方が音声出力される。そのため、ユーザはジェスチャの書き方を何回も聞くことになり、書き方が記憶に定着しやすくなる。また、文言にメロディーを付けて音声出力すれば、絵描き歌の要領で楽しくジェスチャの書き方を覚えることが可能になる。
次に、図7のフローチャートを参照して、ステップS507における、ストロークの形状を認識する処理手順を詳細に説明する。ステップS701において、ストローク認識部155は、入力されたストロークに対応する入力座標の列と認識候補の基準のストロークとでマッチングを行い、それぞれの認識候補に対する尤度を求める。ストローク辞書152に含まれる形状が認識候補である。基準のストロークは、手本となるストロークの書き方を示すデータである。これはベクトルデータや座標データの形で保持する。
ステップS702において、ステップS701で求めた尤度の最大値が予め定めた閾値以上か否かを判定する。閾値以上の場合(ステップS702;YES)、ステップS706へ進む。一方、閾値より小さい場合(ステップS702;NO)、ステップS703へ進む。尤度の最大値が閾値より小さい場合は、入力されたストロークがストローク辞書152に登録されているストロークにマッチしなかったと判定する。つまり、尤度の最大値が閾値より小さいということは、ストロークの形状の認識に失敗したことを意味する。
ステップS703において、公知技術を用いて、入力されたストロークの頂点を求める。例えば、図8(a)に示すストロークの頂点は2箇所にある。ステップS704において、入力されたストロークを頂点の位置で線分に分割し、ストロークを構成する線分の数nを求める。ステップS705において、形状として「不明n」を認識結果とする。ステップS706において、尤度が最大値となる認識候補を認識結果とする。
以上の処理により以下の効果がある。ストローク辞書152を用いた形状の認識に失敗した場合であっても、ストロークを構成する線分の数に応じた形状を結果とすることが可能である。また、オノマトペ辞書153は、図3(a)に示すように、ストロークを構成する線分の数を用いて形状をカテゴリに分類している。よって、入力されたストロークの形状の認識に失敗した場合であっても、成功した場合と一貫した基準で、オノマトペを選択して音声出力することが可能となる。
図9のフローチャートを参照して、図5のステップS511における、オノマトペとストローク文言を音声出力する処理手順を詳細に説明する。ステップS901において、ストローク認識部155は、今回入力されたストロークが、1つ前に(前回)入力されたストロークと等しいか否かを判定する。2つのストロークの形状と大きさが等しい場合、2つのストロークが等しいと判定する。等しい場合(ステップS901;YES)、ステップS902へ進む。等しくない場合(ステップS901;NO)、ステップS909へ進む。ステップS902において、音声出力部158は、1つ前(前回)のストロークに関するオノマトペを音声出力中であるか否かを判定する。音声出力中の場合(ステップS902;YES)、ステップS903へ進む。音声出力中でない、つまり音声出力が終了している場合(ステップS901;NO)、ステップS906へ進む。
ステップS903において、音声出力部158は、1つ前(前回)のストロークに関するストローク文言の音声出力をキャンセルする。また、ストローク文言取得部160は、1つ前(前回)のストロークの形状に対応する簡略化したストローク文言を取得し、音声出力部158へ送る。つまり、1つ前(前回)のストロークに関し、ステップS510で取得されたストローク文言を、簡略化したストローク文言へと変更し音声出力することになる。簡略化したストローク文言は予め保持しておく。例えば、形状の「縦線202」に対応する簡略化したストローク文言を「たて」とする。
ステップS904において、音声出力部158は、今回のストロークに関するオノマトペの音声出力をキャンセルする。ステップS905において、音声出力部158は、今回のストロークに関するストローク文言の音声出力をキャンセルする。また、ストローク文言取得部160は、今回のストロークの形状に対応する簡略化したストローク文言を取得し、音声出力部158へ送る。つまり、今回のストロークに関し、ステップS510で取得したストローク文言を簡略化したストローク文言へ変更し音声出力する。
ステップS906において、音声出力部158は、1つ前(前回)のストロークに関するストローク文言を音声出力中であるか否かを判定する。音声出力中である場合(ステップS906;YES)、ステップS907へ進む。音声出力中でない、つまり音声出力が終了している場合(ステップS906;NO)、ステップS909へ進む。ステップS907において、音声出力部158は、今回のストロークに関するオノマトペの音声出力をキャンセルする。ステップS908において、音声出力部158は、今回のストロークに関するストローク文言の音声出力をキャンセルする。また、ストローク文言取得部160は、繰り返しを表す文言を取得し、音声出力部へ送る。つまり、今回のストロークに関し、ステップS510で取得したストローク文言を繰り返しを表す文言へ変更して音声出力する。繰り返しを表す文言は予め保持しておく。例えば、「2つ〜」が繰り返しを表す文言である。
ステップS909において、今回のストロークに関するオノマトペとストローク文言を音声出力する。形状が「縦線202」であり、大きさが「小」のストロークを2回連続で入力すると、通常は「さっ、とたてぼ〜。さっ、とたてぼ〜」という音声を出力する。これはステップS909を通る処理に対応する。一方、同じストロークを2回、少しテンポよく入力すると、「さっ、とたてぼ〜。2つ〜」という音声を出力する。これはステップS908を通る処理に対応する。そして、同じストロークを2回、さらにテンポよく入力すると、「さっ、とたて、たて」という音声を出力する。これはステップS905を通る処理に対応する。図9に示す処理を行うことにより、冗長な音声出力を避けて、入力のテンポに合わせた音声出力が可能となる。オノマトペとストロークの形状に対応する文言とを分けて音声出力部158へ送るため、このような文言の変更処理が容易に実現できる。
上記において、1つ前(前回)のストロークと今回のストロークとの、2つの等しいストロークが連続して入力された場合について説明した。これは、2つ以上の等しいストロークが連続して入力された場合についても当てはまる。つまり、ストローク文言取得部160は、複数の等しいストロークが連続して入力された場合に、ストローク文言を簡略したストローク文言へ変更する。さらに、音声出力部158は、2つ目以降のストロークに関するオノマトペの音声出力をキャンセルする。
2つのストロークが連続して入力されたか否かは次のようにして判定される。1つ前(前回)のストロークに関するオノマトペ又はストローク文言を音声出力中に次のストロークが入力された場合に、ストロークが連続して入力されたと判定される。具体的には、ステップS902の処理と、ステップS906の処理とにより判定される。
これまでは複数の等しいストロークが連続して入力された場合について説明した。逆に、等しくないストロークが連続して入力された場合に適用することも可能である。具体的には、ステップS901の処理はスキップされる。そして、ステップS908の処理は、ステップS905の処理に置き換えられる。上記のように処理を行うことにより、等しくないストロークが連続して入力された場合にも、冗長な音声出力を避けて、入力のテンポに合わせた音声出力が可能となる。
次に、図10のフローチャートを参照して、ステップS515〜ステップS518の処理手順をより詳細に説明する。認識されたジェスチャの尤度が閾値よりも小さい場合に、ジェスチャの正しい書き方をユーザに音声出力する機能が追加されている。尤度が小さいということは、ユーザの書き方に何か問題があるということである。正しい書き方を音声出力することにより、ユーザにこの問題を指摘することが可能となる。
図10におけるステップS516〜ステップS518は、図5で説明した同名のステップと同じ処理である。図5のステップS514から、ステップS1001へ進む。図4のジェスチャ辞書161を用いた場合について説明する。
ステップS1001において、ジェスチャ認識部163は、入力されたジェスチャに対応する入力座標の列と認識候補の基準のジェスチャとでマッチングを行い、それぞれの認識候補に対し尤度を算出する。ジェスチャ辞書161に含まれるジェスチャが認識候補(図形候補)である。基準のジェスチャは、手本となるジェスチャの書き方を示すデータである。この基準のジェスチャはベクトルデータや座標データの形で保持する。そして、ジェスチャ認識部163は尤度が最大となる認識候補をジェスチャとして識別する。
ステップS1002において、ジェスチャ認識部163は、認識されたジェスチャの尤度が予め定めた閾値以上であるか否かを判定する。閾値以上の場合(ステップS1002;YES)、ステップS516へ進む。一方、閾値より小さい場合(ステップS1002;NO)、ステップS1003へ進む。ステップS1003において、音声出力部158は、ジェスチャの書き方に問題があることを音声出力する。すなわち、記憶部に記憶されたジェスチャの図形に該当しない旨を音声出力する。例えば、音声出力部158は「ジェスチャの書き方に問題があります」のような文言を音声出力する。ステップS1004において、音声出力部158は、入力されたストローク列と、認識されたジェスチャを構成する正しいストローク列とが等しいか否かを判定する。ここで、1又は2以上のストロークをストローク列と称する。それぞれのストローク列に含まれるストロークを1つずつ比較し、その形状と大きさがすべて等しい場合、ストローク列が等しいと判定される。ストローク列が等しい場合(ステップS1004;YES)、ステップS1006へ進む。等しくない場合(ステップS1004;NO)、ステップS1005へ進む。ジェスチャを構成する正しいストローク列は、ジェスチャ辞書161に予め定めておく。例えば、図4に示すように、「印刷設定(印刷モードへ遷移)」のジェスチャを構成するストローク列は、「形状:四角、大きさ:小」及び「形状:四角、大きさ:小」の2つのストロークとする。
入力されたストローク列は、ユーザの入力をストローク認識部155が認識した結果である。ユーザによる入力例を図8(b)、図8(c)に示す。図8(b)の入力に対するストローク列は、「形状:四角、大きさ:小」及び「形状:四角、大きさ:小」のようになる。このストローク列は、「印刷設定(印刷モードへ遷移)」のジェスチャを構成する正しいストローク列と等しい。一方、図8(c)の入力に対するストローク列は、「形状:丸、大きさ:小」及び「形状:四角、大きさ:小」のようになる。このストローク列は、「印刷設定(印刷モードへ遷移)」のジェスチャを構成する正しいストローク列と等しくない。
ステップS1005において、音声出力部158は、認識されたジェスチャの通常の正しい書き方を取得して音声出力する。通常の正しい書き方は、ジェスチャを構成する各ストロークに関するオノマトペと、ストローク文言と、ジェスチャに関するジェスチャ文言とから構成される。この場合の音声出力は、ジェスチャを正しい書き方で入力した場合に、図5の処理手順に従って出力される音声と等しい。例えば、「印刷設定(印刷モードへ遷移)」のジェスチャの通常の正しい書き方は、「さっ、としかく〜。さっ、としかく〜。いんさつせってぇ〜」である。
ステップS1006において、音声出力部158は、認識されたジェスチャの詳細な正しい書き方を取得して音声出力する。詳細な正しい書き方とは、通常の正しい書き方にストローク間の相対的な位置関係や大きさを示す文言を加えたものである。例えば、「印刷設定(印刷モードへ遷移)」のジェスチャの詳細な正しい書き方は、「さっ、としかく〜。そのしたに〜、よこながに〜。さっ、としかく〜。いんさつせってぇ〜」である。ここで「そのしたに〜、よこながに〜」の部分が、各ストローク間の相対的な位置関係や大きさを示す文言である。
具体的には、図8(b)、図8(c)の入力に対して、ジェスチャ認識部163は「印刷設定(印刷モードへ遷移)」のジェスチャを認識する。ただし、図8(b)、図8(c)のどちらの入力にも書き方に問題があるため、尤度が予め定めた閾値よりも小さくなる。よって、ステップS1002からステップS1003へ進む。
図8(b)のストローク列は、「印刷設定(印刷モードへ遷移)」のジェスチャを構成する正しいストローク列と等しい。よって、ステップS1008において、音声出力部158は詳細な正しい書き方を音声出力する。しかしながら、図8(b)の入力は、個々のストロークは等しいが、2つ目のストロークの大きさに問題がある。2つ目のストロークは1つ目のストロークよりも横長である必要がある(図4参照)。この問題は、ストローク間の相対的な位置関係や大きさを加えた詳細な正しい書き方により解決することが可能である。なお、個々のストロークは正しいため、通常の正しい書き方では、問題を指摘できない。
図8(c)のストローク列は、「印刷設定(印刷モードへ遷移)」のジェスチャを構成する正しいストローク列と等しくない。よって、ステップS1005において、音声出力部158は通常の正しい書き方を音声出力する。図8(c)の入力は、1つ目のストロークの形状に問題がある。この問題は、通常の正しい書き方により指摘が可能である。
一方、図8(b)、図8(c)の入力に対し、「印刷設定(印刷モードへ遷移)」のジェスチャに対応するコマンドを実行することも可能である。しかしながら、その場合、ユーザが間違った書き方を覚えてしまうという課題が生じる。認識されたジェスチャの尤度が小さい場合は、音声出力部158はユーザの書き方に問題があると判断し、コマンドを実行せずに、正しい書き方を音声出力する。これによりユーザが間違った書き方を覚えてしまうことは回避できる。
(第2実施形態)
本実施形態に係る音声出力装置は、ユーザの入力したジェスチャに対して、装置がどのように認識したかを音声出力する。また、ユーザの書き方に問題がある場合、ジェスチャの正しい書き方を音声で知らせることが可能である。よって、画面がなくても操作が可能である。例えば、タッチパネル付きの音楽プレイヤーに適用可能である。ユーザは指でタッチパネルにジェスチャを書いて操作する。装置はイヤホンなどを通してユーザに音声出力する。画面を見る必要がないため、音楽プレイヤーをポケットやカバンに入れたままで操作が可能となる。また、画面が必須ではないので、例えば視覚障害者用のユーザインタフェースとして適用が可能である。一般にアプリケーションは複数の画面を持つ。画面を見ずに操作を行う場合、現在どの画面にいるかを音声で確認できることが望ましい。
図3(b)を参照して、オノマトペ辞書153の他の例について説明する。これは「プレビュー」、「スライドショー」、「印刷」の3画面を持つ画像ビューアの例である。画面ごとにオノマトペの基本となる拍は異なるものとする。これにより、装置が出力するオノマトペから、現在どの画面にいるかを確認することが可能となる。
また、本発明に係る音声出力装置は、2次元ジェスチャに限らず、空間(3次元)ジェスチャを用いることも可能である。この場合、タッチパネルの代わりに、手の位置などを検出するためのセンサーを用いる。例えばLEDから光を照射し、手が反射した光がセンサーに届くまでの時間を計測し、位置を検出する構成にすれば良い。
(その他の実施形態)
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。

Claims (12)

  1. 描き始めから描き終わりまでの一連の筆跡を入力する入力手段と、
    前記入力手段により入力された筆跡の形状及び大きさを認識する認識手段と、
    前記認識手段により認識された筆跡を、当該筆跡を構成する線分の数及び当該筆跡の大きさごとにカテゴリに分類する分類手段と、
    前記分類手段により分類されたカテゴリに対応する擬音語又は擬態語を、予め記憶手段に記憶された擬音語又は擬態語から選択する選択手段と、
    前記選択手段により選択された擬音語又は擬態語を音声として出力する出力手段と、
    を備えることを特徴とする音声出力装置。
  2. 前記出力手段による音声の出力中に、前記入力手段により前回の入力と同一の筆跡が入力されたと前記認識手段により認識された場合に、
    前記選択手段は、前記記憶手段から簡略化した擬音語又は擬態語を選択することを特徴とする請求項1に記載の音声出力装置。
  3. 前記認識手段により認識された筆跡の形状を表す第1の文言を前記記憶手段から取得する第1取得手段をさらに備え、
    前記出力手段は、擬音語又は擬態語を音声として出力した後に、前記第1取得手段により取得された第1の文言を音声として出力することを特徴とする請求項1又は2に記載の音声出力装置。
  4. 前記入力手段により前回の入力と同一の筆跡が入力されたと前記認識手段により認識された場合に、
    前記第1取得手段は、筆跡の形状を表す簡略化した文言を取得することを特徴とする請求項3に記載の音声出力装置。
  5. 前記第1取得手段が、筆跡の形状を表す簡略化した文言を取得した場合に、
    前記出力手段は、前回の入力と同一の筆跡に対応する擬音語又は擬態語の音声として出力を行わないことを特徴とする請求項4に記載の音声出力装置。
  6. 前記入力手段により入力された1又は2以上の筆跡を全体として1つの図形として識別するする識別手段と、
    前記識別された図形が示す操作を実行するための第2の文言を前記記憶手段から取得する第2取得手段と、をさらに備え、
    前記出力手段は、前記入力手段により入力された1又は2以上の筆跡に対応する擬音語又は擬態語と第1の文言とを音声として出力した後に、前記第2取得手段により取得された第2の文言を音声として出力することを特徴とする請求項3乃至5の何れか1項に記載の音声出力装置。
  7. 前記入力手段により入力された1又は2以上の筆跡の全体に対応する、複数の図形候補の各々について尤度を算出する算出手段をさらに備え、
    前記識別手段は、尤度が最大となる図形候補から1つの図形として識別することを特徴とする請求項6に記載の音声出力装置。
  8. 前記識別手段により識別された図形の尤度が閾値より小さいか否かを判定する判定手段をさらに備え、
    前記判定手段により、前記識別手段により識別された図形の尤度が閾値より小さいと判定された場合に、前記出力手段は、入力された図形に該当する図形が前記記憶手段に記憶されていないことを音声として出力することを特徴とする請求項7に記載の音声出力装置。
  9. 前記識別手段により識別された図形の尤度が閾値より小さいか否かを判定する判定手段と、
    前記識別手段により識別された図形に対応する処理を実行する実行手段と、をさらに備え、
    前記判定手段により、前記識別手段により識別された図形の尤度が閾値以上であると判定された場合に、
    前記実行手段は、前記識別手段により識別された図形に対応する処理を実行することを特徴とする請求項7に記載の音声出力装置。
  10. 前記識別手段により識別された図形の尤度が閾値より小さいか否かを判定する判定手段をさらに備え、
    前記判定手段により、前記識別手段により識別された図形の尤度が閾値より小さいと判定された場合に、
    前記出力手段は、前記識別手段により識別された図形の描き方を音声として出力することを特徴とすることを特徴とする請求項7に記載の音声出力装置。
  11. 入力手段が、描き始めから描き終わりまでの一連の筆跡を入力する入力工程と、
    認識手段が、前記入力工程により入力された筆跡の形状及び大きさを認識する認識工程と、
    分類手段が、前記認識工程により認識された筆跡を、当該筆跡を構成する線分の数及び当該筆跡の大きさごとにカテゴリに分類する分類工程と、
    選択手段が、前記分類工程により分類されたカテゴリに対応する擬音語又は擬態語を、予め記憶工程で記憶された擬音語又は擬態語から選択する選択工程と、
    出力手段が、前記選択工程により選択された擬音語又は擬態語を音声として出力する出力工程と、
    を備えることを特徴とする音声出力方法。
  12. 請求項11に記載の音声出力方法をコンピュータに実行させるためのプログラム。
JP2010155252A 2010-07-07 2010-07-07 音声出力装置、音声出力方法、及びプログラム Withdrawn JP2012018544A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010155252A JP2012018544A (ja) 2010-07-07 2010-07-07 音声出力装置、音声出力方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010155252A JP2012018544A (ja) 2010-07-07 2010-07-07 音声出力装置、音声出力方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2012018544A true JP2012018544A (ja) 2012-01-26

Family

ID=45603750

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010155252A Withdrawn JP2012018544A (ja) 2010-07-07 2010-07-07 音声出力装置、音声出力方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2012018544A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014027674A1 (ja) * 2012-08-17 2014-02-20 Necシステムテクノロジー株式会社 入力装置、入力方法、及び記録媒体
WO2017099214A1 (ja) * 2015-12-11 2017-06-15 ヤマハ発動機株式会社 ユーザ動作の評価結果に関するオノマトペ提示装置
WO2018110003A1 (ja) * 2016-12-12 2018-06-21 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014027674A1 (ja) * 2012-08-17 2014-02-20 Necシステムテクノロジー株式会社 入力装置、入力方法、及び記録媒体
JP2014038526A (ja) * 2012-08-17 2014-02-27 Nec System Technologies Ltd 入力装置、入力方法、及びプログラム
WO2017099214A1 (ja) * 2015-12-11 2017-06-15 ヤマハ発動機株式会社 ユーザ動作の評価結果に関するオノマトペ提示装置
WO2018110003A1 (ja) * 2016-12-12 2018-06-21 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JPWO2018110003A1 (ja) * 2016-12-12 2019-10-24 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム

Similar Documents

Publication Publication Date Title
CN106653052B (zh) 虚拟人脸动画的生成方法及装置
JP4708913B2 (ja) 情報処理方法及び情報処理装置
JP5897725B2 (ja) ユーザインタフェース装置、ユーザインタフェース方法、プログラム及びコンピュータ可読情報記憶媒体
JP2022519981A (ja) 可変速度音素発音機械
JP6432405B2 (ja) プレゼンテーション支援装置、プレゼンテーション支援方法及びプレゼンテーション支援プログラム
JP6176041B2 (ja) 情報処理装置及びプログラム
CN107615232B (zh) 输入显示装置和显示方法
TW201510774A (zh) 以語音辨識來選擇控制客體的裝置及方法
JP6355823B2 (ja) 入力表示制御装置、入力表示制御方法及び入力表示システム
TW201512968A (zh) 以語音辨識來發生事件裝置及方法
KR101567154B1 (ko) 다중 사용자 기반의 대화 처리 방법 및 이를 수행하는 장치
JP2012018544A (ja) 音声出力装置、音声出力方法、及びプログラム
JP6095553B2 (ja) 情報表示装置、方法及びプログラム
JP2019101739A (ja) 情報処理装置、情報処理システムおよびプログラム
JPWO2014054717A1 (ja) ユーザインタフェース装置、ユーザインタフェース方法、プログラム及びコンピュータ可読情報記憶媒体
JP6227133B2 (ja) 記号イメージ検索サービス提供方法及びこれに用いる記号イメージ検索用サーバ
EP4047552A1 (en) Information processing device, information processing method, and program
JP2018018366A (ja) 情報処理装置、文字入力プログラムおよび文字入力方法
JP6471589B2 (ja) 説明支援装置、説明支援方法及び説明支援プログラム
JP6391064B2 (ja) 音声出力処理装置、音声出力処理プログラムおよび音声出力処理方法
Glette et al. Extracting action-sound features from a sound-tracing study
CN110268467B (zh) 显示控制系统以及显示控制方法
KR102235027B1 (ko) 박자 시각화 장치, 방법 및 성악용 박자 보표
JP6350682B2 (ja) プレゼンテーション支援装置、プレゼンテーション支援方法及びプレゼンテーション支援プログラム
JP7068923B2 (ja) 音声処理装置及び音声処理方法

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20131001