JP7459791B2 - 情報処理装置、情報処理方法、およびプログラム - Google Patents
情報処理装置、情報処理方法、およびプログラム Download PDFInfo
- Publication number
- JP7459791B2 JP7459791B2 JP2020527456A JP2020527456A JP7459791B2 JP 7459791 B2 JP7459791 B2 JP 7459791B2 JP 2020527456 A JP2020527456 A JP 2020527456A JP 2020527456 A JP2020527456 A JP 2020527456A JP 7459791 B2 JP7459791 B2 JP 7459791B2
- Authority
- JP
- Japan
- Prior art keywords
- dictionary
- speech
- registered
- expressions
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Toys (AREA)
Description
1.構成
1.1.自律動作体10の概要
1.2.自律動作体10のハードウェア構成例
1.3.システム構成例
1.4.自律動作体10の機能構成例
1.5.情報処理サーバ20の機能構成例
2.機能の詳細
3.まとめ
<<1.1.自律動作体10の概要>>
近年、ユーザの発話などを認識し、認識結果に基づく動作を実行する種々の装置が開発されている。上記のような装置には、例えば、ユーザとの音声対話を介して種々の機能提供を行う音声エージェント装置や、認識したユーザの発話や周囲環境などに応じて振る舞いを変化させる自律動作体が挙げられる。
次に、本開示の一実施形態に係る自律動作体10のハードウェア構成例について説明する。なお、以下では、自律動作体10がイヌ型の四足歩行ロボットである場合を例に説明する。
マイクロフォン515は、周囲の音を収集する機能を有する。上記の音には、例えば、ユーザの発話や、周囲の環境音が含まれる。自律動作体10は、例えば、頭部に4つのマイクロフォンを備えてもよい。複数のマイクロフォン515を備えることで、周囲で発生する音を感度高く収集すると共に、音源の定位を実現することが可能となる。
カメラ520は、ユーザや周囲環境を撮像する機能を有する。自律動作体10は、例えば、鼻先と腰部に2つの広角カメラを備えてもよい。この場合、鼻先に配置される広角カメラは、自律動作体の前方視野(すなわち、イヌの視野)に対応した画像を撮像し、腰部の広角カメラは、上方を中心とする周囲領域の画像を撮像する。自律動作体10は、例えば、腰部に配置される広角カメラにより撮像された画像に基づいて、天井の特徴点などを抽出し、SLAM(Simultaneous Localization and Mapping)を実現することができる。
ToFセンサ525は、頭部前方に存在する物体との距離を検出する機能を有する。ToFセンサ525は、頭部の鼻先に備えられる。ToFセンサ525によれば、種々の物体との距離を精度高く検出することができ、ユーザを含む対象物や障害物などとの相対位置に応じた動作を実現することが可能となる。
人感センサ530は、ユーザやユーザが飼育するペットなどの所在を検知する機能を有する。人感センサ530は、例えば、胸部に配置される。人感センサ530によれば、前方に存在する動物体を検知することで、当該動物体に対する種々の動作、例えば、興味、恐怖、驚きなどの感情に応じた動作を実現することが可能となる。
測距センサ535は、自律動作体10の前方床面の状況を取得する機能を有する。測距センサ535は、例えば、胸部に配置される。測距センサ535によれば、自律動作体10の前方床面に存在する物体との距離を精度高く検出することができ、当該物体との相対位置に応じた動作を実現することができる。
タッチセンサ540は、ユーザによる接触を検知する機能を有する。タッチセンサ540は、例えば、頭頂、あご下、背中など、ユーザが自律動作体10に対し触れる可能性が高い部位に配置される。タッチセンサ540は、例えば、静電容量式や感圧式のタッチセンサであってよい。タッチセンサ540によれば、ユーザによる触れる、撫でる、叩く、押すなどの接触行為を検知することができ、当該接触行為に応じた動作を行うことが可能となる。
照度センサ545は、自律動作体10が位置する空間の照度を検出する。照度センサ545は、例えば、頭部背面において尾部の付け根などに配置されてもよい。照度センサ545によれば、周囲の明るさを検出し、当該明るさに応じた動作を実行することが可能となる。
足裏ボタン550は、自律動作体10の脚部底面が床と接触しているか否かを検知する機能を有する。このために、足裏ボタン550は、4つの脚部の肉球に該当する部位にそれぞれ配置される。足裏ボタン550によれば、自律動作体10と床面との接触または非接触を検知することができ、例えば、自律動作体10がユーザにより抱き上げられたことなどを把握することが可能となる。
慣性センサ555は、頭部や胴部の速度や加速度、回転などの物理量を検出する6軸センサである。すなわち、慣性センサ555は、X軸、Y軸、Z軸の加速度および角速度を検出する。慣性センサ555は、頭部および胴部にそれぞれ配置される。慣性センサ555によれば、自律動作体10の頭部および胴部の運動を精度高く検出し、状況に応じた動作制御を実現することが可能となる。
ディスプレイ510は、自律動作体10の目の動きや感情を視覚的に表現する機能を有する。図5に示すように、ディスプレイ510は、感情や動作に応じた眼球、瞳孔、瞼の動作を表現することができる。ディスプレイ510は、文字や記号、また眼球運動とは関連しない画像などを敢えて表示しないことで、実在するイヌなどの動物に近い自然な動作を演出する。
次に、本開示の一実施形態に係るシステム構成例について説明する。図11は、本開示の一実施形態に係るシステム構成の一例を示す図である。図11を参照すると、本開示の一実施形態に係る情報処理システムは、複数の自律動作体10および情報処理サーバ20を備える。なお、自律動作体10と情報処理サーバ20は、ネットワーク30を介して互いに通信が行えるように接続される。
本開示の一実施形態に係る自律動作体10は、収集したセンサ情報に基づく状況推定を実行し、状況に応じた種々の動作を自律的に選択し実行する情報処理装置である。上述したように、本開示の一実施形態に係る自律動作体10は、例えば、ヒトやイヌなどの動物を模した形状や、動作能力を有する自律移動型ロボットであってもよい。本開示の一実施形態に係る自律動作体10は、検出したユーザの発話に対する音声認識処理を実行し、当該音声認識処理の結果に基づく各種の動作を実行する。
本開示の一実施形態に係る情報処理サーバ20は、複数の自律動作体10と接続され、自律動作体10から各種の情報を収集し分析する機能を有する情報処理装置である。また、本開示の一実施形態に係る情報処理サーバ20は、分析結果や流行、季節などに応じて、推奨する発話表現を自律動作体10に送信する機能を有する。
ネットワーク30は、自律動作体10と情報処理サーバ20とを接続する機能を有する。ネットワーク30は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク30は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。また、ネットワーク30は、Wi-Fi(登録商標)、Bluetooth(登録商標)など無線通信網を含んでもよい。
次に、本開示の一実施形態に係る自律動作体10の機能構成例について説明する。図12は、本開示の一実施形態に係る自律動作体10の機能構成例を示す図である。図12を参照すると、本開示の一実施形態に係る自律動作体10は、入力部110、認識部120、学習部130、行動計画部140、動作制御部150、駆動部160、出力部170、およびサーバ通信部180を備える。なお、上記の各機能は、例えば、自律動作体10に搭載される、CPUなどのプロセッサ、ROMやRAMなどにより実現される。
入力部110は、ユーザや周囲環境に係る種々の情報を収集する機能を有する。入力部110は、例えば、ユーザの発話や周囲で発生する環境音、ユーザや周囲環境に係る画像情報、および種々のセンサ情報を収集する。このために、入力部110は、図1に示す各種のセンサを備える。
認識部120は、入力部110が収集した種々の情報に基づいて、ユーザや周囲環境、また自律動作体10の状態に係る種々の認識を行う機能を有する。一例としては、認識部120は、音声認識、人識別、表情や視線の認識、物体認識、動作認識、空間領域認識、色認識、形認識、マーカー認識、障害物認識、段差認識、明るさ認識などを行ってよい。なお、本開示の一実施形態に係る認識部120が有する機能の詳細については別途後述する。
学習部130は、環境(状況)と行動、また当該行動による環境への作用を学習する機能を有する。学習部130は、例えば、深層学習(Deep Learning)などの機械学習アルゴリズムを用いて、上記の学習を実現する。なお、学習部130が採用する学習アルゴリズムは、上記の例に限定されず、適宜設計可能である。
行動計画部140は、認識部120が推定した状況と学習部130が学習した知識に基づいて、自律動作体10が行う行動を計画する機能を有する。
動作制御部150は、行動計画部140による行動計画に基づいて、駆動部160および出力部170の動作を制御する機能を有する。動作制御部150は、例えば、上記の行動計画に基づいて、アクチュエータ570の回転制御や、ディスプレイ510の表示制御、スピーカによる音声出力制御などを行う。
駆動部160は、動作制御部150による制御に基づいて、自律動作体10が有する複数の関節部を屈伸させる機能を有する。より具体的には、駆動部160は、動作制御部150による制御に基づき、各関節部が備えるアクチュエータ570を駆動させる。
出力部170は、動作制御部150による制御に基づいて、視覚情報や音情報の出力を行う機能を有する。このために、出力部170は、ディスプレイ510やスピーカを備える。
サーバ通信部180は、情報処理サーバ20や他の自律動作体10との情報通信を行う機能を有する。例えば、サーバ通信部180は、音声認識結果や後述する発話時ステータスなどの情報を情報処理サーバ20に送信する。また、例えば、サーバ通信部180は、情報処理サーバ20から、分析結果などから推奨される発話表現を受信する。
本開示の一実施形態に係る第1音声認識部710は、第1辞書715を用いた第1音声認識処理を実行する。具体的には、本開示の一実施形態に係る第1音声認識部710は、ユーザの発話に対応する音声データに対し、第1辞書715に登録された発話表現を用いた音声認識を行う。
本開示の一実施形態に係る第1辞書715は、第1音声認識部710による第1音声認識処理に用いられる発話表現辞書である。第1辞書715には、ユーザによる発話頻度が高い発話表現が上限2000~3000以下を目途に複数登録されてもよい。なお、後述するように認識部120が第2音声認識部を備える場合は、第1辞書715および第2辞書745に登録される発話表現数は合計で2000~3000以下となるよう制御されてよい。後述する辞書更新部740が、ユーザの発話実績に基づいて、第1辞書715に登録される発話表現を適宜入れ替えることで、よりユーザの特性に合致した高精度かつ低負担な音声認識を実現することが可能である。
本開示の一実施形態に係る発話ログ720は、第1音声認識部710などによる音声認識結果の履歴である。
本開示の一実施形態に係る状態認識部725は、各種のセンサ情報に基づいて、ユーザの発話時における各種のステータス(発話時ステータス)を認識する。発話時ステータスには、例えば、時刻(時間帯、季節などを含む)、場所、ユーザの行動や状態、PCM(Pulse Code Modulation)データ、天気、画像、各種のセンサ情報そのもの、自律動作体10が実行中の動作、自律動作体10のアクチュエータの状態などが含まれ得る。
本開示の一実施形態に係る発話時ステータスログ730は、状態認識部725が認識した発話時ステータスの履歴である。本開示の一実施形態に係る発話時ステータスログ730は、時刻をキーに、発話ログ720と対応付けられて保管される。
本開示の一実施形態に係る評価部735は、発話ログ720や発話時ステータスログ730に基づいて、ユーザの発話実績を評価する機能を有する。本開示の一実施形態に係る評価部735は、例えば、第1音声認識部710により認識された発話表現の回数や、当該発話表現が認識された際に併せて認識された発話時ステータスに基づいて、発話実績の評価を行うことができる。本開示の一実施形態に係る評価部735が有する機能の詳細については別途後述する。
本開示の一実施形態に係る辞書更新部740は、ユーザの発話実績に基づいて第1辞書715や第2辞書745に登録される発話表現を更新する機能を有する。本開示の一実施形態に係る辞書更新部740は、発話実績が低い発話表現を第1辞書715から削除、または第2辞書745へ移行してもよい。
本開示の一実施形態に係る第2辞書745には、第1辞書715に登録されていない複数の発話表現が登録される。上述したように、本開示の一実施形態に係る辞書更新部740は、第1辞書715に空きが存在する場合、第2辞書745に登録されている優先度の高い発話表現を第1辞書715に移行することができる。すなわち、本開示の一実施形態に係る第2辞書745は、第1辞書715に登録する発話表現の候補を複数含む発話表現辞書といえる。
次に、本開示の一実施形態に係る情報処理サーバ20の機能構成例について説明する。図14は、本開示の一実施形態に係る情報処理サーバ20の機能構成例を示す図である。図14を参照すると、本開示の一実施形態に係る情報処理サーバ20は、蓄積部210、分析部220、クラウド辞書230、通信部240を備える。
本開示の一実施形態に係る蓄積部210は、複数の自律動作体10が認識した音声認識結果や発話時ステータスなどの発話実績を統合して蓄積する。なお、本開示の一実施形態に係る蓄積部210は、音声認識結果に基づいて計画または実行された動作などの情報を併せて保管してもよい。本開示の一実施形態に係る蓄積部210が蓄積する上記のデータは、複数の自律動作体10に共通する経験の知識、すなわち集合知と称することができる。
本開示の一実施形態に係る分析部220は、蓄積部210が蓄積するデータに基づく種々の分析を行う。分析部220は、複数の自律動作体10から収集、蓄積された上記のデータを分析することで、例えば、ユーザが、「お手」と発話した後には、「いいこ」や「えらい」などと続けて発話する可能性が高いこと、などを分析結果として得ることができる。なお、本開示においては、上記のように、ある発話表現に続けて発話される別の発話表現、など、他の発話表現や機能と相関性の高い発話表現を、相関表現と称する。
本開示の一実施形態に係るクラウド辞書230は、自律動作体10に新たに追加され得る種々の発話表現を含む発話表現辞書である。クラウド辞書230には、例えば、方言や、世代ごとに多用される発話表現(世代表現)、季節に応じた発話表現(季節表現)、トレンドとなっている発話表現(トレンド表現)、分析部220が集合知に基づき分析した相関表現などが登録される。
本開示の一実施形態に係る通信部240は、ネットワーク30を介して、複数の自律動作体10との情報通信を行う。通信部240は、例えば、自律動作体10から音声認識結果や発話時ステータスなどの発話実績に係る情報を受信する。また、通信部240は、分析部220による制御や自律動作体10からの要求に基づいて、クラウド辞書230に登録される発話表現を自律動作体10に送信する。
次に、本開示の一実施形態に係る辞書更新機能について詳細に説明する。上述したように、本開示の一実施形態に係る辞書更新部740は、ユーザの発話実績に基づいて、第1辞書715や第2辞書745が有する発話表現セットを動的に更新することで、第1音声認識部710が、第1辞書715に登録される限られた発話表現数で精度の高い音声認識を実現することを可能とする。
以上説明したように、本開示の一実施形態に係る自律動作体10は、複数の発話表現が登録された第1辞書715と、第1辞書715を用いた第1音声認識処理を実行する第1音声認識部710と、ユーザの発話実績に基づいて第1辞書715に登録される発話表現を更新する辞書更新部740と、を備える。また、本開示の一実施形態に係る辞書更新部740は、発話実績が低い発話表現を第1辞書715から削除、または第1辞書715に登録されていない複数の発話表現が登録された第2辞書745へ移行すること、を特徴の一つとする。係る構成によれば、演算量を抑えながら音声認識精度を向上させることが可能となる。
(1)
複数の発話表現が登録された第1辞書と、
前記第1辞書を用いた第1音声認識処理を実行する第1音声認識部と、
ユーザの発話実績に基づいて前記第1辞書に登録される発話表現を更新する辞書更新部と、
を備え、
前記辞書更新部は、前記発話実績が低い発話表現を前記第1辞書から削除、または前記第1辞書に登録されていない複数の発話表現が登録された第2辞書へ移行する、
情報処理装置。
(2)
前記辞書更新部は、前記第2辞書に登録されている発話表現の優先度に基づいて、前記第2辞書に登録されている発話表現を前記第1辞書に移行する、
前記(1)に記載の情報処理装置。
(3)
前記第2辞書、をさらに備える、
前記(1)または(2)に記載の情報処理装置。
(4)
前記辞書更新部は、外部装置から取得した発話表現を前記第1辞書または前記第2辞書に追加登録する、
前記(3)に記載の情報処理装置。
(5)
前記辞書更新部は、前記外部装置が有する集合知に基づき分析された相関表現を前記外部装置から取得し、
前記集合知は、複数の端末から収集された前記発話実績の集合である、
前記(4)に記載の情報処理装置。
(6)
前記第2辞書を用いた第2音声認識処理を実行する第2音声認識部、
をさらに備え、
前記第1音声認識部および前記第2音声認識部は、検出された同一の発話に対し、前記第1音声認識処理および前記第2音声認識処理をそれぞれ実行する、
前記(3)~(5)のいずれかに記載の情報処理装置。
(7)
前記第1音声認識部および前記第2音声認識部は、前記第1音声認識処理および前記第2音声認識処理をリアルタイムに実行する、
前記(6)に記載の情報処理装置。
(8)
前記第1音声認識処理の結果に基づいて自律動作体の行動を計画する行動計画部、
をさらに備え、
前記行動計画部は、前記第1音声認識処理の結果に基づいて立案した行動計画を、前記第2音声認識処理の結果に基づいて修正する、
前記(6)に記載の情報処理装置。
(9)
前記発話実績の評価を行う評価部、
をさらに備え、
前記評価部は、前記第1音声認識処理により認識された発話表現の回数と、ユーザの発話時に取得された発話時ステータスとに基づいて、前記発話実績を評価する、
前記(1)~(8)のいずれかに記載の情報処理装置。
(10)
前記評価部は、前記第2辞書を用いた第2音声認識処理の結果にさらに基づいて、前記発話実績を評価する、
前記(9)に記載の情報処理装置。
(11)
前記評価部は、前記第1音声認識処理の結果および前記発話時ステータスから算出した確実度に基づいて、前記発話実績を評価する、
前記(9)または(10)に記載の情報処理装置。
(12)
前記第1辞書および前記第2辞書よりも多くの発話表現が登録された大辞書を用いた第3音声認識処理を実行する第3音声認識部、
をさらに備え、
前記評価部は、前記第3音声認識処理の結果に基づいて前記発話実績を評価する、
前記(9)~(11)のいずれかに記載の情報処理装置。
(13)
前記第3音声認識部は、計算資源の使用率が閾値未満となることが予測される時間帯に前記第3音声認識処理を実行する、
前記(12)に記載の情報処理装置。
(14)
前記第3音声認識部は、前記第1音声認識部とは、異なる言語モデルを用いた前記第3音声認識処理を実行する、
前記(12)または(13)に記載の情報処理装置。
(15)
前記辞書更新部は、ユーザ状況に基づいて、前記第1辞書に登録が可能な発話表現の最大数を動的に変更する、
前記(1)~(14)のいずれかに記載の情報処理装置。
(16)
前記辞書更新部は、ユーザの増減またはユーザの成長のうち少なくともいずれかに基づいて、前記第1辞書に登録が可能な発話表現の最大数を動的に変更する、
前記(15)に記載の情報処理装置。
(17)
前記発話表現は、少なくとも語彙を含む、
前記(1)~(16)のいずれかに記載の情報処理装置。
(18)
前記自律動作体である、
前記(8)に記載の情報処理装置。
(19)
プロセッサが、複数の発話表現が登録された第1辞書を用いた第1音声認識処理を実行することと、
ユーザの発話実績に基づいて前記第1辞書に登録される発話表現を更新することと、
を含み、
前記更新することは、前記発話実績が低い発話表現を前記第1辞書から削除、または前記第1辞書に登録されていない複数の発話表現が登録された第2辞書へ移行すること、をさらに含む、
情報処理方法。
(20)
コンピュータを、
複数の発話表現が登録された第1辞書と、
前記第1辞書を用いた第1音声認識処理を実行する第1音声認識部と、
ユーザの発話実績に基づいて前記第1辞書に登録される発話表現を更新する辞書更新部と、
を備え、
前記辞書更新部は、前記発話実績が低い発話表現を前記第1辞書から削除、または前記第1辞書に登録されていない複数の発話表現が登録された第2辞書へ移行する、
情報処理装置、
として機能させるためのプログラム。
110 入力部
120 認識部
130 学習部
140 行動計画部
150 動作制御部
160 駆動部
170 出力部
710 第1音声認識部
715 第1辞書
720 発話ログ
725 状態認識部
730 発話時ステータスログ
735 評価部
740 辞書更新部
745 第2辞書
750 第2音声認識部
755 大辞書
760 第3音声認識部
765 言語モデル
Claims (9)
- 複数の発話表現が登録された第1辞書と、
前記第1辞書を用いた第1音声認識処理を実行する第1音声認識部と、
ユーザの発話実績に基づいて前記第1辞書に登録される発話表現を更新する辞書更新部と、
を備え、
前記辞書更新部は、前記発話実績が低い発話表現を前記第1辞書から削除、または前記第1辞書に登録されていない複数の発話表現が登録された第2辞書へ移行し、
前記辞書更新部は、外部装置が有する集合知に基づき分析された相関表現を前記外部装置から取得し、取得した前記相関表現を前記第1辞書または前記第2辞書に追加登録し、
前記集合知は、複数の端末から収集された前記発話実績の集合であり、
前記辞書更新部は、前記第2辞書に登録されている発話表現の優先度に基づいて、前記第2辞書に登録されている発話表現を前記第1辞書に移行する、
情報処理装置。 - 前記第2辞書は、前記第1辞書に登録する発話表現の候補を複数含む発話表現辞書である、
請求項1に記載の情報処理装置。 - 前記第2辞書、をさらに備える、
請求項1に記載の情報処理装置。 - 複数の発話表現が登録された第1辞書と、
前記第1辞書を用いた第1音声認識処理を実行する第1音声認識部と、
ユーザの発話実績に基づいて前記第1辞書に登録される発話表現を更新する辞書更新部と、
を備え、
前記辞書更新部は、前記発話実績が低い発話表現を前記第1辞書から削除、または前記第1辞書に登録されていない複数の発話表現が登録された第2辞書へ移行し、
前記辞書更新部は、外部装置が有する集合知に基づき分析された相関表現を前記外部装置から取得し、取得した前記相関表現を前記第1辞書または前記第2辞書に追加登録し、
前記集合知は、複数の端末から収集された前記発話実績の集合であり、
前記第2辞書を用いた第2音声認識処理を実行する第2音声認識部、
をさらに備え、
前記第1音声認識部および前記第2音声認識部は、検出された同一の発話に対し、前記第1音声認識処理および前記第2音声認識処理をそれぞれ実行する、
情報処理装置。 - 前記第1音声認識部および前記第2音声認識部は、前記第1音声認識処理および前記第2音声認識処理をリアルタイムに実行する、
請求項4に記載の情報処理装置。 - 前記第2音声認識処理の認識精度は、前記第1音声認識処理の認識精度より優れている、
請求項4に記載の情報処理装置。 - 前記発話表現は、少なくとも語彙を含む、
請求項1に記載の情報処理装置。 - プロセッサが、
複数の発話表現が登録された第1辞書を用いた第1音声認識処理を実行することと、
ユーザの発話実績に基づいて前記第1辞書に登録される発話表現を更新することと、
を含み、
前記更新することは、前記発話実績が低い発話表現を前記第1辞書から削除、または前記第1辞書に登録されていない複数の発話表現が登録された第2辞書へ移行すること、を含み、
前記プロセッサが、
外部装置が有する集合知に基づき分析された相関表現を前記外部装置から取得し、取得した前記相関表現を前記第1辞書または前記第2辞書に追加登録することと、
前記第2辞書に登録されている発話表現の優先度に基づいて、前記第2辞書に登録されている発話表現を前記第1辞書に移行することと、
をさらに含み、
前記集合知は、複数の端末から収集された前記発話実績の集合である、
情報処理方法。 - コンピュータを、
複数の発話表現が登録された第1辞書と、
前記第1辞書を用いた第1音声認識処理を実行する第1音声認識部と、
ユーザの発話実績に基づいて前記第1辞書に登録される発話表現を更新する辞書更新部と、
を備え、
前記辞書更新部は、前記発話実績が低い発話表現を前記第1辞書から削除、または前記第1辞書に登録されていない複数の発話表現が登録された第2辞書へ移行し、
前記辞書更新部は、外部装置が有する集合知に基づき分析された相関表現を前記外部装置から取得し、取得した前記相関表現を前記第1辞書または前記第2辞書に追加登録し、
前記集合知は、複数の端末から収集された前記発話実績の集合であり、
前記辞書更新部は、前記第2辞書に登録されている発話表現の優先度に基づいて、前記第2辞書に登録されている発話表現を前記第1辞書に移行する、
情報処理装置、
として機能させるためのプログラム。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2018124856 | 2018-06-29 | ||
| JP2018124856 | 2018-06-29 | ||
| PCT/JP2019/024475 WO2020004213A1 (ja) | 2018-06-29 | 2019-06-20 | 情報処理装置、情報処理方法、およびプログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPWO2020004213A1 JPWO2020004213A1 (ja) | 2021-07-08 |
| JP7459791B2 true JP7459791B2 (ja) | 2024-04-02 |
Family
ID=68987139
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2020527456A Active JP7459791B2 (ja) | 2018-06-29 | 2019-06-20 | 情報処理装置、情報処理方法、およびプログラム |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US12067971B2 (ja) |
| JP (1) | JP7459791B2 (ja) |
| CN (1) | CN112334975A (ja) |
| WO (1) | WO2020004213A1 (ja) |
Families Citing this family (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20200027475A (ko) | 2017-05-24 | 2020-03-12 | 모듈레이트, 인크 | 음성 대 음성 변환을 위한 시스템 및 방법 |
| EP4226362A4 (en) * | 2020-10-08 | 2025-01-01 | Modulate, Inc. | MULTI-LEVEL ADAPTIVE CONTENT MODERATION SYSTEM |
| US11676594B2 (en) * | 2020-12-03 | 2023-06-13 | Google Llc | Decaying automated speech recognition processing results |
| KR20220133414A (ko) * | 2021-03-25 | 2022-10-05 | 삼성전자주식회사 | 음성 어시스턴트 서비스 제공 방법 및 이를 지원하는 전자 장치 |
| WO2023235517A1 (en) | 2022-06-01 | 2023-12-07 | Modulate, Inc. | Scoring system for content moderation |
Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003295893A (ja) | 2002-04-01 | 2003-10-15 | Omron Corp | 音声認識システム、装置、音声認識方法、音声認識プログラム及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体 |
| JP2007033901A (ja) | 2005-07-27 | 2007-02-08 | Nec Corp | 音声認識システム、音声認識方法、および音声認識用プログラム |
| JP2007163895A (ja) | 2005-12-14 | 2007-06-28 | Mitsubishi Electric Corp | 音声認識装置 |
| JP2014048507A (ja) | 2012-08-31 | 2014-03-17 | National Institute Of Information & Communication Technology | ローカル言語資源の補強装置及びサービス提供設備装置 |
| JP2014178380A (ja) | 2013-03-13 | 2014-09-25 | Toshiba Corp | 音声認識装置、音声認識プログラム及び音声認識方法 |
| WO2017154282A1 (ja) | 2016-03-10 | 2017-09-14 | ソニー株式会社 | 音声処理装置および音声処理方法 |
| JP2018031985A (ja) | 2016-08-26 | 2018-03-01 | 恒次 國分 | 音声認識補完システム |
Family Cites Families (28)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2589300B2 (ja) * | 1987-01-28 | 1997-03-12 | 富士通株式会社 | 単語音声認識装置 |
| JPH06167992A (ja) * | 1992-11-27 | 1994-06-14 | Ricoh Co Ltd | 音声パターン作成装置およびそれを用いた標準パターン登録装置 |
| JPH08254990A (ja) * | 1995-03-16 | 1996-10-01 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 単語分類処理装置及び音声認識装置 |
| US6757647B1 (en) * | 1998-07-30 | 2004-06-29 | International Business Machines Corporation | Method for encoding regular expressions in a lexigon |
| US20020032564A1 (en) * | 2000-04-19 | 2002-03-14 | Farzad Ehsani | Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface |
| MY141150A (en) * | 2001-11-02 | 2010-03-15 | Panasonic Corp | Channel selecting apparatus utilizing speech recognition, and controling method thereof |
| US8095364B2 (en) * | 2004-06-02 | 2012-01-10 | Tegic Communications, Inc. | Multimodal disambiguation of speech recognition |
| CN102393793A (zh) * | 2004-06-04 | 2012-03-28 | B·F·加萨比安 | 在移动和固定环境中增强数据输入的系统 |
| US7860873B2 (en) * | 2004-07-30 | 2010-12-28 | International Business Machines Corporation | System and method for automatic terminology discovery |
| DE602005015984D1 (de) * | 2005-11-25 | 2009-09-24 | Swisscom Ag | Verfahren zur Personalisierung eines Dienstes |
| JP4767754B2 (ja) * | 2006-05-18 | 2011-09-07 | 富士通株式会社 | 音声認識装置および音声認識プログラム |
| US20080154576A1 (en) * | 2006-12-21 | 2008-06-26 | Jianchao Wu | Processing of reduced-set user input text with selected one of multiple vocabularies and resolution modalities |
| JP4941494B2 (ja) * | 2009-03-30 | 2012-05-30 | 株式会社デンソー | 音声認識システム |
| US8719023B2 (en) | 2010-05-21 | 2014-05-06 | Sony Computer Entertainment Inc. | Robustness to environmental changes of a context dependent speech recognizer |
| CN103229232B (zh) * | 2010-11-30 | 2015-02-18 | 三菱电机株式会社 | 声音识别装置及导航装置 |
| US8738355B2 (en) * | 2011-01-06 | 2014-05-27 | Qualcomm Incorporated | Methods and apparatuses for providing predictive translation information services to mobile stations |
| JP6233867B2 (ja) * | 2012-02-28 | 2017-11-22 | 日本電気株式会社 | 音声認識用辞書登録システム、音声認識システム、音声認識サービスシステム、方法およびプログラム |
| US9336197B2 (en) * | 2013-01-22 | 2016-05-10 | Tencent Technology (Shenzhen) Company Limited | Language recognition based on vocabulary lists |
| US9582608B2 (en) * | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
| TWI579828B (zh) * | 2015-06-01 | 2017-04-21 | 鴻海精密工業股份有限公司 | 語音辨識裝置及方法 |
| DE102015211101B4 (de) * | 2015-06-17 | 2025-02-06 | Volkswagen Aktiengesellschaft | Spracherkennungssystem sowie Verfahren zum Betreiben eines Spracherkennungssystems mit einer mobilen Einheit und einem externen Server |
| CN105224664B (zh) * | 2015-10-08 | 2019-02-05 | 孙继兰 | 一种数字出版物词汇抽取、显示方法和系统 |
| US20170133015A1 (en) * | 2015-11-11 | 2017-05-11 | Bernard P. TOMSA | Method and apparatus for context-augmented speech recognition |
| US10360301B2 (en) * | 2016-10-10 | 2019-07-23 | International Business Machines Corporation | Personalized approach to handling hypotheticals in text |
| JP6821393B2 (ja) * | 2016-10-31 | 2021-01-27 | パナソニック株式会社 | 辞書修正方法、辞書修正プログラム、音声処理装置及びロボット |
| CN108010523B (zh) * | 2016-11-02 | 2023-05-09 | 松下电器(美国)知识产权公司 | 信息处理方法以及记录介质 |
| CN107679037B (zh) * | 2017-10-11 | 2021-01-15 | 北京工商大学 | 一种基于词频的数字出版物词汇抽取方法 |
| US10770069B2 (en) * | 2018-06-07 | 2020-09-08 | International Business Machines Corporation | Speech processing and context-based language prompting |
-
2019
- 2019-06-20 CN CN201980042046.0A patent/CN112334975A/zh active Pending
- 2019-06-20 WO PCT/JP2019/024475 patent/WO2020004213A1/ja not_active Ceased
- 2019-06-20 US US17/250,271 patent/US12067971B2/en active Active
- 2019-06-20 JP JP2020527456A patent/JP7459791B2/ja active Active
Patent Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003295893A (ja) | 2002-04-01 | 2003-10-15 | Omron Corp | 音声認識システム、装置、音声認識方法、音声認識プログラム及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体 |
| JP2007033901A (ja) | 2005-07-27 | 2007-02-08 | Nec Corp | 音声認識システム、音声認識方法、および音声認識用プログラム |
| JP2007163895A (ja) | 2005-12-14 | 2007-06-28 | Mitsubishi Electric Corp | 音声認識装置 |
| JP2014048507A (ja) | 2012-08-31 | 2014-03-17 | National Institute Of Information & Communication Technology | ローカル言語資源の補強装置及びサービス提供設備装置 |
| JP2014178380A (ja) | 2013-03-13 | 2014-09-25 | Toshiba Corp | 音声認識装置、音声認識プログラム及び音声認識方法 |
| WO2017154282A1 (ja) | 2016-03-10 | 2017-09-14 | ソニー株式会社 | 音声処理装置および音声処理方法 |
| JP2018031985A (ja) | 2016-08-26 | 2018-03-01 | 恒次 國分 | 音声認識補完システム |
Also Published As
| Publication number | Publication date |
|---|---|
| US12067971B2 (en) | 2024-08-20 |
| CN112334975A (zh) | 2021-02-05 |
| JPWO2020004213A1 (ja) | 2021-07-08 |
| WO2020004213A1 (ja) | 2020-01-02 |
| US20210264899A1 (en) | 2021-08-26 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7459791B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
| CN209364629U (zh) | 信息处理装置 | |
| US20230173683A1 (en) | Behavior control device, behavior control method, and program | |
| CN111002303B (zh) | 识别装置、机器人、识别方法和存储介质 | |
| US12204338B2 (en) | Information processing apparatus, information processing method, and program | |
| CN113056315B (zh) | 信息处理装置、信息处理方法和程序 | |
| JP7626179B2 (ja) | 情報処理装置、及び、情報処理方法 | |
| WO2002045916A1 (en) | Robot device, method for controlling motion of robot device, and system for controlling motion of robot device | |
| US20200269421A1 (en) | Information processing device, information processing method, and program | |
| JP7259843B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
| US12220805B2 (en) | Information processing device and information processing method | |
| US11938625B2 (en) | Information processing apparatus, information processing method, and program | |
| JP2020151070A (ja) | ロボット及びロボットの制御方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220511 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230509 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230705 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231017 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231206 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240220 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240304 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7459791 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |