JP2004038179A

JP2004038179A - 音声命令語処理装置及び方法

Info

Publication number: JP2004038179A
Application number: JP2003272066A
Authority: JP
Inventors: Jee-Eun Oh; 呉　知恩; Sung-Hoon Hwang; 黄　聖▲フン▼; Hyung-Jin Seo; 徐　炯▲ジン▼; Yu-Seong Jeon; 全　裕成
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2002-07-11
Filing date: 2003-07-08
Publication date: 2004-02-05
Also published as: KR100490406B1; KR20040007816A; US20040010410A1

Abstract

【課題】文法を基盤にした音声命令語が貯蔵されたデータベースを構築して音声命令語処理時に音声命令データベースアクセスタイムを縮める音声命令語処理装置及び方法を提供する。
【解決手段】本発明は、（ａ）文法を基盤にした音声命令語が貯蔵された複数のデータベースを構築する段階と、（ｂ）音声命令語を受信して文法と検索語とを含む意味ある単語に分離する段階と、（ｃ）前記複数のデータベースから前記文法と同じデータベースを探す段階と、（ｄ）前記文法と同じデータベースから前記検索語を探して命令を実行する段階とを含む音声命令語処理方法に関する。
【選択図】図２

Description

　本発明は音声認識機器の音声処理装置及び方法に係り、特に文法を基盤にした音声命令語が貯蔵されたデータベースを構築して音声命令語処理時に音声命令データベースアクセスタイムを縮める音声命令語処理装置及び方法に関する。

　図１は、従来の音声命令語処理装置の構成を示すブロック図であって、マイク１００、音声認識及び制御部１０１−１及びデータベース１０１−２を含む音声認識エンジン１０１、スピーカ１０２で構成される。

　ユーザーがマイク１００を通じて音声命令語を入力すれば、音声認識及び制御部１０１−１は入力された音声命令語を分析する。音声認識及び制御部１０１−１は分析された音声命令語と同一な命令語をデータベース１０１−２から検索した後、該当命令語を実行する。音声認識及び制御部１０１−１が入力された音声命令語の分析できない場合、スピーカ１０２を通じて音声命令の再入力を要請する。

　このように従来には音声命令語が入力されれば、一定の規則無しに音声認識エンジン１０１のデータベース１０１−２に順次に貯蔵される。したがって、音声認識及び制御部１０１−１が、入力された音声命令を分析して実行するためにデータベース１０１−２に貯蔵された音声命令語データをアクセスする時間が延びる。また音声命令語が追加されるほどアクセス時間も比例して延びる問題点が生じる。

　本発明が解決しようとする技術的な課題は、文法を基盤にした音声命令語が貯蔵されたデータベースを構築し、音声命令語を意味ある単語に分離し、単語に該当するデータベースだけを検索することによって音声命令語処理時に音声命令データベースアクセスタイムを縮める音声命令語処理方法を提供するところにある。

　本発明が解決しようとする技術的な課題は、文法を基盤にした音声命令語が貯蔵されたデータベースを構築し、音声命令語を意味ある単語に分離し、単語に該当するデータベースだけを検索することによって音声命令語処理時に音声命令データベースアクセスタイムを縮める音声命令語処理装置を提供するところにある。

　本発明が達成しようとする技術的な課題を解決するための音声命令語処理方法は、（ａ）文法を基盤にした音声命令語が貯蔵された複数のデータベースを構築する段階と、（ｂ）音声命令語を受信して文法と検索語とを含む意味ある単語に分離する段階と、（ｃ）前記複数のデータベースから前記文法と同じデータベースを探す段階と、（ｄ）前記文法と同じデータベースから前記検索語を探して命令を実行する段階とを含むことが望ましい。

　本発明において、前記（ａ）段階で前記複数のデータベースは追加／削除可能に構成されることを特徴とする。

　本発明において、前記（ｃ）段階及び（ｄ）段階で前記データベース検索が失敗した場合に前記音声命令語の再入力を要請することを特徴とする。

　本発明が達成しようとする他の技術的な課題を解決するための音声命令語処理装置は、文法を基盤にした音声命令語が貯蔵された複数のデータベースと、文法が含まれた音声命令語を受信して文法及び検索語に分離する分離手段と、前記複数のデータベースから前記文法と同じデータベースを探して前記文法と同じデータベースから前記検索語を探して命令実行を制御する制御手段と、を含むことが望ましい。

　本発明において、前記制御手段で前記データベース検索が失敗した場合に前記音声命令語の再入力を要請することを特徴とする。

　前述したように本発明によれば、文法を基盤にした音声命令語が貯蔵されたデータベースを構築し、音声命令語を意味ある単語に分離して単語に該当するデータベースだけを検索することによって、音声命令語処理時に音声命令データベースアクセスタイムを縮められる。

　以下、添付した図面に基づき、本発明を詳細に説明する。

　図２は、本発明に係る音声命令語処理装置の構成を示すブロック図であって、マイク２００、音声比較部２０１−１、データベース２０１−２及び音声分析部２０１−３を含む音声認識エンジン２０１、制御部２０２、音声命令データベース２０３、信号処理部２０４、スピーカ２０５、ディスプレイ部２０６で構成される。

　図３は、本発明に係る音声命令語処理方法の動作を示すフローチャートであって、音声命令データベース構築段階（３００）、音声入力段階（３０１）、音声認識段階（３０２）、認識結果を意味ある単語に分離する段階（３０３）、分離された単語に該当する音声命令データベースを検索する段階（３０４）、該当データベースから分離された単語と同じ音声命令語の検索有無を判断する段階（３０５）、音声命令語再入力要請段階（３０６）、該当命令語を実行して音声出力及び／またはディスプレイ段階（３０７）で構成される。

　次いで、図２及び図３を参照して本発明を詳細に説明する。

　本発明はＥｍｂｅｄｄｅｄ用モバイル端末機、音声認識ホームオートメーション、音声認識玩具、音声認識語学学習機、音声認識ブラウザー、音声認識ゲーム、音声認識ＰＣＳ（ＰｅｒｓｏｎａｌＣｏｍｍｕｎｉｃａｔｉｏｎＳｙｓｔｅｍ）、音声認識電化製品、音声認識証券取引、音声認識自動案内システムなどの全ての音声認識機器に適用される。

　音声認識機器は、図２に示されたような文法を基盤に構成された音声命令データベース２０３を具備する。

　音声命令データベース２０３はプログラムを実行するプログラム実行命令データベース２０３−１、情報を読取りするＲｅａｄから始まる命令データベース２０３−２、単語を入力するＩｎｐｕｔ単語データベース２０３−３、アドレス情報を提供するアドレスブックデータベース２０３−４、インターネットエクスプローラ（登録商標）のブックマーク情報を提供するＩＥブックマークデータベース２０３−５、スケジュール関連情報を提供するＳｃｈｅｄｕｌｅ＆Ｔａｓｋ関連データベース２０３−６などの複数のデータベースを含む。音声命令データベース２０３は図２に示されたようにデータベースの数字が一定の数に限定されておらず、追加／削除が可能である。

　情報を得るためにユーザーはマイク２００を通じて音声命令語を入力する。この際、ユーザーは文法を含む音声命令語を入力する。例えば、インターネットを実行しようとする場合、マイク２００を通じて“ＧｏｔｏＩｎｔｅｒｎｅｔ”を音声入力する。

　音声エンジン２０１はマイク２００から伝送された音声命令語を認識及び分析し、その結果を制御部２０２に出力する。音声比較部２０１−１はマイク２００から伝送された音声命令語を周波数または一定のレベルに変換させた後にデータベース２０１−２に貯蔵された基準値と比較して認識結果を出力する。音声分析部２０１−３は音声比較部２０１−１から出力された認識結果を分析して意味ある単語に分離する。例えば、“ＧｏｔｏＩｎｔｅｒｎｅｔ”に対して音声分析部２０１−３はＧｏｔｏとインターネットという意味ある単語を分離する。この際、Ｇｏｔｏは文法となり、Ｉｎｔｅｒｎｅｔは検索語となる。

　制御部２０２は音声認識エンジン２０１から出力される文法と検索語とで構成された意味ある単語について該当データベース２０３をアクセスして命令実行を制御する。音声認識エンジン２０１から文法と検索語とで構成された認識結果が出力されれば、制御部２０２は、まず文法を確認した後にデータベース２０３から該当文法と同じデータベース２０３を探す。該当文法と同じデータベース２０３を探した後、制御部２０２は該当文法と同じデータベース２０３で同じ検索語を探す。例えば、音声認識エンジン２０１から文法がＧｏｔｏであり、検索語がＩｎｔｅｒｎｅｔである認識結果が出力されれば、制御部２０２はデータベース２０３を検索してＧｏｔｏから始まるデータベース２０３−１を探す。制御部２０２はＧｏｔｏから始まるデータベース２０３−１を再検索してＩｎｔｅｒｎｅｔを探す。要約すれば、制御部２０２はデータベース２０３を全て検索せず、該当文法データベースだけを検索し、検索された該当データベースで検索語を探す。制御部２０２はユーザーが入力した音声命令語であるＧｏｔｏＩｎｔｅｒｎｅｔをプログラム実行命令データベース２０３−１で検索し、データを読込んで実行する。しかし、制御部２０２がデータベース２０３を検索できない場合（ユーザーの音声命令語が不正確な場合など）、ユーザーに音声命令語再入力を要請できる。

　信号処理部２０４は、音声命令実行結果をスピーカ２０５及び／またはディスプレイ部２０６に出力するための信号処理を行う。また、信号処理部２０４は制御部２０２からの音声命令語再入力要請によって音声命令語再入力要請信号をスピーカ２０５及び／またはディスプレイ部２０６に出力する。

　図３を参照して音声命令語処理方法を説明すれば、音声認識機器に音声命令データベースを構築する（３００段階）。音声命令データベース２０３はプログラムを実行するプログラム実行命令データベース２０３−１、情報を読取ってＲｅａｄから始まる命令データベース２０３−２、単語を入力するＩｎｐｕｔ単語データベース２０３−３、アドレス情報を提供するアドレスブックデータベース２０３−４、インターネットエクスプローラ（登録商標）ブックマーク情報を提供するＩＥブックマークデータベース２０３−５、スケジュール関連情報を提供するＳｃｈｅｄｕｌｅ＆Ｔａｓｋ関連データベース２０３−６のような複数のデータベースを含む。音声命令データベース２０３は図２に示されたようにデータベースの数字が一定の数に限定されておらず、追加または削除可能である。

　情報を得ようとするユーザーは音声命令語を入力する（３０１段階）。この際、ユーザーは文法を含む音声命令語を入力する。例えば、特定人のアドレスが知りたい場合、マイク２００を通じて“Ｓｅａｒｃｈ張ドンゴン”を音声入力する。

　ユーザーから音声命令語が入力されれば、音声認識エンジン２０１は受信された音声命令語を認識する（３０２段階）。音声エンジン２０１の音声比較部２０１−１はマイク２００から伝送された音声命令語を周波数または一定のレベルに変換させた後、データベース２０１−２に貯蔵された基準値と比較して認識結果を出力する。

　音声認識エンジン２０１は認識結果を意味ある単語に分離する（３０３段階）。音声分析部２０１−３は音声比較部２０１−１から出力された認識結果を分析して意味ある単語に分離する。例えば、“Ｓｅａｒｃｈ張ドンゴン”に対して音声分析部２０１−３はＳｅａｒｃｈと張ドンゴンという意味ある単語を分離する。この際、Ｓｅａｒｃｈは文法となり、張ドンゴンは検索語となる。

　制御部２０２は音声認識エンジン２０１から分離された単語に該当する音声命令データベース２０３を検索する（３０４段階）。音声認識エンジン２０１から文法と検索語とで構成された認識結果が出力されれば、制御部２０２は、まず文法を確認した後にデータベース２０３から該当文法と同じデータベース２０３を探す。該当文法と同じデータベース２０３を探した後、制御部２０２は該当文法と同じデータベース２０３から同じ検索語を探す。例えば、音声認識エンジン２０１から文法がＳｅａｒｃｈであり、検索語が張ドンゴンである認識結果が出力されれば、制御部２０２はデータベース２０３を検索してＳｅａｒｃｈから始まるデータベース２０３−４を探す。制御部２０２はＳｅａｒｃｈから始まるデータベース２０３−４を再検索して張ドンゴンを探す。要約すれば、制御部２０２はデータベース２０３を全て検索するのではなく、該当文法データベースだけを検索し、検索された該当データベースから検索語を探す。

　制御部２０２は該当データベース２０３から分離された単語と同じ音声命令語が検索されたか否かを判断する（３０５段階）。

　該当データベース２０３から分離された単語と同じ音声命令語が検索されていない場合、音声命令語再入力を要請する（３０６段階）。制御部２０２がデータベース２０３を検索できない場合（ユーザーの音声命令語が不正確な場合など）、ユーザーに音声命令語再入力を要請する。信号処理部２０４は制御部２０２からの音声命令語再入力要請によって音声命令語再入力要請信号をスピーカ２０５及び／またはディスプレイ部２０６に出力する。

　該当データベース２０３から分離された単語と同じ音声命令語が検索された場合、該当命令語を実行して音声出力及び／またはディスプレイする（３０７段階）。信号処理部２０４は制御部２０２の音声命令実行結果をスピーカ２０５及び／またはディスプレイ部２０６に出力するための信号処理を行う。例えば、制御部２０２はユーザーが入力した音声命令語である“Ｓｅａｒｃｈ張ドンゴン”に対応するアドレスブックデータベース２０３−４から張ドンゴンのアドレスを呼び出した後、信号処理してスピーカ２０５及び／またはディスプレイ部２０６に出力する。

　本発明において、Ｅｍｂｅｄｄｅｄ用音声認識機器（例えば、ＰＤＡなど）で音声命令語を処理する音声認識ソフトウェアは、特定レコードを検索できるＳＱＬ文を提供するＯｒａｃｌｅや、ＭＳ−ＳＱＬ、Ｍｙ−ＳＱＬなどを使用せず、ＷｉｎＣＥに搭載されたＣＥＤＢを用いることが望ましい。Ｅｍｂｅｄｄｅｄ用機器はリソースが非常に足りないために、ＯｒａｃｌｅやＭＳ−ＳＱＬ、Ｍｙ−ＳＱＬなどを搭載する場合、膨大なリソースを占めるので、ＷｉｎＣＥに搭載されたＣＥＤＢを使用してリソース問題を解決することが望ましい。

　本発明は前述した実施例に限定されず、本発明の思想内で当業者による変形が可能なのはもちろんである。

従来の音声命令語処理装置の構成を示すブロック図である。本発明に係る音声命令語処理装置の構成を示すブロック図である。本発明に係る音声命令語処理方法の動作を示すフローチャートである。

符号の説明

　２００　マイク
　２０１　音声認識エンジン
　２０１−１　音声比較部
　２０１−２　データベース
　２０１−３　音声分析部
　２０２　制御部
　２０３　音声命令データベース
　２０４　信号処理部
　２０５　スピーカ
　２０６　ディスプレイ部

Claims

　（ａ）文法を基盤にした音声命令語が貯蔵された複数のデータベースを構築する段階と、
　（ｂ）音声命令語を受信して文法と検索語とを含む意味ある単語に分離する段階と、
　（ｃ）前記複数のデータベースから前記文法と同じデータベースを探す段階と、
　（ｄ）前記文法と同じデータベースから前記検索語を探して命令を実行する段階と
を含む音声命令語処理方法。
　前記（ａ）段階において前記複数のデータベースは追加／削除可能に構成されることを特徴とする請求項１に記載の音声命令語処理方法。
　前記（ｃ）段階及び（ｄ）段階において前記データベース検索が失敗した場合に前記音声命令語の再入力を要請することを特徴とする請求項１に記載の音声命令語処理方法。
　文法を基盤にした音声命令語が貯蔵された複数のデータベースと、
　文法が含まれた音声命令語を受信して文法及び検索語に分離する分離手段と、
　前記複数のデータベースから前記文法と同じデータベースを探して前記文法と同じデータベースから前記検索語を探して命令実行を制御する制御手段と
を含む音声命令語処理装置。
　前記制御手段において前記データベース検索が失敗した場合に前記音声命令語の再入力を要請することを特徴とする請求項４に記載の音声命令語処理装置。
　前記制御手段は前記複数のデータベースに貯蔵された音声命令語を追加／削除できる音声命令語追加／削除手段をさらに含むことを特徴とする請求項４に記載の音声命令語処理装置。