[go: up one dir, main page]

JP2004038179A - 音声命令語処理装置及び方法 - Google Patents

音声命令語処理装置及び方法 Download PDF

Info

Publication number
JP2004038179A
JP2004038179A JP2003272066A JP2003272066A JP2004038179A JP 2004038179 A JP2004038179 A JP 2004038179A JP 2003272066 A JP2003272066 A JP 2003272066A JP 2003272066 A JP2003272066 A JP 2003272066A JP 2004038179 A JP2004038179 A JP 2004038179A
Authority
JP
Japan
Prior art keywords
database
grammar
voice command
voice
control unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003272066A
Other languages
English (en)
Inventor
Jee-Eun Oh
呉 知恩
Sung-Hoon Hwang
黄 聖▲フン▼
Hyung-Jin Seo
徐 炯▲ジン▼
Yu-Seong Jeon
全 裕成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2004038179A publication Critical patent/JP2004038179A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文法を基盤にした音声命令語が貯蔵されたデータベースを構築して音声命令語処理時に音声命令データベースアクセスタイムを縮める音声命令語処理装置及び方法を提供する。
【解決手段】本発明は、(a)文法を基盤にした音声命令語が貯蔵された複数のデータベースを構築する段階と、(b)音声命令語を受信して文法と検索語とを含む意味ある単語に分離する段階と、(c)前記複数のデータベースから前記文法と同じデータベースを探す段階と、(d)前記文法と同じデータベースから前記検索語を探して命令を実行する段階とを含む音声命令語処理方法に関する。
【選択図】図2

Description

 本発明は音声認識機器の音声処理装置及び方法に係り、特に文法を基盤にした音声命令語が貯蔵されたデータベースを構築して音声命令語処理時に音声命令データベースアクセスタイムを縮める音声命令語処理装置及び方法に関する。
 図1は、従来の音声命令語処理装置の構成を示すブロック図であって、マイク100、音声認識及び制御部101−1及びデータベース101−2を含む音声認識エンジン101、スピーカ102で構成される。
 ユーザーがマイク100を通じて音声命令語を入力すれば、音声認識及び制御部101−1は入力された音声命令語を分析する。音声認識及び制御部101−1は分析された音声命令語と同一な命令語をデータベース101−2から検索した後、該当命令語を実行する。音声認識及び制御部101−1が入力された音声命令語の分析できない場合、スピーカ102を通じて音声命令の再入力を要請する。
 このように従来には音声命令語が入力されれば、一定の規則無しに音声認識エンジン101のデータベース101−2に順次に貯蔵される。したがって、音声認識及び制御部101−1が、入力された音声命令を分析して実行するためにデータベース101−2に貯蔵された音声命令語データをアクセスする時間が延びる。また音声命令語が追加されるほどアクセス時間も比例して延びる問題点が生じる。
 本発明が解決しようとする技術的な課題は、文法を基盤にした音声命令語が貯蔵されたデータベースを構築し、音声命令語を意味ある単語に分離し、単語に該当するデータベースだけを検索することによって音声命令語処理時に音声命令データベースアクセスタイムを縮める音声命令語処理方法を提供するところにある。
 本発明が解決しようとする技術的な課題は、文法を基盤にした音声命令語が貯蔵されたデータベースを構築し、音声命令語を意味ある単語に分離し、単語に該当するデータベースだけを検索することによって音声命令語処理時に音声命令データベースアクセスタイムを縮める音声命令語処理装置を提供するところにある。
 本発明が達成しようとする技術的な課題を解決するための音声命令語処理方法は、(a)文法を基盤にした音声命令語が貯蔵された複数のデータベースを構築する段階と、(b)音声命令語を受信して文法と検索語とを含む意味ある単語に分離する段階と、(c)前記複数のデータベースから前記文法と同じデータベースを探す段階と、(d)前記文法と同じデータベースから前記検索語を探して命令を実行する段階とを含むことが望ましい。
 本発明において、前記(a)段階で前記複数のデータベースは追加/削除可能に構成されることを特徴とする。
 本発明において、前記(c)段階及び(d)段階で前記データベース検索が失敗した場合に前記音声命令語の再入力を要請することを特徴とする。
 本発明が達成しようとする他の技術的な課題を解決するための音声命令語処理装置は、文法を基盤にした音声命令語が貯蔵された複数のデータベースと、文法が含まれた音声命令語を受信して文法及び検索語に分離する分離手段と、前記複数のデータベースから前記文法と同じデータベースを探して前記文法と同じデータベースから前記検索語を探して命令実行を制御する制御手段と、を含むことが望ましい。
 本発明において、前記制御手段で前記データベース検索が失敗した場合に前記音声命令語の再入力を要請することを特徴とする。
 前述したように本発明によれば、文法を基盤にした音声命令語が貯蔵されたデータベースを構築し、音声命令語を意味ある単語に分離して単語に該当するデータベースだけを検索することによって、音声命令語処理時に音声命令データベースアクセスタイムを縮められる。
 以下、添付した図面に基づき、本発明を詳細に説明する。
 図2は、本発明に係る音声命令語処理装置の構成を示すブロック図であって、マイク200、音声比較部201−1、データベース201−2及び音声分析部201−3を含む音声認識エンジン201、制御部202、音声命令データベース203、信号処理部204、スピーカ205、ディスプレイ部206で構成される。
 図3は、本発明に係る音声命令語処理方法の動作を示すフローチャートであって、音声命令データベース構築段階(300)、音声入力段階(301)、音声認識段階(302)、認識結果を意味ある単語に分離する段階(303)、分離された単語に該当する音声命令データベースを検索する段階(304)、該当データベースから分離された単語と同じ音声命令語の検索有無を判断する段階(305)、音声命令語再入力要請段階(306)、該当命令語を実行して音声出力及び/またはディスプレイ段階(307)で構成される。
 次いで、図2及び図3を参照して本発明を詳細に説明する。
 本発明はEmbedded用モバイル端末機、音声認識ホームオートメーション、音声認識玩具、音声認識語学学習機、音声認識ブラウザー、音声認識ゲーム、音声認識PCS(Personal Communication System)、音声認識電化製品、音声認識証券取引、音声認識自動案内システムなどの全ての音声認識機器に適用される。
 音声認識機器は、図2に示されたような文法を基盤に構成された音声命令データベース203を具備する。
 音声命令データベース203はプログラムを実行するプログラム実行命令データベース203−1、情報を読取りするReadから始まる命令データベース203−2、単語を入力するInput単語データベース203−3、アドレス情報を提供するアドレスブックデータベース203−4、インターネットエクスプローラ(登録商標)のブックマーク情報を提供するIEブックマークデータベース203−5、スケジュール関連情報を提供するSchedule&Task関連データベース203−6などの複数のデータベースを含む。音声命令データベース203は図2に示されたようにデータベースの数字が一定の数に限定されておらず、追加/削除が可能である。
 情報を得るためにユーザーはマイク200を通じて音声命令語を入力する。この際、ユーザーは文法を含む音声命令語を入力する。例えば、インターネットを実行しようとする場合、マイク200を通じて“Go to Internet”を音声入力する。
 音声エンジン201はマイク200から伝送された音声命令語を認識及び分析し、その結果を制御部202に出力する。音声比較部201−1はマイク200から伝送された音声命令語を周波数または一定のレベルに変換させた後にデータベース201−2に貯蔵された基準値と比較して認識結果を出力する。音声分析部201−3は音声比較部201−1から出力された認識結果を分析して意味ある単語に分離する。例えば、“Go to Internet”に対して音声分析部201−3はGo toとインターネットという意味ある単語を分離する。この際、Go toは文法となり、Internetは検索語となる。
 制御部202は音声認識エンジン201から出力される文法と検索語とで構成された意味ある単語について該当データベース203をアクセスして命令実行を制御する。音声認識エンジン201から文法と検索語とで構成された認識結果が出力されれば、制御部202は、まず文法を確認した後にデータベース203から該当文法と同じデータベース203を探す。該当文法と同じデータベース203を探した後、制御部202は該当文法と同じデータベース203で同じ検索語を探す。例えば、音声認識エンジン201から文法がGo toであり、検索語がInternetである認識結果が出力されれば、制御部202はデータベース203を検索してGo toから始まるデータベース203−1を探す。制御部202はGo toから始まるデータベース203−1を再検索してInternetを探す。要約すれば、制御部202はデータベース203を全て検索せず、該当文法データベースだけを検索し、検索された該当データベースで検索語を探す。制御部202はユーザーが入力した音声命令語であるGo to Internetをプログラム実行命令データベース203−1で検索し、データを読込んで実行する。しかし、制御部202がデータベース203を検索できない場合(ユーザーの音声命令語が不正確な場合など)、ユーザーに音声命令語再入力を要請できる。
 信号処理部204は、音声命令実行結果をスピーカ205及び/またはディスプレイ部206に出力するための信号処理を行う。また、信号処理部204は制御部202からの音声命令語再入力要請によって音声命令語再入力要請信号をスピーカ205及び/またはディスプレイ部206に出力する。
 図3を参照して音声命令語処理方法を説明すれば、音声認識機器に音声命令データベースを構築する(300段階)。音声命令データベース203はプログラムを実行するプログラム実行命令データベース203−1、情報を読取ってReadから始まる命令データベース203−2、単語を入力するInput単語データベース203−3、アドレス情報を提供するアドレスブックデータベース203−4、インターネットエクスプローラ(登録商標)ブックマーク情報を提供するIEブックマークデータベース203−5、スケジュール関連情報を提供するSchedule & Task関連データベース203−6のような複数のデータベースを含む。音声命令データベース203は図2に示されたようにデータベースの数字が一定の数に限定されておらず、追加または削除可能である。
 情報を得ようとするユーザーは音声命令語を入力する(301段階)。この際、ユーザーは文法を含む音声命令語を入力する。例えば、特定人のアドレスが知りたい場合、マイク200を通じて“Search張ドンゴン”を音声入力する。
 ユーザーから音声命令語が入力されれば、音声認識エンジン201は受信された音声命令語を認識する(302段階)。音声エンジン201の音声比較部201−1はマイク200から伝送された音声命令語を周波数または一定のレベルに変換させた後、データベース201−2に貯蔵された基準値と比較して認識結果を出力する。
 音声認識エンジン201は認識結果を意味ある単語に分離する(303段階)。音声分析部201−3は音声比較部201−1から出力された認識結果を分析して意味ある単語に分離する。例えば、“Search 張ドンゴン”に対して音声分析部201−3はSearchと張ドンゴンという意味ある単語を分離する。この際、Searchは文法となり、張ドンゴンは検索語となる。
 制御部202は音声認識エンジン201から分離された単語に該当する音声命令データベース203を検索する(304段階)。音声認識エンジン201から文法と検索語とで構成された認識結果が出力されれば、制御部202は、まず文法を確認した後にデータベース203から該当文法と同じデータベース203を探す。該当文法と同じデータベース203を探した後、制御部202は該当文法と同じデータベース203から同じ検索語を探す。例えば、音声認識エンジン201から文法がSearchであり、検索語が張ドンゴンである認識結果が出力されれば、制御部202はデータベース203を検索してSearchから始まるデータベース203−4を探す。制御部202はSearchから始まるデータベース203−4を再検索して張ドンゴンを探す。要約すれば、制御部202はデータベース203を全て検索するのではなく、該当文法データベースだけを検索し、検索された該当データベースから検索語を探す。
 制御部202は該当データベース203から分離された単語と同じ音声命令語が検索されたか否かを判断する(305段階)。
 該当データベース203から分離された単語と同じ音声命令語が検索されていない場合、音声命令語再入力を要請する(306段階)。制御部202がデータベース203を検索できない場合(ユーザーの音声命令語が不正確な場合など)、ユーザーに音声命令語再入力を要請する。信号処理部204は制御部202からの音声命令語再入力要請によって音声命令語再入力要請信号をスピーカ205及び/またはディスプレイ部206に出力する。
 該当データベース203から分離された単語と同じ音声命令語が検索された場合、該当命令語を実行して音声出力及び/またはディスプレイする(307段階)。信号処理部204は制御部202の音声命令実行結果をスピーカ205及び/またはディスプレイ部206に出力するための信号処理を行う。例えば、制御部202はユーザーが入力した音声命令語である“Search張ドンゴン”に対応するアドレスブックデータベース203−4から張ドンゴンのアドレスを呼び出した後、信号処理してスピーカ205及び/またはディスプレイ部206に出力する。
 本発明において、Embedded用音声認識機器(例えば、PDAなど)で音声命令語を処理する音声認識ソフトウェアは、特定レコードを検索できるSQL文を提供するOracleや、MS−SQL、My−SQLなどを使用せず、WinCEに搭載されたCEDBを用いることが望ましい。Embedded用機器はリソースが非常に足りないために、OracleやMS−SQL、My−SQLなどを搭載する場合、膨大なリソースを占めるので、WinCEに搭載されたCEDBを使用してリソース問題を解決することが望ましい。
 本発明は前述した実施例に限定されず、本発明の思想内で当業者による変形が可能なのはもちろんである。
従来の音声命令語処理装置の構成を示すブロック図である。 本発明に係る音声命令語処理装置の構成を示すブロック図である。 本発明に係る音声命令語処理方法の動作を示すフローチャートである。
符号の説明
 200 マイク
 201 音声認識エンジン
 201−1 音声比較部
 201−2 データベース
 201−3 音声分析部
 202 制御部
 203 音声命令データベース
 204 信号処理部
 205 スピーカ
 206 ディスプレイ部

Claims (6)

  1.  (a)文法を基盤にした音声命令語が貯蔵された複数のデータベースを構築する段階と、
     (b)音声命令語を受信して文法と検索語とを含む意味ある単語に分離する段階と、
     (c)前記複数のデータベースから前記文法と同じデータベースを探す段階と、
     (d)前記文法と同じデータベースから前記検索語を探して命令を実行する段階と
    を含む音声命令語処理方法。
  2.  前記(a)段階において前記複数のデータベースは追加/削除可能に構成されることを特徴とする請求項1に記載の音声命令語処理方法。
  3.  前記(c)段階及び(d)段階において前記データベース検索が失敗した場合に前記音声命令語の再入力を要請することを特徴とする請求項1に記載の音声命令語処理方法。
  4.  文法を基盤にした音声命令語が貯蔵された複数のデータベースと、
     文法が含まれた音声命令語を受信して文法及び検索語に分離する分離手段と、
     前記複数のデータベースから前記文法と同じデータベースを探して前記文法と同じデータベースから前記検索語を探して命令実行を制御する制御手段と
    を含む音声命令語処理装置。
  5.  前記制御手段において前記データベース検索が失敗した場合に前記音声命令語の再入力を要請することを特徴とする請求項4に記載の音声命令語処理装置。
  6.  前記制御手段は前記複数のデータベースに貯蔵された音声命令語を追加/削除できる音声命令語追加/削除手段をさらに含むことを特徴とする請求項4に記載の音声命令語処理装置。

JP2003272066A 2002-07-11 2003-07-08 音声命令語処理装置及び方法 Pending JP2004038179A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2002-0040403A KR100490406B1 (ko) 2002-07-11 2002-07-11 음성 명령어 처리 장치 및 방법

Publications (1)

Publication Number Publication Date
JP2004038179A true JP2004038179A (ja) 2004-02-05

Family

ID=30113136

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003272066A Pending JP2004038179A (ja) 2002-07-11 2003-07-08 音声命令語処理装置及び方法

Country Status (3)

Country Link
US (1) US20040010410A1 (ja)
JP (1) JP2004038179A (ja)
KR (1) KR100490406B1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050283368A1 (en) * 2004-06-22 2005-12-22 Leung Kam L System and method for automated personalized alerts using interactive voice response
US9026447B2 (en) 2007-11-16 2015-05-05 Centurylink Intellectual Property Llc Command and control of devices and applications by voice using a communication base system
WO2012142323A1 (en) * 2011-04-12 2012-10-18 Captimo, Inc. Method and system for gesture based searching
CN103377212B (zh) * 2012-04-19 2016-01-20 腾讯科技(深圳)有限公司 一种语音控制浏览器动作的方法、系统及浏览器
KR20140089871A (ko) 2013-01-07 2014-07-16 삼성전자주식회사 대화형 서버, 그 제어 방법 및 대화형 시스템
US9384732B2 (en) * 2013-03-14 2016-07-05 Microsoft Technology Licensing, Llc Voice command definitions used in launching application with a command
US10776375B2 (en) 2013-07-15 2020-09-15 Microsoft Technology Licensing, Llc Retrieval of attribute values based upon identified entities
US9860076B2 (en) * 2014-05-07 2018-01-02 Vivint, Inc. Home automation via voice control
WO2016017978A1 (en) 2014-07-31 2016-02-04 Samsung Electronics Co., Ltd. Device and method for performing functions
KR102388539B1 (ko) * 2017-04-30 2022-04-20 삼성전자주식회사 사용자 발화를 처리하는 전자 장치
CN108245886B (zh) * 2018-01-22 2021-08-10 深度智联(厦门)软件开发有限公司 基于语音控制的游戏化语言学习方法及系统
CN109299223B (zh) * 2018-10-15 2020-05-15 百度在线网络技术(北京)有限公司 用于查询指令的方法及装置
DE102019134874A1 (de) * 2019-06-25 2020-12-31 Miele & Cie. Kg Verfahren zur Bedienung eines Geräts durch einen Benutzer mittels einer Sprachsteuerung

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6081782A (en) * 1993-12-29 2000-06-27 Lucent Technologies Inc. Voice command control and verification system
US5897618A (en) * 1997-03-10 1999-04-27 International Business Machines Corporation Data processing system and method for switching between programs having a same title using a voice command
KR19980076309A (ko) * 1997-04-09 1998-11-16 유영욱 음성인식 방법 및 그 장치
KR20010077316A (ko) * 2000-02-01 2001-08-17 김봉래 무선데이타통신이 가능한 이동전화단말기를 이용 음성을인터페이스로 인터넷을 이용하게 해주는 시스템
KR100385442B1 (ko) * 2000-02-29 2003-05-27 이만균 음성 인터넷 명령어 처리 시스템
KR100519748B1 (ko) * 2000-08-11 2005-10-07 삼성전자주식회사 연속어 음성 명령을 통한 인터넷 네비게이션 시스템 및 그방법
US20030078777A1 (en) * 2001-08-22 2003-04-24 Shyue-Chin Shiau Speech recognition system for mobile Internet/Intranet communication
US20030115289A1 (en) * 2001-12-14 2003-06-19 Garry Chinn Navigation in a voice recognition system

Also Published As

Publication number Publication date
KR100490406B1 (ko) 2005-05-17
KR20040007816A (ko) 2004-01-28
US20040010410A1 (en) 2004-01-15

Similar Documents

Publication Publication Date Title
US12423340B2 (en) Language agnostic command-understanding digital assistant
US11423888B2 (en) Predicting and learning carrier phrases for speech input
US10922990B2 (en) Display apparatus and method for question and answer
EP3424045B1 (en) Developer voice actions system
US11043206B2 (en) Systems and methods for crowdsourced actions and commands
KR102490776B1 (ko) 디지털 개인 비서 내에서 헤드리스로 작업을 완료하기 위한 기법
JP2021018797A (ja) 対話の交互方法、装置、コンピュータ可読記憶媒体、及びプログラム
US10860289B2 (en) Flexible voice-based information retrieval system for virtual assistant
WO2020029500A1 (zh) 语音命令定制方法、装置和设备及计算机存储介质
EP3627498B1 (en) Method and system, for generating speech recognition training data
US20160372110A1 (en) Adapting voice input processing based on voice input characteristics
CN110992937B (zh) 语言离线识别方法、终端及可读存储介质
JP2004038179A (ja) 音声命令語処理装置及び方法
WO2020177592A1 (zh) 画作问答方法及装置、画作问答系统、可读存储介质
CN110968245B (zh) 一种透过语音控制office办公软件的操作方法
JP2005321730A (ja) 対話システム、対話システム実行方法、及びコンピュータプログラム
JP2014106523A (ja) 音声入力対応装置及び音声入力対応プログラム
KR20150077580A (ko) 음성 인식 기반 서비스 제공 방법 및 그 장치
US10714087B2 (en) Speech control for complex commands
CN116665652A (zh) 语音识别方法、语音识别系统、计算机设备和存储介质
CN111142993A (zh) 一种信息获取方法、终端及计算机存储介质
KR20190115405A (ko) 검색 방법 및 이 방법을 적용하는 전자 장치
KR102883520B1 (ko) 인공지능 스피커 및 이를 이용한 대화 진행 방법
US11450325B1 (en) Natural language processing
US20260017543A1 (en) Large model-based information processing

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051220

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20060320

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060323

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20060324

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060718