TW201626363A - 一種機器人系統的聲音識別系統及方法 - Google Patents
一種機器人系統的聲音識別系統及方法 Download PDFInfo
- Publication number
- TW201626363A TW201626363A TW104144159A TW104144159A TW201626363A TW 201626363 A TW201626363 A TW 201626363A TW 104144159 A TW104144159 A TW 104144159A TW 104144159 A TW104144159 A TW 104144159A TW 201626363 A TW201626363 A TW 201626363A
- Authority
- TW
- Taiwan
- Prior art keywords
- voice
- module
- remote
- voice signal
- local
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Manipulator (AREA)
Abstract
一種機器人系統的聲音識別系統,包括麥克風,接收語音指令;本地語音檢測器,對語音指令進行檢測並輸出;本地語音識別模組,接收語音檢測器輸出的人聲語音訊號並選擇進行輸出;本地語音編碼模組,用於對人聲語音訊號進行編碼後輸出;遠端語音解碼模組,接收本地語音編碼模組輸出的編碼過的語音訊號進行解碼後輸出;遠端語音識別模組接收遠端語音解碼模組輸出的經解碼過的人聲語音訊號,在進行轉換後輸出到遠端語言處理模組,遠端語言處理模組根據轉換後的人聲語音訊號形成相應的操作指令;以及執行模組,執行遠端語言處理模組的操作指令。
Description
本發明涉及智慧型語音領域,具體涉及一種機器人系統的聲音識別系統及方法。
機器人系統的聲音識別系統主要涉及兩大主要技術:語音識別技術及自然語言處理技術。
語音識別技術,也被稱為自動語音識別(Automatic Speech Recognition,ASR),其目標是將人類的語音中的詞彙內容轉換為電腦可讀的輸入,例如按鍵、二進位編碼或者字元序列。
自然語言處理技術(Natural Language Processing,簡稱NLP),是人工智慧和語言學的分支科學,它的主要目的是為了實現人與電腦之間用自然語言進行有效通訊。
現有主流機器人系統的聲音識別系統都運用了這兩大技術。
機器人系統的聲音識別過程可分為四個階段:接收語音、語音識別、自然語言處理和動作執行。
有機器人系統對語音的接收方式不一,主要可概括為以下三種:1.非即時輸入:機器人只有在額外觸發動作執行,確認觸發之後再開始接收語音輸入。2. 即時輸入:機器人一直接收外界的語音輸入,對所有判斷為人聲輸入的。3. 即時輸入:機器人一直接收外界的語音輸入,每次語音輸入需要使用固定語句來進行觸發。
無論用哪種語音接收方式,當機器人接收到語音訊號之後,首先通過語音識別技術將語音轉換成電腦可讀輸入,通常為字元序列,即文字;然後通過自然語言處理技術將語音識別的結果進行自然語言分析及處理,以得到語音訊號的真正意思;最後根據自然語言處理的結果做出相應的反應,執行命令及動作。
現有機器人系統的聲音識別系統主要有以下三個問題:
1. 需要額外觸發動作觸發才能開始進行語音交流:在最自然的對話模式中增加了多餘的互動,降低了用戶體驗。
2. 並非真正的可以讓人使用自然語言與機器人進行交談,多為固定的語句或句型,涉及的使用範圍非常有限,當一個人不知道這些固定的語句或句型的時候,他將不知道如何去與機器人交流。
3. 不能做到即時反饋,或是能耗太高並且有大量的誤觸發,使得人與機器人之間的互動不流暢,與機器人的交流會變得小心翼翼。
針對習知技術中存在的問題,本發明提供了一種機器人系統的聲音識別系統,包括:麥克風,以即時接收外部的語音訊號;本地語音檢測器,對語音訊號進行檢測,並判斷當前的語音訊號是否包含人聲,若包含人聲則進行輸出;本地語音識別模組,接收語音檢測器輸出的人聲語音訊號並進行辨識,以判斷當前的人聲語音訊號是否包含喚醒指令,若包含喚醒指令則進行輸出;本地語音編碼模組,用於對人聲語音訊號進行編碼後輸出;遠端語音解碼模組,遠端語音解碼模組用於接收本地語音編碼模組輸出的編碼過的語音訊號進行解碼後輸出;遠端語音識別模組和遠端語言處理模組,遠端語音識別模組接收遠端語音解碼模組輸出的經解碼過的人聲語音訊號,在進行轉換後輸出到遠端語言處理模組,遠端語言處理模組根據轉換後的人聲語音訊號生成相應的操作指令;以及執行模組,用於執行遠端語言處理模組的操作指令。
上述的聲音識別系統,其中麥克風位於始終開啟的狀態,以不間斷的即時接收外部語音訊號。
上述的聲音識別系統,其中聲音識別系統還包括多媒體模組,通過多媒體模組來執行操作指令。
上述的聲音識別系統,其本地語音識別模組通過資料流程的方式將人聲語音訊號輸出到遠端語音識別模組。
上述的聲音識別系統,其中聲音識別系統還包括喚醒指令編輯模組,以對喚醒指令進行編輯。
上述的聲音識別系統,其中本地語音檢測器為基於神經網路演算法的語音檢測器。
上述的聲音識別系統,其中遠端語言處理模組根據轉換後的人聲語音訊號生成相應的操作指令的處理時間在10~20ms之間。
同時本發明還公開了一種採用上述識別系統的識別方法,其中,包括如下步驟:利用麥克風即時接收外部的語音訊號;利用本地語音檢測器來判斷當前的語音訊號是否包含人聲,若包含人聲則輸出至本地語音識別模組;利用本地語音識別模組對人聲語音訊號進行判別,以判斷當前的人聲語音訊號是否包含喚醒指令,若包含喚醒指令則將人聲語音訊號進一步進行輸出至本地語音編碼模組;本地語音編碼模組對人聲語音訊號進行編碼後傳輸到遠端語音編碼模組;遠端語音解碼模組對收到的人聲語音訊號進行解碼後傳輸到遠端語音識別模組;利用遠端語音識別模組對遠端語音解碼模組輸出的人聲語音訊號進行轉換,並輸出到遠端語言處理模組;遠端語言處理模組根據轉換後的人聲語音訊號生成相應的操作指令;以及執行模組通過控制多媒體模組來執行操作指令。
上述的方法,其中,在本地語音識別模組辨識到當前的人聲語音訊號包含有喚醒指令時,本地語音識別模組關閉,人聲語音訊號經過本地語音編碼模組的編碼之後,直接傳輸到遠端語音解碼模組進行解碼後傳輸到利用遠端語音識別模組。
在下文的描述中,給出了大量具體的細節以便提供對本發明更為徹底的理解。然而,對於本領域技術人員而言顯而易見的是,本發明可以無需一個或多個這些細節而得以實施。在其他的例子中,為了避免與本發明發生混淆,對於本領域眾所皆知的一些技術特徵未進行描述。
為了徹底理解本發明,將在下列的描述中提出詳細的步驟以及詳細的結構,以便闡釋本發明的技術方案。本發明的較佳實施例詳細描述如下,然而除了這些詳細描述外,本發明還可以具有其他實施方式。
本發明作為機器人系統的耳朵,是機器人理解人的語言以及最自然的人機互動體驗的重要部分,因此需要解決以下三個方面的問題:1. 完全使用語音來進行交流,不需要任何額外的觸發動作。2. 可以讓人真正的使用自然語言與機器人進行交流,不需要固定的語句或句型就可以在工作、生活的各個領域進行交流。3. 在做到即時反饋、極少誤觸發的情況下保持可觀的能耗。
為了解決上述技術問題,本發明提供了一種機器人系統的聲音識別系統,包括:
1. 麥克風,以即時接收外部的語音訊號。在本發明可選擇但非限制的實施例中,麥克風位於始終開啟的狀態,以不間斷的即時接收外部語音訊號。其作用是收集外界的語音資料,作為機器人系統的耳朵。
2. 本地語音檢測器,對語音訊號進行檢測,並判斷當前的語音訊號是否包含人聲,若包含人聲則進行輸出。由於本發明中的機器人系統麥克風始終處於開啟狀態,但環境中會有各種各樣的聲音,其中較多的部分是噪音,對機器人系統的聲音識別是無意義的,為了避免無意義的性能損耗及大量的誤觸發,機器人系統需要對收集到的聲音進行分析和判斷,只有認為收集到的聲音主要來自人聲(即人說話的聲音)才會將該聲音資料傳到識別系統。
在本發明可選擇但非限制的實施例中,本地語音檢測器為基於神經網路演算法的語音檢測器,能夠準確、快速地對輸入的語音資料進行人聲判斷,這是避免環境噪音造成誤觸發,降低網路及服務請求開銷的關鍵部分。
3. 本地語音識別模組,接收語音檢測器輸出的人聲語音訊號並進行辨識,以判斷當前的人聲語音訊號是否包含喚醒指令,若包含喚醒指令則進行輸出。在本發明的機器人系統中,即使由語音檢測器判斷出收集到的聲音是來自人聲,這段人聲也未必是有意義的。一般來說,即這段話並非是對機器人而講,如果將這段語音也上傳到伺服器端進行分析,則會浪費大量的時間和性能。因此,就需要首先在本地快速判斷這段聲音是否是對機器人而講,就像人與人說話一樣,人會先判斷是否在對自己說話,然後才做出回應。
在本發明中,採用特殊最佳化的本地語音識別模組可以快速的識別出所輸入的自然語言是否是說給機器人聽的,並且可以隨時地任意地更新、修改啟動的詞彙或短語(在本發明的機器人系統中定義為機器人的名字,就如同一個人或一隻寵物的名字),其判斷準確率可達90%。在本發明可選擇但非限制的實施例中,假設機器人的名字即喚醒指令,那麼可以通過喚醒指令編輯模組,以對喚醒指令進行編輯,人們可根據自己的喜好任意的設定機器人的名稱,方便快捷。
4. 遠端語音解碼模組,遠端語音解碼模組用於接收本地語音編碼模組輸出的編碼過的語音訊號進行解碼後輸出。
5, 遠端語音識別模組和遠端語言處理模組,遠端語音識別模組接收遠端語音解碼模組輸出的經解碼過的人聲語音訊號,在進行轉換後輸出到遠端語言處理模組,遠端語言處理模組根據轉換後的人聲語音訊號生成相應的操作指令。
其中,遠端語音識別模組擁有更完整的語言模型和聲學模型, 能夠覆蓋日常生活中的90%以上的常用語言,能夠支援多種語言,如英文, 中文及日文等;並可以支援中文的多種方言,如廣東話,四川話,河南話等。 對本發明中的機器人系統所涉及的特定領域亦有更強優化,其語音識別的準 確率可達95%以上。另外,在本發明可選擇但非限制的實施例中,本發明 中的本地語音識別模組是通過資料流程的方式將人聲語音訊號 輸出到遠端 語音識別模組,語音識別模組從收到的第一幀資料開始就已經開始進行即時 識別了,因此當語音結束後,整句話的識別結果已經產生,真正做到了即時 性,從語音資料發送結束到最終識 別結果的形成不超過100ms。遠端自然 語言處理服務可覆蓋日常生活中80% 的使用場景,能夠快速的命中所輸入 的自然語言涉及到的所有領域,處理時間通常在10-20ms之間。因此,在 網路穩定的情況下,本發明中的整個聲音識別過程不會超過500ms。
6、執行模組,用於執行遠端語言處理模組操作指令。在本發明一可選但非限制的實施例中,該執行模組通過控制多媒體模組來執行遠端語言處理模組下發的操作指令,例如打開音樂、導航、發簡訊、控制燈光等等操作。
用戶體驗:只需要使用最符合人的對話模式語音、自然語言。以上模組共同保證了本發明中機器人系統真正能夠完全使用自然語言來進行即時輸入和即時反饋,並保證了系統的性能功耗的平衡及整個系統的穩定。
同時本發明還提供了一種上述識別系統的識別方法,包括如下步驟:步驟S1:利用麥克風即時接收外部的語音訊號;步驟S2:利用本地語音檢測器來判斷當前的語音訊號是否包含人聲,若包含人聲則輸出至本地語音識別模組;步驟S3:利用本地語音識別模組對人聲語音訊號進行辨識,以判斷當前的人聲語音訊號是否包含喚醒指令,若包含喚醒指令則將人聲語音訊號進一步進行輸出至本地語音編碼模組;步驟S4:本地語音編碼模組對人聲語音訊號進行編碼後傳輸到遠端語音解碼模組;步驟S5:遠端語音解碼模組對經編碼過的人聲語音訊號進行解碼後傳輸到遠端語音識別模組;步驟S6:利用遠端語音識別模組對遠端語音解碼模組輸出的人聲語音訊號進行轉換,並輸出到遠端語言處理模組;步驟S7:遠端語言處理模組根據轉換後的人聲語音訊號生成相應的操作指令;以及步驟S8:執行模組,通過控制多媒體模組來執行操作指令。
可選擇但非限制,在本地語音識別模組辨識到當前的人聲語音訊號包含有喚醒指令時,本地語音識別模組關閉,人聲語音訊號經過本地語音編碼模組的編碼之後,直接傳輸到遠端語音解碼模組進行解碼後傳輸到利用遠端語音識別模組.
請參照圖1所示, 假設機器人叫做“R2”,主人對機器人說:“R2,我現在心情不好,來點音樂吧”,這時處於一直收聽狀態的麥克風收到的資料經過本地語音檢測器,本地語音檢測器檢測到這時候已經不是環境噪音了,而是有人在說話了,但機器人需要知道是不是在跟自己說話,於是這段語音就會被送到本地語音檢測器進行識別,這時候本地語音識別伺服器發現是在叫自己(因為叫了它的名字“R2”),所以後面的話都是跟自己說的,為了明白這句話的意思,這段語音先通過本地語音編碼模組的編碼後,之後再通過網路發送到遠端語音解碼模組進行解碼後輸出到遠端語音識別伺服器進行識別,進而進行自然語言的分析,經過分析,發現這句話要表達的意思是主人“心情不好,需要點音樂”,於是將這個結果發給機器人行為決策系統(相當於思考怎麼回應),經過一番思考,機器人決定為主人放一些“療癒系的音樂”,並將這個決策發回到本地系統,最後本地系統會根據這個結果找到一些“療癒系的音樂”並開始播放。
綜上所述,由於本發明採用了如上技術方案,可以完全使用語音來進行交流,不需要任何額外的觸發動作;同時可以讓人真正的使用自然語言與機器人進行交流,不需要固定的語句或句型就可以在工作、生活的各個領域進行交流;在做到即時反饋、極少誤觸發的情況下保持可觀的能耗。
以上對本發明的較佳實施例進行了描述。需要理解的是,本發明並不局限於上述特定實施方式,其中未盡詳細描述的裝置和結構應該理解為用本領域中的普通方式予以實施;任何熟悉本領域的技術人員,在不脫離本發明技術方案範圍情況下,都可利用上述揭示的方法和技術內容對本發明技術方案做出許多可能的變動和修飾,或修改為等同變化的等效實施例,這並不影響本發明的實質內容。因此,凡是未脫離本發明技術方案的內容,依據本發明的技術實質對以上實施例所做的任何簡單修改、等同變化及修飾,均仍屬於本發明技術方案保護的範圍內。
無
通過閱讀參照以下附圖對非限制性實施例所作的詳細描述,本發明及其特徵、外形和優點將會變得更明顯。在全部附圖中相同的標記指示相同的部分。並未刻意按照比例繪製附圖,重點在於示出本發明的主旨。
圖1為本發明聲音識別系統結構和執行示意圖。
Claims (9)
- 一種機器人系統的聲音識別系統,包括: 一本地語音檢測器,對該語音訊號進行檢測,並判斷當前的該語音訊號是否包含一人聲,若包含該人聲則進行輸出; 一本地語音識別模組,接收該語音檢測器輸出的一人聲語音訊號並進行辨識,以判斷當前的該人聲語音訊號是否包含一喚醒指令,若包含該喚醒指令則進行輸出; 一本地語音編碼模組,用於對該人聲語音訊號進行編碼後輸出; 一遠端語音解碼模組,該遠端語音解碼模組用於接收該本地語音編碼模組輸出的編碼過的一語音訊號進行解碼後輸出; 一遠端語音識別模組和一遠端語言處理模組,該遠端語音識別模組接收該遠端語音解碼模組輸出的經解碼過的該人聲語音訊號,在進行轉換後輸出到該遠端語言處理模組,該遠端語言處理模組根據轉換後的該人聲語音訊號生成相應的一操作指令;以及 一執行模組,用於執行該遠端語言處理模組的該操作指令。
- 如申請專利範圍第1項所述的聲音識別系統,其中麥克風位於始終開啟的狀態,以不間斷的即時接收一外部語音訊號。
- 如申請專利範圍第1項所述的聲音識別系統,其中該聲音識別系統還包括一多媒體模組,通過該多媒體模組來執行該操作指令。
- 如申請專利範圍第1項所述的聲音識別系統,其中該本地語音識別模組通過資料流程的方式將該人聲語音訊號輸出到該遠端語音識別模組。
- 如申請專利範圍第1項所述的聲音識別系統,其中該聲音識別系統還包括一喚醒指令編輯模組,以對該喚醒指令進行編輯。
- 如申請專利範圍第1項所述的聲音識別系統,其中該本地語音檢測器為基於一神經網路演算法的一語音檢測器。
- 如申請專利範圍第1項所述的聲音識別系統,其中該遠端語言處理模組根據轉換後的該人聲語音訊號生成相應的該操作指令的處理時間在10~20ms之間。
- 一種採用申請專利範圍第1-7項任意一項所述識別系統的識別方法,包括如下步驟: 利用該麥克風實時接收該外部語音訊號; 利用該本地語音檢測器來判斷當前的該外部語音訊號是否包含一人聲,若包含該人聲則輸出至該本地語音識別模組; 利用該本地語音識別模組對一人聲語音訊號進行辨識,以判斷當前的該人聲語音訊號是否包含一喚醒指令,若包含該喚醒指令則將該人聲語音訊號進一步進行輸出至該本地語音編碼模組; 該本地語音編碼模組對該人聲語音訊號進行編碼後傳輸到該遠端語音編碼模組; 該遠端語音解碼模組對收到的該人聲語音訊號進行解碼後傳輸到該遠端語音識別模組; 利用該遠端語音識別模組對該遠端語音解碼模組輸出的該人聲語音訊號進行轉換,並輸出到該遠端語言處理模組; 該遠端語言處理模組根據轉換後的該人聲語音訊號形成相應的該操作指令;以及 該執行模組通過控制該多媒體模組來執行該操作指令。
- 如申請專利範圍第8項所述的識別方法,其中在該本地語音識別模組辨識到當前的該人聲語音訊號包含有該喚醒指令時,該本地語音識別模組關閉,該人聲語音訊號經過該本地語音編碼模組的編碼之後,直接傳輸到該遠端語音解碼模組進行解碼後傳輸到利用該遠端語音識別模組。
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201510015421.6A CN105845135A (zh) | 2015-01-12 | 2015-01-12 | 一种机器人系统的声音识别系统及方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| TW201626363A true TW201626363A (zh) | 2016-07-16 |
| TWI576825B TWI576825B (zh) | 2017-04-01 |
Family
ID=56405179
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| TW104144159A TWI576825B (zh) | 2015-01-12 | 2015-12-29 | 一種機器人系統的聲音識別系統及方法 |
Country Status (12)
| Country | Link |
|---|---|
| US (1) | US20160343376A1 (zh) |
| EP (1) | EP3246915A4 (zh) |
| JP (1) | JP6572314B2 (zh) |
| KR (1) | KR20170103925A (zh) |
| CN (1) | CN105845135A (zh) |
| CA (1) | CA2973512A1 (zh) |
| HK (1) | HK1222254A1 (zh) |
| NZ (1) | NZ734339A (zh) |
| SG (1) | SG11201705705SA (zh) |
| TW (1) | TWI576825B (zh) |
| WO (1) | WO2016112634A1 (zh) |
| ZA (1) | ZA201705424B (zh) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TWI675365B (zh) * | 2018-02-06 | 2019-10-21 | 威盛電子股份有限公司 | 語法編譯系統以及語法編譯方法 |
| TWI689826B (zh) * | 2019-01-24 | 2020-04-01 | 林佩君 | 音樂視覺化系統 |
Families Citing this family (26)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN106272481A (zh) * | 2016-08-15 | 2017-01-04 | 北京光年无限科技有限公司 | 一种机器人服务的唤醒方法及装置 |
| CN107767880B (zh) * | 2016-08-16 | 2021-04-16 | 杭州萤石网络有限公司 | 一种语音检测方法、摄像机和智能家居看护系统 |
| CN106328137A (zh) * | 2016-08-19 | 2017-01-11 | 镇江惠通电子有限公司 | 语音控制方法、装置及系统 |
| CN106328138A (zh) * | 2016-08-22 | 2017-01-11 | 黄广明 | 一种具有人机对话功能的机器人系统 |
| CN106409306A (zh) * | 2016-09-19 | 2017-02-15 | 宁波高新区敦和科技有限公司 | 一种获取人声的智能系统及基于该系统的获取方法 |
| CN106445455A (zh) * | 2016-09-29 | 2017-02-22 | 深圳前海弘稼科技有限公司 | 种植设备和种植设备的控制方法 |
| CN108154880A (zh) * | 2016-12-05 | 2018-06-12 | 广东大仓机器人科技有限公司 | 能实时分辨环境噪音进行语音识别的机器人 |
| KR101893768B1 (ko) * | 2017-02-27 | 2018-09-04 | 주식회사 브이터치 | 음성 인식 트리거를 제공하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체 |
| CN106971719A (zh) * | 2017-05-16 | 2017-07-21 | 上海智觅智能科技有限公司 | 一种离线可切换唤醒词的非特定音语音识别唤醒方法 |
| CN109093627A (zh) * | 2017-06-21 | 2018-12-28 | 富泰华工业(深圳)有限公司 | 智能机器人 |
| US10504511B2 (en) * | 2017-07-24 | 2019-12-10 | Midea Group Co., Ltd. | Customizable wake-up voice commands |
| CN107276777B (zh) * | 2017-07-27 | 2020-05-29 | 苏州科达科技股份有限公司 | 会议系统的音频处理方法及装置 |
| DE102017216571B4 (de) | 2017-09-19 | 2022-10-06 | Volkswagen Aktiengesellschaft | Kraftfahrzeug |
| WO2019079974A1 (en) * | 2017-10-24 | 2019-05-02 | Beijing Didi Infinity Technology And Development Co., Ltd. | SYSTEM AND METHOD FOR UNINTERRUPTED APPLICATION REVIEW AND VOICE RECOGNITION |
| CN107885441A (zh) * | 2017-12-06 | 2018-04-06 | 子歌教育机器人(深圳)有限公司 | 智能机器人的新闻播报方法、系统和智能机器人 |
| CN110021294A (zh) * | 2018-01-09 | 2019-07-16 | 深圳市优必选科技有限公司 | 机器人的控制方法、装置以及存储装置 |
| US11468891B2 (en) | 2018-03-30 | 2022-10-11 | Sony Corporation | Information processor, information processing method, and program |
| CN108986823A (zh) * | 2018-09-27 | 2018-12-11 | 深圳市易控迪智能家居科技有限公司 | 一种语音识别解码器及语音操作系统 |
| CN109308900B (zh) * | 2018-10-29 | 2022-04-05 | 恒玄科技(上海)股份有限公司 | 耳机装置、语音处理系统和语音处理方法 |
| CN109543578B (zh) * | 2018-11-13 | 2020-12-22 | 北京猎户星空科技有限公司 | 智能设备控制方法、装置和存储介质 |
| WO2020251074A1 (ko) * | 2019-06-12 | 2020-12-17 | 엘지전자 주식회사 | 음성 인식 기능을 제공하는 인공 지능 로봇 및 그의 동작 방법 |
| WO2021015308A1 (ko) * | 2019-07-19 | 2021-01-28 | 엘지전자 주식회사 | 로봇 및 그의 기동어 인식 방법 |
| CN111976924A (zh) * | 2020-08-12 | 2020-11-24 | 厦门大学 | 一种用于潜水全面罩的实时信息交流装置 |
| CN115297406B (zh) * | 2022-07-28 | 2024-11-05 | 湖南芯海聆半导体有限公司 | 基于双模音频三维码的声音接收设备控制方法及装置 |
| CN117086871B (zh) * | 2023-08-30 | 2024-02-06 | 合肥中科深谷科技发展有限公司 | 一种开放式机器人交互控制系统 |
| EP4607508A1 (en) * | 2024-02-23 | 2025-08-27 | Tata Consultancy Services Limited | Method and system for expressing telepresence robot internal states using combination of multiple modalities |
Family Cites Families (21)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9076448B2 (en) * | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
| US7941313B2 (en) * | 2001-05-17 | 2011-05-10 | Qualcomm Incorporated | System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system |
| JP2004341033A (ja) * | 2003-05-13 | 2004-12-02 | Matsushita Electric Ind Co Ltd | 音声媒介起動装置およびその方法 |
| US20070150104A1 (en) * | 2005-12-08 | 2007-06-28 | Jang Choul S | Apparatus and method for controlling network-based robot |
| WO2007138741A1 (ja) * | 2006-05-26 | 2007-12-06 | Nec Corporation | 音声入力システム、対話型ロボット、音声入力方法、および、音声入力プログラム |
| WO2007138503A1 (en) * | 2006-05-31 | 2007-12-06 | Philips Intellectual Property & Standards Gmbh | Method of driving a speech recognition system |
| JP5075664B2 (ja) * | 2008-02-15 | 2012-11-21 | 株式会社東芝 | 音声対話装置及び支援方法 |
| JP5163202B2 (ja) * | 2008-03-18 | 2013-03-13 | 株式会社国際電気通信基礎技術研究所 | 物品推定システム |
| CN102013254A (zh) * | 2010-11-17 | 2011-04-13 | 广东中大讯通信息有限公司 | 一种数字电视语音识别人机交互系统及方法 |
| US10032127B2 (en) * | 2011-02-18 | 2018-07-24 | Nuance Communications, Inc. | Methods and apparatus for determining a clinician's intent to order an item |
| CN202446811U (zh) * | 2011-12-20 | 2012-09-26 | 安徽科大讯飞信息科技股份有限公司 | 一种用于玩具的智能语音操控装置 |
| KR20130133629A (ko) * | 2012-05-29 | 2013-12-09 | 삼성전자주식회사 | 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법 |
| CN103839549A (zh) * | 2012-11-22 | 2014-06-04 | 腾讯科技(深圳)有限公司 | 一种语音指令控制方法及系统 |
| US9704486B2 (en) * | 2012-12-11 | 2017-07-11 | Amazon Technologies, Inc. | Speech recognition power management |
| CN103095911B (zh) * | 2012-12-18 | 2014-12-17 | 苏州思必驰信息科技有限公司 | 一种通过语音唤醒寻找手机的方法及系统 |
| EP2946383B1 (en) * | 2013-03-12 | 2020-02-26 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
| US9697831B2 (en) * | 2013-06-26 | 2017-07-04 | Cirrus Logic, Inc. | Speech recognition |
| US9316400B2 (en) * | 2013-09-03 | 2016-04-19 | Panasonic Intellctual Property Corporation of America | Appliance control method, speech-based appliance control system, and cooking appliance |
| CN103714815A (zh) * | 2013-12-09 | 2014-04-09 | 何永 | 语音控制方法及其设备 |
| CN103729193A (zh) * | 2014-01-11 | 2014-04-16 | 苏州思必驰信息科技有限公司 | 一种人机交互方法及装置 |
| CN104253902A (zh) * | 2014-07-21 | 2014-12-31 | 宋婉毓 | 与智能语音设备进行语音交互的方法 |
-
2015
- 2015-01-12 CN CN201510015421.6A patent/CN105845135A/zh active Pending
- 2015-06-12 CA CA2973512A patent/CA2973512A1/en not_active Abandoned
- 2015-06-12 JP JP2017537986A patent/JP6572314B2/ja active Active
- 2015-06-12 KR KR1020177022361A patent/KR20170103925A/ko not_active Ceased
- 2015-06-12 NZ NZ734339A patent/NZ734339A/en not_active IP Right Cessation
- 2015-06-12 US US14/764,268 patent/US20160343376A1/en not_active Abandoned
- 2015-06-12 WO PCT/CN2015/081409 patent/WO2016112634A1/zh not_active Ceased
- 2015-06-12 EP EP15877550.2A patent/EP3246915A4/en not_active Ceased
- 2015-06-12 SG SG11201705705SA patent/SG11201705705SA/en unknown
- 2015-12-29 TW TW104144159A patent/TWI576825B/zh not_active IP Right Cessation
-
2016
- 2016-09-01 HK HK16110421.0A patent/HK1222254A1/zh unknown
-
2017
- 2017-08-10 ZA ZA2017/05424A patent/ZA201705424B/en unknown
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TWI675365B (zh) * | 2018-02-06 | 2019-10-21 | 威盛電子股份有限公司 | 語法編譯系統以及語法編譯方法 |
| TWI689826B (zh) * | 2019-01-24 | 2020-04-01 | 林佩君 | 音樂視覺化系統 |
Also Published As
| Publication number | Publication date |
|---|---|
| US20160343376A1 (en) | 2016-11-24 |
| JP2018507434A (ja) | 2018-03-15 |
| SG11201705705SA (en) | 2017-08-30 |
| ZA201705424B (en) | 2019-09-25 |
| CA2973512A1 (en) | 2016-07-21 |
| JP6572314B2 (ja) | 2019-09-04 |
| EP3246915A4 (en) | 2019-01-09 |
| KR20170103925A (ko) | 2017-09-13 |
| HK1222254A1 (zh) | 2017-06-23 |
| WO2016112634A1 (zh) | 2016-07-21 |
| TWI576825B (zh) | 2017-04-01 |
| NZ734339A (en) | 2020-08-28 |
| EP3246915A1 (en) | 2017-11-22 |
| CN105845135A (zh) | 2016-08-10 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| TWI576825B (zh) | 一種機器人系統的聲音識別系統及方法 | |
| US11416687B2 (en) | Method and apparatus for recognizing speech | |
| CN110047481B (zh) | 用于语音识别的方法和装置 | |
| US20230127787A1 (en) | Method and apparatus for converting voice timbre, method and apparatus for training model, device and medium | |
| CN110689877A (zh) | 一种语音结束端点检测方法及装置 | |
| WO2017012511A1 (zh) | 语音控制方法、装置及投影仪设备 | |
| CN110265012A (zh) | 基于开源硬件可交互智能语音家居控制装置及控制方法 | |
| CN113611316A (zh) | 人机交互方法、装置、设备以及存储介质 | |
| TW201743319A (zh) | 語音控制系統及其方法 | |
| CN107103906A (zh) | 一种唤醒智能设备进行语音识别的方法、智能设备和介质 | |
| CN105788596A (zh) | 一种语音识别电视控制方法及系统 | |
| CN114330371A (zh) | 基于提示学习的会话意图识别方法、装置和电子设备 | |
| CN113674746A (zh) | 人机交互方法、装置、设备以及存储介质 | |
| CN107016070B (zh) | 一种用于智能机器人的人机对话方法及装置 | |
| CN107527614A (zh) | 语音控制系统及其方法 | |
| CN114708856A (zh) | 一种语音处理方法及其相关设备 | |
| CN116013257A (zh) | 语音识别、语音识别模型训练方法、装置、介质及设备 | |
| CN111798850A (zh) | 用语音操作设备的方法和系统及服务器 | |
| CN111933149A (zh) | 语音交互方法、穿戴式设备、终端及语音交互系统 | |
| Chen et al. | Fireredchat: A pluggable, full-duplex voice interaction system with cascaded and semi-cascaded implementations | |
| CN113658601A (zh) | 语音交互方法、装置、终端设备、存储介质及程序产品 | |
| CN116935859A (zh) | 一种声纹识别处理方法及系统 | |
| AU2017101077A4 (en) | A voice recognition system of a robot system and method thereof | |
| WO2021253779A1 (zh) | 一种语音识别方法以及系统 | |
| CN110600009A (zh) | 一种智能化语音交互操作平台及交互方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| MM4A | Annulment or lapse of patent due to non-payment of fees |