[go: up one dir, main page]

RU2018118997A - Способы и электронные устройства для определения намерения, связанного с произнесенным высказыванием пользователя - Google Patents

Способы и электронные устройства для определения намерения, связанного с произнесенным высказыванием пользователя Download PDF

Info

Publication number
RU2018118997A
RU2018118997A RU2018118997A RU2018118997A RU2018118997A RU 2018118997 A RU2018118997 A RU 2018118997A RU 2018118997 A RU2018118997 A RU 2018118997A RU 2018118997 A RU2018118997 A RU 2018118997A RU 2018118997 A RU2018118997 A RU 2018118997A
Authority
RU
Russia
Prior art keywords
server
vector
acoustic characteristics
audio signal
segment
Prior art date
Application number
RU2018118997A
Other languages
English (en)
Other versions
RU2018118997A3 (ru
RU2711153C2 (ru
Inventor
Иван Александрович Карпухин
Original Assignee
Общество С Ограниченной Ответственностью "Яндекс"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество С Ограниченной Ответственностью "Яндекс" filed Critical Общество С Ограниченной Ответственностью "Яндекс"
Priority to RU2018118997A priority Critical patent/RU2711153C2/ru
Priority to US16/202,257 priority patent/US10818284B2/en
Publication of RU2018118997A publication Critical patent/RU2018118997A/ru
Publication of RU2018118997A3 publication Critical patent/RU2018118997A3/ru
Application granted granted Critical
Publication of RU2711153C2 publication Critical patent/RU2711153C2/ru

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Claims (73)

1. Способ определения намерения, связанного с произнесенным пользователем высказыванием, которое улавливается в форме звукового аудиосигнала, причем способ выполняется на сервере и включает в себя
выполнение сервером анализа преобразования речи-в-текст цифрового сигнала для определения:
по меньшей мере одного речевого элемента произнесенного пользователем высказывания, причем каждый речевой элемент обладает текстовыми данными, представляющими собой одно из: слово и паузу, и каждый речевой элемент обладает соответствующим сегментом цифрового аудиосигнала;
для каждого речевого элемента
создание соответствующего вектора текстовых характеристик путем
определения сервером на основе соответствующих текстовых данных, текстовых характеристик соответствующего речевого элемента;
создания сервером на основе соответствующих текстовых характеристик, соответствующего вектора текстовых характеристик;
создание соответствующего вектора акустических характеристик путем
определения сервером на основе соответствующего сегмента цифрового аудиосигнала соответствующих акустических характеристик соответствующего сегмента цифрового аудиосигнала;
создания сервером на основе соответствующих акустических характеристик, соответствующего вектора акустических характеристик;
создание сервером соответствующего расширенного вектора характеристик путем объединения соответствующего вектора акустических характеристик и соответствующего вектора текстовых характеристик;
использование сервером нейронной сети (NN), выполненной для определения намерения произнесенного пользователем высказывания путем ввода в NN расширенного вектора характеристик, причем NN была обучена для оценки вероятности того, что намерение относится к данному типу.
2. Способ по п. 1, в котором нейронная сеть является рекуррентной нейронной сетью (RNN).
3. Способ по п. 1, в котором выполнение анализа речи-в-текст включает в себя определение
текстовых данных каждого речевого элемента; и
временного интервала соответствующего сегмента цифрового аудиосигнала каждого речевого элемента.
4. Способ по п. 1, в котором создание соответствующего вектора текстовых характеристик выполняется с помощью процесса внедрения слов, выполняемого сервером.
5. Способ по п. 1, в котором вектор текстовых характеристик данного речевого элемента, являющийся паузой, является вектором с нулевыми значениями.
6. Способ по п. 1, в котором акустические характеристики представляют собой по меньшей мере одно из:
уровень громкости;
уровень энергии;
уровень высоты;
гармонию; и
темп.
7. Способ по п. 1, в котором определение соответствующих акустических характеристик соответствующего сегмента цифрового аудиосигнала включает в себя
определение сервером соответствующих акустических характеристик каждого подсегмента соответствующего сегмента цифрового аудиосигнала путем применения скользящего окна, и причем
создание соответствующего вектора акустических характеристик включает в себя
создание сервером соответствующих промежуточных векторов акустических характеристик для каждого подсегмента на основе соответствующих акустических характеристик; и
создание сервером, на основе соответствующих промежуточных векторов акустических характеристик, соответствующего вектора акустических характеристик для соответствующего сегмента цифрового аудиосигнала.
8. Способ п. 7, в котором каждый подсегмент обладает заранее определенной продолжительностью во времени.
9. Способ по п. 7, в котором по меньшей мере два подсегмента частично перекрываются.
10. Способ по п. 7, в котором скользящее окно скользит с временным шагом заранее определенной продолжительности во времени.
11. Способ по п. 7, котором создание соответствующего вектора акустических характеристик для соответствующего сегмента цифрового аудиосигнала, которое основано на соответствующих промежуточных векторах акустических характеристик, включает в себя использование сервером основанной на статистике комбинации соответствующих промежуточных векторов акустических характеристик.
12. Способ по п. 12, в котором сочетание соответствующего вектора акустических характеристик и соответствующего вектора текстовых характеристик включает в себя конкатенацию сервером соответствующего вектора акустических характеристик и соответствующего вектора текстовых характеристик.
13. Способ по п. 1, в котором данный тип представляет собой одно из следующего
вопрос открытого типа;
вопрос закрытого типа;
утверждение; и
восклицание.
14. Способ по п. 1, дополнительно включающий в себя
получение сервером дополнительных данных, созданных NN для каждого введенного расширенного вектора характеристик, связанного с данным словом;
в ответ на определение того, что намерение относится к данному типу
выполнение сервером дополнительного MLA для определения целевого слова среди по меньшей мере одного слова путем ввода в дополнительный MLA дополнительных данных, причем целевое слово указывает на контекст произнесенного пользователем высказывания.
15. Сервер для определения намерения, связанного с произнесенным пользователем высказыванием, которое улавливается в форме звукового аудиосигнала, сервер выполнен с возможностью осуществлять
выполнение анализа преобразования речи-в-текст цифрового сигнала для определения:
по меньшей мере одного речевого элемента произнесенного пользователем высказывания, причем каждый речевой элемент обладает текстовыми данными, представляющими собой одно из: слово и паузу, и каждый речевой элемент обладает соответствующим сегментом цифрового аудиосигнала;
для каждого речевого элемента
создание соответствующего вектора текстовых характеристик путем:
определения сервером на основе соответствующих текстовых данных, текстовых характеристик соответствующего речевого элемента;
создания сервером на основе соответствующих текстовых характеристик, соответствующего вектора текстовых характеристик;
создание соответствующего вектора акустических характеристик путем
определения сервером на основе соответствующего сегмента цифрового аудиосигнала соответствующих акустических характеристик соответствующего сегмента цифрового аудиосигнала;
создания сервером на основе соответствующих акустических характеристик, соответствующего вектора акустических характеристик;
создание соответствующего расширенного вектора характеристик путем объединения соответствующего вектора акустических характеристик и соответствующего вектора текстовых характеристик;
использование нейронной сети (NN), выполненной для определения намерения произнесенного пользователем высказывания путем ввода в NN расширенного вектора характеристик, причем NN была обучена для оценки вероятности того, что намерение относится к данному типу.
16. Сервер по п. 15, в котором нейронная сеть является рекуррентной нейронной сетью.
17. Сервер по п. 15, который выполнен с возможностью осуществлять анализ речи-в-текст, представляет собой сервер, который выполнен с возможностью определять
текстовые данные каждого речевого элемента; и
временной интервал соответствующего сегмента цифрового аудиосигнала каждого речевого элемента.
18. Сервер по п. 1, причем сервер, который выполнен с возможностью определять соответствующие акустические характеристики соответствующего сегмента цифрового аудиосигнала, представляет собой сервер, который выполнен с возможностью осуществлять
определение соответствующих акустических характеристик каждого подсегмента соответствующего сегмента цифрового аудиосигнала путем применения скользящего окна, и причем
сервер, который выполнен с возможностью создавать соответствующий вектор акустических характеристик, представляет собой сервер, который выполнен с возможностью осуществлять:
создание соответствующих промежуточных векторов акустических характеристик для каждого подсегмента на основе соответствующих акустических характеристик; и
создание, на основе соответствующих промежуточных векторов акустических характеристик, соответствующего вектора акустических характеристик для соответствующего сегмента цифрового аудиосигнала.
19. Сервер по п. 1, в котором данный тип представляет собой одно из следующего
вопрос открытого типа;
вопрос закрытого типа;
утверждение; и
восклицание.
20. Сервер по п. 15, в котором сервер также выполнен с возможностью осуществлять
получение дополнительных данных, созданных NN для каждого введенного расширенного вектора характеристик, связанного с данным словом;
в ответ на определение того, что намерение относится к данному типу,
выполнение дополнительного MLA для определения целевого слова среди по меньшей мере одного слова путем ввода в дополнительный MLA дополнительных данных, причем целевое слово указывает на контекст произнесенного пользователем высказывания.
RU2018118997A 2018-05-23 2018-05-23 Способы и электронные устройства для определения намерения, связанного с произнесенным высказыванием пользователя RU2711153C2 (ru)

Priority Applications (2)

Application Number Priority Date Filing Date Title
RU2018118997A RU2711153C2 (ru) 2018-05-23 2018-05-23 Способы и электронные устройства для определения намерения, связанного с произнесенным высказыванием пользователя
US16/202,257 US10818284B2 (en) 2018-05-23 2018-11-28 Methods of and electronic devices for determining an intent associated with a spoken user utterance

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2018118997A RU2711153C2 (ru) 2018-05-23 2018-05-23 Способы и электронные устройства для определения намерения, связанного с произнесенным высказыванием пользователя

Publications (3)

Publication Number Publication Date
RU2018118997A true RU2018118997A (ru) 2019-11-25
RU2018118997A3 RU2018118997A3 (ru) 2019-11-25
RU2711153C2 RU2711153C2 (ru) 2020-01-15

Family

ID=68613477

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2018118997A RU2711153C2 (ru) 2018-05-23 2018-05-23 Способы и электронные устройства для определения намерения, связанного с произнесенным высказыванием пользователя

Country Status (2)

Country Link
US (1) US10818284B2 (ru)
RU (1) RU2711153C2 (ru)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11195532B2 (en) * 2019-04-26 2021-12-07 Oracle International Corporation Handling multiple intents in utterances
KR102899547B1 (ko) * 2019-09-04 2025-12-15 삼성전자주식회사 전자장치 및 그 제어방법
US11928430B2 (en) * 2019-09-12 2024-03-12 Oracle International Corporation Detecting unrelated utterances in a chatbot system
KR20210062838A (ko) * 2019-11-22 2021-06-01 엘지전자 주식회사 인공지능 기반의 음성처리 방법
RU2762702C2 (ru) * 2020-04-28 2021-12-22 Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) Система и способ автоматизированной оценки намерений и эмоций пользователей диалоговой системы
US11803400B2 (en) * 2020-06-25 2023-10-31 International Business Machines Corporation Method and system for asynchronous notifications for users in contextual interactive systems
US11626108B2 (en) * 2020-09-25 2023-04-11 Td Ameritrade Ip Company, Inc. Machine learning system for customer utterance intent prediction
TWI744036B (zh) * 2020-10-14 2021-10-21 緯創資通股份有限公司 聲音辨識模型訓練方法及系統與電腦可讀取媒體
CN112669821B (zh) * 2020-12-17 2024-04-30 中国科学技术大学 一种语音意图识别方法、装置、设备及存储介质
US11429780B1 (en) 2021-01-11 2022-08-30 Suki AI, Inc. Systems and methods to briefly deviate from and resume back to amending a section of a note
US11908453B2 (en) * 2021-02-10 2024-02-20 Direct Cursus Technology L.L.C Method and system for classifying a user of an electronic device
CN113362169A (zh) * 2021-08-09 2021-09-07 上海慧捷智能技术有限公司 催收优化方法及设备
CN114037857B (zh) * 2021-10-21 2022-09-23 中国科学院大学 图像分类精度提升方法
CN115440220B (zh) * 2022-09-02 2025-05-16 京东科技信息技术有限公司 一种话语权切换方法、装置、设备和存储介质
US12505831B2 (en) 2022-12-14 2025-12-23 Google Llc Enabling large language model-based spoken language understanding (SLU) systems to leverage both audio data and textual data in processing spoken utterances

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7392187B2 (en) 2004-09-20 2008-06-24 Educational Testing Service Method and system for the automatic generation of speech features for scoring high entropy speech
US7840404B2 (en) 2004-09-20 2010-11-23 Educational Testing Service Method and system for using automatic generation of speech features to provide diagnostic feedback
JP4882899B2 (ja) 2007-07-25 2012-02-22 ソニー株式会社 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム
US8566088B2 (en) 2008-11-12 2013-10-22 Scti Holdings, Inc. System and method for automatic speech to text conversion
RU2466468C1 (ru) * 2011-06-30 2012-11-10 Даниил Александрович Кочаров Система и способ распознавания речи
US10453479B2 (en) 2011-09-23 2019-10-22 Lessac Technologies, Inc. Methods for aligning expressive speech utterances with text and systems therefor
US9031293B2 (en) 2012-10-19 2015-05-12 Sony Computer Entertainment Inc. Multi-modal sensor based emotion recognition and emotional interface
RU2583150C1 (ru) * 2014-11-28 2016-05-10 Самсунг Электроникс Ко., Лтд. Голосовая связь на естественном языке между человеком и устройством
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
RU2597498C1 (ru) * 2015-03-31 2016-09-10 Федеральное государственное бюджетное учреждение науки Санкт-Петербургский институт информатики и автоматизации Российской академии наук Способ распознавания речи на основе двухуровневого морфофонемного префиксного графа
US10446143B2 (en) * 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
DK201670539A1 (en) * 2016-03-14 2017-10-02 Apple Inc Dictation that allows editing
RU2692051C1 (ru) * 2017-12-29 2019-06-19 Общество С Ограниченной Ответственностью "Яндекс" Способ и система для синтеза речи из текста

Also Published As

Publication number Publication date
US20190362712A1 (en) 2019-11-28
RU2018118997A3 (ru) 2019-11-25
RU2711153C2 (ru) 2020-01-15
US10818284B2 (en) 2020-10-27

Similar Documents

Publication Publication Date Title
RU2018118997A (ru) Способы и электронные устройства для определения намерения, связанного с произнесенным высказыванием пользователя
CN108520741B (zh) 一种耳语音恢复方法、装置、设备及可读存储介质
Gevaert et al. Neural networks used for speech recognition
KR101609473B1 (ko) 영어 말하기 시험의 유창성 평가 시스템 및 방법
US12165634B2 (en) Speech recognition method and apparatus, device, storage medium, and program product
CN107146624B (zh) 一种说话人确认方法及装置
CN107871496B (zh) 语音识别方法和装置
EP3469582A1 (en) Neural network-based voiceprint information extraction method and apparatus
CN106653056B (zh) 基于lstm循环神经网络的基频提取模型及训练方法
JPH0816187A (ja) 音声分析における音声認識方法
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
KR101519591B1 (ko) 음성인식 기반의 가상 면접 처리 시스템 및 방법
CN110544470B (zh) 语音识别方法、装置、可读存储介质和电子设备
CN103258533A (zh) 远距离语音识别中的模型域补偿新方法
US20180308501A1 (en) Multi speaker attribution using personal grammar detection
CN110277099A (zh) 基于语音的嘴型生成方法和装置
Subhashree et al. Speech emotion recognition: performance analysis based on fused algorithms and GMM modelling
Seki et al. Text-to-speech synthesis from dark data with evaluation-in-the-loop data selection
Yun et al. A deep learning-based approach to non-intrusive objective speech intelligibility estimation
CN112542158A (zh) 语音分析方法、系统、电子设备及存储介质
Yousfi et al. Holy Qur'an speech recognition system Imaalah checking rule for warsh recitation
KR20210071713A (ko) 스피치 스킬 피드백 시스템
CN120032629A (zh) 一种英语朗读发音测评方法、系统及计算机可读存储介质
CN115662242B (zh) 塑造儿童语言流畅度训练装置、设备和存储介质
Koh et al. Speaker diarization using direction of arrival estimate and acoustic feature information: The I2R-NTU submission for the NIST RT 2007 evaluation