JP2022008928A - 信号処理システム、信号処理装置、信号処理方法、およびプログラム - Google Patents
信号処理システム、信号処理装置、信号処理方法、およびプログラム Download PDFInfo
- Publication number
- JP2022008928A JP2022008928A JP2021165174A JP2021165174A JP2022008928A JP 2022008928 A JP2022008928 A JP 2022008928A JP 2021165174 A JP2021165174 A JP 2021165174A JP 2021165174 A JP2021165174 A JP 2021165174A JP 2022008928 A JP2022008928 A JP 2022008928A
- Authority
- JP
- Japan
- Prior art keywords
- feature vector
- signal processing
- speaker
- vector
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
【解決手段】信号処理システムにおいて、信号処理装置1の制御部110は、話者の属性を識別するためのモデルデータを保持する保持手段と、時系列の音声データ又は音声データの特徴量に基づいて第1の特徴ベクトルを生成する第1生成部と、第1の特徴ベクトルを用いて、重みを算出する重み算出部と、第1の特徴ベクトルと、重みとを用いて、第2の特徴ベクトルを生成する第2生成部と、第2の特徴ベクトルに基づき、話者の属性を識別する識別手段と、を備える、第1生成部、重み算出手段及び第2生成部は、保持手段が保持するモデルデータに基づき損失関数が最小になるようパラメータを学習させる。
【選択図】図3
Description
図1は、第1の実施形態に係る信号処理システムsysの構成の一例を示すシステム構成図である。
120 第1生成装置
130 第2生成装置
140 重み算出装置
150 統計量算出装置
121 第1生成部
131 第2生成部
141 重み算出部
151 統計量算出部
160 受付部
170 提示部
180 生成部
190 算出部
100 CPU
101 記憶媒体インタフェース部
102 記憶媒体
103 入力部
104 出力部
105 ROM
106 RAM
107 補助記憶部
108 ネットワークインターフェース部
12 第1の特徴量抽出ニューラルネットワーク
13 第2の特徴量抽出ニューラルネットワーク
14 重み算出ニューラルネットワーク
15 重み付き高次統計量算出ニューラルネットワーク
Claims (11)
- 話者の属性を識別するためのモデルデータを保持する保持手段と、
時系列の音声データまたは前記音声データの特徴量に基づいて第1の特徴ベクトルを生成する第1生成手段と、
前記第1の特徴ベクトルを用いて、重みを算出する重み算出手段と、
前記第1の特徴ベクトルと、前記重みとを用いて、第2の特徴ベクトルを生成する第2生成手段と、
前記第2の特徴ベクトルに基づき、前記話者の属性を識別する識別手段と、
を備え、
前記第1生成手段、前記重み算出手段及び第2生成手段は、前記保持手段の保持するモデルデータに基づき損失関数が最小になるようパラメータを学習させる、
信号処理システム。 - 前記保持手段は、前記話者の話す言語を識別するためのモデルデータ、前記話者の性別を識別するためのモデルデータ、前記話者の年齢を識別するためのモデルデータ及び前記話者の感情を識別するためのモデルデータのうち少なくとも一つを保持し、
前記識別手段は、前記話者の話す言語、前記話者の性別、前記話者の年齢及び前記話者の感情のうち少なくとも一つを識別する、請求項1に記載の信号処理システム。 - 前記第1の特徴ベクトルと、前記重みとを用いて、重み付き平均ベクトル及び二次以上の重み付き高次統計ベクトルを算出する統計量算出手段を更に備え、
前記第2生成手段は、前記重み付き高次統計ベクトルを用いて、第2の特徴ベクトルを生成する、請求項1または2に記載の信号処理システム。 - 前記重み付き高次統計ベクトルは、重み付き標準偏差ベクトル、または重み付き分散ベクトルである、
請求項3に記載の信号処理システム。 - 前記重み付き高次統計ベクトルは、三次以上の重み付き高次統計ベクトルである、
請求項3に記載の信号処理システム。 - 前記第1生成手段と、前記重み算出手段と、前記統計量算出手段と、前記第2生成手段とは、ニューラルネットワークで構成され、それぞれが単一の損失関数に基づいて最適化される、
請求項3から請求項5のいずれか一項に記載の信号処理システム。 - 前記ニューラルネットワークで構成された前記重み算出手段は、前記第1生成手段により生成された前記第1の特徴ベクトルを入力とし、前記第1の特徴ベクトルのフレームごとの重みを出力とするよう構成される、請求項6に記載の信号処理システム。
- 前記第1生成手段は、話者の特徴を有する、各時刻の短時間特徴ベクトルを前記第1の特徴ベクトルとして生成し、
前記第2生成手段は、話者の特徴を有する、固定次元数の長時間特徴ベクトルを前記第2の特徴ベクトルとして生成する、
請求項1から請求項7のいずれか一項に記載の信号処理システム。 - 話者の属性を識別するためのモデルデータを保持する保持手段と、
時系列の音声データまたは前記音声データの特徴量に基づいて第1の特徴ベクトルを生成する第1生成手段と、
前記第1の特徴ベクトルを用いて、重みを算出する重み算出手段と、
前記第1の特徴ベクトルと、前記重みとを用いて、第2の特徴ベクトルを生成する第2生成手段と、
前記第2の特徴ベクトルに基づき、前記話者の属性を識別する識別手段と、
を備え、
前記第1生成手段、前記重み算出手段及び第2生成手段は、前記保持手段の保持するモデルデータに基づき損失関数が最小になるようパラメータを学習させる、
信号処理装置。 - コンピュータが、
話者の属性を識別するためのモデルデータを取得し、
時系列の音声データまたは前記音声データの特徴量に基づいて第1の特徴ベクトルを生成し、
前記第1の特徴ベクトルを用いて、重みを算出し、
前記第1の特徴ベクトルと、前記重みとを用いて第2の特徴ベクトルを生成し、
前記第2の特徴ベクトルに基づき、前記話者の属性を識別し、
前記第1の特徴ベクトル、前記重み、前記第2の特徴ベクトルは、前記モデルデータに基づき損失関数が最小となるパラメータを用いて算出される、
ことを含む、
信号処理方法。 - コンピュータが、
話者の属性を識別するためのモデルデータを取得し、
時系列の音声データまたは前記音声データの特徴量に基づいて第1の特徴ベクトルを生成する第1生成ステップと、
前記第1の特徴ベクトルを用いて、重みを算出する重み算出ステップと、
前記第1の特徴ベクトルと、前記重みとを用いて第2の特徴ベクトルを生成する第2生成ステップと、
前記第2の特徴ベクトルに基づき、前記話者の属性を識別する識別ステップと、
を実行するためのプログラムであって、
前記第1の特徴ベクトル、前記重み、前記第2の特徴ベクトルは、前記モデルデータに基づき損失関数が最小となるパラメータを用いて算出される、プログラム。
Applications Claiming Priority (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2018048419 | 2018-03-15 | ||
| JP2018048419 | 2018-03-15 | ||
| JP2020506585A JP6958723B2 (ja) | 2018-03-15 | 2019-03-13 | 信号処理システム、信号処理装置、信号処理方法、およびプログラム |
| PCT/JP2019/010174 WO2019176986A1 (ja) | 2018-03-15 | 2019-03-13 | 信号処理システム、信号処理装置、信号処理方法、および記録媒体 |
Related Parent Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2020506585A Division JP6958723B2 (ja) | 2018-03-15 | 2019-03-13 | 信号処理システム、信号処理装置、信号処理方法、およびプログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2022008928A true JP2022008928A (ja) | 2022-01-14 |
| JP7268711B2 JP7268711B2 (ja) | 2023-05-08 |
Family
ID=67907911
Family Applications (2)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2020506585A Active JP6958723B2 (ja) | 2018-03-15 | 2019-03-13 | 信号処理システム、信号処理装置、信号処理方法、およびプログラム |
| JP2021165174A Active JP7268711B2 (ja) | 2018-03-15 | 2021-10-07 | 信号処理システム、信号処理装置、信号処理方法、およびプログラム |
Family Applications Before (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2020506585A Active JP6958723B2 (ja) | 2018-03-15 | 2019-03-13 | 信号処理システム、信号処理装置、信号処理方法、およびプログラム |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US11842741B2 (ja) |
| JP (2) | JP6958723B2 (ja) |
| WO (1) | WO2019176986A1 (ja) |
Families Citing this family (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2020113031A1 (en) * | 2018-11-28 | 2020-06-04 | Google Llc | Training and/or using a language selection model for automatically determining language for speech recognition of spoken utterance |
| US20220383113A1 (en) * | 2019-11-12 | 2022-12-01 | Nec Corporation | Information processing device, information processing method, and recording medium |
| KR20210089295A (ko) * | 2020-01-07 | 2021-07-16 | 엘지전자 주식회사 | 인공지능 기반의 정보 처리 방법 |
| JP7465497B2 (ja) * | 2020-02-05 | 2024-04-11 | 日本電信電話株式会社 | 学習装置、学習方法及びプログラム |
| US20220012538A1 (en) * | 2020-07-07 | 2022-01-13 | Nec Laboratories America, Inc. | Compact representation and time series segment retrieval through deep learning |
| US12462795B2 (en) * | 2021-05-28 | 2025-11-04 | Asapp, Inc. | Contextual feature vectors for processing speech |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2004139049A (ja) * | 2002-09-24 | 2004-05-13 | Matsushita Electric Ind Co Ltd | 話者正規化方法及びそれを用いた音声認識装置 |
| WO2011077924A1 (ja) * | 2009-12-24 | 2011-06-30 | 日本電気株式会社 | 音声検出装置、音声検出方法、および音声検出プログラム |
| JP2016075740A (ja) * | 2014-10-03 | 2016-05-12 | 日本電気株式会社 | 音声処理装置、音声処理方法、およびプログラム |
Family Cites Families (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006287319A (ja) | 2005-03-31 | 2006-10-19 | Nippon Hoso Kyokai <Nhk> | 番組ダイジェスト作成装置および番組ダイジェスト作成プログラム |
| CN101465123B (zh) * | 2007-12-20 | 2011-07-06 | 株式会社东芝 | 说话人认证的验证方法和装置以及说话人认证系统 |
| WO2011033597A1 (ja) | 2009-09-19 | 2011-03-24 | 株式会社 東芝 | 信号分類装置 |
| CN103942544B (zh) * | 2009-12-22 | 2017-11-28 | 松下电器产业株式会社 | 动作解析装置 |
| US9837068B2 (en) * | 2014-10-22 | 2017-12-05 | Qualcomm Incorporated | Sound sample verification for generating sound detection model |
| CN107492382B (zh) * | 2016-06-13 | 2020-12-18 | 阿里巴巴集团控股有限公司 | 基于神经网络的声纹信息提取方法及装置 |
| GB2552722A (en) * | 2016-08-03 | 2018-02-07 | Cirrus Logic Int Semiconductor Ltd | Speaker recognition |
| KR102692670B1 (ko) * | 2017-01-04 | 2024-08-06 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
-
2019
- 2019-03-13 WO PCT/JP2019/010174 patent/WO2019176986A1/ja not_active Ceased
- 2019-03-13 JP JP2020506585A patent/JP6958723B2/ja active Active
- 2019-03-13 US US16/976,600 patent/US11842741B2/en active Active
-
2021
- 2021-10-07 JP JP2021165174A patent/JP7268711B2/ja active Active
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2004139049A (ja) * | 2002-09-24 | 2004-05-13 | Matsushita Electric Ind Co Ltd | 話者正規化方法及びそれを用いた音声認識装置 |
| WO2011077924A1 (ja) * | 2009-12-24 | 2011-06-30 | 日本電気株式会社 | 音声検出装置、音声検出方法、および音声検出プログラム |
| JP2016075740A (ja) * | 2014-10-03 | 2016-05-12 | 日本電気株式会社 | 音声処理装置、音声処理方法、およびプログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| JP6958723B2 (ja) | 2021-11-02 |
| US11842741B2 (en) | 2023-12-12 |
| JP7268711B2 (ja) | 2023-05-08 |
| US20210050021A1 (en) | 2021-02-18 |
| WO2019176986A1 (ja) | 2019-09-19 |
| JPWO2019176986A1 (ja) | 2021-02-04 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP6958723B2 (ja) | 信号処理システム、信号処理装置、信号処理方法、およびプログラム | |
| JP6993353B2 (ja) | ニューラルネットワークベースの声紋情報抽出方法及び装置 | |
| US11545173B2 (en) | Automatic speech-based longitudinal emotion and mood recognition for mental health treatment | |
| JP6832501B2 (ja) | 意味生成方法、意味生成装置及びプログラム | |
| US20140350934A1 (en) | Systems and Methods for Voice Identification | |
| US12033614B2 (en) | System and method for secure data augmentation for speech processing systems | |
| JP7230806B2 (ja) | 情報処理装置、及び情報処理方法 | |
| WO2008001486A1 (en) | Voice processing device and program, and voice processing method | |
| JP2024538717A (ja) | エンドツーエンド音声認識モデルのオンデバイスバッチ処理のための単語境界を予測すること | |
| JP2018087935A (ja) | 音声言語識別装置、その方法、及びプログラム | |
| US20240221722A1 (en) | Eyewear device and method of use | |
| JP6552999B2 (ja) | テキスト補正装置、テキスト補正方法、およびプログラム | |
| WO2019107170A1 (ja) | 緊急度推定装置、緊急度推定方法、プログラム | |
| US11798578B2 (en) | Paralinguistic information estimation apparatus, paralinguistic information estimation method, and program | |
| JP2018081169A (ja) | 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム | |
| WO2021014612A1 (ja) | 発話区間検出装置、発話区間検出方法、プログラム | |
| JP4864783B2 (ja) | パタンマッチング装置、パタンマッチングプログラム、およびパタンマッチング方法 | |
| US12430414B2 (en) | System and method for generating synthetic profiles for training biometric verification systems | |
| JP7508333B2 (ja) | 計算機システム及び学習方法 | |
| JP7176629B2 (ja) | 識別モデル学習装置、識別装置、識別モデル学習方法、識別方法、プログラム | |
| KR20220117743A (ko) | 전자 장치 및 그 제어 방법 | |
| US20220277767A1 (en) | Voice/non-voice determination device, voice/non-voice determination model parameter learning device, voice/non-voice determination method, voice/non-voice determination model parameter learning method, and program | |
| JP5956913B2 (ja) | 言語モデル生成装置、言語モデル生成方法、プログラム、記録媒体 | |
| JP2025175589A (ja) | 音声認識装置、音声認識方法、及びプログラム | |
| JP2007017548A (ja) | 音声認識結果の検証装置及びコンピュータプログラム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211007 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220912 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220927 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221122 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230322 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230404 |
|
| R151 | Written notification of patent or utility model registration |
Ref document number: 7268711 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |