JP2008134475A - 入力された音声のアクセントを認識する技術 - Google Patents
入力された音声のアクセントを認識する技術 Download PDFInfo
- Publication number
- JP2008134475A JP2008134475A JP2006320890A JP2006320890A JP2008134475A JP 2008134475 A JP2008134475 A JP 2008134475A JP 2006320890 A JP2006320890 A JP 2006320890A JP 2006320890 A JP2006320890 A JP 2006320890A JP 2008134475 A JP2008134475 A JP 2008134475A
- Authority
- JP
- Japan
- Prior art keywords
- data
- accent
- input
- phrase
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
【課題】入力音声のアクセントを効率的かつ高精度に認識する。
【解決手段】学習用テキストの各語句の表記を示す学習用表記データ、各語句の発声の特徴を示す学習用発声データと学習用音声の各語句がアクセント句の境界か否かを示す学習用境界データを記憶しており、境界データの候補を入力し、入力音声の内容を示す入力テキストの表記を示す入力表記データ、学習用表記データと学習用境界データより、入力テキストの各語句のアクセント句の境界が、入力されたその候補と一致する第1尤度を算出し、入力音声の各語句の発声の特徴を示す入力発声データ、学習用発声データと学習用境界データにより、入力音声が境界データの候補により指定されるアクセント句の境界を有する場合に入力テキストの各語句の発声が入力発声データにより指定される発声となる第2尤度を算出して、第1と第2の各尤度の積を最大化する境界データの候補を探索し、その結果を出力する。
【選択図】図4
【解決手段】学習用テキストの各語句の表記を示す学習用表記データ、各語句の発声の特徴を示す学習用発声データと学習用音声の各語句がアクセント句の境界か否かを示す学習用境界データを記憶しており、境界データの候補を入力し、入力音声の内容を示す入力テキストの表記を示す入力表記データ、学習用表記データと学習用境界データより、入力テキストの各語句のアクセント句の境界が、入力されたその候補と一致する第1尤度を算出し、入力音声の各語句の発声の特徴を示す入力発声データ、学習用発声データと学習用境界データにより、入力音声が境界データの候補により指定されるアクセント句の境界を有する場合に入力テキストの各語句の発声が入力発声データにより指定される発声となる第2尤度を算出して、第1と第2の各尤度の積を最大化する境界データの候補を探索し、その結果を出力する。
【選択図】図4
Description
本発明は、音声認識技術に関する。特に、本発明は、入力された音声のアクセントを認識する技術に関する。
近年、入力されたテキストを、その読み方などの付随的な情報を必要とすることなく、自然な発音で読み上げる音声合成技術が注目されている。この音声合成技術において、聞き手にとって自然な音声を生成するためには、語句の発音のみならずアクセントを正確に再現することが重要となる。語句を構成するモーラ毎に、相対的に高いH型、および、相対的に低いL型を正確に再現して音声を合成することができると、合成音声を聞き手にとってより自然に感じさせることができる。
江本喜久男, 全炳河, 徳田恵一, 北村正, "自動韻律ラベリングのためのアクセント型認識", 音響学会秋季研究発表会講演論文集, 2003年9月
江本喜久男, 全炳河, 徳田恵一, 北村正, "自動韻律ラベリングのためのアクセント型認識", 音響学会秋季研究発表会講演論文集, 2003年9月
現在用いられている音声合成システムは統計的に学習を行うことによって構築されたものがほとんどである。アクセントを正確に再現する音声合成システムの統計的な学習を行うためには、テキストを読み上げた人間の音声データと、その発声を行う際に使われたアクセントを対応付けた学習用データが大量に必要である。従来、このような学習用データは、音声を人が聴取してアクセント種別を付与することによって構築されていたため、大量の学習データを準備することは難しかった。
これに対し、テキストを読み上げた発声の発声データからアクセントの種別を自動的に判別することができれば、大量の学習データを容易に準備することができる。しかしながら、アクセントは相対的なものであって、音声の周波数などのデータに基づき精度良く生成することは難しい。実際、非特許文献1では、このような発声のデータからアクセントを自動的に判別することが試みられているが、その精度は実用に足りる充分なものではない。
そこで本発明は、上記の課題を解決することのできるシステム、方法およびプログラムを提供することを目的とする。この目的は特許請求の範囲における独立項に記載の特徴の組み合わせにより達成される。また従属項は本発明の更なる有利な具体例を規定する。
上記課題を解決するために、本発明の一側面においては、入力された音声のアクセントを認識するシステムであって、学習用テキストの各語句の表記を示す学習用表記データ、学習用音声における各語句の発声の特徴を示す学習用発声データ、および、各語句がアクセント句の境界か否かを示す学習用境界データを記憶する記憶部と、入力音声における各語句がアクセント句の境界か否かを示す境界データの候補を入力し、入力音声の内容を示す入力テキストの各語句の表記を示す入力表記データ、学習用表記データ、および、学習用境界データに基づいて、入力テキストの各語句のアクセント句の境界が、入力された境界データの候補となる第1尤度を算出する第1算出部と、境界データの候補を入力し、入力音声における各語句の発声の特徴を示す入力発声データ、学習用発声データ、および学習用境界データに基づいて、入力音声が境界データの候補により指定されるアクセント句の境界を有する場合に入力テキストの各語句の発声が入力発声データにより指定される発声となる第2尤度を算出する第2算出部と、入力された境界データの候補の中から、第1尤度および第2尤度の積を最大化する境界データの候補を探索し、探索した境界データの候補を、入力テキストをアクセント句に区切る境界データとして出力するアクセント句探索部とを備えるシステムを提供する。また、当該システムによりアクセントを認識する方法、および、当該システムとして情報処理装置を機能させるプログラムを提供する。
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの特徴群のサブコンビネーションもまた、発明となりうる。
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの特徴群のサブコンビネーションもまた、発明となりうる。
以下、発明を実施するための最良の形態(以下、実施形態と称す)を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
図1は、認識システム10の全体構成を示す。認識システム10は、記憶部20と、アクセント認識装置40とを備える。アクセント認識装置40は、入力テキスト15および入力音声18を入力し、入力したこの入力音声18のアクセントを認識する。入力テキスト15は、入力音声18の内容を示すデータであり、たとえば文字を配列した文書などのデータである。また、入力音声18は、入力テキスト15を読み上げた音声である。この音声は、周波数の時系列変化などを示す音響データまたはその時系列変化の特徴などを示す入力発声データに変換されて、認識システム10に記録される。また、アクセントとは、たとえば、入力音声18のモーラ毎に、そのモーラを相対的に高い音声で発声すべきことを示すH型、または、そのモーラを相対的に低い音声で発声すべきことを示すL型の何れであるかを示す情報である。アクセントの認識には、入力音声18に対応付けて入力された入力テキスト15の他、記憶部20に記憶された各種のデータが用いられる。記憶部20は、学習用表記データ200、学習用発声データ210、学習用境界データ220、学習用品詞データ230および学習用アクセントデータ240を記憶している。本実施形態に係る認識システム10は、これらのデータを効果的に用いることで、入力音声18のアクセントを精度良く認識することを目的とする。
なお、認識されたアクセントは、アクセント句の区切りを示す境界データと、それぞれのアクセント句のアクセント型の情報とによって構成され、入力テキスト15に対応付けて外部の音声合成装置30などに出力される。音声合成装置30は、このアクセントの情報を用いて、テキストから合成音声を生成して出力する。本実施形態に係る認識システム10によれば、入力テキスト15および入力音声18のみを入力としてアクセントを効率的かつ高精度に認識できるので、アクセントを人手で入力したり自動認識したアクセントを修正したりする手間を省略して、テキストとその読みのアクセントとを対応付けた大量のデータを効率的に生成できる。このため、音声合成装置30においてはアクセントについての信頼性の高い統計データを得ることができ、聞き手にとってより自然な音声を合成することができる。
図2は、入力テキスト15および学習用表記データ200の構成の具体例を示す。入力テキスト15は、上述のように、文字を配列した文書などのデータであり、学習用表記データ200は、予め用意された学習用テキストの各語句の表記を示すデータである。これらのデータは、たとえば日本語でいう句点によって区切られた複数の文を含む。そして、文は、たとえば日本語でいう読点によって区切られた複数のイントネーション句(IP:Intonational Phrase)を含む。イントネーション句は、更に、複数のアクセント句(PP:Prosodic Phrase)を含む。アクセント句は、韻律上ひと続きで発声される語句の集合をいう。
また、それぞれのアクセント句は、複数の語句を含む。語句とは、主として形態素であり、言語の中で意味を持つ最小単位を指す概念である。また、語句は、その発音として複数のモーラを含む。モーラとは、音韻論上、一定の長さをもった音の分節単位をいい、たとえば日本語ではひらがなの一文字に対応する発音である。
図3は、記憶部20が記憶する各種データの一例を示す。上述のように、記憶部20は、学習用表記データ200と、学習用発声データ210と、学習用境界データ220と、学習用品詞データ230と、学習用アクセントデータ240とを有する。学習用表記データ200は、各語句の表記を、たとえば連続する複数の文字のデータとして有している。図3の例では「大阪府在住の方に限ります」という文章の文字の一字一字のデータがこれに相当する。また、学習用表記データ200は、語句の境界のデータを有している。図3中では語句の境界を点線で示した。即ち、「大阪」、「府」、「在住」、「の」、「方」、「に」、「限」、「り」、「ま」および「す」のそれぞれが学習用表記データ200における語句である。さらには、学習用表記データ200は、それぞれの語句が有しているモーラの数を示す情報を有している。図中には、各語句のモーラ数に基づいて容易に算出可能な各アクセント句のモーラ数を例示した。
学習用発声データ210は、学習用音声における各語句の発声の特徴を示すデータである。具体的には、学習用発声データ210は、各語句の発音を表すアルファベットの文字列を含んでいてもよい。即ち、「大阪府」と表記される句はその発音として5つのモーラを含み「o,o,sa,ka,fu」と発音されるといった情報がこれに相当する。また、学習用発声データ210は、学習用テキストの各語句を読み上げた発声の周波数のデータを含んでいてもよい。この周波数のデータは、たとえば、声帯の振動周波数であって、口腔内に共鳴した周波数を除外したものであることが望ましく、このような周波数を基本周波数と呼ぶ。また、学習用発声データ210は、このような基本周波数のデータを、周波数の値そのものではなく、その値の時系列変化を示すグラフの傾きなどのデータとして記憶してもよい。
学習用境界データ220は、学習用テキストにおいて各語句がアクセント句の境界か否かを示すデータである。図3の例で学習用境界データ220は、アクセント句境界300−1およびアクセント句境界300−2を含む。アクセント句境界300−1は、語句「府」の末尾がアクセント句の境界であることを示す。アクセント句境界300−2は、語句「に」の末尾がアクセント句の境界であることを示す。学習用品詞データ230は、学習用テキストの各語句の品詞を示すデータである。ここでいう品詞とは、文法上厳密な意味での品詞のみならず、品詞をその役割によって更に詳細に分類したものを含む概念である。たとえば、学習用品詞データ230は、「大阪」という語句に対応して「固有名詞」という品詞の情報を含む。また「限」という語句に対応して「動詞」という品詞の情報を含む。学習用アクセントデータ240は、学習用音声における各語句のアクセント型を示すデータである。アクセント句に含まれる各モーラはH型またはL型に分類される。
また、アクセント句のアクセント型は、そのアクセント句に含まれるモーラの数に対応して、予め定められた複数のアクセント型の何れかに分類される。たとえば、5モーラのアクセント句が「LHHHL」という連続したアクセントで発音される場合に、そのアクセント句のアクセント型は4型である。学習用アクセントデータ240は、このようなアクセント句のアクセント型を直接に示すデータを含んでいてもよいし、各モーラがH型またはL型の何れであるかを示すデータのみを含んでいてもよいし、それらの双方を含んでいてもよい。
以上に示した各種のデータは、たとえば言語学や言語認識の専門家などによって解析された正しい情報である。記憶部20がこのような正しい情報を記憶していることで、アクセント認識装置40は、この情報を用いて、入力音声のアクセントを精度良く認識することができる。
なお、図3では説明の簡略化のため、全ての語句について等しく学習用表記データ200、学習用発声データ210、学習用境界データ220、学習用品詞データ230および学習用アクセントデータ240が判明している場合を例に説明した。これに代えて、記憶部20は、数量のより多い第1の学習用テキストについては、これらのデータから学習用発声データ210を除外した全てのデータを記憶しており、数量のより少ない第2の学習テキストに対応する第2の学習用音声については、これらのデータを全て記憶していてもよい。学習用発声データ210は、語句の話者に強く依存するデータであり、大量に収集することは一般に困難である一方、学習用アクセントデータ240や学習用表記データ200などは、話者の属性によらず普遍的であることが多く、収集が容易である。このように、学習用データの中でも収集の容易さに応じてデータの記憶容量に偏りがあってもよい。本実施形態に係る認識システム10によれば、言語的情報および音響的情報のそれぞれについて独立に尤度を評価したうえで、それらの積に基づいてアクセント句を認識するので、このようなデータの偏りがあっても認識の精度を低下させることはなく、さらには、話者に応じた発声の特徴を反映して高精度なアクセント認識を可能とすることができる。
図4は、アクセント認識装置40の機能構成を示す。アクセント認識装置40は、第1算出部400と、第2算出部410と、優先判断部420と、アクセント句探索部430と、第3算出部440と、第4算出部450と、アクセント型探索部460とを有する。まず、本図に示す各部とハードウェア資源との関連について述べる。本実施形態に係る認識システム10を実現するプログラムは、後述の情報処理装置500に読み込まれてCPU1000により実行される。そして、CPU1000およびRAM1020は協働して、情報処理装置500を、記憶部20、第1算出部400、第2算出部410、優先判断部420、アクセント句探索部430、第3算出部440、第4算出部450およびアクセント型探索部460として機能させる。
アクセント認識装置40には、入力テキスト15や入力音声18などの、実際にアクセント認識の対象となるデータが入力される場合と、認識に先立って、予めアクセントの認識されたテスト用テキスト等が入力される場合とがある。ここではまず、実際にアクセント認識の対象となるデータが入力される場合について説明する。
アクセント認識装置40は、入力テキスト15および入力音声18を入力すると、まず、第1算出部400による処理に先立って、入力テキスト15を形態素解析することにより、入力テキスト15を語句の区切りに分割すると共に各語句に対応付けて品詞の情報を生成する。また、アクセント認識装置40は、各語句の発音のモーラ数を解析し、また、入力音声18の中から各語句に対応する部分を抽出して対応付ける処理を行う。入力された入力テキスト15および入力音声18が既に形態素解析の完了したものである場合には、これらの処理は不要である。
以下、言語モデルおよび音響モデルを組み合わせたアクセント句の認識と、言語モデルおよび音響モデルを組み合わせたアクセント型の認識とについて順次説明する。言語モデルによるアクセント句の認識とは、たとえば、予め学習用テキストから得られた、特定の品詞や特定の表記の語句の末尾はアクセント句の境界となり易いという傾向を、認識に利用するということを内容とする。この処理は第1算出部400により実現される。音響モデルによるアクセント句の認識とは、予め学習用音声から得られた、特定の周波数の音声や周波数変化の後はアクセント句の境界となり易いという傾向を、認識に利用することを内容とする。この処理は第2算出部410により実現される。
第1算出部400、第2算出部410およびアクセント句探索部430は、文を読点等で区切ったイントネーション句毎に、以下の処理を行う。第1算出部400は、当該イントネーション句に対応する入力音声の各語句がアクセント句の境界か否かを示す境界データの候補を入力する。この境界データの候補は、たとえば、各語句の末尾がアクセント句の境界となるか否かを示す論理値を要素とし、語句の数から1を減じた数を要素数としたベクトル変数として表される。アクセント句の境界として想定し得るあらゆる組合せの中から最も確からしい組合せを探索するためには、第1算出部400は、各語句をアクセント句の境界とし、または境界としない場合についてのあらゆる組合せのそれぞれを、この境界データの候補として順次入力することが望ましい。
そして、入力されたこの境界データの候補のそれぞれについて、第1算出部400は、入力テキスト15の各語句の表記を示す入力表記データ、記憶部20から読み出した学習用表記データ200、学習用境界データ220および学習用品詞データ230に基づいて、第1尤度を算出する。第1尤度は、入力テキスト15の各語句のアクセント句の境界が当該境界データの候補となる尤度を示す。第2算出部410は、第1算出部400と同じく境界データの複数の候補を順次入力し、入力音声18における各語句の発声の特徴を示す入力発声データ、記憶部20から読み出した学習用発声データ210および学習用境界データ220に基づいて第2尤度を算出する。第2尤度は、入力音声18が当該境界データの候補により指定されるアクセント句の境界を有する場合に入力テキスト15の各語句の発声が入力発声データにより指定される発声となる尤度を示す。
そして、アクセント句探索部430は、入力されたこれらの境界データの候補の中から、算出された第1尤度および第2尤度の積を最大化する境界データの候補を探索し、探索した境界データの候補を、入力テキスト15をアクセント句に区切る境界データとして出力する。以上の処理は、以下の式(1)によって表される。
この式において、ベクトル変数Vは入力音声18に含まれる各語句の発声の特徴を示す入力発声データである。この入力発声データは、入力音声18の特徴を示す指標として外部から入力されてもよいし、入力音声18に基づいて第1算出部400または第2算出部410により算出されてもよい。語句の数をrとおき、各語句の発声の特徴を示す指標をvrと置くと、V=(v1,..,vr)と表される。また、ベクトル変数Wは入力テキスト15に含まれる語句の表記を示す入力表記データである。各語句の表記をwrと置くと、変数W=(w1,..,wr)と表される。また、ベクトル変数Bは、境界データの候補を表す。語句wrの末尾がアクセント句の境界である場合にbr=1、アクセント句の境界で無い場合にbr=0と置くと、B=(b1,..,br-1)と表される。また、argmaxは、続いて記述されるP(B|W,V)を最大化するBを求める関数である。即ち、この式(1)の1行目は、V、Wを既知としてBの条件付き確率を最大化する最尤なアクセント句境界列Bmaxを求める問題を表している。
この式(1)の1行目は条件付確率の定義に基づいて式(1)の2行目のように変形される。そして、P(V|W)は、境界データの候補によらず一定であるから、式(1)の2行目は式(1)の3行目のように変形される。更に、式(1)の3行目の右辺に現れるP(V|B,W)は、アクセント句の境界および語句の表記に基づき発声の特徴量が定められることを示しているが、この特徴量はアクセント句の境界の有無のみによって定まるとみなしてP(V|B)と近似できる。この結果、アクセント句境界列Bmaxを求める問題は、P(B|W)およびP(V|B)の積として表される。P(B|W)が、上述の第1算出部400により算出される第1尤度であって、P(V|B)が、上述の第2算出部410により算出される第2尤度である。そして、その積を最大化するBを求める処理が、アクセント句探索部430による探索の処理に対応する。
続いて、言語モデルおよび音響モデルを組み合わせたアクセント型の認識について順次説明する。言語モデルを用いたアクセント型の認識とは、たとえば、予め学習用テキストから得られた、特定の表記や品詞の語句は、その前後の語句の表記なども総合的に考え合わせるとある特定のアクセント型になりやすいといった傾向を認識に利用することを内容とする。この処理は第3算出部440により実現される。音響モデルを用いたアクセント型の認識とは、たとえば、予め学習用音声から得られた、特定の周波数の音声や周波数変化の語句はあるアクセント型になりやすいといった傾向を認識に利用することを内容とする。この処理は第4算出部450により実現される。
アクセント句探索部430により探索された境界データによって区切られるアクセント句のそれぞれについて、第3算出部440は、当該アクセント句に含まれる各語句のアクセント型の候補を入力する。このアクセント型についても、上述の境界データの場合と同様に、当該アクセント句を構成する各語句が各アクセント型となるすべての組み合わせがアクセント型の複数の候補として順次入力されることが望ましい。第3算出部440は、入力されたアクセント型の候補のそれぞれについて、入力発声データ、学習用表記データ200および学習用アクセントデータ240に基づいて、当該アクセント句に含まれる各語句のアクセント型が、入力されたこのアクセント型の候補となる第3尤度を算出する。
第4算出部450もまた、アクセント句探索部430により探索された境界データによって区切られるアクセント句のそれぞれについて、当該アクセント句に含まれる各語句のアクセント型の候補を入力する。そして、第4算出部450は、入力されたアクセント型の候補のそれぞれについて、入力発声データ、学習用発声データ210および学習用アクセントデータ240に基づいて、当該アクセント句に含まれる各語句が当該アクセント型の候補により指定されるアクセント型を有する場合に当該アクセント句の発声が入力発声データにより指定される発声となる第4尤度を算出する。
そして、アクセント型探索部460は、入力されたアクセント型の複数の候補の中から、第3算出部440により算出された第3尤度および第4算出部450により算出された第4尤度の積を最大化するアクセント型の候補を探索する。この探索は、たとえば、それぞれのアクセント型の候補について第3尤度および第4尤度の積を算出したうえで、それらの積のうちの最大値に対応するアクセント型の候補を特定することにより実現されてもよい。そして、アクセント型探索部460は、探索したアクセント型の候補を、そのアクセント句のアクセント型として音声合成装置30に対し出力する。アクセント型は、アクセント句の境界を示す境界データおよび入力テキスト15に対応付けて出力されることが好ましい。
以上の処理は、以下の式(2)によって表される。
以上の処理は、以下の式(2)によって表される。
ベクトル変数Vは、式(1)の場合と同様に、入力音声18に含まれる各語句の発声の特徴を示す入力発声データである。但し、式(2)において、ベクトル変数Vは、処理の対象となっているアクセント句に含まれる各モーラについて、その発声の特徴を示す指標の指標値を表す。そのアクセント句のモーラの数をmとおき、各モーラの発声の特徴を示す指標をvmと置くと、V=(v1,..,vm)と表される。また、ベクトル変数Wは、当該アクセント句に含まれる語句の表記を示す入力表記データである。各語句の表記をwnと置くと、変数W=(w1,..,wn)と表される。また、ベクトル変数Aは当該アクセント句に含まれる各語句のアクセント型の組合せを示す。また、argmaxは、続いて記述されるP(A|W,V)を最大化するaを求める関数である。即ち、この式(2)の1行目は、V、Wを既知としてAの条件付き確率を最大化する最尤なアクセント型の組合せAを求める問題を表している。
この式(2)の1行目は条件付確率の定義に基づいて式(2)の2行目のように変形される。そして、P(V|W)は、アクセント型によらず一定であるから、式(2)の2行目は式(2)の3行目のように変形される。P(V|W,A)が、上述の第3算出部440により算出される第3尤度であって、P(A|W)が、上述の第4算出部450により算出される第4尤度である。そして、その積を最大化するAを求める処理が、アクセント型探索部460による探索の処理に対応する。
次に、テスト用テキストを入力する処理機能について説明する。アクセント認識装置40は、入力テキスト15に代えて予めアクセント句の境界が認識されたテスト用テキストを入力し、入力音声18に代えてテスト用テキストの発音を示すテスト用発声データを入力する。そして、第1算出部400は、そのテスト用発声データのアクセント句の境界は未だ認識されていないものとして、上述の入力音声18に対する処理と同様の処理を行って第1尤度を算出する。また、第2算出部410は、入力テキスト15に代えてテスト用テキストを用いて、入力音声18に代えてテスト用発声データを用いて第2尤度を算出する。そして、優先判断部420は、第1算出部400および第2算出部410のうち、テスト用発声データについて予め認識されていたアクセント句の境界に対しより高い尤度を算出した算出部を、優先して使用するべき優先算出部と判断して、その結果をアクセント句探索部430に通知する。これを受けて、アクセント句探索部430は、上述の入力音声18についてのアクセント句の探索において、その優先算出部により算出される尤度により重い重み付けをして、第1尤度および第2尤度の積を算出する。これにより、より信頼性の高い尤度を優先して、アクセント句の境界の探索に利用することができる。同じように、優先判断部420は、予めアクセント型の認識されたテスト用テキストおよびテスト用音声データを用いて、第3算出部440および第4算出部450の何れの算出部をより優先するかについて判断を行ってもよい。
図5は、アクセント認識装置40がアクセントを認識する処理のフローチャートを示す。アクセント認識装置40は、まず、テスト用テキストおよびテスト用音声データを用いて、第1算出部400および第2算出部410の何れによって算出された尤度をより高く評価するか、および/または、第3算出部440および第4算出部450の何れによって算出された尤度をより高く評価するか、について判断する(S500)。次に、アクセント認識装置40は、入力テキスト15および入力音声18を入力すると、必要に応じて形態素解析処理、語句をその発声データに対応付ける処理、各語句のモーラ数をカウントする処理などを行う(S510)。
次に、第1算出部400は、入力された境界データの候補について、たとえば、入力テキスト15の境界データとして想定し得る全ての境界データの候補のそれぞれについて第1尤度を算出する(S520)。上述のように、第1尤度の算出は、式(1)3行目に含まれるP(B|W)の算出に相当する。そして、この算出は、たとえば以下の式(3)によって実現される。
式(3)の1行目は、ベクトル変数Bを定義に基づき展開している。但し、ここではイントネーション句に含まれる語句の数をlと置いている。式(3)の2行目は、条件付確率の定義に基づく変形である。この式は、ある境界データBの尤度とは、語句の境界をイントネーション句の先頭から走査して、そのそれぞれがBに基づきアクセント句の境界となる/ならないとした場合の確率を順次乗じあわせることにより算出されることを示している。式(3)の3行目においてwiおよびwi+1として示すように、ある語句wiの末尾がアクセント句の境界となるか否かの確率値は、その語句wiのみならず、その後続の語句wi+1に基づいて定められてもよい。更には、その語句の直前の語句がアクセント句の境界かどうかを示す情報bi−1に基づいて定められてもよい。それぞれの語句についてのP(b|W)は、決定木を用いて算出されてもよい。この決定木の一例を図6に示す。
図6は、アクセント認識装置40がアクセント境界の認識に用いる決定木の一例を示す。この決定木は、語句の表記、品詞、および、その語句の直前の他の語句の末尾がアクセント句の境界であるかどうかを示す情報を説明変数とし、当該語句の末尾がアクセント句の境界となる尤度を算出するものである。このような決定木は、従来公知の決定木構築用のソフトウェアに、説明変数となるパラメータの識別情報と、予測したいアクセント境界を示す情報と、学習用表記データ200、学習用境界データ220および学習用品詞データ230を与えると自動的に生成されるものである。
図6に示す決定木は、ある語句wiの末尾部分がアクセント句の境界かどうかを示す尤度を算出するものである。たとえば、第1算出部400は、入力テキスト15の形態素解析の結果に基づいて、その語句wiの品詞が形容動詞かどうかを判断する。形容動詞であれば、その語句の末尾部分がアクセント句の境界となる尤度を18%と判断する。形容動詞でなければ、第1算出部400は、その語句の品詞が連体詞かどうかを判断する。連体詞であれば、その語句の末尾がアクセント句の境界となる尤度を8%と判断する。連体詞でなければ、その語句wiの後続のwi+1の品詞が「語尾」かどうかを判断する。「語尾」であれば、第1算出部400は、その語句wiの末尾がアクセント句の境界となる尤度を23%と判断する。「語尾」でなければ、第1算出部400は、その語句に後続する語句wi+1の品詞が形容動詞かどうかを判断する。形容動詞であれば、第1算出部400は、その語句wiの末尾がアクセント句の境界となる尤度を98%と判断する。
形容動詞でなければ、第1算出部400は、その語句に後続する語句wi+1の品詞が「記号」かどうかを判断する。「記号」であれば、第1算出部400は、その語句wiの直前の語句wi−1の末尾がアクセント句の境界かどうかを、bi−1を用いて判断する。境界でなければ、第1算出部400は、その語句wiの末尾がアクセント句の境界である尤度を35%と判断する。
このように、決定木とは、各種判断を表すノードと、その判断結果を示すエッジと、算出すべき尤度を示すリーフノードとによって構成されている。判断の種類としては図6に例示した品詞などの情報に加えて、表記そのものを用いてもよい。即ちたとえば、決定木は、語句の表記が予め定められた表記であるか否かに応じて、何れの子ノードに遷移するかどうかを決定するノードを有してもよい。この決定木を用いることで、第1算出部400は、入力された境界データの候補について、その候補によって示される各アクセント句の尤度を算出して、算出した尤度の積を上記の第1尤度として算出することができる。
このように、決定木とは、各種判断を表すノードと、その判断結果を示すエッジと、算出すべき尤度を示すリーフノードとによって構成されている。判断の種類としては図6に例示した品詞などの情報に加えて、表記そのものを用いてもよい。即ちたとえば、決定木は、語句の表記が予め定められた表記であるか否かに応じて、何れの子ノードに遷移するかどうかを決定するノードを有してもよい。この決定木を用いることで、第1算出部400は、入力された境界データの候補について、その候補によって示される各アクセント句の尤度を算出して、算出した尤度の積を上記の第1尤度として算出することができる。
図5に戻る。続いて、第2算出部410は、入力された境界データの候補、たとえば、入力テキスト15の境界データとして想定し得る全ての境界データの候補のそれぞれについて第2尤度を算出する(S530)。上述のように、第2尤度の算出は、P(V|B)の算出に相当する。そして、この算出処理は、たとえば以下の式(4)のように表される。
この式(4)において、変数Vおよび変数Bの定義は上述のものと同様である。また、語句がアクセント句の境界か否かを条件としてその語句の発声の特徴は定まり、それに隣接する語句の発声の特徴には依存しないと仮定すると、式(4)の左辺は右辺のように変形される。P(vi|bi)において、変数viは、語句wiの発声の特徴を示す複数の指標からなるベクトル変数である。これらの指標の指標値は、入力音声18に基づいて第2算出部410により算出される。変数viの各要素が示す指標について、図7を参照して説明する。
図7は、アクセント句境界の候補となる語句の発声時近傍における基本周波数の一例を示す。横軸は時刻の経過を表し、縦軸は周波数を示す。また、曲線状のグラフは、学習用音声の基本周波数の変化を示す。発声の特徴を示す第1の指標として、グラフ中の傾きg2を例示する。この傾g2は、語句wiを基準として、その語句の次に連続して発音される他の語句である後続語句の先頭のモーラにおける時間の経過に対する基本周波数の変化を示す指標値である。この指標値は、当該後続語句の先頭のモーラにおける基本周波数の最小値から最大値に至る変化の傾きとして算出される。
発声の特徴を示す第2の指標は、たとえば、この傾きg2とグラフ中の傾きg1との差分として表される。傾きg1は、当該基準とする語句の末尾のモーラにおける時間の経過に対する基本周波数の変化を示す。この傾きは、たとえば、その語句の末尾のモーラにおける周波数の最大値から、その語句の後続語句の先頭のモーラにおける基本周波数の最小値に至る変化の傾きとして近似的に算出されてもよい。また、発声の特徴を示す第3の指標は、当該基準の語句の末尾のモーラにおける基本周波数の変化量として表される。この変化量は、具体的には、このモーラの開始時点における基本周波数と終了時点における基本周波数との差分である。
以上のそれぞれの指標は、基本周波数やその変化量そのものではなく、それらの対数をとったものであってもよい。また、入力音声18について、これらの指標値は、各語句について第2算出部410により算出される。また、学習用音声について、これらの指標値は、各語句について予め算出されて記憶部20に記憶されていてもよい。また、記憶部20に記憶された基本周波数のデータに基づいて第2算出部410により算出されてもよい。
これらの指標値と学習用境界データ220とに基づいて、第2算出部410は、語句の末尾部分がアクセント句の境界となる場合とならない場合とのそれぞれについて、その語句のそれぞれの指標を要素として含むベクトル変数を確率変数とし、その語句の発声がそれぞれの指標値の組合せにより指定される発声となる確率を示す確率密度関数を生成する。
これらの指標値と学習用境界データ220とに基づいて、第2算出部410は、語句の末尾部分がアクセント句の境界となる場合とならない場合とのそれぞれについて、その語句のそれぞれの指標を要素として含むベクトル変数を確率変数とし、その語句の発声がそれぞれの指標値の組合せにより指定される発声となる確率を示す確率密度関数を生成する。
これらの確率密度関数は、語句毎に離散的に観測された指標値に基づく離散的な確率分布を連続関数に近似することにより生成される。具体的には、第2算出部410は、これらの指標値と学習用境界データ220とに基づいて、混合ガウス分布のパラメータを決定することによりこれらの確率密度関数を生成してもよい。
このように生成した確率密度関数を用いて、第2算出部410は、入力テキスト15に含まれる各語句の末尾部分がアクセント句の境界となる場合に入力テキスト15の発声が入力音声18により指定される発声となる第2尤度を算出する。具体的には、まず、第2算出部410は、入力テキスト15の各語句について何れかの確率密度関数を、入力された境界データの候補に基づき順次選択する。たとえば、第2算出部410は、境界データの候補を先頭から走査して、ある語句の末尾がアクセント句の境界となる場合には、境界となる場合の確率密度関数を選択し、その次の語句の末尾がアクセント句の境界とならない場合には、境界とならない場合の確率密度関数を選択する。
このように生成した確率密度関数を用いて、第2算出部410は、入力テキスト15に含まれる各語句の末尾部分がアクセント句の境界となる場合に入力テキスト15の発声が入力音声18により指定される発声となる第2尤度を算出する。具体的には、まず、第2算出部410は、入力テキスト15の各語句について何れかの確率密度関数を、入力された境界データの候補に基づき順次選択する。たとえば、第2算出部410は、境界データの候補を先頭から走査して、ある語句の末尾がアクセント句の境界となる場合には、境界となる場合の確率密度関数を選択し、その次の語句の末尾がアクセント句の境界とならない場合には、境界とならない場合の確率密度関数を選択する。
そして、第2算出部410は、各語句について選択した確率密度関数のそれぞれに対し、入力音声18において当該語句に対応する指標値のベクトル変数を代入する。このようにして算出される各算出値は、式(4)の右辺に示すP(vi|bi)に相当する。そして、第2算出部410は、この各算出値を乗じ合わせることにより第2尤度を算出することができる。
図5に戻る。次に、アクセント句探索部430は、境界データの候補の中から、算出された第1尤度および第2尤度の積を最大化する境界データの候補を探索する(S540)。この積を最大化する境界データの候補は、境界データとして想定し得る語句の全ての組合せ(即ち語句の数をNとすると2N−1通りの組合せ)について第1尤度および第2尤度の積を算出したうえで、その積の値を大小比較することによって探索されてもよい。詳細には、アクセント句探索部430は、ビタービのアルゴリズムとして知られる既存手法によって、第1尤度および第2尤度を最大化する境界データの候補を探索してもよい。さらには、アクセント句探索部430は、境界データとして想定し得る全ての語句の組合せの一部のみについて、第1尤度および第2尤度を算出した上で、その積の値を最大化する語句の組合せを、第1尤度および第2尤度を近似的に最大化する語句の組合せを示す境界データとして算出してもよい。探索された境界データは、入力テキスト15および入力音声18について最尤のアクセント句を示す。
続いて、アクセント句探索部430により探索された境界データによって区切られるアクセント句のそれぞれについて、第3算出部440、第4算出部450およびアクセント型探索部460は以下の処理を行う。まず、第3算出部440は、アクセント句に含まれる各語句のアクセント型の候補を入力する。このアクセント型についても、上述の境界データの場合と同様に、当該アクセント句を構成する各語句が各アクセント型となるすべての組み合わせがアクセント型の複数の候補として順次入力されることが望ましい。第3算出部440は、入力されたアクセント型の候補のそれぞれについて、入力発声データ、学習用表記データ200および学習用アクセントデータ240に基づいて、当該アクセント句に含まれる各語句のアクセント型が、入力されたこのアクセント型の候補となる第3尤度を算出する(S540)。上述のように、この第3尤度の算出は、式(2)の3行目に示すP(A|W)の算出に相当する。そしてこの算出は、以下の式(5)を算出することによって実現される。
この式(5)において、ベクトル変数Aは、当該アクセント句に含まれる各語句のアクセント型の組合せを示す。このベクトル変数Aの各要素は、当該アクセント句に含まれる各語句のアクセント型を示す。即ち、当該アクセント句において第i番目に配列される語句をwiとおいて、当該アクセント句に含まれる語句の数をnとおくと、A=(A1…An)と表される。P´(A|W)は、与えられた語句の表記の組合せWに対し、その表記の組合せの発声が、アクセント型の組合せAによって指定される発声となる尤度を示す。式(5)は、この尤度が算出方法の都合によって合計が1となるように正規化されていない場合について、それぞれの組合せについての尤度の合計を1とするように合計するものである。P´(A|W)は、以下の式(6)により定義される。
この式(6)は、それぞれの語句Wiについて、当該アクセント句を先頭から走査してその語句Wiに至るまでの語句の集合W1からWi−1までのそれぞれの語句のアクセント型が、それぞれA1からAi−1までであることを条件に、第i番目の語句のアクセント型がAiである条件付確率を示す。これは、iの値がアクセント句の語尾に近づくにつれて、それまでに走査した当該アクセント句内の全ての語句を確率算出の条件とすることを意味する。そして、このように算出された条件付確率を、当該アクセント句内の全ての語句について乗じ合わせることを示している。それぞれの条件付確率は、第3算出部440が学習用表記データ200のうち、W1からWiまでを連結した表記を多数の箇所から検索した上で、そのそれぞれのアクセント型を学習用アクセントデータ240から検索し、それぞれのアクセント型の出現頻度を算出することによって実現できる。しかしながら、アクセント句に含まれる語句が多い場合、即ちiの値が大きくなり得る場合には、入力テキスト15の一部と比較して表記が完全に一致する語句の組合せは学習用表記データ200の中に出現しにくくなる。このため、式(6)に示す値を近似的に求めることが望ましい。
具体的には、第3算出部440は、予め指定したn個の語句からなる語句の組合せ毎に、その組合せが出現する頻度を学習用表記データ200に基づいて算出して、その指定した数よりも多い語句の組合せの出現頻度の算出に利用してもよい。このような方法は、語句の組合せを構成する語句の数であるnを用いて、ngramモデルと呼ばれる。語句の数が2個であるbigramモデルにおいて、第3算出部440は、学習用テキストにおいて連続して表記される2つの語句の組合せのそれぞれが、学習用アクセントデータ240においてアクセント型のそれぞれの組合せにより発声された頻度を算出する。そして、第3算出部440は、算出したそれぞれの頻度に基づいてこのP´(A|W)の値を近似的に算出する。一例として、第3算出部440は、当該アクセント句内の各語句について、その語句とその次に連続して表記される語句の組についてbigramモデルにおいて予め算出した頻度の値を選択する。そして、第3算出部440は、選択した頻度の値のそれぞれを乗じ合わせてP´(A|W)とする。
図5に戻る。次に、第4算出部450は、入力されたアクセント型の候補のそれぞれについて、入力発声データ、学習用発声データ210および学習用アクセントデータ240に基づいて第4尤度を算出する(S560)。第4尤度は、当該アクセント句に含まれる各語句が当該アクセント型の候補により指定されるアクセント型を有する場合に当該アクセント句の発声が入力発声データにより指定される発声となる尤度である。上述のように、この第4尤度の算出は、式(2)の3行目に示すP(V|W,A)の算出に相当する。そしてこの算出は、以下の式(7)として表される。
式(7)において、ベクトル変数V、WおよびAについての定義は上述の通りである。但し、ベクトル変数Vの要素である変数viは、アクセント句内のモーラを示す変数iを添え字として、各モーラiの発声の特徴を示す。また、式(7)と式(4)との間で変数viが示す特徴の種類は互いに異なってもよい。また、変数mは、当該アクセント句内のモーラの総数を示す。式(7)の1行目左辺は、各モーラの発声の特徴がそのモーラに隣接するモーラには依存しないとみなすことで、右辺式のように近似される。右辺式は、各モーラについての発声の特徴に基づく尤度を各モーラについて乗じることにより、アクセント句の発声の特徴を示す尤度が算出されることを示す。
式(7)の2行目に示すように、Wは、語句の表記そのものではなく、アクセント句内の各語句が有するモーラの数および、各モーラがアクセント句内で占める位置によって近似されてもよい。即ち式(7)の「|」の右側の条件部分において、変数iはモーラiがアクセント句内で先頭から何番目であるかを示し、(m−i)はモーラiがアクセント句内で後ろから何番目であるかを示す。また、式の条件部分において、変数aiは、当該アクセント句内の第i番目のモーラのアクセントがH型およびL型の何れであるかを示す。この条件部分は変数aiおよび変数ai−1を含む。すなわち、この式では、Aを、アクセント句内の全てのモーラについての全てのアクセントの組合せではなく、隣接する2つのモーラの組合せに基づいて定めている。
次に、この確率密度関数Pを算出する方法を説明するために、ここで取り扱われる変数viが示す各指標の具体例について、図8を参照して説明する。
次に、この確率密度関数Pを算出する方法を説明するために、ここで取り扱われる変数viが示す各指標の具体例について、図8を参照して説明する。
図8は、アクセント認識の対象となるあるモーラについての基本周波数の一例を示す。図7と同様に、横軸は時間の経過方向を示し、縦軸は発声の基本周波数の大きさを示す。図中の曲線のグラフは、あるモーラにおける基本周波数の時系列変化を示す。また、図中の点線は、このモーラと他のモーラとの境界を示している。このモーラiの発声の特徴を示すベクトル変数viは、たとえば3つの指標の指標値をそれぞれ要素とする3次元のベクトルを示す。第1の指標は、当該モーラの開始時点における発声の基本周波数を示す。第2の指標は、当該モーラiにおける発声の基本周波数の変化量を示す。この変化量は、当該モーラiの開始時点および終了時点における基本周波数の差分である。この第2の指標は、以下の式(8)に示す計算により0から1までの範囲の値として正規化されてもよい。
この式(8)によれば、開始時点および終了時点における基本周波数の差分は、当該モーラの最小周波数および最大周波数の差分を基準として0から1までの範囲内の値として正規化される。
第3の指標は、当該モーラにおける時間の経過に対する発声の基本周波数の変化、即ち、グラフ中の直線の傾きを示す。この直線は、基本周波数の変化を示すグラフの全体としての変化の傾向を把握するために、基本周波数のグラフを最小2乗法などによって1次関数に近似したものであってよい。以上のそれぞれの指標は、基本周波数やその変化量そのものではなく、それらの対数をとったものであってもよい。またこれらの指標の指標値は、学習用音声については、記憶部20に学習用発声データ210として予め記憶されていてもよいし、記憶部20に記憶された基本周波数のデータに基づいて第4算出部450により算出されてもよい。入力音声18については、これらの各指標の指標値は、第4算出部450によって算出されてもよい。
学習用音声についての各指標値、学習用表記データ200および学習用アクセントデータ240に基づいて、第4算出部450は、式(7)2行目の右辺に示す確率密度関数Pを決定する決定木を生成する。この決定木は、モーラのアクセントがH型およびL型の何れであるか、当該モーラを含むアクセント句のモーラ数、当該モーラに連続する直前のモーラのアクセントがH型およびL型の何れであるか、および、当該モーラの占める当該アクセント句内の位置のそれぞれを説明変数とする。そして、それぞれの条件を満たす場合の発声の特徴を示すベクトル変数vを確率変数とした確率密度関数を目標変数とするものである。
この決定木は、決定木を構築するためのソフトウェアに対し、学習用音声についての各モーラの指標値、学習用表記データ200および学習用アクセントデータ240を与えた上で、上記の各説明変数および目標変数を設定することによって自動的に生成される。この結果、上記の各説明変数の値の組合せ毎に分類された複数の確率密度関数が第4算出部450により生成される。なお、確率密度関数は、学習用音声から算出された指標値は実際には離散的な値を採ることから、混合ガウス分布のパラメータを定めること等によって連続関数として近似的に生成されてもよい。
第4算出部450は、当該アクセント句に含まれる複数のモーラを先頭から走査して、それぞれのモーラについて以下の処理を行う。まず、第4算出部450は、このように各説明変数の値について分類して生成した確率密度関数の中から1つの確率密度関数を選択する。確率密度関数の選択は、当該モーラが、入力されたアクセント型の候補においてH型およびL型の何れのアクセントを有するか、当該モーラを含む当該アクセント句のモーラの数等、上記の各説明変数に対応するパラメータに基づき選択される。そして、第4算出部450は、選択した確率密度関数に対し、入力音声18において当該モーラの発声の特徴を示す指標値を代入することにより、確率値を算出する。そして、第4算出部450は、走査したそれぞれのモーラについて算出した当該確率値を乗じ合わせることにより、第4尤度を算出する。
図5に戻る。続いて、アクセント型探索部460は、入力されたアクセント型の複数の候補の中から、第3算出部440により算出された第3尤度および第4算出部450により算出された第4尤度の積を最大化するアクセント型の候補を探索する(S570)。この探索は、たとえば、それぞれのアクセント型の候補について第3尤度および第4尤度の積を算出したうえで、それらの積のうちの最大値に対応するアクセント型の候補を特定することにより実現されてもよい。また、上述のアクセント句の境界探索と同様に、ビタービのアルゴリズムを用いて探索されてもよい。探索されたアクセント型の情報は、当該アクセント句のアクセント型を示す情報として出力される。
以上の処理は、アクセント句探索部430により探索されたそれぞれのアクセント句について繰り返されて、その結果入力テキスト15に含まれる各アクセント句についてそのアクセント型が出力される。
以上の処理は、アクセント句探索部430により探索されたそれぞれのアクセント句について繰り返されて、その結果入力テキスト15に含まれる各アクセント句についてそのアクセント型が出力される。
図9は、認識システム10として機能する情報処理装置500のハードウェア構成の一例を示す。情報処理装置500は、ホストコントローラ1082により相互に接続されるCPU1000、RAM1020、及びグラフィックコントローラ1075を有するCPU周辺部と、入出力コントローラ1084によりホストコントローラ1082に接続される通信インターフェイス1030、ハードディスクドライブ1040、及びCD−ROMドライブ1060を有する入出力部と、入出力コントローラ1084に接続されるROM1010、フレキシブルディスクドライブ1050、及び入出力チップ1070を有するレガシー入出力部とを備える。
ホストコントローラ1082は、RAM1020と、高い転送レートでRAM1020をアクセスするCPU1000及びグラフィックコントローラ1075とを接続する。CPU1000は、ROM1010及びRAM1020に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィックコントローラ1075は、CPU1000等がRAM1020内に設けたフレームバッファ上に生成する画像データを取得し、表示装置1080上に表示させる。これに代えて、グラフィックコントローラ1075は、CPU1000等が生成する画像データを格納するフレームバッファを、内部に含んでもよい。
入出力コントローラ1084は、ホストコントローラ1082と、比較的高速な入出力装置である通信インターフェイス1030、ハードディスクドライブ1040、及びCD−ROMドライブ1060を接続する。通信インターフェイス1030は、ネットワークを介して外部の装置と通信する。ハードディスクドライブ1040は、情報処理装置500が使用するプログラム及びデータを格納する。CD−ROMドライブ1060は、CD−ROM1095からプログラム又はデータを読み取り、RAM1020又はハードディスクドライブ1040に提供する。
また、入出力コントローラ1084には、ROM1010と、フレキシブルディスクドライブ1050や入出力チップ1070等の比較的低速な入出力装置とが接続される。ROM1010は、情報処理装置500の起動時にCPU1000が実行するブートプログラムや、情報処理装置500のハードウェアに依存するプログラム等を格納する。フレキシブルディスクドライブ1050は、フレキシブルディスク1090からプログラム又はデータを読み取り、入出力チップ1070を介してRAM1020またはハードディスクドライブ1040に提供する。入出力チップ1070は、フレキシブルディスク1090や、例えばパラレルポート、シリアルポート、キーボードポート、マウスポート等を介して各種の入出力装置を接続する。
情報処理装置500に提供されるプログラムは、フレキシブルディスク1090、CD−ROM1095、又はICカード等の記録媒体に格納されて利用者によって提供される。プログラムは、入出力チップ1070及び/又は入出力コントローラ1084を介して、記録媒体から読み出され情報処理装置500にインストールされて実行される。プログラムが情報処理装置500等に働きかけて行わせる動作は、図1から図8において説明した認識システム10における動作と同一であるから、説明を省略する。
以上に示したプログラムは、外部の記憶媒体に格納されてもよい。記憶媒体としては、フレキシブルディスク1090、CD−ROM1095の他に、DVDやPD等の光学記録媒体、MD等の光磁気記録媒体、テープ媒体、ICカード等の半導体メモリ等を用いることができる。また、専用通信ネットワークやインターネットに接続されたサーバシステムに設けたハードディスク又はRAM等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムを情報処理装置500に提供してもよい。
以上、本実施形態に示す認識システム10によれば、語句の表記や品詞などの言語的な情報と、発音の周波数変化などの音響的な情報とを組み合わせて、アクセント句の境界を効率的かつ高精度に探索することができる。さらに、探索された各アクセント句についても、言語的な情報および音響的な情報を組み合わせて、アクセント型を効率的かつ高精度に探索することができる。実際に、アクセント句の境界およびアクセント型の予め判明している入力テキストおよび入力音声を用いて実験した結果、予め判明しているこれらの情報に極めて近い、高精度な認識結果が確認された。また、言語的な情報および音響的な情報をそれぞれ独立して利用した場合と比較して、これらを組み合わせて利用することで、認識の精度が向上したことが確かめられた。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
10 認識システム
15 入力テキスト
18 入力音声
20 記憶部
30 音声合成装置
40 アクセント認識装置
200 学習用表記データ
210 学習用発声データ
220 学習用境界データ
230 学習用品詞データ
240 学習用アクセントデータ
300 アクセント句境界
400 第1算出部
410 第2算出部
420 優先判断部
430 アクセント句探索部
440 第3算出部
450 第4算出部
460 アクセント型探索部
500 情報処理装置
15 入力テキスト
18 入力音声
20 記憶部
30 音声合成装置
40 アクセント認識装置
200 学習用表記データ
210 学習用発声データ
220 学習用境界データ
230 学習用品詞データ
240 学習用アクセントデータ
300 アクセント句境界
400 第1算出部
410 第2算出部
420 優先判断部
430 アクセント句探索部
440 第3算出部
450 第4算出部
460 アクセント型探索部
500 情報処理装置
Claims (12)
- 入力された音声のアクセントを認識するシステムであって、
学習用テキストの各語句の表記を示す学習用表記データ、学習用音声における各語句の発声の特徴を示す学習用発声データ、および、各語句がアクセント句の境界か否かを示す学習用境界データを記憶する記憶部と、
入力音声における各語句がアクセント句の境界か否かを示す境界データの候補を入力し、前記入力音声の内容を示す入力テキストの各語句の表記を示す入力表記データ、前記学習用表記データ、および、前記学習用境界データに基づいて、前記入力テキストの各語句のアクセント句の境界が、入力された前記境界データの候補となる第1尤度を算出する第1算出部と、
前記境界データの候補を入力し、前記入力音声における各語句の発声の特徴を示す入力発声データ、前記学習用発声データ、および前記学習用境界データに基づいて、前記入力音声が前記境界データの候補により指定されるアクセント句の境界を有する場合に前記入力テキストの各語句の発声が前記入力発声データにより指定される発声となる第2尤度を算出する第2算出部と、
入力された前記境界データの候補の中から、前記第1尤度および前記第2尤度の積を最大化する境界データの候補を探索し、探索した前記境界データの候補を、前記入力テキストをアクセント句に区切る境界データとして出力するアクセント句探索部と
を備えるシステム。 - 前記記憶部は、前記学習用テキストの各語句の品詞を示す学習用品詞データを更に記憶しており、
前記第1算出部は、前記学習用品詞データに更に基づいて前記第1尤度を算出する
請求項1に記載のシステム。 - 前記第1算出部は、前記学習用表記データ、前記学習用品詞データ、および、前記学習用境界データに基づいて、それぞれの語句がアクセント句の境界となる尤度を算出する決定木を生成し、入力された前記境界データの候補によって示される各アクセント句の尤度を前記決定木に基づいて算出し、算出された当該尤度の積を前記第1尤度として算出する
請求項2に記載のシステム。 - 前記入力発声データは、各語句の発声の特徴を示す指標の指標値であり、
前記第2算出部は、前記学習用発声データおよび前記学習用境界データに基づいて、語句がアクセント句の境界となる場合とならない場合とのそれぞれについて、その語句の前記指標値を確率変数とした確率密度関数を生成し、前記入力テキストの各語句について何れかの前記確率密度関数を前記境界データの候補に基づき選択して、各語句について選択した前記確率密度関数のそれぞれに対し対応する前記指標値を代入して乗じることにより前記第2尤度を算出する
請求項1に記載のシステム。 - 各語句は、その発音として少なくとも1つのモーラを含み、
前記記憶部は、前記学習用テキストに含まれる各語句について、発声の特徴を示す複数の前記指標の指標値として、後続語句の先頭のモーラにおける時間の経過に対する基本周波数の変化を示す指標値、当該指標値と当該語句末尾のモーラにおける時間の経過に対する基本周波数の変化を示す指標値との差分、および、当該語句の末尾のモーラにおける基本周波数の変化量を記憶しており、
前記第2算出部は、前記複数の指標を要素として含むベクトル変数を確率変数とし、語句がアクセント句の境界となる場合とならない場合とのそれぞれについて、その語句のそれぞれの指標を要素として含むベクトル変数を確率変数とし、その語句の発声がそれぞれの指標値の組合せにより指定される発声となる確率を示す確率密度関数を、混合ガウス分布のパラメータを決定することにより算出する
請求項4に記載のシステム。 - 前記第1算出部は、前記入力テキストに代えてテスト用テキスト、および、前記入力発声データに代えて予めアクセント句の境界が認識されたテスト用発声データについて前記第1尤度を更に算出し、
前記第2算出部は、前記入力テキストに代えて前記テスト用テキストを用いて、前記入力発声データに代えて前記テスト用発声データを用いて前記第2尤度を更に算出し、
前記第1算出部および前記第2算出部のうち、前記テスト用発声データについて予め認識されていたアクセント句の境界に対しより高い尤度を算出した算出部を、優先して使用するべき優先算出部と判断する優先判断部を更に備え、
前記アクセント句探索部は、前記優先算出部により算出される尤度により重い重み付けをして、前記第1尤度および前記第2尤度の積を算出する
請求項1に記載のシステム。 - 前記記憶部は、前記学習用音声における各語句のアクセント型を示す学習用アクセントデータを更に記憶しており、
前記アクセント句探索部により探索された境界データによって区切られるアクセント句のそれぞれについて、
当該アクセント句に含まれる各語句のアクセント型の候補を入力し、前記入力発声データ、前記学習用表記データ、および、前記学習用アクセントデータに基づいて、当該アクセント句に含まれる各語句のアクセント型が、入力された前記アクセント型の候補となる第3尤度を算出する第3算出部と、
前記アクセント型の候補を入力し、前記入力発声データ、前記学習用発声データ、および、前記学習用アクセントデータに基づいて、当該アクセント句に含まれる各語句が前記アクセント型の候補により指定されるアクセント型を有する場合に当該アクセント句の発声が前記入力発声データにより指定される発声となる第4尤度を算出する第4算出部と、
入力された前記アクセント型の候補の中から、前記第3尤度および前記第4尤度の積を最大化するアクセント型の候補を探索し、探索した前記アクセント型の候補を、当該アクセント句のアクセント型として出力するアクセント型探索部と
を更に備える請求項1に記載のシステム。 - 前記第3算出部は、前記学習用テキストにおいて連続して表記される2以上の語句の組合せのそれぞれが、前記学習用アクセントデータにおいてアクセント型のそれぞれの組合せにより発声された頻度を算出し、算出した前記頻度に基づいて前記第3尤度を算出する
請求項7に記載のシステム。 - それぞれの前記語句は、その発音として少なくとも1つのモーラを含み、
前記記憶部は、前記学習用発声データとして、各モーラの発声の特徴を示す指標値を記憶しており、
前記第4算出部は、モーラのアクセントがH型およびL型の何れであるか、当該モーラを含むアクセント句に含まれるモーラの数、および、当該モーラの当該アクセント句内の位置に応じて分類して、当該モーラの前記指標値を確率変数とする確率密度関数を、前記学習用発声データおよび前記学習用アクセントデータに基づいて算出し、当該アクセント句に含まれる各語句の各モーラが、入力された前記アクセント型の候補においてH型およびL型の何れのアクセントを有するか、当該モーラを含む当該アクセント句のモーラの数、および、当該モーラの当該アクセントにおける位置に基づいて、何れかの前記確率密度関数を選択して、前記入力発声データにおいてそれぞれのモーラの発声の特徴を示す指標値を当該モーラに対応して選択した前記確率密度関数に代入して確率値を算出し、算出したそれぞれの確率値を乗じ合わせることにより前記第4尤度を算出する
請求項7に記載のシステム。 - 前記記憶部は、前記学習用テキストに含まれる各語句の各モーラについて、発声の特徴を示す複数の前記指標の指標値として、当該モーラの開始時点における発声の基本周波数、当該モーラにおける発声の基本周波数の変化量を示す指標値、および、当該モーラにおける時間の経過に対する発声の基本周波数の変化を示す指標値を記憶しており、
前記第4算出部は、前記複数の指標を要素として含むベクトル変数を確率変数とし、モーラのアクセントが入力された前記アクセント型の候補に従う場合において当該モーラの発声が当該ベクトル変数によって指定された特徴を有する確率を示す確率密度関数を、前記学習用発声データおよび前記学習用アクセントデータに基づいて生成する
請求項9に記載のシステム。 - 入力された音声のアクセントを認識する方法であって、
メモリが、学習用テキストの各語句の表記を示す学習用表記データ、学習用音声における各語句の発声の特徴を示す学習用発声データ、および、各語句がアクセント句の境界か否かを示す学習用境界データを記憶することと、
CPUが、入力音声における各語句がアクセント句の境界か否かを示す境界データの候補を入力し、前記入力音声の内容を示す入力テキストの各語句の表記を示す入力表記データ、前記学習用表記データ、および、前記学習用境界データに基づいて、前記入力テキストの各語句のアクセント句の境界が、入力された前記境界データの候補となる第1尤度を算出することと、
CPUが、前記境界データの候補を入力し、前記入力音声における各語句の発声の特徴を示す入力発声データ、前記学習用発声データ、および前記学習用境界データに基づいて、前記入力音声が前記境界データの候補により指定されるアクセント句の境界を有する場合に前記入力テキストの各語句の発声が前記入力発声データにより指定される発声となる第2尤度を算出することと、
CPUが、入力された前記境界データの候補の中から、前記第1尤度および前記第2尤度の積を最大化する境界データの候補を探索し、探索した前記境界データの候補を、前記入力テキストをアクセント句に区切る境界データとして出力することと
を備える方法。 - 入力された音声のアクセントを認識するシステムとして、情報処理装置を機能させるプログラムであって、
前記情報処理装置を、
学習用テキストの各語句の表記を示す学習用表記データ、学習用音声における各語句の発声の特徴を示す学習用発声データ、および、各語句がアクセント句の境界か否かを示す学習用境界データを記憶する記憶部と、
入力音声における各語句がアクセント句の境界か否かを示す境界データの候補を入力し、前記入力音声の内容を示す入力テキストの各語句の表記を示す入力表記データ、前記学習用表記データ、および、前記学習用境界データに基づいて、前記入力テキストの各語句のアクセント句の境界が、入力された前記境界データの候補となる第1尤度を算出する第1算出部と、
前記境界データの候補を入力し、前記入力音声における各語句の発声の特徴を示す入力発声データ、前記学習用発声データ、および前記学習用境界データに基づいて、前記入力音声が前記境界データの候補により指定されるアクセント句の境界を有する場合に前記入力テキストの各語句の発声が前記入力発声データにより指定される発声となる第2尤度を算出する第2算出部と、
入力された前記境界データの候補の中から、前記第1尤度および前記第2尤度の積を最大化する境界データの候補を探索し、探索した前記境界データの候補を、前記入力テキストをアクセント句に区切る境界データとして出力するアクセント句探索部と
して機能させるプログラム。
Priority Applications (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2006320890A JP2008134475A (ja) | 2006-11-28 | 2006-11-28 | 入力された音声のアクセントを認識する技術 |
| CN200710186763XA CN101192404B (zh) | 2006-11-28 | 2007-11-16 | 用于识别输入语音的重音的系统和方法 |
| US11/945,900 US20080177543A1 (en) | 2006-11-28 | 2007-11-27 | Stochastic Syllable Accent Recognition |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2006320890A JP2008134475A (ja) | 2006-11-28 | 2006-11-28 | 入力された音声のアクセントを認識する技術 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2008134475A true JP2008134475A (ja) | 2008-06-12 |
Family
ID=39487354
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2006320890A Withdrawn JP2008134475A (ja) | 2006-11-28 | 2006-11-28 | 入力された音声のアクセントを認識する技術 |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US20080177543A1 (ja) |
| JP (1) | JP2008134475A (ja) |
| CN (1) | CN101192404B (ja) |
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009063869A (ja) * | 2007-09-07 | 2009-03-26 | Internatl Business Mach Corp <Ibm> | 音声合成システム、プログラム及び方法 |
| JP2010079168A (ja) * | 2008-09-29 | 2010-04-08 | Toshiba Corp | 読み上げ情報生成装置、読み上げ情報生成方法及びプログラム |
| JP2013246224A (ja) * | 2012-05-24 | 2013-12-09 | Nippon Telegr & Teleph Corp <Ntt> | アクセント句境界推定装置、アクセント句境界推定方法及びプログラム |
| JP2018031851A (ja) * | 2016-08-23 | 2018-03-01 | 株式会社国際電気通信基礎技術研究所 | 談話機能推定装置及びそのためのコンピュータプログラム |
| JP7611744B2 (ja) | 2021-03-23 | 2025-01-10 | 日本放送協会 | 信号処理装置およびプログラム |
Families Citing this family (31)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009042509A (ja) * | 2007-08-09 | 2009-02-26 | Toshiba Corp | アクセント情報抽出装置及びその方法 |
| US20100125459A1 (en) * | 2008-11-18 | 2010-05-20 | Nuance Communications, Inc. | Stochastic phoneme and accent generation using accent class |
| CN101777347B (zh) * | 2009-12-07 | 2011-11-30 | 中国科学院自动化研究所 | 一种模型互补的汉语重音识别方法及系统 |
| CN102194454B (zh) * | 2010-03-05 | 2012-11-28 | 富士通株式会社 | 用于检测连续语音中的关键词的设备和方法 |
| CN102237081B (zh) * | 2010-04-30 | 2013-04-24 | 国际商业机器公司 | 语音韵律评估方法与系统 |
| US9324316B2 (en) * | 2011-05-30 | 2016-04-26 | Nec Corporation | Prosody generator, speech synthesizer, prosody generating method and prosody generating program |
| US9437190B2 (en) * | 2011-09-09 | 2016-09-06 | Asahi Kasei Kabushiki Kaisha | Speech recognition apparatus for recognizing user's utterance |
| CN102436807A (zh) * | 2011-09-14 | 2012-05-02 | 苏州思必驰信息科技有限公司 | 自动生成重读音节语音的方法和系统 |
| US9390085B2 (en) * | 2012-03-23 | 2016-07-12 | Tata Consultancy Sevices Limited | Speech processing system and method for recognizing speech samples from a speaker with an oriyan accent when speaking english |
| US9009049B2 (en) * | 2012-06-06 | 2015-04-14 | Spansion Llc | Recognition of speech with different accents |
| US9734819B2 (en) * | 2013-02-21 | 2017-08-15 | Google Technology Holdings LLC | Recognizing accented speech |
| US10102851B1 (en) * | 2013-08-28 | 2018-10-16 | Amazon Technologies, Inc. | Incremental utterance processing and semantic stability determination |
| JP6235280B2 (ja) * | 2013-09-19 | 2017-11-22 | 株式会社東芝 | 音声同時処理装置、方法およびプログラム |
| CN104575519B (zh) * | 2013-10-17 | 2018-12-25 | 清华大学 | 特征提取方法、装置及重音检测的方法、装置 |
| CN103700367B (zh) * | 2013-11-29 | 2016-08-31 | 科大讯飞股份有限公司 | 实现黏着语文本韵律短语划分的方法及系统 |
| CN106663422B (zh) * | 2014-07-24 | 2021-03-30 | 哈曼国际工业有限公司 | 言语识别系统及其言语识别方法 |
| US9552810B2 (en) | 2015-03-31 | 2017-01-24 | International Business Machines Corporation | Customizable and individualized speech recognition settings interface for users with language accents |
| EP3353766A4 (en) * | 2015-09-22 | 2019-03-20 | Vendome Consulting Pty Ltd | METHOD FOR THE AUTOMATIC PRODUCTION OF SCORES FOR THE PRODUCTION OF LANGUAGE TOTAL ASSETS FOR USERS OF A DISTRIBUTED LANGUAGE LEARNING SYSTEM, AUTOMATIC ALARM RECOGNITION AND QUANTIFICATION, AND IMPROVED LANGUAGE RECOGNITION |
| US10255905B2 (en) * | 2016-06-10 | 2019-04-09 | Google Llc | Predicting pronunciations with word stress |
| US10354642B2 (en) * | 2017-03-03 | 2019-07-16 | Microsoft Technology Licensing, Llc | Hyperarticulation detection in repetitive voice queries using pairwise comparison for improved speech recognition |
| CN108364660B (zh) * | 2018-02-09 | 2020-10-09 | 腾讯音乐娱乐科技(深圳)有限公司 | 重音识别方法、装置及计算机可读存储介质 |
| WO2019183543A1 (en) * | 2018-03-23 | 2019-09-26 | John Rankin | System and method for identifying a speaker's community of origin from a sound sample |
| CN108682415B (zh) * | 2018-05-23 | 2020-09-29 | 广州视源电子科技股份有限公司 | 语音搜索方法、装置和系统 |
| WO2020014354A1 (en) | 2018-07-10 | 2020-01-16 | John Rankin | System and method for indexing sound fragments containing speech |
| CN110942763B (zh) * | 2018-09-20 | 2023-09-12 | 阿里巴巴集团控股有限公司 | 语音识别方法及装置 |
| JP7147670B2 (ja) * | 2019-04-10 | 2022-10-05 | 日本電信電話株式会社 | 書籍検索装置、書籍検索用データベース生成装置、書籍検索方法、書籍検索用データベース生成方法、およびプログラム |
| WO2021183421A2 (en) | 2020-03-09 | 2021-09-16 | John Rankin | Systems and methods for morpheme reflective engagement response |
| CN111862939B (zh) * | 2020-05-25 | 2024-06-14 | 北京捷通华声科技股份有限公司 | 一种韵律短语标注方法和装置 |
| US12488782B1 (en) * | 2020-09-29 | 2025-12-02 | Amazon Technologies, Inc. | Synthetic speech processing related to prosody prediction |
| CN112509552B (zh) * | 2020-11-27 | 2023-09-26 | 北京百度网讯科技有限公司 | 语音合成方法、装置、电子设备和存储介质 |
| CN117370961B (zh) * | 2023-12-05 | 2024-03-15 | 江西五十铃汽车有限公司 | 一种车辆语音交互方法及系统 |
Family Cites Families (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2856769B2 (ja) * | 1989-06-12 | 1999-02-10 | 株式会社東芝 | 音声合成装置 |
| JPH086591A (ja) * | 1994-06-15 | 1996-01-12 | Sony Corp | 音声出力装置 |
| US5865626A (en) * | 1996-08-30 | 1999-02-02 | Gte Internetworking Incorporated | Multi-dialect speech recognition method and apparatus |
| US6260016B1 (en) * | 1998-11-25 | 2001-07-10 | Matsushita Electric Industrial Co., Ltd. | Speech synthesis employing prosody templates |
| JP2000305585A (ja) * | 1999-04-23 | 2000-11-02 | Oki Electric Ind Co Ltd | 音声合成装置 |
| US7136802B2 (en) * | 2002-01-16 | 2006-11-14 | Intel Corporation | Method and apparatus for detecting prosodic phrase break in a text to speech (TTS) system |
| US7117153B2 (en) * | 2003-02-13 | 2006-10-03 | Microsoft Corporation | Method and apparatus for predicting word error rates from text |
| GB2402031B (en) * | 2003-05-19 | 2007-03-28 | Toshiba Res Europ Ltd | Lexical stress prediction |
-
2006
- 2006-11-28 JP JP2006320890A patent/JP2008134475A/ja not_active Withdrawn
-
2007
- 2007-11-16 CN CN200710186763XA patent/CN101192404B/zh not_active Expired - Fee Related
- 2007-11-27 US US11/945,900 patent/US20080177543A1/en not_active Abandoned
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009063869A (ja) * | 2007-09-07 | 2009-03-26 | Internatl Business Mach Corp <Ibm> | 音声合成システム、プログラム及び方法 |
| US9275631B2 (en) | 2007-09-07 | 2016-03-01 | Nuance Communications, Inc. | Speech synthesis system, speech synthesis program product, and speech synthesis method |
| JP2010079168A (ja) * | 2008-09-29 | 2010-04-08 | Toshiba Corp | 読み上げ情報生成装置、読み上げ情報生成方法及びプログラム |
| JP2013246224A (ja) * | 2012-05-24 | 2013-12-09 | Nippon Telegr & Teleph Corp <Ntt> | アクセント句境界推定装置、アクセント句境界推定方法及びプログラム |
| JP2018031851A (ja) * | 2016-08-23 | 2018-03-01 | 株式会社国際電気通信基礎技術研究所 | 談話機能推定装置及びそのためのコンピュータプログラム |
| JP7611744B2 (ja) | 2021-03-23 | 2025-01-10 | 日本放送協会 | 信号処理装置およびプログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| CN101192404B (zh) | 2011-07-06 |
| US20080177543A1 (en) | 2008-07-24 |
| CN101192404A (zh) | 2008-06-04 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2008134475A (ja) | 入力された音声のアクセントを認識する技術 | |
| US20230012984A1 (en) | Generation of automated message responses | |
| US11062694B2 (en) | Text-to-speech processing with emphasized output audio | |
| CN112397091B (zh) | 中文语音综合评分及诊断系统和方法 | |
| US11443733B2 (en) | Contextual text-to-speech processing | |
| US10140973B1 (en) | Text-to-speech processing using previously speech processed data | |
| US8015011B2 (en) | Generating objectively evaluated sufficiently natural synthetic speech from text by using selective paraphrases | |
| US8751235B2 (en) | Annotating phonemes and accents for text-to-speech system | |
| US10489393B1 (en) | Quasi-semantic question answering | |
| US8244534B2 (en) | HMM-based bilingual (Mandarin-English) TTS techniques | |
| US20160379638A1 (en) | Input speech quality matching | |
| Watts | Unsupervised learning for text-to-speech synthesis | |
| US20090138266A1 (en) | Apparatus, method, and computer program product for recognizing speech | |
| US20160140953A1 (en) | Speech synthesis apparatus and control method thereof | |
| WO2017067206A1 (zh) | 个性化多声学模型的训练方法、语音合成方法及装置 | |
| US8626510B2 (en) | Speech synthesizing device, computer program product, and method | |
| JP2001100781A (ja) | 音声処理装置および音声処理方法、並びに記録媒体 | |
| CN103035241A (zh) | 模型互补的汉语韵律间断识别系统及方法 | |
| CN106710585B (zh) | 语音交互过程中的多音字播报方法及系统 | |
| KR20220096129A (ko) | 감정톤을 자동조절하는 음성합성 시스템 | |
| CN118571229B (zh) | 一种用于语音特征描述的语音标注方法和装置 | |
| US9129596B2 (en) | Apparatus and method for creating dictionary for speech synthesis utilizing a display to aid in assessing synthesis quality | |
| JP2020060642A (ja) | 音声合成システム、及び音声合成装置 | |
| JP2010139745A (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
| JP2008046538A (ja) | テキスト音声合成を支援するシステム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20090930 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091002 |
|
| A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20091130 |