JP2008134475A

JP2008134475A - 入力された音声のアクセントを認識する技術

Info

Publication number: JP2008134475A
Application number: JP2006320890A
Authority: JP
Inventors: Takateru Tachibana; 隆輝立花; Toru Nagano; 徹長野; Masafumi Nishimura; 雅史西村; Takehito Kurata; 岳人倉田
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2006-11-28
Filing date: 2006-11-28
Publication date: 2008-06-12
Also published as: CN101192404B; US20080177543A1; CN101192404A

Abstract

【課題】入力音声のアクセントを効率的かつ高精度に認識する。
【解決手段】学習用テキストの各語句の表記を示す学習用表記データ、各語句の発声の特徴を示す学習用発声データと学習用音声の各語句がアクセント句の境界か否かを示す学習用境界データを記憶しており、境界データの候補を入力し、入力音声の内容を示す入力テキストの表記を示す入力表記データ、学習用表記データと学習用境界データより、入力テキストの各語句のアクセント句の境界が、入力されたその候補と一致する第１尤度を算出し、入力音声の各語句の発声の特徴を示す入力発声データ、学習用発声データと学習用境界データにより、入力音声が境界データの候補により指定されるアクセント句の境界を有する場合に入力テキストの各語句の発声が入力発声データにより指定される発声となる第２尤度を算出して、第１と第２の各尤度の積を最大化する境界データの候補を探索し、その結果を出力する。
【選択図】図４

Description

本発明は、音声認識技術に関する。特に、本発明は、入力された音声のアクセントを認識する技術に関する。

近年、入力されたテキストを、その読み方などの付随的な情報を必要とすることなく、自然な発音で読み上げる音声合成技術が注目されている。この音声合成技術において、聞き手にとって自然な音声を生成するためには、語句の発音のみならずアクセントを正確に再現することが重要となる。語句を構成するモーラ毎に、相対的に高いＨ型、および、相対的に低いＬ型を正確に再現して音声を合成することができると、合成音声を聞き手にとってより自然に感じさせることができる。
江本喜久男, 全炳河, 徳田恵一, 北村正, "自動韻律ラベリングのためのアクセント型認識", 音響学会秋季研究発表会講演論文集, 2003年9月

現在用いられている音声合成システムは統計的に学習を行うことによって構築されたものがほとんどである。アクセントを正確に再現する音声合成システムの統計的な学習を行うためには、テキストを読み上げた人間の音声データと、その発声を行う際に使われたアクセントを対応付けた学習用データが大量に必要である。従来、このような学習用データは、音声を人が聴取してアクセント種別を付与することによって構築されていたため、大量の学習データを準備することは難しかった。

これに対し、テキストを読み上げた発声の発声データからアクセントの種別を自動的に判別することができれば、大量の学習データを容易に準備することができる。しかしながら、アクセントは相対的なものであって、音声の周波数などのデータに基づき精度良く生成することは難しい。実際、非特許文献１では、このような発声のデータからアクセントを自動的に判別することが試みられているが、その精度は実用に足りる充分なものではない。

そこで本発明は、上記の課題を解決することのできるシステム、方法およびプログラムを提供することを目的とする。この目的は特許請求の範囲における独立項に記載の特徴の組み合わせにより達成される。また従属項は本発明の更なる有利な具体例を規定する。

上記課題を解決するために、本発明の一側面においては、入力された音声のアクセントを認識するシステムであって、学習用テキストの各語句の表記を示す学習用表記データ、学習用音声における各語句の発声の特徴を示す学習用発声データ、および、各語句がアクセント句の境界か否かを示す学習用境界データを記憶する記憶部と、入力音声における各語句がアクセント句の境界か否かを示す境界データの候補を入力し、入力音声の内容を示す入力テキストの各語句の表記を示す入力表記データ、学習用表記データ、および、学習用境界データに基づいて、入力テキストの各語句のアクセント句の境界が、入力された境界データの候補となる第１尤度を算出する第１算出部と、境界データの候補を入力し、入力音声における各語句の発声の特徴を示す入力発声データ、学習用発声データ、および学習用境界データに基づいて、入力音声が境界データの候補により指定されるアクセント句の境界を有する場合に入力テキストの各語句の発声が入力発声データにより指定される発声となる第２尤度を算出する第２算出部と、入力された境界データの候補の中から、第１尤度および第２尤度の積を最大化する境界データの候補を探索し、探索した境界データの候補を、入力テキストをアクセント句に区切る境界データとして出力するアクセント句探索部とを備えるシステムを提供する。また、当該システムによりアクセントを認識する方法、および、当該システムとして情報処理装置を機能させるプログラムを提供する。
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの特徴群のサブコンビネーションもまた、発明となりうる。

以下、発明を実施するための最良の形態（以下、実施形態と称す）を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。

図１は、認識システム１０の全体構成を示す。認識システム１０は、記憶部２０と、アクセント認識装置４０とを備える。アクセント認識装置４０は、入力テキスト１５および入力音声１８を入力し、入力したこの入力音声１８のアクセントを認識する。入力テキスト１５は、入力音声１８の内容を示すデータであり、たとえば文字を配列した文書などのデータである。また、入力音声１８は、入力テキスト１５を読み上げた音声である。この音声は、周波数の時系列変化などを示す音響データまたはその時系列変化の特徴などを示す入力発声データに変換されて、認識システム１０に記録される。また、アクセントとは、たとえば、入力音声１８のモーラ毎に、そのモーラを相対的に高い音声で発声すべきことを示すＨ型、または、そのモーラを相対的に低い音声で発声すべきことを示すＬ型の何れであるかを示す情報である。アクセントの認識には、入力音声１８に対応付けて入力された入力テキスト１５の他、記憶部２０に記憶された各種のデータが用いられる。記憶部２０は、学習用表記データ２００、学習用発声データ２１０、学習用境界データ２２０、学習用品詞データ２３０および学習用アクセントデータ２４０を記憶している。本実施形態に係る認識システム１０は、これらのデータを効果的に用いることで、入力音声１８のアクセントを精度良く認識することを目的とする。

なお、認識されたアクセントは、アクセント句の区切りを示す境界データと、それぞれのアクセント句のアクセント型の情報とによって構成され、入力テキスト１５に対応付けて外部の音声合成装置３０などに出力される。音声合成装置３０は、このアクセントの情報を用いて、テキストから合成音声を生成して出力する。本実施形態に係る認識システム１０によれば、入力テキスト１５および入力音声１８のみを入力としてアクセントを効率的かつ高精度に認識できるので、アクセントを人手で入力したり自動認識したアクセントを修正したりする手間を省略して、テキストとその読みのアクセントとを対応付けた大量のデータを効率的に生成できる。このため、音声合成装置３０においてはアクセントについての信頼性の高い統計データを得ることができ、聞き手にとってより自然な音声を合成することができる。

図２は、入力テキスト１５および学習用表記データ２００の構成の具体例を示す。入力テキスト１５は、上述のように、文字を配列した文書などのデータであり、学習用表記データ２００は、予め用意された学習用テキストの各語句の表記を示すデータである。これらのデータは、たとえば日本語でいう句点によって区切られた複数の文を含む。そして、文は、たとえば日本語でいう読点によって区切られた複数のイントネーション句（ＩＰ：ＩｎｔｏｎａｔｉｏｎａｌＰｈｒａｓｅ）を含む。イントネーション句は、更に、複数のアクセント句（ＰＰ：ＰｒｏｓｏｄｉｃＰｈｒａｓｅ）を含む。アクセント句は、韻律上ひと続きで発声される語句の集合をいう。

また、それぞれのアクセント句は、複数の語句を含む。語句とは、主として形態素であり、言語の中で意味を持つ最小単位を指す概念である。また、語句は、その発音として複数のモーラを含む。モーラとは、音韻論上、一定の長さをもった音の分節単位をいい、たとえば日本語ではひらがなの一文字に対応する発音である。

図３は、記憶部２０が記憶する各種データの一例を示す。上述のように、記憶部２０は、学習用表記データ２００と、学習用発声データ２１０と、学習用境界データ２２０と、学習用品詞データ２３０と、学習用アクセントデータ２４０とを有する。学習用表記データ２００は、各語句の表記を、たとえば連続する複数の文字のデータとして有している。図３の例では「大阪府在住の方に限ります」という文章の文字の一字一字のデータがこれに相当する。また、学習用表記データ２００は、語句の境界のデータを有している。図３中では語句の境界を点線で示した。即ち、「大阪」、「府」、「在住」、「の」、「方」、「に」、「限」、「り」、「ま」および「す」のそれぞれが学習用表記データ２００における語句である。さらには、学習用表記データ２００は、それぞれの語句が有しているモーラの数を示す情報を有している。図中には、各語句のモーラ数に基づいて容易に算出可能な各アクセント句のモーラ数を例示した。

学習用発声データ２１０は、学習用音声における各語句の発声の特徴を示すデータである。具体的には、学習用発声データ２１０は、各語句の発音を表すアルファベットの文字列を含んでいてもよい。即ち、「大阪府」と表記される句はその発音として５つのモーラを含み「ｏ，ｏ，ｓａ，ｋａ，ｆｕ」と発音されるといった情報がこれに相当する。また、学習用発声データ２１０は、学習用テキストの各語句を読み上げた発声の周波数のデータを含んでいてもよい。この周波数のデータは、たとえば、声帯の振動周波数であって、口腔内に共鳴した周波数を除外したものであることが望ましく、このような周波数を基本周波数と呼ぶ。また、学習用発声データ２１０は、このような基本周波数のデータを、周波数の値そのものではなく、その値の時系列変化を示すグラフの傾きなどのデータとして記憶してもよい。

学習用境界データ２２０は、学習用テキストにおいて各語句がアクセント句の境界か否かを示すデータである。図３の例で学習用境界データ２２０は、アクセント句境界３００−１およびアクセント句境界３００−２を含む。アクセント句境界３００−１は、語句「府」の末尾がアクセント句の境界であることを示す。アクセント句境界３００−２は、語句「に」の末尾がアクセント句の境界であることを示す。学習用品詞データ２３０は、学習用テキストの各語句の品詞を示すデータである。ここでいう品詞とは、文法上厳密な意味での品詞のみならず、品詞をその役割によって更に詳細に分類したものを含む概念である。たとえば、学習用品詞データ２３０は、「大阪」という語句に対応して「固有名詞」という品詞の情報を含む。また「限」という語句に対応して「動詞」という品詞の情報を含む。学習用アクセントデータ２４０は、学習用音声における各語句のアクセント型を示すデータである。アクセント句に含まれる各モーラはＨ型またはＬ型に分類される。

また、アクセント句のアクセント型は、そのアクセント句に含まれるモーラの数に対応して、予め定められた複数のアクセント型の何れかに分類される。たとえば、５モーラのアクセント句が「ＬＨＨＨＬ」という連続したアクセントで発音される場合に、そのアクセント句のアクセント型は４型である。学習用アクセントデータ２４０は、このようなアクセント句のアクセント型を直接に示すデータを含んでいてもよいし、各モーラがＨ型またはＬ型の何れであるかを示すデータのみを含んでいてもよいし、それらの双方を含んでいてもよい。

以上に示した各種のデータは、たとえば言語学や言語認識の専門家などによって解析された正しい情報である。記憶部２０がこのような正しい情報を記憶していることで、アクセント認識装置４０は、この情報を用いて、入力音声のアクセントを精度良く認識することができる。

なお、図３では説明の簡略化のため、全ての語句について等しく学習用表記データ２００、学習用発声データ２１０、学習用境界データ２２０、学習用品詞データ２３０および学習用アクセントデータ２４０が判明している場合を例に説明した。これに代えて、記憶部２０は、数量のより多い第１の学習用テキストについては、これらのデータから学習用発声データ２１０を除外した全てのデータを記憶しており、数量のより少ない第２の学習テキストに対応する第２の学習用音声については、これらのデータを全て記憶していてもよい。学習用発声データ２１０は、語句の話者に強く依存するデータであり、大量に収集することは一般に困難である一方、学習用アクセントデータ２４０や学習用表記データ２００などは、話者の属性によらず普遍的であることが多く、収集が容易である。このように、学習用データの中でも収集の容易さに応じてデータの記憶容量に偏りがあってもよい。本実施形態に係る認識システム１０によれば、言語的情報および音響的情報のそれぞれについて独立に尤度を評価したうえで、それらの積に基づいてアクセント句を認識するので、このようなデータの偏りがあっても認識の精度を低下させることはなく、さらには、話者に応じた発声の特徴を反映して高精度なアクセント認識を可能とすることができる。

図４は、アクセント認識装置４０の機能構成を示す。アクセント認識装置４０は、第１算出部４００と、第２算出部４１０と、優先判断部４２０と、アクセント句探索部４３０と、第３算出部４４０と、第４算出部４５０と、アクセント型探索部４６０とを有する。まず、本図に示す各部とハードウェア資源との関連について述べる。本実施形態に係る認識システム１０を実現するプログラムは、後述の情報処理装置５００に読み込まれてＣＰＵ１０００により実行される。そして、ＣＰＵ１０００およびＲＡＭ１０２０は協働して、情報処理装置５００を、記憶部２０、第１算出部４００、第２算出部４１０、優先判断部４２０、アクセント句探索部４３０、第３算出部４４０、第４算出部４５０およびアクセント型探索部４６０として機能させる。

アクセント認識装置４０には、入力テキスト１５や入力音声１８などの、実際にアクセント認識の対象となるデータが入力される場合と、認識に先立って、予めアクセントの認識されたテスト用テキスト等が入力される場合とがある。ここではまず、実際にアクセント認識の対象となるデータが入力される場合について説明する。

アクセント認識装置４０は、入力テキスト１５および入力音声１８を入力すると、まず、第１算出部４００による処理に先立って、入力テキスト１５を形態素解析することにより、入力テキスト１５を語句の区切りに分割すると共に各語句に対応付けて品詞の情報を生成する。また、アクセント認識装置４０は、各語句の発音のモーラ数を解析し、また、入力音声１８の中から各語句に対応する部分を抽出して対応付ける処理を行う。入力された入力テキスト１５および入力音声１８が既に形態素解析の完了したものである場合には、これらの処理は不要である。

以下、言語モデルおよび音響モデルを組み合わせたアクセント句の認識と、言語モデルおよび音響モデルを組み合わせたアクセント型の認識とについて順次説明する。言語モデルによるアクセント句の認識とは、たとえば、予め学習用テキストから得られた、特定の品詞や特定の表記の語句の末尾はアクセント句の境界となり易いという傾向を、認識に利用するということを内容とする。この処理は第１算出部４００により実現される。音響モデルによるアクセント句の認識とは、予め学習用音声から得られた、特定の周波数の音声や周波数変化の後はアクセント句の境界となり易いという傾向を、認識に利用することを内容とする。この処理は第２算出部４１０により実現される。

第１算出部４００、第２算出部４１０およびアクセント句探索部４３０は、文を読点等で区切ったイントネーション句毎に、以下の処理を行う。第１算出部４００は、当該イントネーション句に対応する入力音声の各語句がアクセント句の境界か否かを示す境界データの候補を入力する。この境界データの候補は、たとえば、各語句の末尾がアクセント句の境界となるか否かを示す論理値を要素とし、語句の数から１を減じた数を要素数としたベクトル変数として表される。アクセント句の境界として想定し得るあらゆる組合せの中から最も確からしい組合せを探索するためには、第１算出部４００は、各語句をアクセント句の境界とし、または境界としない場合についてのあらゆる組合せのそれぞれを、この境界データの候補として順次入力することが望ましい。

そして、入力されたこの境界データの候補のそれぞれについて、第１算出部４００は、入力テキスト１５の各語句の表記を示す入力表記データ、記憶部２０から読み出した学習用表記データ２００、学習用境界データ２２０および学習用品詞データ２３０に基づいて、第１尤度を算出する。第１尤度は、入力テキスト１５の各語句のアクセント句の境界が当該境界データの候補となる尤度を示す。第２算出部４１０は、第１算出部４００と同じく境界データの複数の候補を順次入力し、入力音声１８における各語句の発声の特徴を示す入力発声データ、記憶部２０から読み出した学習用発声データ２１０および学習用境界データ２２０に基づいて第２尤度を算出する。第２尤度は、入力音声１８が当該境界データの候補により指定されるアクセント句の境界を有する場合に入力テキスト１５の各語句の発声が入力発声データにより指定される発声となる尤度を示す。

そして、アクセント句探索部４３０は、入力されたこれらの境界データの候補の中から、算出された第１尤度および第２尤度の積を最大化する境界データの候補を探索し、探索した境界データの候補を、入力テキスト１５をアクセント句に区切る境界データとして出力する。以上の処理は、以下の式（１）によって表される。

この式において、ベクトル変数Ｖは入力音声１８に含まれる各語句の発声の特徴を示す入力発声データである。この入力発声データは、入力音声１８の特徴を示す指標として外部から入力されてもよいし、入力音声１８に基づいて第１算出部４００または第２算出部４１０により算出されてもよい。語句の数をｒとおき、各語句の発声の特徴を示す指標をv_rと置くと、V=(v₁,..,v_r)と表される。また、ベクトル変数Ｗは入力テキスト１５に含まれる語句の表記を示す入力表記データである。各語句の表記をw_rと置くと、変数W=(w₁,..,w_r)と表される。また、ベクトル変数Ｂは、境界データの候補を表す。語句w_rの末尾がアクセント句の境界である場合にb_r=1、アクセント句の境界で無い場合にb_r=0と置くと、B=(b₁,..,b_r-1)と表される。また、ａｒｇｍａｘは、続いて記述されるＰ（Ｂ｜Ｗ，Ｖ）を最大化するＢを求める関数である。即ち、この式（１）の１行目は、V、Wを既知としてBの条件付き確率を最大化する最尤なアクセント句境界列B_maxを求める問題を表している。

この式（１）の１行目は条件付確率の定義に基づいて式（１）の２行目のように変形される。そして、Ｐ（Ｖ｜Ｗ）は、境界データの候補によらず一定であるから、式（１）の２行目は式（１）の３行目のように変形される。更に、式（１）の３行目の右辺に現れるＰ（Ｖ｜Ｂ，Ｗ）は、アクセント句の境界および語句の表記に基づき発声の特徴量が定められることを示しているが、この特徴量はアクセント句の境界の有無のみによって定まるとみなしてＰ（Ｖ｜Ｂ）と近似できる。この結果、アクセント句境界列Ｂ_ｍａｘを求める問題は、Ｐ（Ｂ｜Ｗ）およびＰ（Ｖ｜Ｂ）の積として表される。Ｐ（Ｂ｜Ｗ）が、上述の第１算出部４００により算出される第１尤度であって、Ｐ（Ｖ｜Ｂ）が、上述の第２算出部４１０により算出される第２尤度である。そして、その積を最大化するＢを求める処理が、アクセント句探索部４３０による探索の処理に対応する。

続いて、言語モデルおよび音響モデルを組み合わせたアクセント型の認識について順次説明する。言語モデルを用いたアクセント型の認識とは、たとえば、予め学習用テキストから得られた、特定の表記や品詞の語句は、その前後の語句の表記なども総合的に考え合わせるとある特定のアクセント型になりやすいといった傾向を認識に利用することを内容とする。この処理は第３算出部４４０により実現される。音響モデルを用いたアクセント型の認識とは、たとえば、予め学習用音声から得られた、特定の周波数の音声や周波数変化の語句はあるアクセント型になりやすいといった傾向を認識に利用することを内容とする。この処理は第４算出部４５０により実現される。

アクセント句探索部４３０により探索された境界データによって区切られるアクセント句のそれぞれについて、第３算出部４４０は、当該アクセント句に含まれる各語句のアクセント型の候補を入力する。このアクセント型についても、上述の境界データの場合と同様に、当該アクセント句を構成する各語句が各アクセント型となるすべての組み合わせがアクセント型の複数の候補として順次入力されることが望ましい。第３算出部４４０は、入力されたアクセント型の候補のそれぞれについて、入力発声データ、学習用表記データ２００および学習用アクセントデータ２４０に基づいて、当該アクセント句に含まれる各語句のアクセント型が、入力されたこのアクセント型の候補となる第３尤度を算出する。

第４算出部４５０もまた、アクセント句探索部４３０により探索された境界データによって区切られるアクセント句のそれぞれについて、当該アクセント句に含まれる各語句のアクセント型の候補を入力する。そして、第４算出部４５０は、入力されたアクセント型の候補のそれぞれについて、入力発声データ、学習用発声データ２１０および学習用アクセントデータ２４０に基づいて、当該アクセント句に含まれる各語句が当該アクセント型の候補により指定されるアクセント型を有する場合に当該アクセント句の発声が入力発声データにより指定される発声となる第４尤度を算出する。

そして、アクセント型探索部４６０は、入力されたアクセント型の複数の候補の中から、第３算出部４４０により算出された第３尤度および第４算出部４５０により算出された第４尤度の積を最大化するアクセント型の候補を探索する。この探索は、たとえば、それぞれのアクセント型の候補について第３尤度および第４尤度の積を算出したうえで、それらの積のうちの最大値に対応するアクセント型の候補を特定することにより実現されてもよい。そして、アクセント型探索部４６０は、探索したアクセント型の候補を、そのアクセント句のアクセント型として音声合成装置３０に対し出力する。アクセント型は、アクセント句の境界を示す境界データおよび入力テキスト１５に対応付けて出力されることが好ましい。
以上の処理は、以下の式（２）によって表される。

ベクトル変数Ｖは、式（１）の場合と同様に、入力音声１８に含まれる各語句の発声の特徴を示す入力発声データである。但し、式（２）において、ベクトル変数Ｖは、処理の対象となっているアクセント句に含まれる各モーラについて、その発声の特徴を示す指標の指標値を表す。そのアクセント句のモーラの数をmとおき、各モーラの発声の特徴を示す指標をv_mと置くと、V=(v₁,..,v_m)と表される。また、ベクトル変数Ｗは、当該アクセント句に含まれる語句の表記を示す入力表記データである。各語句の表記をw_ｎと置くと、変数W=(w₁,..,w_ｎ)と表される。また、ベクトル変数Ａは当該アクセント句に含まれる各語句のアクセント型の組合せを示す。また、ａｒｇｍａｘは、続いて記述されるＰ（Ａ｜Ｗ，Ｖ）を最大化するａを求める関数である。即ち、この式（２）の１行目は、V、Wを既知としてＡの条件付き確率を最大化する最尤なアクセント型の組合せＡを求める問題を表している。

この式（２）の１行目は条件付確率の定義に基づいて式（２）の２行目のように変形される。そして、Ｐ（Ｖ｜Ｗ）は、アクセント型によらず一定であるから、式（２）の２行目は式（２）の３行目のように変形される。Ｐ（Ｖ｜Ｗ，Ａ）が、上述の第３算出部４４０により算出される第３尤度であって、Ｐ（Ａ｜Ｗ）が、上述の第４算出部４５０により算出される第４尤度である。そして、その積を最大化するＡを求める処理が、アクセント型探索部４６０による探索の処理に対応する。

次に、テスト用テキストを入力する処理機能について説明する。アクセント認識装置４０は、入力テキスト１５に代えて予めアクセント句の境界が認識されたテスト用テキストを入力し、入力音声１８に代えてテスト用テキストの発音を示すテスト用発声データを入力する。そして、第１算出部４００は、そのテスト用発声データのアクセント句の境界は未だ認識されていないものとして、上述の入力音声１８に対する処理と同様の処理を行って第１尤度を算出する。また、第２算出部４１０は、入力テキスト１５に代えてテスト用テキストを用いて、入力音声１８に代えてテスト用発声データを用いて第２尤度を算出する。そして、優先判断部４２０は、第１算出部４００および第２算出部４１０のうち、テスト用発声データについて予め認識されていたアクセント句の境界に対しより高い尤度を算出した算出部を、優先して使用するべき優先算出部と判断して、その結果をアクセント句探索部４３０に通知する。これを受けて、アクセント句探索部４３０は、上述の入力音声１８についてのアクセント句の探索において、その優先算出部により算出される尤度により重い重み付けをして、第１尤度および第２尤度の積を算出する。これにより、より信頼性の高い尤度を優先して、アクセント句の境界の探索に利用することができる。同じように、優先判断部４２０は、予めアクセント型の認識されたテスト用テキストおよびテスト用音声データを用いて、第３算出部４４０および第４算出部４５０の何れの算出部をより優先するかについて判断を行ってもよい。

図５は、アクセント認識装置４０がアクセントを認識する処理のフローチャートを示す。アクセント認識装置４０は、まず、テスト用テキストおよびテスト用音声データを用いて、第１算出部４００および第２算出部４１０の何れによって算出された尤度をより高く評価するか、および／または、第３算出部４４０および第４算出部４５０の何れによって算出された尤度をより高く評価するか、について判断する（Ｓ５００）。次に、アクセント認識装置４０は、入力テキスト１５および入力音声１８を入力すると、必要に応じて形態素解析処理、語句をその発声データに対応付ける処理、各語句のモーラ数をカウントする処理などを行う（Ｓ５１０）。

次に、第１算出部４００は、入力された境界データの候補について、たとえば、入力テキスト１５の境界データとして想定し得る全ての境界データの候補のそれぞれについて第１尤度を算出する（Ｓ５２０）。上述のように、第１尤度の算出は、式（１）３行目に含まれるＰ（Ｂ｜Ｗ）の算出に相当する。そして、この算出は、たとえば以下の式（３）によって実現される。

式（３）の１行目は、ベクトル変数Ｂを定義に基づき展開している。但し、ここではイントネーション句に含まれる語句の数をｌと置いている。式（３）の２行目は、条件付確率の定義に基づく変形である。この式は、ある境界データＢの尤度とは、語句の境界をイントネーション句の先頭から走査して、そのそれぞれがＢに基づきアクセント句の境界となる／ならないとした場合の確率を順次乗じあわせることにより算出されることを示している。式（３）の３行目においてｗ_ｉおよびｗ_ｉ＋１として示すように、ある語句ｗ_ｉの末尾がアクセント句の境界となるか否かの確率値は、その語句ｗ_ｉのみならず、その後続の語句ｗ_ｉ＋１に基づいて定められてもよい。更には、その語句の直前の語句がアクセント句の境界かどうかを示す情報ｂ_ｉ−１に基づいて定められてもよい。それぞれの語句についてのＰ（ｂ｜Ｗ）は、決定木を用いて算出されてもよい。この決定木の一例を図６に示す。

図６は、アクセント認識装置４０がアクセント境界の認識に用いる決定木の一例を示す。この決定木は、語句の表記、品詞、および、その語句の直前の他の語句の末尾がアクセント句の境界であるかどうかを示す情報を説明変数とし、当該語句の末尾がアクセント句の境界となる尤度を算出するものである。このような決定木は、従来公知の決定木構築用のソフトウェアに、説明変数となるパラメータの識別情報と、予測したいアクセント境界を示す情報と、学習用表記データ２００、学習用境界データ２２０および学習用品詞データ２３０を与えると自動的に生成されるものである。

図６に示す決定木は、ある語句ｗ_ｉの末尾部分がアクセント句の境界かどうかを示す尤度を算出するものである。たとえば、第１算出部４００は、入力テキスト１５の形態素解析の結果に基づいて、その語句ｗ_ｉの品詞が形容動詞かどうかを判断する。形容動詞であれば、その語句の末尾部分がアクセント句の境界となる尤度を１８％と判断する。形容動詞でなければ、第１算出部４００は、その語句の品詞が連体詞かどうかを判断する。連体詞であれば、その語句の末尾がアクセント句の境界となる尤度を８%と判断する。連体詞でなければ、その語句ｗ_ｉの後続のｗ_ｉ＋１の品詞が「語尾」かどうかを判断する。「語尾」であれば、第１算出部４００は、その語句ｗ_ｉの末尾がアクセント句の境界となる尤度を２３％と判断する。「語尾」でなければ、第１算出部４００は、その語句に後続する語句ｗ_ｉ＋１の品詞が形容動詞かどうかを判断する。形容動詞であれば、第１算出部４００は、その語句ｗ_ｉの末尾がアクセント句の境界となる尤度を９８％と判断する。

形容動詞でなければ、第１算出部４００は、その語句に後続する語句ｗ_ｉ＋１の品詞が「記号」かどうかを判断する。「記号」であれば、第１算出部４００は、その語句ｗ_ｉの直前の語句ｗ_ｉ−１の末尾がアクセント句の境界かどうかを、ｂ_ｉ−１を用いて判断する。境界でなければ、第１算出部４００は、その語句ｗ_ｉの末尾がアクセント句の境界である尤度を３５％と判断する。
このように、決定木とは、各種判断を表すノードと、その判断結果を示すエッジと、算出すべき尤度を示すリーフノードとによって構成されている。判断の種類としては図６に例示した品詞などの情報に加えて、表記そのものを用いてもよい。即ちたとえば、決定木は、語句の表記が予め定められた表記であるか否かに応じて、何れの子ノードに遷移するかどうかを決定するノードを有してもよい。この決定木を用いることで、第１算出部４００は、入力された境界データの候補について、その候補によって示される各アクセント句の尤度を算出して、算出した尤度の積を上記の第１尤度として算出することができる。

図５に戻る。続いて、第２算出部４１０は、入力された境界データの候補、たとえば、入力テキスト１５の境界データとして想定し得る全ての境界データの候補のそれぞれについて第２尤度を算出する（Ｓ５３０）。上述のように、第２尤度の算出は、Ｐ（Ｖ｜Ｂ）の算出に相当する。そして、この算出処理は、たとえば以下の式（４）のように表される。

この式（４）において、変数Ｖおよび変数Ｂの定義は上述のものと同様である。また、語句がアクセント句の境界か否かを条件としてその語句の発声の特徴は定まり、それに隣接する語句の発声の特徴には依存しないと仮定すると、式（４）の左辺は右辺のように変形される。Ｐ（ｖ_ｉ｜ｂ_ｉ）において、変数ｖ_ｉは、語句ｗ_ｉの発声の特徴を示す複数の指標からなるベクトル変数である。これらの指標の指標値は、入力音声１８に基づいて第２算出部４１０により算出される。変数ｖ_ｉの各要素が示す指標について、図７を参照して説明する。

図７は、アクセント句境界の候補となる語句の発声時近傍における基本周波数の一例を示す。横軸は時刻の経過を表し、縦軸は周波数を示す。また、曲線状のグラフは、学習用音声の基本周波数の変化を示す。発声の特徴を示す第１の指標として、グラフ中の傾きｇ_２を例示する。この傾ｇ_２は、語句ｗ_ｉを基準として、その語句の次に連続して発音される他の語句である後続語句の先頭のモーラにおける時間の経過に対する基本周波数の変化を示す指標値である。この指標値は、当該後続語句の先頭のモーラにおける基本周波数の最小値から最大値に至る変化の傾きとして算出される。

発声の特徴を示す第２の指標は、たとえば、この傾きｇ_２とグラフ中の傾きｇ_１との差分として表される。傾きｇ_１は、当該基準とする語句の末尾のモーラにおける時間の経過に対する基本周波数の変化を示す。この傾きは、たとえば、その語句の末尾のモーラにおける周波数の最大値から、その語句の後続語句の先頭のモーラにおける基本周波数の最小値に至る変化の傾きとして近似的に算出されてもよい。また、発声の特徴を示す第３の指標は、当該基準の語句の末尾のモーラにおける基本周波数の変化量として表される。この変化量は、具体的には、このモーラの開始時点における基本周波数と終了時点における基本周波数との差分である。

以上のそれぞれの指標は、基本周波数やその変化量そのものではなく、それらの対数をとったものであってもよい。また、入力音声１８について、これらの指標値は、各語句について第２算出部４１０により算出される。また、学習用音声について、これらの指標値は、各語句について予め算出されて記憶部２０に記憶されていてもよい。また、記憶部２０に記憶された基本周波数のデータに基づいて第２算出部４１０により算出されてもよい。
これらの指標値と学習用境界データ２２０とに基づいて、第２算出部４１０は、語句の末尾部分がアクセント句の境界となる場合とならない場合とのそれぞれについて、その語句のそれぞれの指標を要素として含むベクトル変数を確率変数とし、その語句の発声がそれぞれの指標値の組合せにより指定される発声となる確率を示す確率密度関数を生成する。

これらの確率密度関数は、語句毎に離散的に観測された指標値に基づく離散的な確率分布を連続関数に近似することにより生成される。具体的には、第２算出部４１０は、これらの指標値と学習用境界データ２２０とに基づいて、混合ガウス分布のパラメータを決定することによりこれらの確率密度関数を生成してもよい。
このように生成した確率密度関数を用いて、第２算出部４１０は、入力テキスト１５に含まれる各語句の末尾部分がアクセント句の境界となる場合に入力テキスト１５の発声が入力音声１８により指定される発声となる第２尤度を算出する。具体的には、まず、第２算出部４１０は、入力テキスト１５の各語句について何れかの確率密度関数を、入力された境界データの候補に基づき順次選択する。たとえば、第２算出部４１０は、境界データの候補を先頭から走査して、ある語句の末尾がアクセント句の境界となる場合には、境界となる場合の確率密度関数を選択し、その次の語句の末尾がアクセント句の境界とならない場合には、境界とならない場合の確率密度関数を選択する。

そして、第２算出部４１０は、各語句について選択した確率密度関数のそれぞれに対し、入力音声１８において当該語句に対応する指標値のベクトル変数を代入する。このようにして算出される各算出値は、式（４）の右辺に示すＰ（ｖ_ｉ｜ｂ_ｉ）に相当する。そして、第２算出部４１０は、この各算出値を乗じ合わせることにより第２尤度を算出することができる。

図５に戻る。次に、アクセント句探索部４３０は、境界データの候補の中から、算出された第１尤度および第２尤度の積を最大化する境界データの候補を探索する（Ｓ５４０）。この積を最大化する境界データの候補は、境界データとして想定し得る語句の全ての組合せ（即ち語句の数をＮとすると２^Ｎ−１通りの組合せ）について第１尤度および第２尤度の積を算出したうえで、その積の値を大小比較することによって探索されてもよい。詳細には、アクセント句探索部４３０は、ビタービのアルゴリズムとして知られる既存手法によって、第１尤度および第２尤度を最大化する境界データの候補を探索してもよい。さらには、アクセント句探索部４３０は、境界データとして想定し得る全ての語句の組合せの一部のみについて、第１尤度および第２尤度を算出した上で、その積の値を最大化する語句の組合せを、第１尤度および第２尤度を近似的に最大化する語句の組合せを示す境界データとして算出してもよい。探索された境界データは、入力テキスト１５および入力音声１８について最尤のアクセント句を示す。

続いて、アクセント句探索部４３０により探索された境界データによって区切られるアクセント句のそれぞれについて、第３算出部４４０、第４算出部４５０およびアクセント型探索部４６０は以下の処理を行う。まず、第３算出部４４０は、アクセント句に含まれる各語句のアクセント型の候補を入力する。このアクセント型についても、上述の境界データの場合と同様に、当該アクセント句を構成する各語句が各アクセント型となるすべての組み合わせがアクセント型の複数の候補として順次入力されることが望ましい。第３算出部４４０は、入力されたアクセント型の候補のそれぞれについて、入力発声データ、学習用表記データ２００および学習用アクセントデータ２４０に基づいて、当該アクセント句に含まれる各語句のアクセント型が、入力されたこのアクセント型の候補となる第３尤度を算出する（Ｓ５４０）。上述のように、この第３尤度の算出は、式（２）の３行目に示すＰ（Ａ｜Ｗ）の算出に相当する。そしてこの算出は、以下の式（５）を算出することによって実現される。

この式（５）において、ベクトル変数Ａは、当該アクセント句に含まれる各語句のアクセント型の組合せを示す。このベクトル変数Ａの各要素は、当該アクセント句に含まれる各語句のアクセント型を示す。即ち、当該アクセント句において第ｉ番目に配列される語句をｗ_ｉとおいて、当該アクセント句に含まれる語句の数をｎとおくと、Ａ＝（Ａ_１…Ａ_ｎ）と表される。Ｐ´（Ａ｜Ｗ）は、与えられた語句の表記の組合せＷに対し、その表記の組合せの発声が、アクセント型の組合せＡによって指定される発声となる尤度を示す。式（５）は、この尤度が算出方法の都合によって合計が１となるように正規化されていない場合について、それぞれの組合せについての尤度の合計を１とするように合計するものである。Ｐ´（Ａ｜Ｗ）は、以下の式（６）により定義される。

この式（６）は、それぞれの語句Ｗ_ｉについて、当該アクセント句を先頭から走査してその語句Ｗ_ｉに至るまでの語句の集合Ｗ_１からＷ_ｉ−１までのそれぞれの語句のアクセント型が、それぞれＡ_１からＡ_ｉ−１までであることを条件に、第ｉ番目の語句のアクセント型がＡ_ｉである条件付確率を示す。これは、ｉの値がアクセント句の語尾に近づくにつれて、それまでに走査した当該アクセント句内の全ての語句を確率算出の条件とすることを意味する。そして、このように算出された条件付確率を、当該アクセント句内の全ての語句について乗じ合わせることを示している。それぞれの条件付確率は、第３算出部４４０が学習用表記データ２００のうち、Ｗ_１からＷ_ｉまでを連結した表記を多数の箇所から検索した上で、そのそれぞれのアクセント型を学習用アクセントデータ２４０から検索し、それぞれのアクセント型の出現頻度を算出することによって実現できる。しかしながら、アクセント句に含まれる語句が多い場合、即ちｉの値が大きくなり得る場合には、入力テキスト１５の一部と比較して表記が完全に一致する語句の組合せは学習用表記データ２００の中に出現しにくくなる。このため、式（６）に示す値を近似的に求めることが望ましい。

具体的には、第３算出部４４０は、予め指定したｎ個の語句からなる語句の組合せ毎に、その組合せが出現する頻度を学習用表記データ２００に基づいて算出して、その指定した数よりも多い語句の組合せの出現頻度の算出に利用してもよい。このような方法は、語句の組合せを構成する語句の数であるｎを用いて、ｎｇｒａｍモデルと呼ばれる。語句の数が２個であるｂｉｇｒａｍモデルにおいて、第３算出部４４０は、学習用テキストにおいて連続して表記される２つの語句の組合せのそれぞれが、学習用アクセントデータ２４０においてアクセント型のそれぞれの組合せにより発声された頻度を算出する。そして、第３算出部４４０は、算出したそれぞれの頻度に基づいてこのＰ´（Ａ｜Ｗ）の値を近似的に算出する。一例として、第３算出部４４０は、当該アクセント句内の各語句について、その語句とその次に連続して表記される語句の組についてｂｉｇｒａｍモデルにおいて予め算出した頻度の値を選択する。そして、第３算出部４４０は、選択した頻度の値のそれぞれを乗じ合わせてＰ´（Ａ｜Ｗ）とする。

図５に戻る。次に、第４算出部４５０は、入力されたアクセント型の候補のそれぞれについて、入力発声データ、学習用発声データ２１０および学習用アクセントデータ２４０に基づいて第４尤度を算出する（Ｓ５６０）。第４尤度は、当該アクセント句に含まれる各語句が当該アクセント型の候補により指定されるアクセント型を有する場合に当該アクセント句の発声が入力発声データにより指定される発声となる尤度である。上述のように、この第４尤度の算出は、式（２）の３行目に示すＰ（Ｖ｜Ｗ，Ａ）の算出に相当する。そしてこの算出は、以下の式（７）として表される。

式（７）において、ベクトル変数Ｖ、ＷおよびＡについての定義は上述の通りである。但し、ベクトル変数Ｖの要素である変数ｖ_ｉは、アクセント句内のモーラを示す変数ｉを添え字として、各モーラｉの発声の特徴を示す。また、式（７）と式（４）との間で変数ｖ_ｉが示す特徴の種類は互いに異なってもよい。また、変数ｍは、当該アクセント句内のモーラの総数を示す。式（７）の１行目左辺は、各モーラの発声の特徴がそのモーラに隣接するモーラには依存しないとみなすことで、右辺式のように近似される。右辺式は、各モーラについての発声の特徴に基づく尤度を各モーラについて乗じることにより、アクセント句の発声の特徴を示す尤度が算出されることを示す。

式（７）の２行目に示すように、Ｗは、語句の表記そのものではなく、アクセント句内の各語句が有するモーラの数および、各モーラがアクセント句内で占める位置によって近似されてもよい。即ち式（７）の「｜」の右側の条件部分において、変数ｉはモーラｉがアクセント句内で先頭から何番目であるかを示し、（ｍ−ｉ）はモーラｉがアクセント句内で後ろから何番目であるかを示す。また、式の条件部分において、変数ａ_ｉは、当該アクセント句内の第ｉ番目のモーラのアクセントがＨ型およびＬ型の何れであるかを示す。この条件部分は変数ａ_ｉおよび変数ａ_ｉ−１を含む。すなわち、この式では、Ａを、アクセント句内の全てのモーラについての全てのアクセントの組合せではなく、隣接する２つのモーラの組合せに基づいて定めている。
次に、この確率密度関数Ｐを算出する方法を説明するために、ここで取り扱われる変数ｖ_ｉが示す各指標の具体例について、図８を参照して説明する。

図８は、アクセント認識の対象となるあるモーラについての基本周波数の一例を示す。図７と同様に、横軸は時間の経過方向を示し、縦軸は発声の基本周波数の大きさを示す。図中の曲線のグラフは、あるモーラにおける基本周波数の時系列変化を示す。また、図中の点線は、このモーラと他のモーラとの境界を示している。このモーラｉの発声の特徴を示すベクトル変数ｖ_ｉは、たとえば３つの指標の指標値をそれぞれ要素とする３次元のベクトルを示す。第１の指標は、当該モーラの開始時点における発声の基本周波数を示す。第２の指標は、当該モーラｉにおける発声の基本周波数の変化量を示す。この変化量は、当該モーラｉの開始時点および終了時点における基本周波数の差分である。この第２の指標は、以下の式（８）に示す計算により０から１までの範囲の値として正規化されてもよい。

この式（８）によれば、開始時点および終了時点における基本周波数の差分は、当該モーラの最小周波数および最大周波数の差分を基準として０から１までの範囲内の値として正規化される。

第３の指標は、当該モーラにおける時間の経過に対する発声の基本周波数の変化、即ち、グラフ中の直線の傾きを示す。この直線は、基本周波数の変化を示すグラフの全体としての変化の傾向を把握するために、基本周波数のグラフを最小２乗法などによって１次関数に近似したものであってよい。以上のそれぞれの指標は、基本周波数やその変化量そのものではなく、それらの対数をとったものであってもよい。またこれらの指標の指標値は、学習用音声については、記憶部２０に学習用発声データ２１０として予め記憶されていてもよいし、記憶部２０に記憶された基本周波数のデータに基づいて第４算出部４５０により算出されてもよい。入力音声１８については、これらの各指標の指標値は、第４算出部４５０によって算出されてもよい。

学習用音声についての各指標値、学習用表記データ２００および学習用アクセントデータ２４０に基づいて、第４算出部４５０は、式（７）２行目の右辺に示す確率密度関数Ｐを決定する決定木を生成する。この決定木は、モーラのアクセントがＨ型およびＬ型の何れであるか、当該モーラを含むアクセント句のモーラ数、当該モーラに連続する直前のモーラのアクセントがＨ型およびＬ型の何れであるか、および、当該モーラの占める当該アクセント句内の位置のそれぞれを説明変数とする。そして、それぞれの条件を満たす場合の発声の特徴を示すベクトル変数ｖを確率変数とした確率密度関数を目標変数とするものである。

この決定木は、決定木を構築するためのソフトウェアに対し、学習用音声についての各モーラの指標値、学習用表記データ２００および学習用アクセントデータ２４０を与えた上で、上記の各説明変数および目標変数を設定することによって自動的に生成される。この結果、上記の各説明変数の値の組合せ毎に分類された複数の確率密度関数が第４算出部４５０により生成される。なお、確率密度関数は、学習用音声から算出された指標値は実際には離散的な値を採ることから、混合ガウス分布のパラメータを定めること等によって連続関数として近似的に生成されてもよい。

第４算出部４５０は、当該アクセント句に含まれる複数のモーラを先頭から走査して、それぞれのモーラについて以下の処理を行う。まず、第４算出部４５０は、このように各説明変数の値について分類して生成した確率密度関数の中から１つの確率密度関数を選択する。確率密度関数の選択は、当該モーラが、入力されたアクセント型の候補においてＨ型およびＬ型の何れのアクセントを有するか、当該モーラを含む当該アクセント句のモーラの数等、上記の各説明変数に対応するパラメータに基づき選択される。そして、第４算出部４５０は、選択した確率密度関数に対し、入力音声１８において当該モーラの発声の特徴を示す指標値を代入することにより、確率値を算出する。そして、第４算出部４５０は、走査したそれぞれのモーラについて算出した当該確率値を乗じ合わせることにより、第４尤度を算出する。

図５に戻る。続いて、アクセント型探索部４６０は、入力されたアクセント型の複数の候補の中から、第３算出部４４０により算出された第３尤度および第４算出部４５０により算出された第４尤度の積を最大化するアクセント型の候補を探索する（Ｓ５７０）。この探索は、たとえば、それぞれのアクセント型の候補について第３尤度および第４尤度の積を算出したうえで、それらの積のうちの最大値に対応するアクセント型の候補を特定することにより実現されてもよい。また、上述のアクセント句の境界探索と同様に、ビタービのアルゴリズムを用いて探索されてもよい。探索されたアクセント型の情報は、当該アクセント句のアクセント型を示す情報として出力される。
以上の処理は、アクセント句探索部４３０により探索されたそれぞれのアクセント句について繰り返されて、その結果入力テキスト１５に含まれる各アクセント句についてそのアクセント型が出力される。

図９は、認識システム１０として機能する情報処理装置５００のハードウェア構成の一例を示す。情報処理装置５００は、ホストコントローラ１０８２により相互に接続されるＣＰＵ１０００、ＲＡＭ１０２０、及びグラフィックコントローラ１０７５を有するＣＰＵ周辺部と、入出力コントローラ１０８４によりホストコントローラ１０８２に接続される通信インターフェイス１０３０、ハードディスクドライブ１０４０、及びＣＤ−ＲＯＭドライブ１０６０を有する入出力部と、入出力コントローラ１０８４に接続されるＲＯＭ１０１０、フレキシブルディスクドライブ１０５０、及び入出力チップ１０７０を有するレガシー入出力部とを備える。

ホストコントローラ１０８２は、ＲＡＭ１０２０と、高い転送レートでＲＡＭ１０２０をアクセスするＣＰＵ１０００及びグラフィックコントローラ１０７５とを接続する。ＣＰＵ１０００は、ＲＯＭ１０１０及びＲＡＭ１０２０に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィックコントローラ１０７５は、ＣＰＵ１０００等がＲＡＭ１０２０内に設けたフレームバッファ上に生成する画像データを取得し、表示装置１０８０上に表示させる。これに代えて、グラフィックコントローラ１０７５は、ＣＰＵ１０００等が生成する画像データを格納するフレームバッファを、内部に含んでもよい。

入出力コントローラ１０８４は、ホストコントローラ１０８２と、比較的高速な入出力装置である通信インターフェイス１０３０、ハードディスクドライブ１０４０、及びＣＤ−ＲＯＭドライブ１０６０を接続する。通信インターフェイス１０３０は、ネットワークを介して外部の装置と通信する。ハードディスクドライブ１０４０は、情報処理装置５００が使用するプログラム及びデータを格納する。ＣＤ−ＲＯＭドライブ１０６０は、ＣＤ−ＲＯＭ１０９５からプログラム又はデータを読み取り、ＲＡＭ１０２０又はハードディスクドライブ１０４０に提供する。

また、入出力コントローラ１０８４には、ＲＯＭ１０１０と、フレキシブルディスクドライブ１０５０や入出力チップ１０７０等の比較的低速な入出力装置とが接続される。ＲＯＭ１０１０は、情報処理装置５００の起動時にＣＰＵ１０００が実行するブートプログラムや、情報処理装置５００のハードウェアに依存するプログラム等を格納する。フレキシブルディスクドライブ１０５０は、フレキシブルディスク１０９０からプログラム又はデータを読み取り、入出力チップ１０７０を介してＲＡＭ１０２０またはハードディスクドライブ１０４０に提供する。入出力チップ１０７０は、フレキシブルディスク１０９０や、例えばパラレルポート、シリアルポート、キーボードポート、マウスポート等を介して各種の入出力装置を接続する。

情報処理装置５００に提供されるプログラムは、フレキシブルディスク１０９０、ＣＤ−ＲＯＭ１０９５、又はＩＣカード等の記録媒体に格納されて利用者によって提供される。プログラムは、入出力チップ１０７０及び/又は入出力コントローラ１０８４を介して、記録媒体から読み出され情報処理装置５００にインストールされて実行される。プログラムが情報処理装置５００等に働きかけて行わせる動作は、図１から図８において説明した認識システム１０における動作と同一であるから、説明を省略する。

以上に示したプログラムは、外部の記憶媒体に格納されてもよい。記憶媒体としては、フレキシブルディスク１０９０、ＣＤ−ＲＯＭ１０９５の他に、ＤＶＤやＰＤ等の光学記録媒体、ＭＤ等の光磁気記録媒体、テープ媒体、ＩＣカード等の半導体メモリ等を用いることができる。また、専用通信ネットワークやインターネットに接続されたサーバシステムに設けたハードディスク又はＲＡＭ等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムを情報処理装置５００に提供してもよい。

以上、本実施形態に示す認識システム１０によれば、語句の表記や品詞などの言語的な情報と、発音の周波数変化などの音響的な情報とを組み合わせて、アクセント句の境界を効率的かつ高精度に探索することができる。さらに、探索された各アクセント句についても、言語的な情報および音響的な情報を組み合わせて、アクセント型を効率的かつ高精度に探索することができる。実際に、アクセント句の境界およびアクセント型の予め判明している入力テキストおよび入力音声を用いて実験した結果、予め判明しているこれらの情報に極めて近い、高精度な認識結果が確認された。また、言語的な情報および音響的な情報をそれぞれ独立して利用した場合と比較して、これらを組み合わせて利用することで、認識の精度が向上したことが確かめられた。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。

図１は、認識システム１０の全体構成を示す。図２は、入力テキスト１５および学習用表記データ２００の構成の具体例を示す。図３は、記憶部２０が記憶する各種データの一例を示す。図４は、アクセント認識装置４０の機能構成を示す。図５は、アクセント認識装置４０がアクセントを認識する処理のフローチャートを示す。図６は、アクセント認識装置４０がアクセント境界の認識に用いる決定木の一例を示す。図７は、アクセント句境界の候補となる語句の発声時近傍における基本周波数の一例を示す。図８は、アクセント認識の対象となるあるモーラについての基本周波数の一例を示す。図９は、認識システム１０として機能する情報処理装置５００のハードウェア構成の一例を示す。

符号の説明

１０認識システム
１５入力テキスト
１８入力音声
２０記憶部
３０音声合成装置
４０アクセント認識装置
２００学習用表記データ
２１０学習用発声データ
２２０学習用境界データ
２３０学習用品詞データ
２４０学習用アクセントデータ
３００アクセント句境界
４００第１算出部
４１０第２算出部
４２０優先判断部
４３０アクセント句探索部
４４０第３算出部
４５０第４算出部
４６０アクセント型探索部
５００情報処理装置

Claims

入力された音声のアクセントを認識するシステムであって、
学習用テキストの各語句の表記を示す学習用表記データ、学習用音声における各語句の発声の特徴を示す学習用発声データ、および、各語句がアクセント句の境界か否かを示す学習用境界データを記憶する記憶部と、
入力音声における各語句がアクセント句の境界か否かを示す境界データの候補を入力し、前記入力音声の内容を示す入力テキストの各語句の表記を示す入力表記データ、前記学習用表記データ、および、前記学習用境界データに基づいて、前記入力テキストの各語句のアクセント句の境界が、入力された前記境界データの候補となる第１尤度を算出する第１算出部と、
前記境界データの候補を入力し、前記入力音声における各語句の発声の特徴を示す入力発声データ、前記学習用発声データ、および前記学習用境界データに基づいて、前記入力音声が前記境界データの候補により指定されるアクセント句の境界を有する場合に前記入力テキストの各語句の発声が前記入力発声データにより指定される発声となる第２尤度を算出する第２算出部と、
入力された前記境界データの候補の中から、前記第１尤度および前記第２尤度の積を最大化する境界データの候補を探索し、探索した前記境界データの候補を、前記入力テキストをアクセント句に区切る境界データとして出力するアクセント句探索部と
を備えるシステム。
前記記憶部は、前記学習用テキストの各語句の品詞を示す学習用品詞データを更に記憶しており、
前記第１算出部は、前記学習用品詞データに更に基づいて前記第１尤度を算出する
請求項１に記載のシステム。
前記第１算出部は、前記学習用表記データ、前記学習用品詞データ、および、前記学習用境界データに基づいて、それぞれの語句がアクセント句の境界となる尤度を算出する決定木を生成し、入力された前記境界データの候補によって示される各アクセント句の尤度を前記決定木に基づいて算出し、算出された当該尤度の積を前記第１尤度として算出する
請求項２に記載のシステム。
前記入力発声データは、各語句の発声の特徴を示す指標の指標値であり、
前記第２算出部は、前記学習用発声データおよび前記学習用境界データに基づいて、語句がアクセント句の境界となる場合とならない場合とのそれぞれについて、その語句の前記指標値を確率変数とした確率密度関数を生成し、前記入力テキストの各語句について何れかの前記確率密度関数を前記境界データの候補に基づき選択して、各語句について選択した前記確率密度関数のそれぞれに対し対応する前記指標値を代入して乗じることにより前記第２尤度を算出する
請求項１に記載のシステム。
各語句は、その発音として少なくとも１つのモーラを含み、
前記記憶部は、前記学習用テキストに含まれる各語句について、発声の特徴を示す複数の前記指標の指標値として、後続語句の先頭のモーラにおける時間の経過に対する基本周波数の変化を示す指標値、当該指標値と当該語句末尾のモーラにおける時間の経過に対する基本周波数の変化を示す指標値との差分、および、当該語句の末尾のモーラにおける基本周波数の変化量を記憶しており、
前記第２算出部は、前記複数の指標を要素として含むベクトル変数を確率変数とし、語句がアクセント句の境界となる場合とならない場合とのそれぞれについて、その語句のそれぞれの指標を要素として含むベクトル変数を確率変数とし、その語句の発声がそれぞれの指標値の組合せにより指定される発声となる確率を示す確率密度関数を、混合ガウス分布のパラメータを決定することにより算出する
請求項４に記載のシステム。
前記第１算出部は、前記入力テキストに代えてテスト用テキスト、および、前記入力発声データに代えて予めアクセント句の境界が認識されたテスト用発声データについて前記第１尤度を更に算出し、
前記第２算出部は、前記入力テキストに代えて前記テスト用テキストを用いて、前記入力発声データに代えて前記テスト用発声データを用いて前記第２尤度を更に算出し、
前記第１算出部および前記第２算出部のうち、前記テスト用発声データについて予め認識されていたアクセント句の境界に対しより高い尤度を算出した算出部を、優先して使用するべき優先算出部と判断する優先判断部を更に備え、
前記アクセント句探索部は、前記優先算出部により算出される尤度により重い重み付けをして、前記第１尤度および前記第２尤度の積を算出する
請求項１に記載のシステム。
前記記憶部は、前記学習用音声における各語句のアクセント型を示す学習用アクセントデータを更に記憶しており、
前記アクセント句探索部により探索された境界データによって区切られるアクセント句のそれぞれについて、
当該アクセント句に含まれる各語句のアクセント型の候補を入力し、前記入力発声データ、前記学習用表記データ、および、前記学習用アクセントデータに基づいて、当該アクセント句に含まれる各語句のアクセント型が、入力された前記アクセント型の候補となる第３尤度を算出する第３算出部と、
前記アクセント型の候補を入力し、前記入力発声データ、前記学習用発声データ、および、前記学習用アクセントデータに基づいて、当該アクセント句に含まれる各語句が前記アクセント型の候補により指定されるアクセント型を有する場合に当該アクセント句の発声が前記入力発声データにより指定される発声となる第４尤度を算出する第４算出部と、
入力された前記アクセント型の候補の中から、前記第３尤度および前記第４尤度の積を最大化するアクセント型の候補を探索し、探索した前記アクセント型の候補を、当該アクセント句のアクセント型として出力するアクセント型探索部と
を更に備える請求項１に記載のシステム。
前記第３算出部は、前記学習用テキストにおいて連続して表記される２以上の語句の組合せのそれぞれが、前記学習用アクセントデータにおいてアクセント型のそれぞれの組合せにより発声された頻度を算出し、算出した前記頻度に基づいて前記第３尤度を算出する
請求項７に記載のシステム。
それぞれの前記語句は、その発音として少なくとも１つのモーラを含み、
前記記憶部は、前記学習用発声データとして、各モーラの発声の特徴を示す指標値を記憶しており、
前記第４算出部は、モーラのアクセントがＨ型およびＬ型の何れであるか、当該モーラを含むアクセント句に含まれるモーラの数、および、当該モーラの当該アクセント句内の位置に応じて分類して、当該モーラの前記指標値を確率変数とする確率密度関数を、前記学習用発声データおよび前記学習用アクセントデータに基づいて算出し、当該アクセント句に含まれる各語句の各モーラが、入力された前記アクセント型の候補においてＨ型およびＬ型の何れのアクセントを有するか、当該モーラを含む当該アクセント句のモーラの数、および、当該モーラの当該アクセントにおける位置に基づいて、何れかの前記確率密度関数を選択して、前記入力発声データにおいてそれぞれのモーラの発声の特徴を示す指標値を当該モーラに対応して選択した前記確率密度関数に代入して確率値を算出し、算出したそれぞれの確率値を乗じ合わせることにより前記第４尤度を算出する
請求項７に記載のシステム。
前記記憶部は、前記学習用テキストに含まれる各語句の各モーラについて、発声の特徴を示す複数の前記指標の指標値として、当該モーラの開始時点における発声の基本周波数、当該モーラにおける発声の基本周波数の変化量を示す指標値、および、当該モーラにおける時間の経過に対する発声の基本周波数の変化を示す指標値を記憶しており、
前記第４算出部は、前記複数の指標を要素として含むベクトル変数を確率変数とし、モーラのアクセントが入力された前記アクセント型の候補に従う場合において当該モーラの発声が当該ベクトル変数によって指定された特徴を有する確率を示す確率密度関数を、前記学習用発声データおよび前記学習用アクセントデータに基づいて生成する
請求項９に記載のシステム。
入力された音声のアクセントを認識する方法であって、
メモリが、学習用テキストの各語句の表記を示す学習用表記データ、学習用音声における各語句の発声の特徴を示す学習用発声データ、および、各語句がアクセント句の境界か否かを示す学習用境界データを記憶することと、
ＣＰＵが、入力音声における各語句がアクセント句の境界か否かを示す境界データの候補を入力し、前記入力音声の内容を示す入力テキストの各語句の表記を示す入力表記データ、前記学習用表記データ、および、前記学習用境界データに基づいて、前記入力テキストの各語句のアクセント句の境界が、入力された前記境界データの候補となる第１尤度を算出することと、
ＣＰＵが、前記境界データの候補を入力し、前記入力音声における各語句の発声の特徴を示す入力発声データ、前記学習用発声データ、および前記学習用境界データに基づいて、前記入力音声が前記境界データの候補により指定されるアクセント句の境界を有する場合に前記入力テキストの各語句の発声が前記入力発声データにより指定される発声となる第２尤度を算出することと、
ＣＰＵが、入力された前記境界データの候補の中から、前記第１尤度および前記第２尤度の積を最大化する境界データの候補を探索し、探索した前記境界データの候補を、前記入力テキストをアクセント句に区切る境界データとして出力することと
を備える方法。
入力された音声のアクセントを認識するシステムとして、情報処理装置を機能させるプログラムであって、
前記情報処理装置を、
学習用テキストの各語句の表記を示す学習用表記データ、学習用音声における各語句の発声の特徴を示す学習用発声データ、および、各語句がアクセント句の境界か否かを示す学習用境界データを記憶する記憶部と、
入力音声における各語句がアクセント句の境界か否かを示す境界データの候補を入力し、前記入力音声の内容を示す入力テキストの各語句の表記を示す入力表記データ、前記学習用表記データ、および、前記学習用境界データに基づいて、前記入力テキストの各語句のアクセント句の境界が、入力された前記境界データの候補となる第１尤度を算出する第１算出部と、
前記境界データの候補を入力し、前記入力音声における各語句の発声の特徴を示す入力発声データ、前記学習用発声データ、および前記学習用境界データに基づいて、前記入力音声が前記境界データの候補により指定されるアクセント句の境界を有する場合に前記入力テキストの各語句の発声が前記入力発声データにより指定される発声となる第２尤度を算出する第２算出部と、
入力された前記境界データの候補の中から、前記第１尤度および前記第２尤度の積を最大化する境界データの候補を探索し、探索した前記境界データの候補を、前記入力テキストをアクセント句に区切る境界データとして出力するアクセント句探索部と
して機能させるプログラム。