JP2010008764A

JP2010008764A - 音声認識方法、音声認識システム、および音声認識装置

Info

Publication number: JP2010008764A
Application number: JP2008168594A
Authority: JP
Inventors: Takako Onishi; 貴子大西; Katsumi Ohashi; 勝己大橋
Original assignee: Omron Corp; Omron Tateisi Electronics Co
Current assignee: Omron Corp
Priority date: 2008-06-27
Filing date: 2008-06-27
Publication date: 2010-01-14

Abstract

【課題】音声認識の精度を高くすることができる音声認識方法を提供する。
【解決手段】オペレータの音声および顧客の音声をオペレータ音声録音部２１および顧客音声録音部２２において、それぞれ別途録音する（Ｓ２１）。次に、まず、オペレータ音声録音部２１により録音されたオペレータの音声について、オペレータの音声の認識を行なう（Ｓ２２）。オペレータの音声の認識が終了した後、認識した結果から出現する単語の優先度を最大値に設定する（Ｓ２３）。次に、共起尺度算出部２６により算出した共起尺度に応じて、単語の優先度を設定する（Ｓ２４）。その後、顧客音声録音部２２により録音された顧客の音声について、顧客の音声の認識を行なう（Ｓ２５）。
【選択図】図４

Description

この発明は、音声認識方法、音声認識システム、および音声認識装置に関するものであり、特に、第一の音声および第一の音声と異なる第二の音声を認識する音声認識方法、音声認識システムおよび音声認識装置に関するものである。

一般的なコールセンターにおいては、オペレータと顧客とが電話回線を介して会話を行なう。そして、オペレータは、顧客に対して、技術サポートや商品説明等のサービスを行なう。オペレータは、顧客との通話中に、パソコン（パーソナルコンピュータ）等を操作しながらサービスを行うことも一般的に行なわれている。

このようなコールセンターでは、オペレータの業務内容として、オペレータと顧客との会話内容を記録することが必要とされる。この場合、オペレータが、通話終了後に顧客の問合せ内容や回答内容を１件１件思い出しながら会話内容を記録することがある。しかし、このような方法では、正確な記録が困難であり、記載漏れや誤り等が発生してしまうおそれがある。また、顧客との通話中においては、上記したようにパソコン等による操作を行なっている場合もあるので、通話中における会話内容の記録も、非常に困難である。

ここで、オペレータや顧客の音声を認識して出力する音声認識に関する技術が、例えば、特開平１１−３３８４９４号公報（特許文献１）、および特許第３８２７７０４号（特許文献２）に開示されている。特許文献１によると、通話内容を音声認識技術によりテキスト化、すなわち、自動的に文字化することとしている。こうすることにより、会話内容の記録作業の効率向上を図ることとしている。

このような一般的な音声認識技術は、会話中の単語を全て正確に認識できるのではなく、出力された音声認識の結果に対しての確認や修正が必要となる。特許文献２によると、テキスト化した音声認識の結果をパソコンのディスプレイ等に表示し、予め指定されたキーワード等を強調表示することとしている。こうすることにより、オペレータが短時間で修正箇所を把握し、修正等を行なうことができることとしている。このようにして、会話内容の記録作業の効率向上を図ることとしている。
特開平１１−３３８４９４号公報特許第３８２７７０４号

上記した特許文献１および特許文献２に示す一般的な音声認識技術は、録音した音声の波形から想定される単語の候補を、予め用意した辞書から複数選定する。そして、その中で評価値が最も高い単語、すなわち、最も適切であろう単語を認識結果として出力するものである。

ここで、音声認識の精度については、修正箇所の低減等の観点から、高い方が好ましい。音声の波形は、各個人によって異なるものであるため、音声認識の精度を高くするためには、予め認識させる音声の波形と単語との対応関係を適切にしておくこと、すなわち、予め認識させる音声を学習させることが考えられる。

ここで、オペレータについては、個人の特定が可能であるため、オペレータの音声を予め認識させる音声として学習させることは可能である。すなわち、オペレータの音声の音声認識においては、認識精度を向上させることは可能である。しかし、通話先となる不特定多数の顧客の音声については、認識精度の向上のために予め学習させることはできない。そうすると、顧客の音声の音声認識においては、上記した特許文献１および特許文献２に示す一般的な音声認識、すなわち、事前に学習を行なわない音声認識を採用せざるを得ず、認識精度が不十分となってしまう。このような事態は、オペレータの作業効率を悪化させてしまうことになる。

この発明の目的は、音声認識の精度を高くすることができる音声認識方法を提供することである。

この発明の他の目的は、音声認識の精度を高くすることができる音声認識システムを提供することである。

この発明のさらに他の目的は、音声認識の精度を高くすることができる音声認識装置を提供することである。

この発明のさらに他の目的は、音声認識の精度を高くすることができる音声認識プログラムを提供することである。

この発明のさらに他の目的は、音声認識の精度を高くすることができる音声認識プログラムを記録した記録媒体を提供することである。

この発明に係る音声認識方法は、第一の音声および第一の音声と異なる第二の音声をそれぞれ認識する音声認識方法であって、事前に第一の音声の音声認識のためのデータを入手するデータ入手ステップと、データ入手ステップにより入手されたデータを用いて、第一の音声の認識精度を向上させるための学習を行なう学習ステップと、学習ステップの後に、第一の音声を認識する第一音声認識ステップと、第一音声認識ステップにより認識した第一の音声に出現する頻度の高い単語の優先度を高く設定する優先度設定ステップと、優先度設定ステップにより設定された単語の優先度に基づいて、第二の音声を認識する第二音声認識ステップとを備える。

このように構成することにより、認識精度の高い第一の音声の認識結果を利用して、第二の音声を認識することができる。したがって、第二の音声の認識結果の精度を高めることができ、総じて、音声認識の精度を高めることができる。

好ましくは、優先度設定ステップは、第一音声認識ステップにより認識した第一の音声に出現する単語と所定の単語との共起尺度に基づいて、単語の優先度を設定するステップを含む。

さらに好ましくは、優先度設定ステップは、共起尺度が高いほど、単語の優先度を高くするよう設定する。

さらに好ましくは、第一音声認識ステップの前に、所定の２つの単語間の共起尺度を予め算出する共起尺度算出ステップを備える。

さらに好ましい一実施形態として、第一の音声は、オペレータの音声であり、第二の音声は、顧客の音声である。

この発明の他の局面においては、音声認識システムは、第一の音声および第一の音声と異なる第二の音声をそれぞれ認識する音声認識システムであって、事前に第一の音声の音声認識のためのデータを入手するデータ入手手段と、データ入手手段により入手されたデータを用いて、第一の音声の認識精度を向上させるための学習を行なう学習手段と、学習手段の後に、第一の音声を認識する第一音声認識手段と、第一音声認識手段により認識した第一の音声に出現する頻度の高い単語の優先度を高く設定する優先度設定手段と、優先度設定手段により設定された単語の優先度に基づいて、第二の音声を認識する第二音声認識手段とを備える。

この発明のさらに他の局面においては、音声認識装置は、第一の音声および第一の音声と異なる第二の音声をそれぞれ認識する音声認識装置であって、事前に第一の音声の音声認識のためのデータを入手するデータ入手部と、データ入手部により入手されたデータを用いて、第一の音声の認識精度を向上させるための学習を行なう学習部と、学習部の後に、第一の音声を認識する第一音声認識部と、第一音声認識部により認識した第一の音声に出現する頻度の高い単語の優先度を高く設定する優先度設定部と、優先度設定部により設定された単語の優先度に基づいて、第二の音声を認識する第二音声認識部とを備える。

この発明のさらに他の局面においては、音声認識プログラムは、コンピュータを、事前に第一の音声の音声認識のためのデータを入手するデータ入手手段、データ入手手段により入手されたデータを用いて、第一の音声の認識精度を向上させるための学習を行なう学習手段、学習手段の後に、第一の音声を認識する第一音声認識手段、第一音声認識手段により認識した第一の音声に出現する頻度の高い単語の優先度を高く設定する優先度設定手段、および優先度設定手段により設定された単語の優先度に基づいて、第二の音声を認識する第二音声認識手段として機能させるための音声認識プログラムである。

この発明のさらに他の局面においては、記録媒体は、上記した音声認識プログラムを記録したコンピュータ読取可能な記録媒体である。

この発明によると、認識精度の高い第一の音声の認識結果を利用して、第二の音声を認識することができる。したがって、第二の音声の認識結果の精度を高めることができ、総じて、音声認識の精度を高めることができる。

また、このような音声認識システム、音声認識装置、音声認識プログラムおよび音声認識プログラムを記録した記録媒体によっても、認識精度の高い第一の音声の認識結果を利用して、第二の音声を認識することができる。したがって、第二の音声の認識結果の精度を高めることができ、総じて、音声認識の精度を高めることができる。

以下、この発明の実施の形態を、図面を参照して説明する。図１は、この発明の一実施形態に係る音声認識システムのハードウェア構成を示すシステム構成図である。図１を参照して、音声認識システム１１は、電話回線１２に接続された電話機１３と、電話機１３に接続され、オペレータの操作端末となるパソコン１４と、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）ケーブル等を介してパソコン１４に接続され、データやプログラム等を格納するサーバー１５とを備える。パソコン１４は、テキスト化されたデータ等をその画面に表示するディスプレイ１９と、データを格納するためのハードディスクと、オペレータとのインターフェースとなるキーボードおよびマウス（いずれも図示せず）とを備える。パソコン１４は、その内部に格納され、パソコン１４全体の動作を制御する制御部（図示せず）によって制御されている。

電話機１３とパソコン１４とは、回線１６によって接続されている。オペレータは、電話機１３を介して電話回線１２に接続されている顧客に対し、マイク１８を利用して音声を発する。また、電話機１３を介しての顧客からの音声は、スピーカ１７により入力される。第一の音声としてのオペレータの発する音声、および第一の音声とは異なる第二の音声としての顧客から入力される音声は、音声データとしてパソコン１４に入力される。入力された音声データは、パソコン１４に含まれるハードディスクに格納される。すなわち、パソコン１４によってオペレータの音声および顧客の音声が録音される。また、必要に応じて、サーバー１５にも音声データが格納される。

ここで、パソコン１４等の構成について説明する。図２は、この発明の一実施形態に係る音声認識システム１１のブロック図である。図１および図２を参照して、この発明の一実施形態に係る音声認識システム１１に備えられるパソコン１４は、オペレータの音声を録音するオペレータ音声録音部２１と、顧客の音声を録音する顧客音声録音部２２と、オペレータ音声録音部２１および顧客音声録音部２２によって録音されたオペレータの音声および顧客の音声をそれぞれ認識する音声認識部２３と、音声認識部２３により認識した音声の結果を出力する音声認識結果出力部２４とを備える。

パソコン１４は、第一の音声としてのオペレータの音声、および第二の音声としての顧客の音声を、オペレータ音声録音部２１および顧客音声録音部２２によってそれぞれ別々に録音する。そして、音声認識部２３において、それぞれ別々に音声認識を行なう。

音声認識部２３は、音声認識辞書部２７を利用して音声認識を行なう。音声認識辞書部２７は、音声に対応する複数の単語を音声認識辞書として格納している。音声認識辞書部２７は、パソコン１４に接続されたサーバー１５に備えられている。

音声認識部２３は、オペレータ音声録音部２１および顧客音声録音部２２により録音された音声に対応する単語を、音声認識辞書部２７内の音声認識辞書に格納された複数の単語から抽出し、その結果を音声認識結果出力部２４に出力する。音声認識の出力は、テキスト形式、すなわち、テキストデータにより行う。具体的には、出力結果となるテキストデータを、パソコン１４のディスプレイ１９等により表示することにより行なう。

また、パソコン１４は、音声認識部２３により音声を認識する際に、音声認識辞書における単語の優先度を設定する単語優先度設定部２５を備える。音声認識部２３において音声を認識する際には、単語の優先度が利用される。音声に対応する類似した単語がある場合には、優先度に応じて、具体的には、優先度が高い順に認識結果として反映される。

ここで、音声認識部２３においては、予めオペレータの音声を学習させておく。すなわち、オペレータの音声の波形から想定される単語の候補のうち、評価値の最も高い単語を、音声認識における適切な単語として認識し、誤っていれば修正するようにしておく。このような音声認識部２３における学習は、オペレータが特定されているため可能であり、このような学習をさせた音声認識部２３におけるオペレータの音声の認識結果の精度は、非常に高いものとなる。

具体的には、事前に第一の音声の音声認識のためのデータを入手するデータ入手ステップとして、オペレータの音声のデータを入力する。そして、第一の音声の認識精度を向上させるための学習を行なう学習ステップとして、上記した音声認識の学習を行なう。

また、パソコン１４は、過去の業務記録から所定の２つの単語間の共起尺度を算出する共起尺度算出部２６とを備える。過去の業務記録、すなわち、オペレータと顧客との過去の会話内容を記録した業務記録格納部２８は、サーバー１５に備えられている。パソコン１４は、共起尺度算出部２６により算出した共起尺度に基づいて、単語優先度設定部２５の設定を行なう。

ここで、共起尺度算出部２６により共起尺度を算出する算出方法について説明する。図３は、共起尺度を算出する場合のパソコン１４の制御部の動作を示すフローチャートである。図１〜図３を参照して、まず、テキスト化された過去の業務記録に対して、形態素解析を実施する（図３において、ステップＳ１１、以下、ステップを省略する）。形態素解析とは、文法の知識（文法のルールの集まり）や辞書（品詞等の情報付きの単語リスト）を情報源として用い、自然言語で書かれた文を形態素の列に分割し、それぞれの品詞を判別する作業を指す。ここで、形態素（Ｍｏｒｐｈｅｍｅ）とは、言語で意味を持つ最小単位をいう。形態素解析を行なうツールとしては、無償ソフトウェアである「茶筅（ＣｈａＳｅｎ）」を始めとして種々のものがある。ここでは、一般的な手法であればどのような形態素解析法を用いても構わない。

その後、過去の全ての業務記録のテキストに出現する単語について、所定の２つの単語間の共起尺度を算出する（Ｓ１２）。

ここで、共起尺度の算出については、以下に示す一般的な尺度のうち、いずれを用いてもよい。例えば、単語Ｘの出現数を｜Ｘ｜、単語Ｙの出現数を｜Ｙ｜とし、少なくとも一方が出現した業務記録の件数を｜Ｘ∪Ｙ｜、両方が出現した業務記録の件数を｜Ｘ∩Ｙ｜とすると、共起頻度は、｜Ｘ∩Ｙ｜、Ｊａｃｃａｒｄ係数は、｜Ｘ∩Ｙ｜／｜Ｘ∪Ｙ｜、Ｓｉｍｐｓｏｎ係数は、｜Ｘ∩Ｙ｜／ｍｉｎ（｜Ｘ｜，｜Ｙ｜）、コサイン距離は、｜Ｘ∩Ｙ｜／ｓｑｒｔ（｜Ｘ｜｜Ｙ｜）で表される。

このようにして共起尺度を算出する。共起尺度算出部２６により算出された共起尺度は、単語優先度設定部２５の設定に用いられる。すなわち、音声を認識する際の単語の優先度を設定する際に利用される。

次に、このような音声認識システム１１を用いて、音声を認識する方法について説明する。図４は、音声認識システム１１を用いて音声を認識する場合のパソコン１４の制御部の動作を示すフローチャートである。

図１〜図４を参照して、まず、オペレータの音声および顧客の音声をオペレータ音声録音部２１および顧客音声録音部２２において、それぞれ別々に録音する（図４において、Ｓ２１）。

次に、まず、オペレータ音声録音部２１により録音されたオペレータの音声について、第一の音声を認識する第一音声認識ステップとして、第一の音声としてのオペレータの音声の認識を行なう（Ｓ２２）。この場合、予めオペレータの音声について事前に学習されているため、音声認識部２３における認識結果の精度は高いものである。

オペレータの音声の認識が終了した後、認識した結果から出現する単語の優先度を最大値に設定する（Ｓ２３）。オペレータと顧客との会話においては、共通する単語が出現することが多い。したがって、こうすることにより、後に行なう顧客の音声の認識の精度を高めることができる。このステップは、第一音声認識ステップにより認識した第一の音声に出現する頻度の高い単語の優先度を高く設定する優先度設定ステップとなる。

次に、共起尺度算出部２６により算出した共起尺度に応じて、音声認識辞書の全単語に対して優先度を設定する（Ｓ２４）。この共起尺度は、上記した図３に示すステップにおいて算出されたものである。この場合、共起尺度が高いほど、優先度が高くなるように設定する。具体的には、音声認識辞書の全単語のそれぞれに対して、オペレータの音声の認識結果に出現する全単語との共起尺度を取得し、その平均値を算出する。ある単語Ｘに対して、その平均値をＡｖｒ、優先度に設定可能な最大値をＰｍａｘ、最小値をＰｍｉｎとすると、単語Ｘの優先度として、たとえば、（Ｐｍａｘ−Ｐｍｉｎ）×Ａｖｒ＋Ｐｍｉｎを用いる。

その後、顧客音声録音部２２により録音された顧客の音声について、第二の音声としての顧客の音声の認識を行なう（Ｓ２５）。このステップは、優先度設定ステップにより設定された単語の優先度に基づいて、第二の音声を認識する第二音声認識ステップとなる。次に、オペレータの音声および顧客の音声についての認識結果の出力を行なう（Ｓ２６）。

すなわち、この発明に係る音声認識方法は、事前に第一の音声の音声認識のためのデータを入手するデータ入手ステップと、データ入手ステップにより入手されたデータを用いて、第一の音声の認識精度を向上させるための学習を行なう学習ステップと、学習ステップの後に、第一の音声を認識する第一音声認識ステップと、第一音声認識ステップにより認識した第一の音声に出現する頻度の高い単語の優先度を高く設定する優先度設定ステップと、優先度設定ステップにより設定された単語の優先度に基づいて、第二の音声を認識する第二音声認識ステップとを備える。また、この発明に係る音声認識方法は、第一音声認識ステップの前に、所定の２つの単語間の共起尺度を予め算出する共起尺度算出ステップを備える。

このように構成することにより、認識精度の高い第一の音声としてのオペレータの音声の認識結果を利用して、第二の音声としての顧客の音声を認識することができる。したがって、顧客の音声の認識結果の精度を高めることができ、総じて、オペレータの音声および顧客の音声の音声認識の精度を高めることができる。

この場合、共起尺度に応じて、単語の優先度を高めて音声認識を行なっているため、より適切に、すなわち、より精度よく音声認識を行なうことができる。

なお、上記の実施の形態においては、オペレータの音声または顧客の音声全体に対して一括して音声認識を行なうこととしたが、これに限らず、オペレータの音声または顧客の音声を所定のタイミング、例えば、無音部分で分割し、分割された音声の各々について、音声認識を行なうことにしてもよい。

また、上記の実施の形態においては、オペレータの音声および顧客の音声の両方の録音が終了してから、オペレータの音声の認識を行い、その後、顧客の音声の認識を行なうこととしたが、これに限らず、通話中に音声を随時録音しながらリアルタイムあるいはほぼリアルタイムに近い準リアルタイムで上記した音声認識を行なうことにしてもよい。

なお、上記の実施の形態においては、サーバーが音声認識辞書部および業務記録格納部を格納することとしたが、これに限らず、パソコンのハードディスクに音声認識辞書部および業務記録格納部を格納することにしてもよい。

また、音声認識装置としてのパソコンは、事前に第一の音声の音声認識のためのデータを入手するデータ入手部と、データ入手部により入手されたデータを用いて、第一の音声の認識精度を向上させるための学習を行なう学習部と、学習部の後に、第一の音声を認識する第一音声認識部と、第一音声認識部により認識した第一の音声に出現する頻度の高い単語の優先度を高く設定する優先度設定部と、優先度設定部により設定された単語の優先度に基づいて、第二の音声を認識する第二音声認識部とを備えるよう構成してもよい。

また、ネットワークに他のオペレータ用の音声認識システムを構築することにしてもよい。この場合、サーバーを兼用することにしてもよい。

なお、音声認識プログラムとして、コンピュータを、事前に第一の音声の音声認識のためのデータを入手するデータ入手手段、データ入手手段により入手されたデータを用いて、第一の音声の認識精度を向上させるための学習を行なう学習手段、学習手段の後に、第一の音声を認識する第一音声認識手段、第一音声認識手段により認識した第一の音声に出現する頻度の高い単語の優先度を高く設定する優先度設定手段、および優先度設定手段により設定された単語の優先度に基づいて、第二の音声を認識する第二音声認識手段として機能させるための音声認識プログラムを用いることとしてもよい。

また、上記した音声認識プログラムを記録したコンピュータ読取可能な記録媒体を用いることにしてもよい。

また、この実施形態ではコールセンターにおけるオペレータ音声と顧客音声の音声認識について説明したが、これに限定されず、電話による検診・保健指導、電話によるコンサルティング、テレフォンショッピング、電話によるアンケート調査や世論調査など、種々のアプリケーションに適用可能である。

以上、図面を参照してこの発明の実施形態を説明したが、この発明は、図示した実施形態のものに限定されない。図示した実施形態に対して、この発明と同一の範囲内において、あるいは均等の範囲内において、種々の修正や変形を加えることが可能である。

この発明に係る音声認識方法、音声認識システム、音声認識装置、音声認識プログラムおよび記録媒体は、コールセンターのようなオペレータの音声と顧客の音声とを認識する必要がある場合に、有効に利用される。

この発明の一実施形態に係る音声認識システムのハードウェア構成を示すシステム構成図である。この発明の一実施形態に係る音声認識システムのブロック図である。共起尺度を算出する場合の動作を示すフローチャートである。オペレータの音声および顧客の音声を認識する際の動作を示すフローチャートである。

符号の説明

１１音声認識システム、１２電話回線、１３電話機、１４パソコン、１５サーバー、１６回線、１７スピーカ、１８マイク、１９ディスプレイ、２１オペレータ音声録音部、２２顧客音声録音部、２３音声認識部、２４音声認識結果出力部、２５単語優先度設定部、２６共起尺度算出部、２７音声認識辞書部、２８業務記録格納部。

Claims

第一の音声および前記第一の音声と異なる第二の音声をそれぞれ認識する音声認識方法であって、
事前に第一の音声の音声認識のためのデータを入手するデータ入手ステップと、
前記データ入手ステップにより入手されたデータを用いて、前記第一の音声の認識精度を向上させるための学習を行なう学習ステップと、
前記学習ステップの後に、前記第一の音声を認識する第一音声認識ステップと、
前記第一音声認識ステップにより認識した第一の音声に出現する頻度の高い単語の優先度を高く設定する優先度設定ステップと、
前記優先度設定ステップにより設定された単語の優先度に基づいて、前記第二の音声を認識する第二音声認識ステップとを備える、音声認識方法。
前記優先度設定ステップは、前記第一音声認識ステップにより認識した第一の音声に出現する単語と所定の単語との共起尺度に基づいて、単語の優先度を設定するステップを含む、請求項１に記載の音声認識方法。
前記優先度設定ステップは、前記共起尺度が高いほど、単語の優先度を高くするよう設定する、請求項２に記載の音声認識方法。
前記第一音声認識ステップの前に、所定の２つの単語間の共起尺度を予め算出する共起尺度算出ステップを備える、請求項２または３に記載の音声認識方法。
前記第一の音声は、オペレータの音声であり、
前記第二の音声は、顧客の音声である、請求項１〜４のいずれかに記載の音声認識方法。
第一の音声および前記第一の音声と異なる第二の音声をそれぞれ認識する音声認識システムであって、
事前に第一の音声の音声認識のためのデータを入手するデータ入手手段と、
前記データ入手手段により入手されたデータを用いて、前記第一の音声の認識精度を向上させるための学習を行なう学習手段と、
前記学習手段の後に、前記第一の音声を認識する第一音声認識手段と、
前記第一音声認識手段により認識した第一の音声に出現する頻度の高い単語の優先度を高く設定する優先度設定手段と、
前記優先度設定手段により設定された単語の優先度に基づいて、前記第二の音声を認識する第二音声認識手段とを備える、音声認識システム。
第一の音声および前記第一の音声と異なる第二の音声をそれぞれ認識する音声認識装置であって、
事前に第一の音声の音声認識のためのデータを入手するデータ入手部と、
前記データ入手部により入手されたデータを用いて、前記第一の音声の認識精度を向上させるための学習を行なう学習部と、
前記学習部の後に、前記第一の音声を認識する第一音声認識部と、
前記第一音声認識部により認識した第一の音声に出現する頻度の高い単語の優先度を高く設定する優先度設定部と、
前記優先度設定部により設定された単語の優先度に基づいて、前記第二の音声を認識する第二音声認識部とを備える、音声認識装置。
コンピュータを、
事前に第一の音声の音声認識のためのデータを入手するデータ入手手段、
前記データ入手手段により入手されたデータを用いて、前記第一の音声の認識精度を向上させるための学習を行なう学習手段、
前記学習手段の後に、前記第一の音声を認識する第一音声認識手段、
前記第一音声認識手段により認識した第一の音声に出現する頻度の高い単語の優先度を高く設定する優先度設定手段、
および前記優先度設定手段により設定された単語の優先度に基づいて、前記第二の音声を認識する第二音声認識手段として機能させるための音声認識プログラム。
請求項８に記載の音声認識プログラムを記録したコンピュータ読取可能な記録媒体。