WO2017047447A1

WO2017047447A1 - 評価装置および記録媒体

Info

Publication number: WO2017047447A1
Application number: PCT/JP2016/076135
Authority: WO
Inventors: 隆一成山; 辰弥寺島
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2015-09-15
Filing date: 2016-09-06
Publication date: 2017-03-23
Anticipated expiration: 2018-03-15
Also published as: JP2017058441A; CN108028051A; US20180174561A1; US10497348B2; JP6759545B2

Abstract

一実施形態に係る評価装置は、入力音を取得する取得部と、取得部によって取得された入力音から特徴量を算出する特徴量算出部と、特徴量算出部によって算出された特徴量に基づいて、取得部によって取得された入力音に含まれる各音の開始点に対応する区切位置を検出する検出部と、検出部によって検出された複数の区切位置に基づいて、当該複数の区切位置の規則性の高さに関する評価値を算出する評価値算出部と、を備える。

Description

評価装置および記録媒体

　本発明は、リズム感を評価する技術に関する。

　歌唱音声を解析して評価する機能が備えられているカラオケ装置が増加している。歌唱音声は、例えば、歌唱音声のピッチと歌唱すべきメロディのピッチとを比較し、これらの一致の程度に基づいて評価される。また、様々な評価方法を用いることにより、より精度の高い評価ができる。様々な評価方法の一つとして、例えば、リズム感が重視されるような楽曲の歌唱を評価する技術が開発されている（例えば、特許文献１）。

特開２０１３－１９０５６４号公報

　特許文献１に開示された技術では、楽曲の模範となる音声と歌唱した音声とを特徴量で比較してリズム感の評価を行っている。この評価によれば、楽曲の模範音に近い歌唱ができているか否かの評価を、リズム感という観点から行うことができる。一方、模範音を用いずにリズム感の評価を行うことも望まれている。

　本発明の目的の一つは、模範音とは関係なく、入力音のリズム感を評価することにある。

　本発明の一実施形態によると、入力音を取得する取得部と、前記取得部によって取得された入力音から特徴量を算出する特徴量算出部と、前記特徴量算出部によって算出された特徴量に基づいて、前記取得部によって取得された入力音に含まれる各音の開始点に対応する区切位置を検出する検出部と、前記検出部によって検出された複数の区切位置に基づいて、当該複数の区切位置の規則性の高さに関する評価値を算出する評価値算出部と、を備えることを特徴とする評価装置が提供される。

　また、前記特徴量は、前記入力音の音量レベルに対応する値を含み、前記検出部は、前記特徴量に対応する前記音量レベルが、予め決められた閾値より低いレベルから高いレベルに遷移する位置に基づいて、前記区切位置を検出してもよい。

　前記検出部は、前記区切位置を検出する際に、所定の区間毎に、予め決められたルールにしたがって前記閾値を変更してもよい。

　前記音量レベルは、所定の周波数帯域における前記入力音の音量レベルであってもよい。

　前記特徴量は、前記入力音の周波数分布のＳＮ比に対応する値を含み、前記検出部は、前記ＳＮ比が予め決められた割合以上に減少してから増加に転じた位置に基づいて、さらに前記区切位置を検出してもよい。

　前記特徴量は、前記入力音の周波数分布に対応する値を含み、前記検出部は、前記周波数分布の基音の強度が予め決められた閾値より低い強度から高い強度に変化した位置に基づいて、さらに前記区切位置を検出してもよい。

　前記特徴量は、前記入力音のピッチに対応する値を含み、前記検出部は、前記ピッチの変化が予め決められた幅以上に変化した位置に基づいて、さらに前記区切位置を検出してもよい。

　伴奏音を出力する伴奏音出力部をさらに備え、前記取得部は、少なくとも前記伴奏音が出力されている期間に前記入力音を取得してもよい。

　また、本発明の一実施形態によると、コンピュータに、入力音を取得し、取得された前記入力音から特徴量を算出し、算出された前記特徴量に基づいて、取得された前記入力音に含まれる各音の開始点に対応する区切位置を検出し、検出された複数の前記区切位置に基づいて、当該複数の区切位置の規則性の高さに関する評価値を算出することを実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体が提供される。

　本発明の一実施形態によれば、模範音とは関係なく、入力音のリズム感を評価することができる。

本発明の第１実施形態における評価装置の構成を示すブロック図である。本発明の第１実施形態におけるリズム評価機能の構成を示すブロック図である。本発明の第１実施形態における評価方法を説明する図である。隣接する区切位置の時間間隔の度数分布の例を示す図である。本発明の第１実施形態における評価方法において閾値が低い場合の例を説明する図である。本発明の第１実施形態における評価方法において閾値が高い場合の例を説明する図である。本発明の第２実施形態におけるリズム評価機能の構成を示すブロック図である。本発明の第２実施形態における評価方法を説明する図である。本発明の第１実施形態における評価方法において、子音を含まない歌詞が含まれる場合の例を説明する図である。本発明の第３実施形態におけるリズム評価機能の構成を示すブロック図である。本発明の第３実施形態において用いられるＳＮ比を説明する図である。本発明の第３実施形態における評価方法を説明する図である。本発明の第４実施形態における評価機能の構成を示すブロック図である。本発明の第４実施形態における評価方法を説明する図である。

　以下、本発明の一実施形態における評価装置について、図面を参照しながら詳細に説明する。以下に示す実施形態は本発明の実施形態の一例であって、本発明はこれらの実施形態に限定されるものではない。なお、本実施形態で参照する図面において、同一部分または同様な機能を有する部分には同一の符号または類似の符号（数字の後にＡ、Ｂ等を付しただけの符号）を付し、その繰り返しの説明は省略する場合がある。

＜第１実施形態＞
　本発明の第１実施形態における評価装置について、図面を参照しながら詳細に説明する。第１実施形態に係る評価装置は、歌唱するユーザ（以下、歌唱者という場合がある）の歌唱音声のリズム感を評価する装置である。この評価装置は、歌唱する楽曲において模範となる音声が無くても、歌唱音声のリズム感を評価することができる。以下、このような評価装置について説明する。

［ハードウエア］
　図１は、本発明の第１実施形態における評価装置の構成を示すブロック図である。評価装置１は、例えば、カラオケ装置である。なお、スマートフォン等の携帯装置であってもよい。評価装置１は、制御部１１、記憶部１３、操作部１５、表示部１７、通信部１９、および信号処理部２１を含む。これらの各構成は、バスを介して接続されている。また、信号処理部２１には、マイクロフォン２３およびスピーカ２５が接続されている。

　制御部１１は、ＣＰＵなどの演算処理回路を含む。制御部１１は、記憶部１３に記憶された制御プログラムをＣＰＵにより実行して、各種機能を評価装置１において実現させる。実現される機能には、歌唱音声のリズム感を評価する機能（以下、リズム評価機能という場合がある）が含まれる。記憶部１３は、不揮発性メモリ、ハードディスク等の記憶装置である。記憶部１３は、リズム評価機能を実現するための制御プログラムを記憶する。制御プログラムは、コンピュータにより実行可能であればよく、磁気記録媒体、光記録媒体、光磁気記録媒体、半導体メモリなどのコンピュータ読み取り可能な記録媒体に記憶した状態で提供されてもよい。この場合には、評価装置１は、記録媒体を読み取る装置を備えていればよい。また、制御プログラムは、ネットワーク経由でダウンロードされてもよい。

　また、記憶部１３は、歌唱に関するデータとして、楽曲データ、歌唱音声データ、および評価基準情報を記憶する。楽曲データは、カラオケの歌唱曲に関連するデータ、例えば、ガイドメロディデータ、伴奏データ、歌詞データなどが含まれている。ガイドメロディデータは、歌唱曲のメロディを示すデータである。伴奏データは、歌唱曲の伴奏を示すデータである。ガイドメロディデータおよび伴奏データは、ＭＩＤＩ形式で表現されたデータであってもよい。歌詞データは、歌唱曲の歌詞を表示させるためのデータ、および表示させた歌詞テロップを色替えするタイミングを示すデータである。これらのデータは、外部サーバから取得してもよい。歌唱音声データは、歌唱者がマイクロフォン２３から入力した歌唱音声を示すデータである。この例では、歌唱音声データは、リズム評価機能によって歌唱音声が評価されるまで、記憶部１３にバッファされる。評価基準情報は、リズム評価機能が歌唱音声の評価の基準として用いる情報である。例えば、後述する閾値を決定するためのルールを規定した情報、および評価値を算出するための演算式の情報等が含まれる。

　操作部１５は、操作パネルおよびリモコンなどに設けられた操作ボタン、キーボード、マウスなどの装置であり、入力された操作に応じた信号を制御部１１に出力する。この操作部１５によって、例えば、楽曲の選択等、カラオケ装置において一般的に行われる入力操作が可能である。表示部１７は、液晶ディスプレイ、有機ＥＬディスプレイ等の表示装置であり、制御部１１による制御に基づいた画面が表示される。なお、操作部１５と表示部１７とは一体としてタッチパネルを構成してもよい。通信部１９は、制御部１１の制御に基づいて、インターネットなどの通信回線と接続して、サーバ等の外部装置と情報の送受信を行う。なお、記憶部１３の機能は、通信部１９において通信可能な外部装置で実現されてもよい。

　信号処理部２１は、ＭＩＤＩ形式の信号からオーディオ信号を生成する音源、Ａ／Ｄコンバータ、Ｄ／Ａコンバータ等を含む。歌唱音声は、マイクロフォン２３において電気信号に変換されて信号処理部２１に入力され、信号処理部２１においてＡ／Ｄ変換されて制御部１１に出力される。上述したように、歌唱音声は、歌唱音声データとして記憶部１３にバッファされる。また、伴奏データは、制御部１１によって読み出され、信号処理部２１においてＤ／Ａ変換され、スピーカ２５から歌唱曲の伴奏として出力される。このとき、ガイドメロディもスピーカ２５から出力されるようにしてもよい。

［リズム評価機能］
　評価装置１の制御部１１が制御プログラムを実行することによって実現されるリズム評価機能について説明する。なお、以下に説明するリズム評価機能を実現する構成の一部または全部は、ハードウエアによって実現されてもよい。

　図２は、本発明の第１実施形態におけるリズム評価機能の構成を示すブロック図である。リズム評価機能１００は、取得部１０１、特徴量算出部１０３、検出部１０５、および評価値算出部１０７を含む。取得部１０１は、マイクロフォン２３から入力された歌唱音声を示す歌唱音声データを取得する。この例では、伴奏音が出力されている期間におけるマイクロフォン２３への入力音を、評価対象の歌唱音声として認識する。なお、取得部１０１は、記憶部１３にバッファされた歌唱音声データを取得する。記憶部１３に１曲全体の歌唱音声データが記憶された後に取得してもよいし、所定時間の歌唱音声データがバッファされた後に取得してもよい。また、取得部１０１は、マイクロフォン２３へ入力音を示す歌唱音声データを取得する場合に限らず、外部装置への入力音を示す歌唱音声データを、通信部１９によりネットワーク経由で取得してもよい。

　特徴量算出部１０３は、取得部１０１によって取得された歌唱音声データを解析し、特徴量の時間的な変化を算出する。この例では、特徴量は、歌唱音声の音量レベルである。

　検出部１０５は、特徴量算出部１０３において算出された音量レベルに基づいて、歌唱音声に含まれる各音の開始点に対応する区切位置を検出する。各音とは例えば歌詞の各文字の発音に対応する。また、この例では、各音の開始点は子音から母音に切り替わるタイミング、すなわち母音が始まる部分に相当する。各音の開始点に対応する区切位置とは、この開始点と一致する場合に限らず、開始点に基づいて予め決められた処理によって決められる位置である。

　日本語では、子音および母音の組み合わせによって発音されるときに、子音の発音期間の音量レベルが、母音の発音期間の音量レベルに比べて小さくなる傾向にある。この傾向は、１文字を単独で発音する場合に限らず、複数文字を連続して発音する場合においても見られる傾向である。検出部１０５は、このような特徴を利用して、各音の開始点に対応する区切位置を検出する。

　図３は、本発明の第１実施形態における評価方法を説明する図である。ここでは、「さ（子音「ｓ」＋母音「ａ」）」、「く（子音「ｋ」＋母音「ｕ」）」、「ら（子音「ｌ」＋母音「ａ」）」の文字を歌唱した場合において、音量レベルの時間変化を例示した。この音量変化は、図３に示すスペクトルＶＳである。この時間は、歌唱音声が入力されてから（評価開始のタイミングから）経過した時間を示している。いずれの文字の発音においても、子音の発音期間において音量レベルが下がる傾向が見られている。

　検出部１０５は、複数の文字が連続して発音される場合であっても、このように子音部分で音量レベルが低下する部分を利用して、区切位置を検出する。この例では、検出部１０５は、音量レベルの閾値Ｖｔｈを決定し、Ｖｔｈより低いレベルから高いレベルに遷移した点を区切位置として検出する。図３の例では、区切位置は、時間ｔｓ１、ｔｓ２、ｔｓ３、・・・として検出される。Ｖｔｈは、予め決められた音量レベルであればよく、この例では、音量レベルのバックグラウンドのレベルＶｂと音量レベルの最大レベルＶｐとに基づいて決められる。例えば、単位をｄＢとした場合に、Ｖｔｈ＝Ｖｐ×０．９（Ｖｐ－Ｖｂ）などとして、所定の演算式によって決められればよい。Ｖｐは、この例では、１曲全体における音量レベルの最大値である。なお、１曲を複数の評価区間に分けておき、予め決められたルールにしたがって、それぞれの評価区間に対応してＶｔｈが変更されていってもよい。この場合には、評価区間毎のＶｂおよびＶｐを用いてＶｔｈが決められればよい。

　図２に戻って説明を続ける。評価値算出部１０７は、検出部１０５によって検出された複数の区切位置の規則性の高さに関する評価値を算出する。この例では、評価値算出部１０７は、隣接する区切位置の時間間隔の度数分布を算出し、その分布に基づいて評価値を算出する。この時間間隔は、図３の例であれば、Ｔｗ１、Ｔｗ２、Ｔｗ３が対応している。

　図４は、隣接する区切位置の時間間隔の度数分布の例を示す図である。図４は、横軸が隣接する区切位置の時間間隔を示し、縦軸が度数を示している。このように時間間隔の度数分布をとると、周期的なピークが現れる。この例では、時間ｔｐ１、ｔｐ２、ｔｐ３、ｔｐ４にピークが現れている。ｔｐ１が八分音符の長さに対応する場合、ｔｐ２は四分音符の長さ、ｔｐ３は付点四分音符の長さ、ｔｐ４は二分音符の長さに対応する。したがって、それぞれのピークが、ｔｐ１の整数倍からずれている場合には、歌唱のリズムがずれていることを示している。ｔｐ１より短い時間においてピークが存在するような場合、最も短い時間のピークを基準として判断することが望ましい。例えば、ｔｐ１の１／２の位置にピークが存在する場合、ｔｐ１の整数倍以外のピーク、すなわち、１．５倍、２．５倍にもピークが生じやすくなるためである。

　また、ピークがずれていなくても、それぞれのピークの幅（例えば、半値幅Ｗ１、Ｗ２、Ｗ３、Ｗ４）が大きいほど、歌唱のリズムが安定していないことを示している。このように、評価値算出部１０７は、上記のピークの位置関係（例えば、ピーク間隔の分散値など）、および各ピークの幅（例えば、ピークの分散値または半値幅など）に応じて評価値を算出する。例えば、ピーク間隔が揃っているほど、またピーク幅が狭いほど、規則性が高い、すなわちリズム感がよいという評価値が算出されるようにすればよい。なお、度数分布の自己相関係数を用いたり、コムフィルタを用いたりすることによって、付点音符などによるピークの拡がりを排除して評価するようにしてもよい。自己相関係数を用いた場合には、係数とピーク間隔とに基づいて、さらにテンポの推定を行ってもよい。

　このように、リズム評価機能１００を実現した評価装置１によれば、複数文字を連続して発音するような歌唱が含まれていても、歌唱音声の音量レベルの変化から各音の開始点に対応する区切位置を検出することができる。そのため、評価装置１によれば、楽曲毎の模範音のような比較の基準となるデータを用いなくても、複数の区切位置の規則性の高さに関する評価値を算出することによって、歌唱者のリズム感の評価をすることができる。なお、この評価値に基づく結果は、表示部１７において提示されてもよい。

［閾値Ｖｔｈによる影響］
　ここで、音量レベルの閾値Ｖｔｈに関し、低めに設定した場合の閾値Ｖｔｈｂおよび高めに設定した場合の閾値Ｖｔｈｕの影響を説明する。

　図５は、本発明の第１実施形態における評価方法において閾値が低い場合の例を説明する図である。図５に示すように、相対的に低い閾値Ｖｔｈｂが採用されると、連続した発音の区間において各音の区切位置の検出が困難になる。その結果、区切位置は、複数の音がまとめて検出され、例えば、フレーズ毎などの大きな単位として検出されることになる。図５の例では、例えば、ｔｓ５およびｔｓ６に区切位置が検出されて、それらの間隔がＴｗ５となる。このような検出結果になったとしても、一部の区間において、上記のＴｗ１に相当する区切位置の検出ができれば、Ｔｗ５がＴｗ１の整数倍からどの程度ずれているかによって、リズム感の程度を判定することができる。

　図６は、本発明の第１実施形態における評価方法において閾値が高い場合の例を説明する図である。図６に示すように相対的に高い閾値Ｖｔｈｕが採用されると、音量レベルが小さい音が検出されなくなる。その結果、区切位置は、連続した発音区間における各音の区切位置の一部が検出されなくなる。区切位置の時間間隔が長くなったり、度数分布をとったときの度数が少なくなったりする。図６では、ｔｓ７およびｔｓ８が検出されて、それらの間隔がＴｗ７となった例である。このＴｗ７は、図３におけるＴｗ３に対応するものである。

　このように、閾値Ｖｔｈは、適切に設定される必要がある。しかしながら、ずれていたとしても、度数が減ったり、複数の音を単位として区切位置が検出されたりするため、結果に与える影響は少ない。なお、上記の閾値Ｖｔｈを予備的に複数の値で設定し、それぞれにおいて区切位置を検出してもよい。そして、検出された区切位置を参照して、予め決められた方法で、閾値Ｖｔｈとして正式に設定すべき値を決定してもよい。例えば、閾値Ｖｔｈを、評価値の算出結果が最も高くなる値としてもよいし、度数分布を算出したときに、所定の度数以上のピークが最も多くなる値としてもよい。このように、閾値Ｖｔｈは様々に設定可能であるが、その設定については、予め決められたルールに従って決められていれば、どのように決められてもよい。

＜第２実施形態＞
　第２実施形態では、特徴量算出部１０３において音量レベルを算出する前に、歌唱音声の一部の周波数帯域を除去する機能を備えるリズム評価機能１００Ａについて説明する。

　図７は、本発明の第２実施形態におけるリズム評価機能の構成を示すブロック図である。上述したように、リズム評価機能１００Ａは、取得部１０１によって取得された歌唱音声データが示す歌唱音声の一部の周波数帯域を除去するフィルタ部１０２を含む。この例では、フィルタ部１０２は、ローパスフィルタまたはバンドパスフィルタであって、歌唱音声の高周波成分を除去する。特徴量算出部１０３は、高周波成分が除去された特定周波数帯域の歌唱音声を示すデータが入力されて、音量レベルを算出する。この音量レベルは、特定周波数帯域のパワーに対応する。子音は、母音に比べて基音に対して倍音成分およびノイズ成分を多く含むため、高周波成分を除去することにより、子音と母音との音量レベルの差を拡大することができる。

　図８は、本発明の第２実施形態における評価方法を説明する図である。フィルタ部１０２の存在によって、図８に示すように、各音の最初の部分（子音の部分）の音量レベルが他の部分の音量レベルに比べて、相対的に大きく減少する。これによって各音の区切位置を正確に検出することができる閾値Ｖｔｈのマージンが広がる。また、日本語以外の言語において、例えば中国語では、子音と母音との音量レベルの差が小さい。このような言語に、フィルタ部１０２を適用することによって、子音部分の音量レベルを低下させることができ、区切位置の検出が容易になる。なお、第１実施形態のようにフィルタ部１０２を適用しない場合、すなわち、特定周波数帯域にフィルタしない場合の音量レベルを用いた区切位置の検出方法を、第２実施形態における検出方法と併用してもよい。

＜第３実施形態＞
　上記の実施形態では、連続した音であっても子音における音量レベルの減少を利用して、各音の区切位置を検出したが、第３実施形態では、子音がない母音のみの音が含まれていても、区切位置を検出できるようにしたリズム評価機能１００Ｂについて説明する。まず、このような状況に置いて、第１実施形態のリズム評価機能１００で区切位置を検出した場合の例を説明する。

　図９は、本発明の第１実施形態における評価方法において、子音を含まない歌詞が含まれる場合の例を説明する図である。ここでは、歌詞が「さ（子音「ｓ」＋母音「ａ」）」、「い（母音「ｉ」）」、「た（子音「ｔ」＋母音「ａ」）」である例を示している。したがって、「さ」と「い」との間には子音が存在しないため、音量レベルの減少が見られない。そのため、第１実施形態におけるリズム評価機能１００では、区切位置は、ｔｓ８、ｔｓ１０、ｔｓ１１の位置で検出され、「い」の音の開始点に対応する区切位置は検出されない。そのため、度数分布をとる際に用いられる区切位置の時間間隔は、Ｔｗ８、Ｔｗ１０となる。第３実施形態では、このような場合に、さらに異なる方法で区切位置の検出を試みるようになっている。以下、第３実施形態におけるリズム評価機能１００Ｂについて説明する。

　図１０は、本発明の第３実施形態におけるリズム評価機能の構成を示すブロック図である。この例では、特徴量算出部１０３Ｂは、第１実施形態における特徴量算出部１０３の機能に対応する音量レベル算出部１０３１、および周波数分布算出部１０３２を含む。周波数分布算出部１０３２では、取得部１０１において取得された歌唱音声データを解析し、ＦＦＴ（Fast Fourier Transform）を用いて周波数分布の時間的な変化を算出し、さらに、周波数分布のＳＮ比を算出する。周波数分布のＳＮ比について説明する。

　図１１は、本発明の第３実施形態において用いられるＳＮ比を説明する図である。歌唱音声の周波数分布のスペクトルＦＳは、基音ｆ０の他、整数倍の倍音ｆ１、ｆ２、・・・をピークとして含む。それぞれのピークにおいて、半値幅Ｖｆ０、Ｖｆ１、Ｖｆ２、・・・に含まれる領域（ハッチング部分）の積分値をシグナルＳ（Ｓｆ０、Ｓｆ１、Ｓｆ２，・・・）とし、それ以外の部分をノイズＮとして、Ｓ／ＮをＳＮ比として算出する。このとき、所定の倍音（例えば、３倍音）のピークまでを範囲とするなどして、所定の周波数範囲でＳＮ比を算出する。

　検出部１０５Ｂは、音量レベル算出部１０３１において算出された音量レベルと、周波数分布算出部１０３２において算出されたＳＮ比とを用いて、区切位置を検出する。

　図１２は、本発明の第３実施形態における評価方法を説明する図である。上記のようにして算出されたＳＮ比は、スペクトルＤＳに示すように、各音の開始点では低く（ノイズＮ成分が多く）、その後、急激に増加するという傾向を有している。母音のみの音であっても、このような傾向を有している。検出部１０５Ｂは、ＳＮ比を用いて区切位置を検出するときには、このような傾向を利用している。

　検出部１０５Ｂは、音量レベルに基づいて、第１実施形態と同様な方法で区切位置を検出する。そして、検出部１０５Ｂは、音量レベルを用いて検出できなかった区切位置、すなわち、隣接する区切位置の間において、ＳＮ比を用いて他の区切位置を検出する。例えば、検出部１０５Ｂは、ＳＮ比に対して所定の閾値Ｖｔｈｆを決定する。そして、検出部１０５Ｂは、ＳＮ比が予め決められた割合以上に減少してから増加に転じた位置、この例ではＶｔｈｆより低い値から高い値に遷移した位置を区切位置として検出する。このとき、音量レベルに基づいて検出した区切位置から所定時間以上ずれた位置においてのみ区切位置を検出する。例えば、図１２の例では、「ｔｓｐ９」がＳＮ比に基づく区切位置として検出される。この例では「ｔｓ８」および「ｔｓ１０」は、区切位置に近いため、ＳＮ比に基づく区切位置としては検出されない。この結果、隣接する区切位置の時間間隔は「Ｔｗ８」、「Ｔｗ９」、「Ｔｗ１０」となる。

　閾値Ｖｔｈｆは、ＳＮ比の最小値と最大値とに基づいて、決められてもよい。例えば、最小値をＳＮｍ、最大値をＳＮｐとすると、Ｖｔｈｆ＝ＳＮｐ×０．９（ＳＮｐ－ＳＮｍ）などとして、所定の演算式によって決められればよい。なお、次に述べるように決められてもよい。音量レベルに基づいて決められた区切位置（図１２の例では、「ｔｓ８」および「ｔｓ１０」）のいずれかにおいて、ＳＮ比のレベル（図１２の例において、区切位置「ｔｓ８」であれば、ＣＰ８）を閾値Ｖｔｈｆとしてもよい。また、音量レベルに基づいて決められた区切位置に到達する度に閾値Ｖｔｈｆを更新していってもよい。例えば、「ｔｓ８」を経過した後「ｔｓ１０」を経過するまで区間は、「ｔｓ８」の時点でのＳＮ比ＣＰ８を閾値Ｖｔｈｆ８とし、「ｔｓ１０」の後の区間は「ｔｓ１０」の時点でのＳＮ比ＣＰ１０を閾値Ｖｔｈｆ１０とすればよい。このようにすると、閾値Ｖｔｈおよび閾値Ｖｔｈｆにおいて間接的に相関関係を持たせることもできる。その結果、異なる方法で区切位置を検出したとしても、その方法の違いによる補正をせずに、区切位置の規則性の評価をすることができる。

　このように、連続する音に母音のみの音が含まれることで、リズム評価機能１００では音量レベルに基づいて検出できない区切位置があったとしても、ＳＮ比を用いたリズム評価機能１００Ｂを用いることで、その区切位置を検出することができる。なお、ＳＮ比を用いた区切位置の検出の際に、音量レベルを用いた区切位置の検出については、必ずしも併用する必要はない。この場合には、音量レベル算出部１０３１は不要である。検出部１０５Ｂにおける音量レベルに基づく区切位置の検出も不要である。一方、第３実施形態の構成において、さらに、第２実施形態の構成（特定周波数帯域のパワー）による区切位置の検出を併用してもよい。

＜第４実施形態＞
　第４実施形態では、リズム感以外についても歌唱音声の評価を行う場合の例を説明する。この例では、歌唱音声のピッチの変化についても評価に加えた例について説明する。ここでは、特に、歌唱音声のピッチの比較の対象が楽曲のメロディではない場合、すなわち、楽曲のメロディに依存せずに、歌唱音声のピッチの評価を可能とした場合の構成を説明する。

　この例では、評価基準情報は、評価機能が歌唱音声の評価の基準として用いる情報をさらに含む。例えば、評価基準情報には、歌唱技法を検出するための歌唱ピッチの変化（歌唱ピッチ波形）を特定するための情報が含まれる。ビブラート、コブシ、シャクリ、フォールといった歌唱技法であれば、例えば、以下のような歌唱ピッチ波形を示す。
（１）ビブラート：ピッチが細かく（所定周期以下で）高低に変化する。ビブラート検出の具体的な例は、特開２００５－１０７０８７号公報に開示されている。
（２）コブシ：ピッチが一時的に（所定時間以内で）高くなり、その後、元のピッチに戻る。コブシ検出の具体的な例は、特開２００８－２６８３７０号公報に開示されている。
（３）シャクリ：ピッチが所定時間かけて高くなり、その後安定する。シャクリ検出の具体的な例は、特開２００５－１０７３３４号公報に開示されている。
（４）フォール：ピッチが所定時間かけて低くなり、その後、歌唱が途切れる。フォール検出の具体的な例は、特開２００８－２２５１１５号公報に開示されている。

　図１３は、本発明の第４実施形態における評価機能の構成を示すブロック図である。評価機能２００は、上記のリズム評価機能１００と同等の機能を有するリズム評価機能部１００Ｃを備え、さらに、伴奏出力部２０１、入力音取得部２０３、ピッチ算出部２０５、特定区間検出部２０７、ピッチ比較部２０９、および評価部２１１を含む。伴奏出力部２０１は、歌唱者に指定された歌唱曲に対応する伴奏データを読み出し、信号処理部２１を介して、伴奏音をスピーカ２５から出力させる。

　入力音取得部２０３は、マイクロフォン２３から入力された歌唱音声を示す歌唱音声データを取得する。この例では、伴奏音が出力されている期間におけるマイクロフォン２３への入力音を、評価対象の歌唱音声として認識する。なお、入力音取得部２０３は、記憶部１３にバッファされた歌唱音声データを取得するが、記憶部１３に１曲全体の歌唱音声データが記憶された後に取得してもよいし、信号処理部２１から直接取得してもよい。なお、リズム評価機能部１００Ｃにおける取得部１０１に相当する機能によって取得される歌唱音声データは、入力音取得部２０３によって取得された歌唱音声データと同じである。

　ピッチ算出部２０５は、入力音取得部２０３によって取得された歌唱音声データを解析し、歌唱ピッチ（周波数）の時間的な変化、すなわち歌唱ピッチ波形を算出する。具体的には、歌唱音声の波形のゼロクロスを用いた方法、ＦＦＴを用いた方法等、公知の方法で歌唱ピッチ波形が算出される。なお、リズム評価機能部１００Ｃのリズム評価機能が、第３実施形態におけるリズム評価機能１００Ｂに対応する場合には、周波数分布算出部１０３２において取得された周波数分布を用いて歌唱ピッチを算出してもよい。

　特定区間検出部２０７は、歌唱ピッチ波形を解析し、歌唱音声の入力期間のうち、評価基準情報によって規定された歌唱技法を含む区間（特定区間）を検出する。このとき検出される特定区間は、歌唱技法の種類ごとに対応付けられていてもよい。

　ピッチ比較部２０９は、歌唱音声の入力期間のうち、特定区間検出部２０７において検出された特定区間を除いた区間を、評価区間として設定する。ピッチ比較部２０９は、評価区間における歌唱ピッチ波形を、基準ピッチと比較する。比較結果として、この例では、歌唱ピッチ波形と基準ピッチとの不一致度を算出する。複数の基準ピッチが１００ｃｅｎｔ間隔で存在する。そのため、複数の基準ピッチのうち、歌唱ピッチに最も近い基準ピッチが歌唱ピッチの比較対象として選択される。歌唱ピッチ波形と基準ピッチとの差が大きいほど、不一致度が高くなるように算出される。例えば、歌唱ピッチ波形の各サンプルにおける歌唱ピッチと基準ピッチとの差分を評価区間において加算し、加算値を評価区間のサンプル数で除算することによって、不一致度が算出される。

　このようにして、メロディに依存しない歌唱評価を行うこともできる。また、この例では、歌唱ピッチと基準ピッチとが、歌唱音声の入力期間全体ではなく、特定区間を除いた区間において比較している。したがって、特定区間における歌唱技法による意図的な歌唱ピッチのずれが、不一致度を増加させてしまわないようにすることもできる。

　評価部２１１は、リズム評価機能部１００Ｃから出力される歌唱のリズム感に関する評価値（評価値算出部１０７から出力される評価値）と、ピッチ比較部２０９における比較結果に基づいて、歌唱音声の評価の指標となる評価値を算出する。この例では、ピッチ比較部２０９で算出された不一致度が低いほど、また、リズム評価機能部１００Ｃから出力される評価値が、リズム感がよい評価であるほど、評価値が高く算出され、歌唱音声の評価が良くなる。

　なお、評価部２１１は、さらに他の要素に基づいて評価値を算出してもよい。他の要素は、歌唱技法および歌唱音声データから抽出可能な他のパラメータなどが想定される。歌唱技法を評価値に反映させる場合には、特定区間検出部２０７において検出された特定区間に対応する歌唱技法を用いればよい。他のパラメータとしては、例えば、音量変化がある。音量変化を用いれば、歌唱の抑揚を評価に加えることもできる。評価部２１１による評価結果は、表示部１７において提示されてもよい。

　上述した評価機能２００による歌唱音声の評価方法について、図１４に示す具体的な歌唱ピッチの例を用いて説明する。

　図１４は、本発明の第４実施形態における評価方法を説明する図である。図１４に示す波形は、歌唱の一部における歌唱ピッチ波形の例である。縦軸はピッチを示す。ピッチ方向に１００ｃｅｎｔごとに配置された破線は複数の基準ピッチを示している。横軸は時間の経過を示している。特定区間検出部２０７は、歌唱ピッチ波形から、歌唱技法が存在する特定区間を検出する。図１４に示す区間Ｓは「シャクリ」、区間Ｆは「フォール」、区間Ｋは「コブシ」、区間Ｖは「ビブラート」にそれぞれ対応する特定区間である。したがって、評価区間は、区間Ｓ、Ｆ、Ｋ、Ｖに対応する特定区間以外となる。

　ピッチ比較部２０９において算出される不一致度は、各サンプルにおける歌唱ピッチと基準ピッチとの差分の加算値に対応している。区間Ｖにおいては、ビブラートのピッチ変化の特徴から、この加算値が大きくなる。そのため、区間Ｖを歌唱ピッチと基準ピッチとの比較の対象に含める場合に、ビブラートの歌唱技法を用いた豊かな歌唱であるにもかかわらず、不一致度が大きく算出されて歌唱の評価を下げてしまう場合がある。このような場合であっても、本実施形態における評価装置１のように、区間Ｖを含む特定区間を除いた評価区間において歌唱ピッチと基準ピッチとの比較をすれば、歌唱技法を用いることによって評価を下げないようにすることもできる。

　特定区間では、歌唱ピッチが特定の変化をする場合に、音量レベルについても通常の歌唱とは異なる変化が生じる場合がある。そのため、リズム評価機能部１００Ｃにおけるリズム感の評価においても、特定の歌唱技法を用いている特定区間においては、評価の対象外としてもよい。例えば、特定区間において検出される区切位置については、評価値算出部１０７が算出する度数分布に反映されないようにすればよい。

＜その他の実施形態＞
　第３実施形態においては、歌唱音声データの周波数分布に基づいてＳＮ比を算出することによって、区切位置をＳＮ比に基づいて検出していた。このように得られた周波数分布を別の用途に用いて区切位置を検出するようにしてもよい。例えば、歌唱音声の周波数分布に基づいて歌唱音声のピッチを算出し、ピッチに基づいて区切位置を検出してもよい。例えば、ピッチの変化が予め決められた幅以上に変化した位置に基づいて、区切位置を検出してもよい。大きくピッチが変化する位置は、異なる音である場合が多いためである。

　また、周波数分布に基づいて、基音ｆ０の強度が、予め決められた閾値より低いレベルから高いレベルに変化した位置に基づいて、区切位置を検出してもよい。基音ｆ０の強度が低いレベルから高いレベルに変化する位置は、新たな発音がされた場合が多いためである。なお、これらの区切位置の検出方法は、上記の各実施形態における区切位置の検出方法と併用することもできる。また、それぞれの検出方法を単独で用いることもできる。例えば、音量レベルを用いずに、ピッチまたは基音ｆ０に基づいて、区切位置が検出されてもよい。

　第１実施形態では、音量レベルと閾値Ｖｔｈとの関係に基づいて、区切位置を検出していたが、音量レベルと別のパラメータとの関係に基づいて、区切位置を検出するようにしてもよい。例えば、検出部１０５は、音量レベルの変動が所定範囲に収まっている領域（フラット領域）を特定する。そして、複数のフラット領域が音量レベルより低くなるディップ領域を挟んで配置されている場合に、ディップ領域の直後において区切位置が検出されてもよい。

　入力音取得部２０３によって取得される歌唱音声データが示す音は、歌唱者による音声に限られず、歌唱合成による音声であってもよいし、楽器音であってもよい。楽器音である場合には、単音演奏であることが望ましい。なお、楽器音である場合には、子音および母音の概念が存在しないが、演奏方法によっては、各音の発音の開始点において歌唱と同様な傾向を有する。したがって、楽器音においても同様の判定ができる場合もある。また、上記のピッチに基づく区切位置の検出、また、基音ｆ０に基づく区切位置の検出についても、楽器音に適用することができる。特に、ピッチが連続的に変化させられない構造の楽器（クラリネット、トランペット等）においては、１００ｃｅｎｔ単位で階段状に変化することが多い。したがって、区切位置の検出が容易である。

　また、楽器の操作により特有のノイズが楽器音に含まれる場合がある。例えば、トランペットのピストンの操作音がノイズとして楽器音に含まれる場合がある。このようなノイズは特定周波数帯域に含まれる場合がある。そのため、第２実施形態と同様にして、特定周波数帯域の音量レベル（特定周波数帯域のパワー）のピークとなるタイミング、または所定の閾値を超えて増加するタイミング等を基準として、区切位置が検出されるようにしてもよい。また、上記のノイズは、第３実施形態で示したＳＮ比において特徴的な変化を示す場合がある。そのため、第３実施形態と同様にして、ＳＮ比の特徴的な変化を検出することによって、区切位置が検出されるようにしてもよい。

１…評価装置、１１…制御部、１３…記憶部、１５…操作部、１７…表示部、１９…通信部、２１…信号処理部、２３…マイクロフォン、２５…スピーカ、１００…リズム評価機能、１０１…取得部、１０２…フィルタ部、１０３…特徴量算出部、１０５…検出部、１０７…評価値算出部、２００…評価機能、２０１…伴奏出力部、２０３…入力音取得部、２０５…ピッチ算出部、２０７…特定区間検出部、２０９…ピッチ比較部、２１１…評価部、１０３１…音量レベル算出部、１０３２…周波数分布算出部

Claims

　入力音を取得する取得部と、
　前記取得部によって取得された入力音から特徴量を算出する特徴量算出部と、
　前記特徴量算出部によって算出された特徴量に基づいて、前記取得部によって取得された入力音に含まれる各音の開始点に対応する区切位置を検出する検出部と、
　前記検出部によって検出された複数の区切位置に基づいて、当該複数の区切位置の規則性の高さに関する評価値を算出する評価値算出部と、
　を備えることを特徴とする評価装置。
　前記特徴量は、前記入力音の音量レベルに対応する値を含み、
　前記検出部は、前記特徴量に対応する前記音量レベルが、予め決められた閾値より低いレベルから高いレベルに遷移する位置に基づいて、前記区切位置を検出することを特徴とする請求項１に記載の評価装置。
　前記検出部は、前記区切位置を検出する際に、所定の区間毎に、予め決められたルールにしたがって前記閾値を変更することを特徴とする請求項２に記載の評価装置。
　前記音量レベルは、所定の周波数帯域における前記入力音の音量レベルであることを特徴とする請求項２または請求項３に記載の評価装置。
　前記特徴量は、前記入力音の周波数分布のＳＮ比に対応する値を含み、
　前記検出部は、前記ＳＮ比が予め決められた割合以上に減少してから増加に転じた位置に基づいて、さらに前記区切位置を検出することを特徴とする請求項１に記載の評価装置。
　前記特徴量は、前記入力音の周波数分布に対応する値を含み、
　前記検出部は、前記周波数分布の基音の強度が予め決められた閾値より低い強度から高い強度に変化した位置に基づいて、さらに前記区切位置を検出することを特徴とする請求項１に記載の評価装置。
　前記特徴量は、前記入力音のピッチに対応する値を含み、
　前記検出部は、前記ピッチの変化が予め決められた幅以上に変化した位置に基づいて、さらに前記区切位置を検出することを特徴とする請求項１に記載の評価装置。
　伴奏音を出力する伴奏出力部をさらに備え、
　前記取得部は、少なくとも前記伴奏音が出力されている期間に前記入力音を取得することを特徴とする請求項１に記載の評価装置。
　コンピュータに、
　入力音を取得し、
　取得された前記入力音から特徴量を算出し、
　算出された前記特徴量に基づいて、取得された前記入力音に含まれる各音の開始点に対応する区切位置を検出し、
　検出された複数の前記区切位置に基づいて、当該複数の区切位置の規則性の高さに関する評価値を算出すること
　を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。