WO2007086365A1

WO2007086365A1 - 変換装置

Info

Publication number: WO2007086365A1
Application number: PCT/JP2007/050963
Authority: WO
Inventors: Ryoji Suzuki
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2006-01-24
Filing date: 2007-01-23
Publication date: 2007-08-02
Anticipated expiration: 2008-07-24
Also published as: JP5096932B2; JPWO2007086365A1; US20090132243A1; US8073704B2

Abstract

　重み付け加算の対象となるセグメントの複数の組みを、オーディオデータの時間軸に対して非線形に、選択する。選択された複数の組みに対して、重み付け加算を実行することで、速度変換を実現する。非線形な選択は、オーディオデータに存在するセグメントの組みのそれぞれに対して類似度を算出し、その類似度に基づきセグメントの組みの順序付けを行って、かかる順位が上位に位置するものを、重ね合わせの対象とすることでなされる。

Description

明細書

変換装置

技術分野

[0001] 本発明は、音声の速度変換技術の技術分野に属し、再生音声の聴きやすさの向上に関する。

背景技術

[0002] 音声の速度変換技術とは、音声の基本周波数 (音程)を維持しつつ、継続時間長のみを変化させる技術であり、映像や音楽の再生装置において、トリック再生時の音質向上に取り入れられている。以下、従来の速度変換について説明する。

従来の速度変換では、オーディオデータを複数の周期に分け、各周期を、 12m秒のセグメントに分割する。ここでは、 1つの周期が A,B,C,D,Eという 5つのセグメントに分割されたとすると、これら同じ周期に属するセグメントの組合せに対して、類似度を算出し、この周期に属するセグメントのうち、類似度が最も高くなる組み合わせが、どれとどれの組み合わせであるかを判定する。ここで A,B,C,D,Eのうち、 B,Cの組み合わせにつ、ての類似度が最も高、場合、 B,Cが同時に再生されるように重ね合わせを行う。この重ね合わせは、時間的に前に存在するセグメント Bに、時間的に漸減する窓関数を乗じ、時間的に後に存在するセグメント Cに、時間的に漸増する窓関数を乗じて、 2つのセグメントを加算することでなされる。この重ね合わせの結果を、 B/Cとして、上述したような A,B,C,D,Eを、 A,B/C,D,Eとして出力すれば、周期の時間長は 4/5になる。同様の類似度算出と、重ね合わせとを全ての周期に対して行えば、オーディオデータの時間長 4/5に縮小することになる。

[0003] 逆に、時間的に前に存在するセグメント Bに、時間的に漸増する窓関数を乗じ、時間的に後に存在するセグメント Cに、時間的に漸減する窓関数を乗じて、 2つのセグメントを加算した場合の重ね合わせの結果を、 C\Bとする。上述したような A,B,C,D,E に、この C\Bをカ卩えて、 A,B,C\B,C,D,Eとして出力すれば、周期の時間長は 6/5倍になる。同様の類似度算出と、重ね合わせとを全ての周期に対して行えば、オーディォデータの時間長を 6/5倍に伸長することができる。 [0004] 上述したような速度変換には、例えば特許文献 1に記載されて、るようなオーディオデータの話速制御型補聴方法、または特許文献 2もしくは非特許文献 1に記載されているようなオーディオデータに対する線形な音声変換装置が知られている。

特許文献 1：特開平 5-80796号公報

特許文献 2：特開平 4- 104200号公報

非特許文献 1 :鈴木，三崎「高品質音声速度変換方式の DSPによる実現」，信学技報， SP90-34 (199O)

発明の開示

発明が解決しょうとする課題

[0005] ところで、上述したような速度変換は、対象となる信号に対して例えば周期を定めて、周期に属する複数のセグメントから重ね合わせの対象となるものを選ぶと、う線形的なものなので、重ね合わせの対象となるセグメントは、オーディオデータの再生時間軸に対して、一様に選ばれることになる。このような一様な選択の結果、再生される音声は、録音テープを早く回したり、遅く回して再生したとき生じるような、おかしな音声になることがあり、その内容の聞き取りやすさが、充分に保障されているとはいい難い。

[0006] また、重ね合わせ処理の対象として、母音が発声されている有音区間や無音区間を選ぶことが、有効であるという事実力近年の研究にて判明している力数百ミリ秒の母音区間や、 1秒、 2秒というオーダの無音区間が継続しているようなオーディオデータが速度変換の対象である場合、上述したような速度変換は、有音になっている区間からも、無音になっている区間からも、一様に重ね合わせの対象となるセグメントを選んでしまう。そのため、周期を定めて、その中から重ね合わせの対象となるセグメントを選ぶと、う速度変換は、余り効率がょ、とは、えな、との問題点があった。

[0007] 本発明の目的は、内容の聞き取り易さを維持しつつも、時間長を、所望の長さにして再生することができる、変換装置を提供することである。

課題を解決するための手段

[0008] 上記課題を解決するため、本発明に力かる変換装置は、オリジナルのオーディオデータを構成する複数セグメントのうち一部のものの再生期間を、他のセグメントの再生期間と重ね合わせるセグメント処理手段と、重ね合わせの対象になったセグメントの組みと、当該重ね合わせの対象にならな力つたセグメントとを、時系列に並べることで、変換結果となるオーディオデータを生成する生成手段とを備え、前記重ね合わせの対象になったセグメントの組みと、当該重ね合わせの対象にならな力つたセグメントとは、オリジナルのオーディオデータの時間軸において、非線形な関係にあることを特徴としている。

発明の効果

[0009] 前記重ね合わせの対象になったセグメントの組みと、当該重ね合わせの対象にならな力つたセグメントとは、オリジナルのオーディオデータの時間軸において、非線形な位置に存在するので、無音区間や母音が発声されている有音区間から、重ね合わせの対象となる音声を多く選び、子音が発声されている有音区間からセグメントを全く選択しないという、非線形選択が可能になる。オーディオデータにおいて一部に偏在している母音の発生区間や無音声区間を、重ね合わせの対象とすることができるので、原音の周波数を余り変えることなぐオーディオデータの時間長を伸び縮みさせることがでさる。

[0010] かかる伸び縮みは、人間が早く話したり、遅く話したりする際、無意識にしているものであり、力かる伸び縮みの実現により、話し口調に近い音声再生が、速度変換において実現されることになる。これにより、再生音声を、人間が発声速度を変える場合の速度の遷移に類似させることができる。従って、音声欠落や音声重複が少なぐ音質劣化も少な、と、う効果がある。

[0011] 重ね合わせの対象となるセグメントを、オーディオデータ力非線形に選択するので、速度変換の対象となるオーディオデータの区間が広ければ広いほど、多くの範囲から、重ね合わせの対象となるセグメントの組みが選ばれることになる。線形型の速度変換のように、重ね合わせの対象は、周期の内部に制限されないので、当該速度変換と比較して、高効率な伸長 Z圧縮が可能となる。

[0012] 組みにおけるセグメントのうち、一方はある人物の音声のみからなり、他方は、同じ人物の音声に BGMやノイズをカ卩えたものであっても、かかる組みの類似度が、これ以外のセグメントの組みより高いと判定されることにより重ね合わせの対象と選ばれるので、期待の圧縮比や伸長比での再生出力を実現することができる。

また、任意的であるが、上述した変換装置の技術的事項 (技術的事項 1とする)に、以下の技術的事項を加え、変換装置を具体的な構成にすることにより、更なる効果をちたらすことができる。

[0013] {技術的事項 2}

前記変換装置は、オリジナルのオーディオデータを構成するセグメントの組合せを複数生成して、個々の組合せについて、類似度を算出する算出手段を備え、前記重ね合わせの対象となるセグメントの組みは、複数セグメントの組合せのうち、算出手段により算出された類似度の高さが上位となるものであり、前記重ね合わせの対象にならな力つたセグメントは、複数セグメントの組合せのうち、算出手段により算出された類似度の高さが上位にならな力つたものである。

[0014] 本発明にかかる変換装置の特定に、上述したような技術的事項が追加されることにより、類似度が高くなるセグメントの時間差の決定と、重み付け加算を行うセグメントの組の選択とを、類似度という単一の評価尺度を用いて行うので、処理の複雑さゃ処理量を抑えることができると、う効果もある。

{技術的事項 3}

前記変換装置は、重ね合わせの対象となるセグメントの組みをオーディオデータから選択する選択手段を備え、選択手段は、 1つ選択して、その度に、その組みにおけるセグメント間の時間差の累計をとり、重ね合わせの対象となるセグメントの組みは、当該時間差の累計値が、目標時間長を越えないことを条件として、選択手段がセグメントの組みの選択を繰り返すことで選ばれることを特徴としている。

[0015] 本発明にかかる変換装置の特定に、上述したような技術的事項が追加されることにより、所望の時間軸変換比が得られる組数だけ重み付け加算を行うセグメントの組みを選択するので、時間軸変換比を細力べかつ精度良く変えることができるという効果もある。

{技術的事項 4}

前記変換装置は、音声用の変換装置として映像及び音声の再生出力を行う再生装置に組み込まれ、再生装置は、映像再生の速度変換を行う映像用の変換装置を備え、映像用の変換装置は、ビデオデータを構成する複数のフレームのうち、一部をフリーズ又はスキップしつつ出力することで、速度変換を行うことを特徴としている。

[0016] 本発明にかかる変換装置の特定に、上述したような技術的事項が追加されることにより、ビデオデータに対しては、フレーム画像を一部フリーズ又はスキップすることで、時間軸に対してほぼ均一に、つまり、線形的に、速度変換が施されることになる。その結果、ビデオデータの表示には簡単な処理でガクガクしな、滑らかな速度変換が施されることになり、オーディオデータには、人間が発声速度を変える場合の速度遷移に類似した自然な速度変換が施されることになる。

[0017] さらに映像と音声の同期は途中でずれることはあるものの、音声に対する速度変換は非線形であるが正確に、所定の変換比率に基づく速度変換を行うので、少なくとも最後には映像と音声の同期を一致させることができるという効果がある。

図面の簡単な説明

[0018] [図 1]変換装置が組込まれる再生装置の内部構成を示す図である。

[図 2]非線形選択により選択される複数のセグメントを示す図である。

[図 3]図 2で選択されたセグメントの組み力どのように重ね合わせられるかを示す図である。

[図 4]セグメント選択ログを示す図である。

[図 5] (a)は、時間軸伸長を行う場合に、類似度が最高であるとして選択された、 XI、 X2の 3つの組みを示す図である。

[0019] (b)Xl,X2か重ね合わせの対象になる場合、実行される演算を模式的に示す図である。

(c)は、図 5 (a)のように、 XI、 X2と XI', X2'が選択された場合の重ね合わせ出力を示す。

[図 6] (a)は、時間軸圧縮を行う場合に選択される、 XI、 X2の 3つの組みを示す図である。

[0020] (b) XI, X2が重ね合わせの対象になる場合、実行される演算を模式的に示す図である。

(c) (a)のように、 XI、 X2と、 XI', X2'とが選択された場合の重ね合わせ出力を示す。

[図 7]時間軸伸張 ≥1)である場合における、速度変換の処理手順を示すフローチャートである。

[図 8]処理単位 iにつ、ての最適時間差 TLoptと、最小二乗誤差 R_minとを算出する処理の詳細な処理手順を示すフローチャートである。

[図 9]時間 ATd毎に求めた最も高い類似度 R(j)の中から、さらに類似度の高い順にセグメントの組を選択する処理手順を示すフローチャートである。

[図 10]類似度が高いとして選択されたセグメントの組に対し、重み付け加算を行って出力する処理手順を示すフローチャートである。

[図 11] (a)ステップ S739の 1巡目の実行にて、出力される部分を示す。

[0021] (b)ステップ S739の 2巡目以降の実行にて、出力される部分を示す。

(c)ステップ S 747の実行にて、出力される部分を示す。

[図 12]時間軸圧縮（ α≤ 1)による速度変換を行う場合の処理手順を示すフローチヤートである。

[図 13]処理単位 iについて最適時間差 TLoptと、最小二乗誤差 R_minとを算出する処理のフローチャートである。

[図 14]時間 ATd毎に求めた最も高い類似度 R(j)の中から、さらに類似度の高い順にセグメントの組の選択を行う処理手順を示すフローチャートである。

[図 15]類似度が高いとして選択されたセグメントの組に対し、重み付け加算を行って出力する処理手順を示すフローチャートである。

[図 16] (a)ステップ S839の 1巡目の実行にて、出力される部分を示す。

[0022] (b)ステップ S839の 2巡目以降の実行にて、出力される部分を示す。

(c)ステップ S847の実行にて、出力される部分を示す。

[図 17]第 2実施形態に係る変換装置の内部構成を示す図である。

[図 18]類似度の評価関数が二乗誤差である場合の類似度計算回路 105の内部構成を示す図である。

[図 19]類似度の評価関数が相関関数の場合の類似度計算回路 105の内部構成を示す図である。 [図 20]判定回路 106の内部構成を示す図である。

[図 21]第 3実施形態に係る変換装置が組込まれる再生装置の内部構成を示す図である。

[図 22]速度変換のためのセットアップメニューの一例を示す図である。

圆 23]第 3実施形態に示した再生装置の内部構成を組込んだシステム LSIを模式的に示す図である。

[図 24]図 23のようにして作られたシステム LSIを、機器内に組み込んだ状態を示す図である。

符号の説明

1 記憶回路

2 映像音声分離回路

3 映像復号回路

4 音声復号回路

5 音声速度変換装置

6 記憶回路

7 制御回路

8 映像速度変換装置

9 制御回路

101 記憶回路

102 スィッチ回路

103 バッファメモリ回路

104 バッファメモリ回路

105 類似度計算回路

106 判定回路

107 窓関数発生回路

108 スィッチ回路

109 スィッチ回路

110 乗算回路 111 乗算回路

112 加算回路

113 スィッチ回路

114 出力バッファ回路

115 速度設定回路

116 パラメータ記憶回路

117 ポインタ値計算回路

118 ポインタ制御回路

119 制御信号発生回路

120 パラメータ選択回路

発明を実施するための最良の形態

[0024] (第 1実施形態）

以下、図面を参照しながら、本発明にかかる変換装置の実施形態について説明する。本発明にかかる変換装置の使用形態は、再生装置に組み込まれ、音声再生機能の一部として利用されるというものである。

変換装置による速度変換は、半導体メモリカードや HDDなど、書き換え型の記録媒体に記録されているオリジナルのオーディオデータを読み出し、読み出されたオリジナルのオーディオデータをー且、非圧縮の状態にまで復号して、これにより得られた非圧縮のオーディオデータを構成するセグメントのうち、ユーザにより指定された時間範囲 Trに属するものの組みを、オーディオデータの再生時間軸とは非線形に選択して、力かるセグメントの組みを重ね合わせて出力することでなされる。このように出力されたセグメントの集まり力トリック再生用のオーディオデータになる。

[0025] トリック再生用のオーディオデータとは、再生装置がトリック再生を実行するにあたつて、オリジナルのオーディオデータの代わりに再生されるオーディオデータであり、変換の元になつたオリジナルのオーディオデータと、その時間範囲 Trと、速度変換前後の再生時間軸の比率 ocとに対応付けられた状態で記録媒体に書き込まれる。

そうすると、後日、オリジナルのオーディオデータの時間範囲 Trに対して、比率ひでのトリック再生が命じられた際、再生装置は、記録媒体に記録されているトリック再生用のオーディオデータのうち、このオリジナルのオーディオデータと、時間範囲 Trと、トリック再生における速度比率 αとの組合せに合致するものを取り出して、オリジナルのオーディオデータの代わりに再生することができる。この際、予め作成しておいたトリック再生用オーディオデータを、記録媒体力読み出して、再生に供することができるので、ユーザは、きれいな音声で、トリック再生時の音声を聞くことができる。

[0026] 本実施形態では、トリック再生用オーディオデータを一旦蓄積して、再生することを意図しているので、変換装置による速度変換の実行は、必ずしも、リアルタイムに行われる必要はない。

図 1は、変換装置が組込まれる再生装置の内部構成を示す図である。本図に示すように再生装置は、記憶回路 1と、映像音声分離回路 2と、映像復号回路 3と、音声復号回路 4と、記憶回路 6と、制御回路 7とから構成される。

[0027] 記憶回路 1は、 MPEG2-Video,MPEG4-AVC等の符号化方式で圧縮されたビデオデータと、 MPEG2-AAC,Dolby Digitalといった符号化方式で圧縮されたオーディオデータとを格納するものであり、制御回路が出力するアドレス値に基づいて、所望のビデオデータとオーディオデータを出力する。

映像音声分離回路 2は、記憶回路 1から出力されたビデオデータとオーディオデータを入力し、ビデオデータは映像復号回路 3に出力し、オーディオデータは音声復号回路 4に出力する。

[0028] 映像復号回路 3は、映像音声分離回路 2から出力されたビデオデータを映像信号に復号する。

音声復号回路 4は、映像音声分離回路 2から出力されたオーディオデータをォーディォデータに復号して、記憶回路 6に格納する。

制御回路 7は、 MPU、当該 MPUに命令コードを供給する ROMカゝら構成されるワンチップマイコンであり、音声復号回路の復号によりメモリ上に得られた非圧縮のオーディォデータのうち、予め定められた時間範囲 Trに対して、速度変換を施す。この速度変換は、オーディオデータの予め定められた時間範囲 Trの中に存在するセグメントの組のうち、類似度が高いものを非線形に選んで、重み付け加算の対象とするというものである。 [0029] 本発明は、重ね合わせの対象となるセグメントを、非線形選択に選択することを特徴としている。以下、この非線形選択の原理を模式的に説明する。

図 2は、非線形選択により選択される複数のセグメントを示す図である。第 1段目は、対象となるオーディオデータに対応する音声信号レベルを示し、第 2段目は、このオーディオデータに対して非線形選択を行った場合、選択されるセグメントを示し、第 3段目は、このオーディオデータに対して線形選択を行った場合、選択されるセグメントを示す。第 3段目において、重ね合わせの対象として選択されたセグメントの組みは、ノ、ツチングを付して示している。このハッチングが付されたセグメントの所在に注意を払えば、第 3段目では、 "{"にて明示されている周期から、重ね合わせの対象となるセグメントの組みが選択されている。このことから線形選択では、オーディオデータにおける一定周期に属するセグメントの中から、重ね合わせの対象となるセグメントの組みが一様に選択されて、ることがわ力る。

[0030] 第 2段目にお、ても、重ね合わせの対象として選択されたセグメントの組みは、ハツチングを付して示して、る。このハッチングが付されたセグメントの所在に注意を払えば、第 2段目では、第 1段目における音声信号レベルのうち、その波高値が閾値未満となる部分 (無音区間という)から、重ね合わせの対象となる組みが選ばれていることがわかる。このことから非線形選択では、オーディオデータにおける一定周期とは無関係に、重ね合わせの対象となるセグメントの組みが、無音区間から集中的に選択されていることがわ力る。

[0031] 図 3は、図 2で選択されたセグメントの組み力どのように重ね合わせられるかを示す。本図における第 1段目は、非線形選択による重ね合わせを示し、第 2段目は、線形選択による重ね合わせを示す。これら第 1段目、第 2段目は、図 2に示したオーディォデータのうち、有音区間から無音区間に切り替わる部分を特に示している。

第 2段目における B/Cは、線形選択の実行時において、重ね合わせの対象になるセグメントの組みを示す。この B/Cの所在に注意を払えば、重ね合わせの対象となるセグメントの糸且みは、有音区間に属する周期からも、無音区間に属する周期からも、一様に選ばれて、ることがわ力る。

[0032] 第 1段目における A/B、 C/Dは、非線形選択の実行時において重ね合わせの対象になるセグメントの組みを示す。この A/B、 C/Dの所在に注意を払えば、重ね合わせの対象となるセグメントの組みは、無音区間に属する周期から集中的に選ばれていて、有音区間に属する周期からは、選ばれていないことがわかる。

以上の非線形選択の要件について、更に説明を進める。

[0033] <非線形選択の対象 >

非線形選択の対象となる区間、つまり、図 2に例示するところの無音区間の特色としては、セグメントの相関性が高い値になる力、又は、最小 2乗誤差が低い値になっているという性質が認められる。これら相関性の高さ、又は、最小 2乗誤差の低さを、 " 類似度の高ざ'と呼ぶ。本発明では、カゝかる類似度が高いセグメントの組みを、非線形選択の対象としている。

[0034] ここで二乗誤差の演算、相関関数の演算としては、以下の数式を利用することができる。

(数 1)は、類似度算出のための二乗誤差の演算を示す。ただし (数 1)では簡単のため、単位時間とサンプリング周期とを等しいとして表現している。

[0035] [数 1]

二乗誤差 = (Χ1 (j) -X2 (j) ) ²

J=I

[0036] (数 2)は、類似度算出のための相関関数の演算を示す。ただし (数 2)では簡単のため、単位時間とサンプリング周期とを等しいとして表現している。

[0037] [数 2] 相関関数 = (Χ1 (j) x X2 (j) )

J=l

[0038] 力かる類似度が高くなる区間は、無音区間であるとは限らず、母音が偏在しているような有音区間も、類似度が高くなる。また類似度として上述の (数 IX数 2)以外のものを採用した場合は、別の特性をもった区間における類似度が高くなる可能性がある。このようにして算出された類似度が、高くなる区間を、本発明にかかる非線形選択では、選択の対象としている。

[0039] 類似度として、最小 2乗誤差、相関関数のどちらを使用するかによって、類似度が高、セグメントを選択する力、類似度が低!、セグメントを選択するかと!/、う基準が変わる。以降は、特に断らない限り、類似度の高さとして最小 2乗誤差の小ささを採用するものとし、かかる類似度が高いかどうかを、セグメント選択の基準とする。

また、（数 1)(数 2)においては、 Xl(l)〜Xl(Ts)と、 X2(l)〜X2(Ts)との組みに対して、 2乗誤差又は相関関数が算出されているので、これら Xl(l)〜Xl(Ts)と、 X2(1)〜X 2(Ts)との組みが、非線形選択の対象となる。以降、これら Xl(l)〜Xl(Ts)、 X2(l)〜 X2(Ts)をそれぞれ、 XI、 X2と呼び、一個の処理単位として扱う。

<選択の範囲 >

上述したような非線形選択の範囲は、以下の数 3、数 4を満たすセグメントの集まりであるといえる。

[0040] [数 3]

(入力信号の時間長） X (ひ一 1)≤∑ (選択されたセグメント間の時間差）

[0041] 画

(入力信号の時間長） (1 _ひ） (選択されたセグメント間の時間差）

[0042] ここで aは、オーディオデータの入力時間長と、出力時間長との時間軸変換比であり、数 3は、 α≥1のケースにて適用され、数 4は、 αく 1のケースにて適用される。時間軸伸長を行う場合、 α≥1となり、時間軸圧縮を行う場合、 α < 1となる。これらの数 3、数 4において、左辺はオーディオデータの目標時間長、右辺はセグメントの時間長の累計であるので、数 3、数 4を満たすセグメントの集合は、オーディオデータにおけるセグメントの組みに対して、類似度を算出して、その類似度に基づきセグメントの組みの順位付けを行い、この順位に従った選択を繰り返すことで得られる。上述したように、類似度の算出は、 Xl(l)〜Xl(Ts)と、 X2(l)〜X2(Ts)とを対象にしてなされているので、この数 3、数 4における選択も、 Xl(l)〜Xl(Ts)と、 X2(l)〜X2(Ts)とを対象にしてなされる。

<重ね合わせ >

非線形選択により選択されたセグメントの組みは、以下の数式に基づく重ね合わせの対象となる。

[0043] [数 5] γ (_n) =W1 (n) x X1 (n) +W2 (n) x X2 (n) n= 1〜Ts

[0044] [数 6]

Y (n) =W2 (n) x X1 (n) +W1 (n) x X2 (n) n = 1〜Ts

[0045] ここで Wl(n)は、漸増する窓関数であり、 W2(n)は、漸減する窓関数である。 Tsは、セグメントの個数を意味する。上述したように、類似度の算出及びセグメントの選択は、 Xl(l)〜Xl(Ts)と、 X2(l)〜X2(Ts)とを対象にしてなされているので、この数 5、数 6 における重ね合わせも、 Xl(l)〜Xl(Ts)と、 X2(l)〜X2(Ts)とを対象にしてなされる。

[0046] 予め断っておくが、本願にお!ヽて技術的思想の創作として位置付けられてヽるのは、以上に述べたような、重ね合わせの対象たるセグメントを、時間軸とは非線形に選ぶという点であり、本明細書で開示したハードウェア構成及びソフトウェア構成は、かかる技術的思想の創作を、実際の再生装置に実装する場合に合理的であると考えられているものの 1つに過ぎない。以降、 MPUに、速度変換を実行させる場合の、ソフトウアによる実装を、以下に説明する。

[0047] 非線形選択にあたって、重ね合わせの対象となるセグメントの組みをどのように選択するかについて説明する。上述したように、類似度の算出と、選択、重ね合わせは、 Xl(l)〜Xl(Ts)と、 X2(l)〜X2(Ts)とを対象にしてなされている。

これらのセグメントの組みを以降、 XI、 X2と略記する。ここで、 XIは、 X2より時間的に先に位置する。

[0048] 時間軸伸長の場合、時間的に後続する X2を基準にして、 XIを移動させる。基準となるセグメントを上述したように選ぶのは、 X2を固定し、 XIを、再生時間軸において移動させるためである。これにより X2と、 X2以前の部分との連続性を維持しつつ、最大遅延時間 TLmaxから、最小遅延時間 TLminまでの範囲にて時間長を変更させることがでさる。

[0049] TLmax, TLmin,セグメントの時間長につ!、て説明する。例えば音声信号の基本周波数 (fondamental frequency)の取り得る範囲は、おおよそ 50〜500Hzと言われる。従つて、音声信号の最長周期は 50Hzの逆数である 20msecとなり、最短周期は 500Hzの逆数である 2msecとなる。上述したようなセグメント XI、 X2の時間長は、 2msecと 20mse cの間の、 12msecに設定している。そして最小遅延時間 TLminは、最短周期の 2msec 以下の時間長に設定し、最大遅延時間 TLmaxは、 20msec以上の時間長に設定している。そうすれば、基本周波数が 50〜500Hzの範囲の入力音声信号に対して、セグメント間の位相を合わせて重み付け加算をすることが可能となる。ただし演算量との兼ね合いから、実際には遅延時間が 2msec以下力も 20msec以上の範囲でセグメント間の位相を合わせるためのセグメント探索を行わない場合があり、ソフトウェア又はハードウアで、速度変換を実現するにあたっては、最小遅延時間 TLminは入力信号の最短周期に、所定時間を加減算した値、つまり、最短周期の近傍値に設定するのが望ましい。同様に、最大遅延時間 TLmaxもまた、入力信号の最長周期に所定時間を加減算した値、つまり、最長周期の近傍値に設定するのが望ましい。

[0050] 時間軸圧縮を行う場合、時間的に先行する XIを基準とし、 X2を移動させる。基準セとなるセグメントを上述したように選ぶのは、 XIを固定し、 X2を、再生時間軸において、移動させるためである。これにより XIと、 XI以前の部分との連続性を維持しつつ、最大遅延時間 TLmaxから、最小遅延時間 Tljninまでの範囲にて、 XIと、 X2との間の時間長を変更させることができる。力かる移動において、類似度が最高となった補助セグメントの位置を、最適遅延時間 TLoptにて表現する。ここで XI、 X2のうち、基準として固定する側を"基準セグメンド'といい、類似度の最大値を探索するため、移動させる側を"補助セグメンド'と、う。 [0051] こうした類似度の算出と、セグメントの選択とは、図 4に示す選択ログを用いることで実現される。図 4は、セグメント選択ログを示す図である。本ログの追記単位は、 XIの先頭時刻と、 X2の先頭時刻との組みに、類似度 R(i)と、選択フラグ M(i)とを対応付けることで構成される。図中のログにおける先頭の追記単位は、時刻 AAAAと、時刻 BB BBとの組みに対して、 CCCCの類似度と、値 "Γの選択フラグとを対応付けたものである。

[0052] 次の追記単位は、時刻 AAAA'と、時刻 BBBB'との組みに対して、 CCCC'の類似度と、値 "1 "の選択フラグとが対応付けたものである。

XI、 X2、 Tl_max、 Tl_min、 TLoptがどのような値を取り得るかを時間軸上で描いたの力図 5である。図 5 (a)は、時間軸伸長を行う場合に、類似度が最高であるとして選択された、 XI、 X2の 3つの組みを示す図である。

[0053] 本図における 507、 508、 509は、 X2となるべき信号区間である。これらのうち、 50 7は、オーディオデータの先頭から間隔 TLmaxだけ隔てられており、 508は、 507力ら所定の間隔 A Tdだけ、 509も、 508から所定の間隔 A Tdだけ隔てられている。この所定の間隔 A Tdは、例えば TLmaxを上回る間隔である。

XIは、 X2の位置を基準にして TLmaxだけ隔てられた時点から、 Tljninだけ隔てられた時点までのどこかに存在する。

(X2力 507に位置した場合）

502_iは、 XIの先頭時点を指し示す第 1ポインタであり、 503_iは、 X2が 507に位置していた場合において、 X2の先頭時点を指し示す第 2ポインタである。 502_iは、 50 3j— TLminの計算力算出される時刻なので、力かる時刻が第 1ポインタに初期設定される。

[0054] 504_min力ら 504_maxまでは、 XIが移動することで、 XIが存在し得る範囲を示す。

つまり、第 2ポインタを上述した位置に固定し、第 1ポインタを更新することで、 XIをか力る範囲内で移動させるのである。図中の" "は、 XIが、これら _min力ら _max までの間を、徐々に移動してゆくことを模式的に示している。このような移動により、類似度が最も高くなる位置の探索を行う。 504_maxは、 X2が上述した 507に位置していた場合、 503_i— TLmaxの計算から算出される XIの占有範囲である。 504_minは、 X2が上述した 507に位置していた場合、 503_i—Tl_minの計算から算出される XIの占有範囲である。

[0055] 504_optは、 XIが 504_maxから 504_minまでの範囲を移動するにあたって、類似度が最高となる場合における XIの占有範囲であり、その先頭位置は、 503j—Tl_optとなる。 TLoptは、上述したような XIの移動範囲において類似度の高いセグメントの組みを探索することで得られた値であり、その時の XIと X2の時間差を意味する。

(X2力 508に位置した場合）

このときの XI、 X2を XI，、 X2，とする。

[0056] 502_i+lは、 XI，の先頭時点を示す第 1ポインタの値である。 503_i+lは、 X2'の先頭時点を示す第 2ポインタの値である。 502J+1は、 503J+1— TLminの計算から算出される時刻なので、カゝかる時刻が第 1ポインタに初期設定される。

505_minから 505_maxまでは、 XI 'が取り得る範囲を示す。つまり、第 2ポインタを上述した位置に固定し、第 1ポインタを更新することで、 XI 'をかかる範囲内で移動させるのである。図中の" "は、 XI '力これら _minから _maxまでの間を、徐々に移動してゆくことを模式的に示している。このような移動により、類似度が最も高くなる位置の探索を行う。 505_maxは、 X2'が上述した 508に位置していた場合、 503_i+l —TLmaxの計算から算出される XI，の占有範囲である。 505_minは、 X2'が上述した 508に位置して!/、た場合、 503 j+1—TLminの計算から算出される XI，の占有範囲である。

[0057] 505_optは、 XI，が 505_maxから 505_minまでの範囲を移動するにあたって、類似度が最高となる場合における XI 'の占有範囲であり、その先頭位置は、 503J+1—T1 —optとなる。 X2'が、 508に位置していた場合、この 505_opt力導きだされることになる。

(X2力 509に位置した場合）

このときの XI、 X2を Xl"、 X2"とする。

[0058] 502_i+2は、 XI"の先頭時点を示す第 1ポインタの値であり、 503_i+2は、 X2"の X2 の先頭時点を示す第 2ポインタの値である。 502_i+2は、 503_i+2—Tl_minの計算から算出される時刻なので、カゝかる時刻が第 1ポインタに初期設定される。 506_minから 506_maxまでは、 XI"が取り得る範囲を示す。つまり、第 2ポインタを上述した位置に固定し、第 1ポインタを更新することで、 XI"を力かる範囲内で移動させるのである。図中の" "は、 XI"が、これら _minから _maxまでの間を、徐々に移動してゆくことを模式的に示している。このような移動により、類似度が最も高くなる位置の探索を行う。 506_maxは、 X2"が上述した 509に位置していた場合、 503J+ 2— TLmaxの計算から算出される XI"の占有範囲である。 506_minは、 X2"が上述した 509に位置していた場合、 503_i+2— TLminの計算から算出される XI"の占有範囲である。

[0059] 506_optは、 506_maxから 506_minまでの範囲を移動するにあたって、類似度が最高となる場合における XI"の占有範囲であり、その先頭位置は、 503J+2— TLoptとなる。

図 5の Χ1,Χ2、 Χ1',Χ2'が選択された後、 Χ1",Χ2"が選択された時点で、累計 Tas 1S 目標の時間長 Taを上回ったとすると、 X1",X2"は選択対象力も外れる。これにより Χ1,Χ2、 Χ1',Χ2'の組みが、重ね合わせの対象になる。図中の、 Χ3、 Χ4は、 ΧΙ,Χ 2、 Χ1',Χ2'の組みが選択されることで、そのまま出力される区間である。

[0060] 図 5 (b)は、 X1,X2か重ね合わせの対象になる場合、実行される演算を模式的に示す図である。

図中の演算「XI」 X「W1」は、 XI (510)に対して、漸減する窓関数を乗ずるという演算を示す。本図において、 XIを表す四角形の大きさは XIのデータ量を示し、 W1 を表す三角形の大きさは、 W1による縮小比率を表す。つまり、 XIに W1が乗ざれることで、 XIは、 W1に相当する三角形の大きさまで、縮小されるのである。

[0061] 図中の演算「X2」 X「W2」は、 X2 (511)に対して、漸増する窓関数 513を乗ずるという演算を示す。本図において、 X2を表す四角形の大きさは X2のデータ量を示し、 W2を表す三角形の大きさは、 W2による縮小比率を表す。つまり、 X2に W2が乗ざれることで、 X2は、 W2に相当する三角形の大きさまで、縮小されるのである。

図中の演算「 +」は、「X1 XW1」と、「X2 XW2」との加算を示す。加算された信号「 X2\X1」は、 W1により縮小がなされた XIと、 W2により縮小がなされた X2との和である。 [0062] 図 5 (c)は、図 5 (a)のように、 XI、 X2と XI', X2'が選択された場合の重ね合わせ出力を示す。本図における出力信号は、「X2\X1」の出力区間、「XO」の出力区間、「X2' \X1 '」の出力区間、「X3」の出力区間、「X2"」の出力区間、「X4」の出力区間力なる。図中の「X2\X1」は、「X1 XW1」と、「X2 XW2」との加算出力である。図中の「X2，\X1，」は、「X1，XW1」と、「X2， XW2」との加算出力である。「X3」は、そのまま出力されたものである。

[0063] 図中の「X2"」、「X4」は、そのまま出力されたものである。

図 6 (a)は、時間軸圧縮を行う場合に選択される、 XI、 X2の 3つの組みを示す図である。

604、 605、 606は、 XIが存在する区間を示す。 X2は、 XIの位置を基準にして Tl_ maxだけ隔てられた時点から、 TLminだけ隔てられた時点までのどこかに存在する。

[0064] (XIが、 604に位置した場合）

602_iは、 XIの先頭時点を指し示す第 1ポインタであり、 603_iは、 X2の先頭時点を指し示す第 2ポインタである。第 2ポインタは、 602_i+Tl_minの値に初期設定される。

607_minから 607_maxまでは、 X2が取り得る範囲を示す。つまり、第 1ポインタを上述した位置に固定し、第 2ポインタを更新することで、 X2をかかる範囲内で移動させるのである。図中の" "は、 X2が、これら _minから _maxまでの間を、徐々に移動してゆくことを模式的に示している。このような移動により、類似度が最も高くなる位置の探索を行う。 607_maxは、 XIが上述した 604に位置していた場合、 602_i+Tl_m axの計算から算出される X2の占有範囲である。 607_minは、 XIが上述した 604に位置していた場合、 602_i+Tl_minの計算から算出される X2の占有範囲である。

[0065] 607_optは、 607_maxから 607_minまでの範囲を X2が移動するにあたって、類似度が最高となる場合における X2の占有範囲であり、その先頭位置は、 602j+Tl_optとなる。

(XIが、 605に位置した場合）

このときの XI、 X2を Xl，、 X2，とする。 602_i+lは、 XI，が 605に位置していた場合における、 XI 'の先頭時点を指し示す第 1ポインタであり、 603_i+lは、 X2'の先頭時刻を指し示す第 2ポインタである。この第 2ポインタは、 602_i+l+Tl_minの値に初期設定される。

[0066] 608_minから 608_maxまでは、 X2'が取り得る範囲を示す。つまり、第 1ポインタを上述した位置に固定し、第 2ポインタを更新することで、 X2'をかかる範囲内で移動させるのである。図中の" "は、 X2'が、これら _minから _maxまでの間を、徐々に移動してゆくことを模式的に示している。このような移動により、類似度が最も高くなる位置の探索を行う。 608_maxは、 XI 'が上述した 605に位置していた場合、 602_i+l +Tl_maxの計算から算出される X2'の占有範囲である。 608_minは、 XI，が上述した 605に位置していた場合、 602j+l+Tl_minの計算から算出される X2'の占有範囲である。

[0067] 608_optは、 608_maxから 608_minまでの範囲を移動するにあたって、類似度が最高となる場合における X2'の占有範囲であり、その先頭位置は、 602_i+l+Tl_opt'となる。第 1ポインタが 602J+1を指し、 XI '力 605に位置していた場合、かかる位置の第 1ポインタに対して、かかる 608_optが、導きだされること〖こなる。

(XIが、 606に位置した場合）

このときの XI、 X2を Xl"、 X2"とする。 602_i+2は、 XI"の先頭時点を指し示す第 1ポインタであり、 603J+2は、 X2"の先頭時点を指し示す第 2ポインタである。

[0068] 609_minから 609_maxまでは、 X2"が取り得る範囲を示す。つまり、第 1ポインタを上述した位置に固定し、第 2ポインタを更新することで、 X2"をかかる範囲内で移動させるのである。図中の" "は、 X2"が、これら _minから _maxまでの間を、徐々に移動してゆくことを模式的に示している。このような移動により、類似度が最も高くなる位置の探索を行う。 609_maxは、 XI"が上述した 606に位置していた場合、 602J+ 2+Tl_maxの計算から算出される X2"の占有範囲である。 609_minは、 XI"が上述した 606に位置していた場合、 602_i+2+Tl_minの計算から算出される X2"の占有範囲である。

[0069] 609_optは、 X2"が 609_maxから 609_minまでの範囲を移動するにあたって、類似度が最高となる場合における X2"の占有範囲であり、その先頭位置は、 602_i+2+Tl_ optとなる。第 1ポインタが 602_i+2を指し、 XI"が、 606に位置していた場合、かかる位置の第 1ポインタに対して、力かる 609_opt力導きだされることになる。 [0070] 図 6の X1,X2、 Χ1',Χ2'が選択された後、 Χ1",Χ2"が選択された時点で、累計 Tas が Taを上回ったとすると、 X1",X2"は選択外となる。これにより Χ1,Χ2、 Χ1',Χ2'の組みが、重ね合わせの対象になる。図中の、 Χ3、 Χ4は、 Χ1,Χ2、 Χ1',Χ2'の組みが選択されることで、そのまま出力される区間である。 Χ1,Χ2、 Χ1',Χ2'が選択されたため、 ΧΟは、 Χ2と、 XI，との間になつており、 Χ3は、 Χ2，と、 XI"との間になつている。一方、 Χ1",Χ2"は、選択外なので、 Χ4は、 X2'以降、全てになっている。

[0071] 図 6 (b)は、 X1,X2か重ね合わせの対象になる場合、実行される演算を模式的に示す図である。

図中の演算「XI」 X「W2」は、 XI (610)に対して、漸減する窓関数 612を乗ずるという演算を示す。本図において、 XIを表す四角形の大きさは XIのデータ量を示し、 W2を表す三角形の大きさは、 W2による縮小比率を表す。つまり、 XIに W2が乗ざれることで、 XIは、 W2に相当する三角形の大きさまで、縮小されるのである。

[0072] 図中の演算「X2」 X「W1」は、 X2 (611)に対して、漸増する窓関数 613を乗ずるという演算を示す。本図において、 X2を表す四角形の大きさは X2のデータ量を示し、 W1を表す三角形の大きさは、 W1による縮小比率を表す。つまり、 X2に W1が乗ざれることで、 X2は、 W1に相当する三角形の大きさまで、縮小されるのである。

図中の演算「 +」は、「X1 XW2」と、「X2 XW1」との加算を示す。加算された信号「 XlZX2」は、 W2により縮小がなされた XIと、 W1により縮小がなされた X2との和である。

[0073] 図 6 (c)は、図 6 (a)のように、 XI、 X2と、 XI', X2'とが選択された場合の重ね合わせ出力を示す。本図における出力信号は、「X1ZX2」の出力区間、「XO」の出力区間、「X1 ' ZX2'」の出力区間、「X4」の出力区間力なる。

図中の「X1ZX2」は、「X1 XW2」と、「X2 XW1」との加算出力である。「XO」は、そのまま出力されたものである。

[0074] 図中の「X1 ' ZX2'」は、「X1' XW2」と、「X2' X Wl」との加算出力である。図中の「X4」は、そのまま出力されたものである。

これらの図 5、図 6において、 XIと X2とにギャップが生じるには、 XI、 X2力TLmax だけ隔てられて、る場合であって、セグメントの時間長が TLminと TLmaxの中間値であることが条件になる。 XIと X2とにオーバラップが生じるには、 XI、 X2が TLminだけ隔てられて、る場合であって、セグメントの時間長が TLminと TLmaxの中間値であることが条件になる。つまり図 5、図 6は、セグメントの長さを、音声信号の最短周期と、最長周期の中間値に設定して、ることを条件にして、る。

[0075] 以上のような速度変換のソフトウェアによる実装は、時間軸伸長の場合は図 7〜図 1 0の処理手順を、時間軸圧縮の場合は図 12〜図 15の処理手順をコンピュータ記述言語で記述し、プログラムを作成して、 MPUに実行させることでなされる。尚、以降、フローチャートの解説には、図 11、図 16の参考図を引用するものとする。

図 7は、時間軸伸張 ≥1)である場合の速度変換の処理手順を示すフローチヤートである。これら図 7〜図 10のフローチャートの各ステップは、 700番台の参照符号を付すことで、図 12〜図 15のフローチャートのステップと区別することにする。

[0076] ステップ S702は、時間軸変換比 aを読み込み、ステップ S703において、スタート点の最大時間差 TLmax後の値を第 2のポインタに初期設定する。ステップ S704において処理単位カウンタ iを初期値 0に初期設定する。ステップ S700、ステップ S715〜ステップ S721は、ステップ S720を終了条件とし、変数 iを制御変数としたループを構成している。ステップ S704は、このループに初期条件を与えるものである。

[0077] ステップ S700は、処理単位 iにつ、て最適時間差 TLoptと、最小二乗誤差 R_minとを算出する。ステップ S715は、第 2ポインタ力も最適時間差 TLoptを引いた時刻を、処理単位 iにおける第 1のセグメントの先頭時刻 XI (i)として記憶し、ステップ S716では、第 2ポインタの時刻を、処理単位 iにおける第 2のセグメントの先頭時刻 X2 (i)とし飞 feす。。

[0078] ステップ S717は、処理単位 iにおける類似度 R (i)として、求められた最小二乗誤差 R_minを記憶する。

ステップ S718は、処理単位 iにおける選択 M (i)として、未選択を示す" 0"を設定する。ステップ S719は、第 2ポインタを時間 ATdだけ進める。

ステップ S720は、第 2ポインタに処理単位の時間長 Tsを加算した時刻とエンド点とを比較するステップであり、ループの終了条件を規定する。第 2ポインタに処理単位の時間長 Tsを加算した時刻力エンド点を越えない限り、本ループは繰り返されることがわかる。エンド点を越えれば、ステップ S750に移行する。以上のように、本ループでは、第 2ポインタを、 A Td刻みに変化させてゆき、時間軸における各座標において、最小二乗誤差 R(i)がどれだけになつているかを算出していることがわかる。

[0079] ステップ S750は、（数 3)に基づいて求めた必要延長時間 Taに累計延長時間 Tas が到達するまで、時間 ATd毎に求めた最も高い類似度 R(j)の中から、さらに類似度の高、順にセグメントの組の選択を行う。

ステップ S751は、類似度が高いとして選択されたセグメントの組に対し、重み付け加算を行って出力する。

[0080] 図 8は、処理単位 iにつ、て最適時間差 TLoptと、最小二乗誤差 R_minとを算出する処理の詳細な処理手順を示すフローチャートである。

ステップ S705は、最小二乗誤差 R_minを初期値 Nに初期設定するステップであり、ステップ S706は、時間差 T1を初期値 TLmaxに初期設定する。ステップ S707〜ステツプ S714は、ステップ S714を終了条件とし、変数 T1を制御変数としたループを構成している。

[0081] ステップ S707は、（第 2のポインタ- T1)を開始点として、 Ts個のセグメントを入力するステップであり、ステップ S708は、第 2のポインタを開始点として Ts個のセグメントを入力するステップである。かかるステップにより、数 1、数 2に示した Xl(l)〜Xl(Ts)と、 X2(l)〜X2(Ts)とが入力されることになる。

ステップ S709は、（数 1)に基づいて時間差 T1の時の XIと X2の二乗誤差 R(T1)を計算する。

[0082] ステップ S710は、最小二乗誤差 R_minと二乗誤差 R(T1)との比較であり、ステップ S 711及びステップ S712を実行する力スキップするかの切り替えを行う。

二乗誤差 R(T1)が R_minよりも小さければステップ S711及びステップ S712を実行するが、大きければ、これらのステップをスキップしてステップ S 13に移行する。

ステップ S711は、二乗誤差 R (T1)を用いて最小二乗誤差 R_minを更新するステップである。

[0083] ステップ S712は、時間差 T1を最適時間差 TLoptとして更新するステップである。

ステップ S713は、時間差 T1を 1サンプルだけ減少させる。ステップ S714は、時間差 T1と最小時間差 TLminとを比較するとヽぅ判定ステップであり、本ループの終了条件は、ステップ S714が Yesと判定されることである。時間差 T1 が最小時間差 TLminよりも小さくない場合にはステップ S707に戻って、本ループの実行が継続される。時間差 T1が最小時間差 TLminよりも小さい場合には、図 7のフロ一チャートにリターンしてステップ S715に進むことで、時間差 T1を最大時間差 TLmax 力最小時間差 TLminの範囲で変える。 T1は、 Tljnax力 TLminまでの数値範囲を変化し、第 1ポインタは、第 2ポインタ- T1により定まるので、第 1ポインタは、第 2ポインタ -TLmaxから第 2ポインタ- TLminまでの数値範囲を変化する。

[0084] このフローチャートは、変数 iがインクリメントされ、第 2ポインタが Δ Td刻みに移動する毎に実行されるので、第 2ポインタが A Tdだけ変化する毎に、第 1ポインタが、第 2 ポインタ- TLmax力も第 2ポインタ- TLminまでの値をとることになる。第 2ポインタが Δ Τ d刻みに移動した場合の各移動位置において、類似度が最高になるところの XIの位置力本フローチャートの実行により計算されることになる。

[0085] 以降、ステップ S750の詳細について説明する。このステップ S750は、以下の (数 3) を満たす複数のセグメントの組みを選択すると、うものであり、その手順を表したのが図 9のフローチャートである。

図 9は、時間 ATd毎に求めた最も高い類似度 R (j)の中から、さらに類似度の高い順にセグメントの組を選択する処理手順を示すフローチャートである。

[0086] ステップ S722〜736は、スタート点からエンド点までの範囲で時間 ATd毎に処理単位 iを変えるループ処理である。

ステップ S722は、時間軸変換比 aにするための必要延長時間 Taを計算する。ステップ S723は、累計延長時間 Tasを初期値 0に初期設定する。ステップ S724〜ステップ S736は、ステップ S736を終了条件とし、変数 Tasを制御変数とした第 1ループを構成している。ステップ S723は、この第 1ループに初期条件を与えるものである

[0087] ステップ S724は、類似度 Rを初期値 Nに初期設定して、処理単位カウンタ jを初期値 0に初期設定し、処理単位 kを- 1に初期設定する。この jは、 0からほでの変数にて特定される XI、 X2の組みのうち、処理対象となるものを示す。ステップ S727〜ステップ S732は、ステップ S732を終了条件とし、変数 jを制御変数とした第 2ループを構成している。ステップ S724は、この第 2ループに初期条件を与えるものである。この第 2ループは、 jを 0からほでの範囲で変化させて (ステップ S7 31、ステップ S732)、最小となる R(j)を用いて、 Rを更新するものである (ステップ S728 、ステップ S729)。またその最小となる時の jを、 kとして保存するものである。

[0088] ステップ S727は、 j番目の処理単位の選択フラグ M (j)が 0でな!/ヽかどうかの判定ステツプであり、ステップ S728、ステップ S729を実行する力、スキップするかの切り替えを行う。ここで、第 2ループにおいて、 jは同じ数値範囲、つまり、 0からほでの数値範囲を変化するので、同じ XI、 X2の組み力重複して選択される可能性がある。力力る重複選択を排除するの力このステップ S727の役割である。

[0089] ステップ S728は、類似度 Rを処理単位 jにおける類似度 R (j)と比較するステップであり、ステップ S729を実行する力、スキップするかの切り替えを行う。本フローチヤ一トでは、類似度として最小二乗誤差を用いているので、本ステップでは、 R(j)が Rより小さいかどうか、つまり、 R>R(j)という数式にて、本ステップにおける比較内容を表現している。類似度 Rが、類似度 R(j)よりも低い（二乗誤差は大きい）ならばステップ S729 へ進む。類似度 Rが、類似度 R(j)よりも高い（二乗誤差は大きくない)ならばステップ S 729をスキップしてステップ S731へ進む。

[0090] ステップ S729は、類似度 Rを処理単位 jにおける類似度 R (j)で更新し、選択された処理単位 kを処理単位 jに更新する。

ステップ S731は、変数 jをインクリメントするステップである。

ステップ S732は、 iと処理単位カウンタ jとの比較であり、第 2ループの終了条件を規定する。上述したような、ループ処理を抜けた後なので、 iは、全処理単位数を示す値になって!/、る。全処理単位数処理単位 jより小さくな、ならばステップ S727に戻り、本ループを継続する。全処理単位数を示す iが処理単位 jより小さいならばステップ S733に進み、本ノレープを抜ける。

[0091] 第 2ループでは、ステップ S728での比較で Yesと判定されれば、 R(j)の値を用いて、 Rを更新してゆくので (ステップ S729)、 0≤j≤iの範囲において Rは、最低の値になる。また、最低になったときの jの値は、 kとして保存されることになる。ステップ S733は、選択処理単位 kが負かどうかの判定であり、かかるループの終了条件を規定する。選択処理単位 kが負であることは、第 2ループにおいて、 kがー度も更新されなかったことを意味する。この場合、本フローチャートの処理を終了する。

[0092] ステップ S735は、類似度が高!、として選択された k番目の処理単位の選択 M (k)に 1を設定すると共に、累計延長時間 Tasを更新するステップであり、累計延長時間 Tas の更新は、 k番目の処理単位における X2 (k)の先頭時刻と、 k番目の処理単位における XI (k)の先頭時刻の時間差とを加算することでなされる。かかる加算が、第 1ループにおいて繰り返し実行されるので、 XI、 X2の時間差の累計力 Tasに得られることになる。

[0093] ステップ S736は、更新後の必要延長時間 Taが累計延長時間 Tasを越えたかどうかの判定であり、越えない場合、ステップ S724に戻ってループを継続し、次に類似度の高いセグメントの組の選択を行う。越える場合、ループの終了条件は満たされたとして、本フローチャートの処理は終了することになる。

上述したように、類似度 Rを最高にするための処理 (ステップ S728、ステップ S729) は、選択フラグ M (j)が 0に設定されている場合に実行されるので、ステップ S735において、 Tasを更新すると共に、 M(j)が 1に更新されることで、一度選択された jの値は、選択から除外される。そうすると、本第 1ループの 2巡目には、 2番目に値が小さい X (j)が類似度 Rに設定されることになり、 3巡目には、 3番目に値力 S小さい X(j)が類似度 Rに設定されることになる。こうすることで、類似度 Rが小さい順に、 XI、 X2の組みが選ばれてゆくことになる。

[0094] ステップ S751の処理手順の詳細について説明する。ステップ S751は、セグメントの組みに対して、以下の (数 5)に基づく重ね合わせを実行する手順であり、その詳細なフローチャートを図 10に示す。図 10は、類似度が高いとして選択されたセグメントの組に対し、重み付け加算を行って出力する処理手順を示すフローチャートである。図 9では、類似度が高い順にセグメントの組みをソーティングした力かかる類似度の高さ順では、時系列にセグメントの組みを出力してゆくことができないので、図 10では、第 2ポインタをスタート点 +Tl_maxに設定しなおすことで、セグメントの組みを時系列に選択しなおして、重ね合わせの対象としている。 [0095] ステップ S737は、第 2ポインタにスタート点を設定する。ステップ S738は、処理単位カウンタ jを初期値 0に初期設定する。

ステップ S739〜ステップ S746は、ステップ S746を終了条件とし、変数 jを制御変数としたループを構成して！/、る。

ステップ S739は、第 2ポインタを開始点として j番目の処理単位における X2 (j)の先頭時刻の直前までオーディオデータを入力してそのまま出力する。

[0096] ステップ S740は、選択フラグ M (j)に 1が設定されて!、るか否かの判定ステップであり、ステップ S741〜ステップ S744の処理をスキップする力、そのまま実行するかを切り替える。変数 jのうち、前図のフローチャートにおいて、選択の対象になっているものは、 M(j)が" Γになっており、選択対象になつていないものは、 M(j)が" 0"になっている。 0からほでの数値範囲をとる変数 jのうち、前図のフローチャートにおいて、選択フラグ M (j)が 1に設定されているものは、処理単位 jの類似度が高ぐ選択対象であるとしてステップ S 741〜ステップ S 744を実行する。

[0097] 選択フラグ M (j)が 1に設定されて!、な、ならば処理単位 jの類似度が高くなく選択されていないとしてステップ S 741〜ステップ S 744をスキップしてステップ S 745に進むステップ S741は、 j番目の処理単位の XI (j)を構成する Ts個のセグメントを入力する。ステップ S742は、 j番目の処理単位の X2 (j)を構成する Ts個のセグメントを入力する。かかるステップにより、数 1、数 2に示した Xl(l)〜Xl(Ts)と、 X2(l)〜X2(Ts)と力 S人力されること〖こなる。

[0098] ステップ S743は、数 5に基づき、重ね合わせを実行する。具体的には、ステップ S7 41、 742で入力された Xl(l)〜Xl(Ts)に対して、 Wl(l)〜Wl(Ts)を乗じると共に、 X 2(l)〜X2(Ts)に対して、 W2(l)〜W2(Ts)を乗じ、これらの乗算結果を加算して、加算結果である Y(l)〜Y(Ts)を出力する。

ステップ S744は、第 1ポインタに示されている j番目の処理単位の XI (j)の先頭時刻に、処理単位の時間長 Tsを加算し、 XI (j)末尾の時刻直後を第 2ポインタに設定する。

[0099] ステップ S745は、変数 jをインクリメントする。ステップ S746は、全処理単位数を示す iと処理単位カウンタ jとの比較であり、第 2 ループの終了条件を規定する。全処理単位数を示す iが処理単位 jより小さくなヽならばステップ S739に戻り、本ループを継続する。全処理単位数を示す iが処理単位 jより小さいならばステップ S 747に進み、本ループを抜ける。

[0100] ステップ S747は、第 2ポインタを開始点としてエンド点までそのまま出力する。

ただしこのフローチャートでは簡単のため、単位時間とサンプリング周期とを等しいとして表現している。

図 11 (a)〜（c)は、図 10のフローチャートによりオーディオデータのどの部分が出力されるかを示す図である。

[0101] 図 11 (a)は、ステップ S739の 1巡目の実行にて、出力される部分を示す。ステップ S739の 1巡目の実行時には、第 2ポインタは、スタート点を指しているので、本図に示すように、そのまま出力される区間は、スタート点力第 2ポインタの直前までとなる図 11 (b)は、ステップ S739の 2巡目以降の実行にて、出力される部分を示す。ステップ S739の 2巡目以降の実行時には、第 2ポインタは、 Xl(j)の先頭点 +Tsを指しているので、本図に示すように、そのまま出力される区間は、 Xl(j)の先頭点から、 X20+ 1)の直前までとなる。

[0102] 図 11 (c)は、ステップ S747の実行にて、出力される部分を示す。ステップ S747の実行時には、第 2ポインタは、 Xl(j)の先頭点 +Tsを指しているので、本図に示すように、そのまま出力される区間は、 Xl(j)の直後から、エンド点までとなる。

このように、ステップ S707力らステップ S714で、 2つのセグメント間の時間差を TLmi nから TLmaxまで、 1サンプルずつ変えて、 2つのセグメント間の類似度を (数 1)もしくは (数 2)に基づいて求め、その中力も最も類似度の高い 2つのセグメントを探索し、ステツプ S715で最も高い類似度になる第 1のセグメントの先頭時刻 XI (0を記憶し、ステツプ S716で最も高い類似度になる第 2のセグメントの先頭時刻 X2 (i)を記憶し、ステツプ S 717で最も高、類似度になる時の類似度 R (i)を記憶して、る。

[0103] ステップ S722力らステップ S736は、入力となるオーディオデータにおける様々なセグメントの組み合わせの中から、類似度が特に高く重み付け加算するのに最適なセグメントの組を優先的に選択することができるので、音声欠落や音声重複が少なく、音質劣化も少ないという効果がある。

また、所望の時間軸変換比 aが得られるのに必要な数の重み付け加算を行うセグメントの組みだけを選択して、かつ重み付け加算されたセグメントの前後に任意の時間長のオーディオデータを出力するので、時間軸変換比を細かくかつ精度良く変えることができという効果もある。

[0104] ここで、類似度が高い値を持つセグメントの組は、一般的に無音区間や母音の発生区間に偏在しているので、人間が発声速度を変える場合の速度の遷移に類似させることができると!/、う効果がある。

そして、時間 ATd毎に求めた最も高い類似度 R(j)の中から、類似度の高い順にセグメントの組を選択するので、類似度が高くなるセグメント間の時間差 TLoptの決定と、重み付け加算を行うセグメントの組の選択を、全て類似度という単一の評価尺度を用いて行うので、処理の複雑さや処理量を抑えることができるという効果もある。

[0105] さらにステップ S741で、 j番目の処理単位の XI (j)の開始点から、 Xl(l)〜Xl(Ts) を入力し、ステップ S 742で、 j番目の処理単位の X2 (j)の開始点から、 X2(1)〜X2(T s)を入力して、これらの重ね合わせを行う結果、どのような場合でも重み付け加算したオーディオデータの出力の時間長を一定の処理単位の時間長 Tsにでき、音質が低下しにくいという効果もある。以上が、時間軸伸長を行う場合の処理手順である。

[0106] 続いて、再生時間軸圧縮を行う場合の処理手順について説明する。

図 12は、時間軸圧縮（ α≤ 1)による速度変換を行う場合の処理手順を示すフローチャートである。これら図 12〜図 15のフローチャートの各ステップは、 800番台の参照符号を付すことで、図 7〜図 10のフローチャートのステップと区別することにする。ステップ S801は、時間軸変換比 αを読み込む。ステップ S802は、第 1ポインタにスタート点の値を初期設定する。ステップ S803は、処理単位カウンタ iを初期値 0に初期設定する。ステップ S800、ステップ S815〜ステップ S821は、ステップ S820を終了条件とし、変数 iを制御変数としたループを構成して、る。

[0107] ステップ S800は、処理単位 iにつ、て最適時間差 TLoptと、最小二乗誤差 R_minとを算出する。ステップ S815は、第 1ポインタの時刻を、処理単位 iにおける XI (i)の先頭時刻として記憶する。ステップ S816は、第 1ポインタに最適時間差 TLoptをカ卩えた時刻を、処理単位 iにおける X2 (i)の先頭時刻として記憶する。ステップ S817は、処理単位 iにおける類似度 R(i)として、求められた最小二乗誤差 Rjninを記憶する。ステップ S818 は、処理単位 iにおける選択 M (i)として、未選択を示す 0を記憶する。ステップ S819 は、第 1ポインタを時間 ATdだけ進める。

[0108] ステップ S820は、第 1ポインタに、最大時間差 TLmaxと処理単位の時間長 Tsをカロ算した時刻と、エンド点との比較であり、本ループの終了条件を規定している。エンド点が第 1ポインタに最大時間差 TLmaxと処理単位の時間長 Tsを加算した時刻よりも小さいと判定された場合、本ループを抜けてステップ 850に移行する。大きいと判定された場合、ステップ S821に移行する。

[0109] ステップ S850は、数 4に基づきセグメントの組みを選択するステップである。

ステップ S851は、類似度が高いとして選択されたセグメントの組に対し、重み付け加算を行って出力する。

以降、ステップ S800の詳細について説明する。このステップ S800は複数のセグメントの組みを選択するというものであり、その処理手順を図 13のフローチャートに示す。図 13は、処理単位 iについて最適時間差 TLoptと、最小二乗誤差 Rjninとを算出する処理のフローチャートである。

[0110] ステップ S805は、最小二乗誤差 Rjninを初期値 Nに初期設定する。ステップ S806 は、時間差 T1を初期値 Tl_maxに初期設定する。ステップ S807〜ステップ S814は、ステツプ S814を終了条件とし、変数 T1を制御変数としたループを構成して、る。

ステップ S807は、第 1ポインタを開始点として、処理単位 XIを構成する Ts個のセグメントを入力する。具体的には、 Xl(l)〜Xl(Ts)を入力する。ステップ S808は、（第 1 ポインタ +T1)を開始点として、処理単位 X2を構成する Ts個のセグメントを入力する。具体的には、 X2(l)〜X2(Ts)を入力する。

[0111] ステップ S809は、（数 1)に基づいて時間差 T1の時の XIと X2の二乗誤差 R(T1)を計算する。ステップ S810は、最小二乗誤差 Rjninと二乗誤差 R(T1)とを比較し、ステップ S811、ステップ S812をスキップする力、これらを実行するかを切り替えるものである。

R_minが二乗誤差 R (T1)よりも大きければステップ S811、 812を実行し、そうでなければこれらのステップを実行する。

[0112] ステップ S811は、二乗誤差 R (T1)を新たな最小二乗誤差 R_minとして更新する。ステツプ S812は、時間差 T1を最適時間差 TLoptとして更新する。ステップ S813は、時間差 T1を 1サンプルだけ減少させる。ステップ S814は、時間差 T1と最小時間差 TLmin とを比較であり、本ループの終了条件を規定している。時間差 T1が最小時間差 TLmin よりも小さくない場合にはステップ S807に戻って本ループを継続する。時間差 T1が最小時間差 TLminよりも小さい場合には、本フローチャートの処理を終える。

図 14は、時間 ATd毎に求めた最も高い類似度 R (j)の中から、さらに類似度の高い順にセグメントの組の選択を行う処理手順を示すフローチャートである。本フローチヤートは、以下の (数 4)を満たす複数のセグメントの組みを選択するというものである。 ( 数 4)は、必要短縮時間 Taに累計延長時間 Tasが到達するまで、時間 ATd毎に求めた最も高い類似度 R (j)の中から、さらに類似度の高い順にセグメントの組の選択を行うことを意味する。

[0113] ステップ S822は、（数 4)に基づいて、時間軸変換比 aにするための必要短縮時間 Taを計算する。ステップ S823は、累計短縮時間 Tasを初期値 0に初期設定する。ステツプ S824〜ステップ S835は、ステップ S835を終了条件とし、変数 Tasを制御変数としたループを構成している。ステップ S823は、このループに初期条件を与えるものである。

[0114] ステップ S824は、類似度 Rを初期値 Nに初期設定し、処理単位カウンタ jを初期値 0 に初期設定して、選択処理単位 kを- 1に初期設定する。ステップ S827〜ステップ S8 32は、ステップ S832を終了条件とし、変数 jを制御変数としたループを構成しているステップ S827は、 j番目の処理単位の選択フラグ M (j)が 0でな!/、かどうかの判定であり、ステップ S828、ステップ S829を実行する力、これらをスキップするかを切り替える。 j番目の処理単位の選択フラグ M (j)が 1ならば既に j番目の処理単位は選択済みとして、ステップ S828、ステップ S829をスキップしてステップ S831に進む。 j番目の処理単位の選択フラグ M (j)が 0ならば未選択としてステップ S828に進む。

[0115] ステップ S828は、類似度 Rと、処理単位 jにおける類似度 R(j)との比較であり、ステップ S829を実行する力スキップするかの切り替えを行う。本フローチャートでは、類似度として最小二乗誤差を用いているので、本ステップでは、 R(j)が Rより小さいかどう力つまり、 R>R(j)という数式にて、本ステップにおける比較内容を表現している。類似度 Rが類似度 R (j)よりも高い（二乗誤差は大きくない)ならばステップ S829をスキップしてステップ S831へ進み、類似度 Rが類似度 R(j)よりも低い（二乗誤差は大き V、）ならばステップ S829を実行する。

[0116] ステップ S829は、処理単位 jにおける類似度 R(j)を用いて類似度 Rを更新し、処理単位 jを用いて選択処理単位 kを更新する。

ステップ S831は、処理単位 jを 1増加させるステップであり、ステップ S832は、全処理単位数を示す iと処理単位カウンタ jとの比較であり、第 2ループの終了条件を規定する。全処理単位数を示す iが処理単位 jより小さくないならばステップ S827に戻り、本ループを継続する。全処理単位数を示す iが処理単位 jより小さ!/、ならばステップ S 833に進み、本ループを抜ける。

[0117] ステップ S833は、選択処理単位 kが負かどうかの判定であり、本フローチャートの終了条件を規定している。 kが負であるなら、全ての処理単位で重み付け加算処理が終了しているとして本フローチャートの処理を終える。選択処理単位 kが負でないならば重み付け加算が済んでヽな、処理単位が存在するとしてステップ S834に進む。

ステップ S834は、類似度が高いとして選択された k番目の処理単位の選択 M (k)に 1を設定すると共に、累計短縮時間 Tasに k番目の処理単位 X2 (k)の先頭時刻と、 k 番目の処理単位 XI (k)の先頭時刻との時間差を加算することにより、累計短縮時間 Tasを更新する。

[0118] ステップ S835は、必要短縮時間 Taと累計短縮時間 Tasとの比較であり、本フローチヤート及びループの終了要件を規定する。必要短縮時間 Taが累計短縮時間 Tasよりも大きいならばステップ S824に戻って次に類似度の高いセグメントの組の選択を行い、必要短縮時間 Taが累計短縮時間 Tasよりも大きくないならば類似度の高いセグメントの組の選択を終了したとして本フローチャート及び本ループを終了する。

ステップ S851の処理手順の詳細について説明する。

[0119] ステップ S851は、セグメントの組みに対して、上述したような (数 6)に基づく重ね合わせを実行する手順であり、その詳細なフローチャートを図 15に示す。

図 15は、類似度が高いとして選択されたセグメントの組に対し、重み付け加算を行つて出力する処理手順を示すフローチャートである。

ステップ S837は、第 1ポインタをスタート点に設定し、ステップ S838は、処理単位カウンタ jを初期値 0に初期設定する。図 14では、類似度が高い順にセグメントの組みをソーティングした力かかる類似度の高さ順では、時系列にセグメントの組みを出力してゆくことができないので、図 15では、第 1ポインタをスタート点に設定しなおすことで、セグメントの組みを時系列に選択しなおして、重ね合わせの対象としている。ステップ S839〜ステップ S846は、ステップ S846を終了条件とし、変数 jを制御変数としたループを構成している。ステップ S838は、このループに初期条件を与えるものである。

[0120] ステップ S839は、第 1ポインタを開始点として j番目の処理単位の XI (j)の先頭時刻の直前までオーディオデータを入力してそのまま出力する。ステップ S840は、選択フラグ M (j)に 1が設定されているか否かの判定であり、ステップ S841〜ステップ S 844を実行する力、これらのステップをスキップするかの切り替えを行う。

選択フラグ M (j)が 1に設定されて!ヽるならば処理単位 jの類似度が高く選択されているとしてステップ S841〜ステップ S844の処理を実行する。選択フラグ M (j)が T に設定されて、な、ならば処理単位 jの類似度が高くなく選択されて、な、としてステップ S841〜ステップ S844の処理をスキップしてステップ S845に進む。

[0121] ステップ S841は、 j番目の処理単位の XI (j)を開始点として、処理単位 XIを構成する Ts個のセグメントを入力する。具体的には、 Xl(l)〜Xl(Ts)を入力する。

ステップ S842は、 j番目の処理単位の X2 (j)を開始点として、処理単位 X2を構成する Ts個のセグメントを入力する。具体的には、 X2(l)〜X2(Ts)を入力する。

ステップ S843は、（数 6)に基づいた重ね合わせを実行する。具体的には、ステップ S841、 842で入力された Xl(l)〜Xl(Ts)に対して、 W2(l)〜W2(Ts)を乗じると共に、 X2(l)〜X2(Ts)に対して、 Wl(l)〜Wl(Ts)を乗じ、これらの乗算結果を加算して、加算結果である Y(l)〜Y(Ts)を出力する。

[0122] ステップ S844は、第 2ポインタに示される処理単位の X2 (j)の先頭時刻に処理単位の時間長 Tsを加算し、 X2 (j)の末尾の時刻の直後を第 1ポインタに設定する。ステップ S845は、処理単位カウンタ jを 1つ増加させる。

ステップ S846は、全処理単位数を示す iと処理単位カウンタ jとの比較であり、全処理単位数を示す iが処理単位 jより小さくな、ならばステップ S839に戻って、本ループの実行を継続する。

[0123] 全処理単位数を示す処理単位 jより小さいならばステップ S847において、第 1のポインタを開始点としてエンド点までのオーディオデータをそのまま出力した後、本フローチャートの処理を終える。ただしこのフローチャートでは簡単のため、単位時間とサンプリング周期とを等しいとして表現している。

[0124] 図 16 (a)〜（c)は、図 15のフローチャートによりオーディオデータのどの部分が出力されるかを示す図である。

図 16 (a)は、ステップ S839の 1巡目の実行にて、出力される部分を示す。ステップ S839の 1巡目の実行時には、第 1ポインタは、スタート点を指しているので、本図に示すように、そのまま出力される区間は、スタート点力も Xl(j)の直前までとなる。ここで、 XIから X2までの間の部分は、出力されない。

[0125] 図 16 (b)は、ステップ S839の 2巡目以降の実行にて、出力される部分を示す。ステップ S839の 2巡目以降の実行時には、第 1ポインタは、 X2(j)の先頭点 +Tsを指しているので、本図に示すように、そのまま出力される区間は、 X2(j)の直後から、 X10+D の直前までとなる。 Xl(j)と、 X2(j)との間、及び、 X1G+1)と、 X2(j+1)との間は、出力されない。

[0126] 図 16 (c)は、ステップ S847の実行にて、出力される部分を示す。ステップ S849の実行時には、第 1ポインタは、 X2(j)の先頭点 +Tsを指しているので、本図に示すように、そのまま出力される区間は、 X2(j)及びその直後から、エンド点までとなる。

以上のように、ステップ S822力らステップ S835で、（数 4)に基づいて求めた必要短縮時間 Taに累計短縮時間 Tasが到達するまで、時間 ATd毎に求めた最も高、類似度 R (j)の中から、さらに類似度の高い順にセグメントの組の選択を行うので、所望の時間軸変換比 aが得られるのに必要な数の重み付け加算を行うセグメントの組みだけが選択でき、かつ重み付け加算されたセグメントの前後に任意の時間長のォーディォデータを出力するので、時間軸変換比を細力べかつ精度良く変えることができという効果もある。

[0127] ここで、類似度が高い値を持つセグメントの組は一般的に無音区間や母音の発生区間に偏在しているので、人間が発声速度を変える場合の速度の遷移に類似させることができると!/、う効果がある。

更に、類似度が高くなるセグメント間の時間差 TLoptの決定と、重み付け加算を行うセグメントの組の選択を、全て類似度という単一の評価尺度を用いて行うので、処理の複雑さや処理量を抑えることができると、う効果もある。

[0128] 力！]えて、どのような場合でも重み付け加算したオーディオデータの出力の時間長を一定の処理単位の時間長 Tsにでき、音質が低下しにくいという効果もある。

(第 2実施形態）

第 2実施形態は、第 1実施形態に述べた速度変換を、専用のハードウェアを用いて実装する場合の改良に関する。

[0129] 図 17は、第 2実施形態に係る変換装置の内部構成を示す図であり、本図に示すように、第 2実施形態に係る変換装置は、記憶回路 101、スィッチ回路 102、ノッファメモリ回路 103、ノッファメモリ回路 104、類似度計算回路 105、判定回路 106、窓関数発生回路 107、スィッチ回路 108、スィッチ回路 109、乗算回路 110、乗算回路 11 1、加算回路 112、スィッチ回路 113、出力バッファ回路 114、速度設定回路 115、パラメータ記憶回路 116、ポインタ値計算回路 117、ポインタ制御回路 118、制御信号発生回路 119、パラメータ選択回路 120から構成される。これら図 17の内部構成図における構成要素には、 100番台の参照符号を付すことで、図 1の内部構成図における構成要素と区別することにする。

記憶回路 101は、オーディオデータを記憶しており、ポインタ制御回路 118が出力するアドレス値と時間長に基づ、て、所望の開始点と時間長のオーディオデータを出力する。

[0130] スィッチ回路 102は、記憶回路 101が出力するオーディオデータの出力先をバッファメモリ回路 103とバッファメモリ回路 104とスィッチ回路 113とから選択する。

バッファメモリ回路 103は、スィッチ回路 102から出力される Ts個のセグメント XIを蓄える。

バッファメモリ回路 104は、スィッチ回路 102から出力される Ts個のセグメントの X2 を格納する。

[0131] 類似度計算回路 105は、 2つのセグメントの時間差 T1が最小時間差 TLminカゝら最大時間差 TLmaxまでの範囲である場合において、バッファメモリ回路 103に格納されている XIと、ノッファメモリ回路 104に格納されている X2との類似度を算出する。判定回路 106は、類似度計算回路 105がこれまで出力した類似度のうち、最も高いものはどれである力判定して、その最高の類似度に対応する XI、 X2の組みを検出して、カゝかる XIの先頭時刻と、 X2の先頭時刻と、類似度とをパラメータ記憶回路 1 16に出力する。

[0132] 窓関数発生回路 107は、漸増する窓関数と漸減する窓関数とを出力する。

スィッチ回路 108は、閉じることで、ノッファメモリ回路 103に格納された XIを乗算回路 110に出力する。開いた場合、ノッファメモリ回路 103に格納された XIは、乗算回路 110に出力されない。

スィッチ回路 109は、閉じることで、ノッファメモリ回路 104に格納された X2を乗算回路 111に出力する。スィッチ回路 109が開いた場合、ノッファメモリ回路 104に格納された X2は、乗算回路 111に出力されない。

[0133] 乗算回路 110は、パラメータ記憶回路 116に記憶され、パラメータ選択回路 120により選択されたパラメータに基づいて記憶回路 101から出力されたセグメント XIに対して窓関数発生回路 107が出力する一方の窓関数を乗じる。

乗算回路 111は、パラメータ記憶回路 116に記憶され、パラメータ選択回路 120により選択されたパラメータに基づいて記憶回路 101から出力されたセグメント X2に対して窓関数発生回路 107が出力する他方の窓関数を乗じる。

[0134] 加算回路 112は、乗算回路 110により窓関数が乗じられた XIと、乗算回路 111により窓関数が乗じられた X2とを加算する。

スィッチ回路 113は、加算回路 112の出力、スィッチ回路 102の出力のうち一方を選択して、出力バッファ回路 114に出力する。

出力バッファ回路 114は、スィッチ回路 113からの出力である、 XIと、 X2との重み付け加算の結果を一旦蓄積し、速度調整を施した上で出力する。

[0135] 速度設定回路 115は、 GUI等を介したユーザ操作に従って入力された時間軸変換比 α (出力時間長/入力時間長)を記憶する。

ノラメータ記憶回路 116は、図 4に示したセグメント選択ログを記憶する。本ログの追記単位は、図 4と同じであり、 XIの先頭時刻と、 Χ2の先頭時刻との組みに、類似度 (0と、選択フラグ M(i)とを対応付けることで構成される。力かるログの追記を行うため、速度設定回路 115は、判定回路 106が最も高い値を検出した時の類似度と、ポインタ制御回路 118が出力した 2つのセグメントに対応するアドレス値を、ポインタ値計算回路 117が求めるために用いたセグメントの先頭時刻とを、それぞれ、判定回路 106、ポインタ値計算回路 117から受け取り、受け取った類似度、先頭時刻から追記単位を作成して、これを選択ログに加える。

[0136] ポインタ値計算回路 117は、類似度計算回路 105が類似度を求めるべき、 2つのセグメントのアドレス値を計算してポインタ制御回路 118に出力する。またパラメータ記憶回路 116に記録されているパラメータに基づいて類似度の高い、 XI、 Χ2の組みのアドレス値と時間長を計算すると共に、その前後に連続するセグメントのアドレス値と時間長を計算してポインタ制御回路 118に出力する。

[0137] ポインタ制御回路 118は、ポインタ値計算回路 117により計算されたアドレス値に基づき、第 1実施形態に述べた第 1ポインタと、第 2ポインタを記憶回路 101に対して出力して、力かる第 1ポインタ、第 2ポインタに基づき、 XI、 Χ2が読み出されるよう、記憶回路 101を制御する。また、ポインタ値計算回路 117により計算された時間長に基づき、第 1ポインタ、第 2ポインタを更新する処理を行う。

[0138] 制御信号発生回路 119は、スィッチ回路 102、 108、 109、 113に対する制御を行う。ここで、類似度計算回路 105が類似度を計算する場合、スィッチ制御としては、スイッチ回路 102をバッファメモリ回路 103側もしくはバッファメモリ回路 104側に倒し、スィッチ回路 108とスィッチ回路 109とを開くというものになる。

加算回路 112による加算結果を出力する場合、スィッチ制御としては、スィッチ回路 102をバッファメモリ回路 103側もしくはノッファメモリ回路 104側に倒し、スィッチ回路 108とスィッチ回路 109は閉じ、スィッチ回路 113を加算回路 112側に倒すというものになる。記憶回路 101に記憶されているセグメントを、そのまま出力バッファ回路 114に出力する場合、スィッチ制御は、スィッチ回路 102をスィッチ回路 113側に倒し、スィッチ回路 113をスィッチ回路 102側に倒すというものになる。

[0139] パラメータ選択回路 120は、類似度の高い順番に、速度設定回路に設定されている時間軸変換比 aが得られる組数だけ、セグメントの組を選択する。ここで選択の対象となるのは、時間範囲 Tr内に存在する複数のセグメントであって、パラメータ記憶回路 116に先頭時刻が記憶されているもののどれかである。

以上が、本実施形態に係る変換装置のハードウェア構成を示す図である。

[0140] 続いて、類似度計算回路 105のハードウェア構成の詳細について、図 18、図 19を参照しながら説明する。ここで類似度としては、二乗誤差、相関関数といった 2種類のものがあり、これらのどちらを類似度として採用するかによって、類似度計算回路 105 のハードウェア構成は変わってくる。先ず最初に、二乗誤差を採用した場合の内部構成について説明する。

[0141] 図 18は、類似度の評価関数として二乗誤差を採用した場合の類似度計算回路 10 5の内部構成を示す図であり、シフトレジスタメモリ回路 201、シフトレジスタメモリ回路 202、減算回路 203_l〜203_Ts、乗算回路 204_l〜204_Ts、加算回路 205からなる。

シフトレジスタメモリ回路 201には、バッファメモリ回路 103に蓄えられている処理単位 XIが逐次入力される。シフトレジスタメモリ回路 201に入力される処理単位 XIは、 Ts個のセグメントである、 Χ1(1),Χ1(2),Χ1(3) · · · 'Xl(Ts— l),Xl(Ts)から構成される。

[0142] シフトレジスタメモリ回路 202には、バッファメモリ回路 104に蓄えられている処理単位 X2が逐次入力される。シフトレジスタメモリ回路 202に入力される X2は、 Ts個のセグメントである、 Χ2(1),Χ2(2),Χ2(3) · · · 'X2(Ts— l),X2(Ts)から構成される。

減算回路 203_l〜203_Tsは、シフトレジスタメモリ回路 201に蓄えられている Xl(l), Χ1(2),Χ1(3)· · · 'Xl(Ts— l),Xl(Ts)から、シフトレジスタメモリ回路 202に蓄えられている Χ2(1),Χ2(2),Χ2(3)· · · .X2(Ts— l),X2(Ts)を減じる演算を、 Ts個同時に実行する。

[0143] 乗算回路 204_l〜204_Tsは、減算回路 203_l〜203_Tsの出力を二乗する。

加算回路 205は、乗算回路 204_l〜204_Tsの出力の総和を求め、結果を二乗誤差として出力する。類似度計算回路 105が行う二乗誤差の演算は、第 1実施形態で述べた (数 1)に従う。以上が、類似度として二乗誤差を採用した場合の、類似度計算回路 105の内部構成についての説明である。

[0144] 続いて、相関関数を採用した場合の内部構成について説明する。図 19は、類似度の評価関数として、相関関数を採用した場合場合の類似度計算回路 105の内部構成を示す図であり、シフトレジスタメモリ回路 301、シフトレジスタメモリ回路 302、乗算回路 303_l〜303_Ts、加算回路 304である。

シフトレジスタメモリ回路 301には、バッファメモリ回路 103に蓄えられているセグメント XIが逐次入力される。シフトレジスタメモリ回路 301に入力される処理単位 XIは、 Ts個のセグメントである、 Χ1(1),Χ1(2),Χ1(3) · · · 'Xl(Ts— l),Xl(Ts)から構成される。

[0145] シフトレジスタメモリ回路 302には、バッファメモリ回路 104に蓄えられているセグメントが逐次入力される。シフトレジスタメモリ回路 302に入力される処理単位 X2は、 Ts 個のセグメントである、 Χ2(1),Χ2(2),Χ2(3)· · · 'X2(Ts— l),X2(Ts)から構成される。乗算回路 303_l〜303_Tsは、シフトレジスタメモリ回路 301に蓄えられている Xl(l), Χ1(2),Χ1(3)· · · 'Xl(Ts— l),Xl(Ts)と、シフトレジスタメモリ回路 302に蓄えられている Χ2(1),Χ2(2),Χ2(3)· · · 'X2(Ts— l),X2(Ts)との乗算を、 Ts個同時に実行する。

[0146] 加算回路 304は、乗算回路 303_l〜303_Tsの出力の総和を求め、結果を相関関数として出力する。類似度計算回路 105が行う相関関数の演算は、第 1実施形態で述べた (数 2)に従う。以上が、類似度として相関関数を採用した場合の、類似度計算回路 105の内部構成についての説明である。

続いて、判定回路 106のハードウェア構成の詳細について、図 20を参照しながら説明する。

[0147] 図 20は、判定回路 106の内部構成を示す図であり、類似度メモリ回路 401、比較回路 402、最大/最小メモリ回路 403から構成される。類似度メモリ回路 401には、類似度計算回路 105により計算された類似度が記憶される。

最大/最小メモリ回路 403には、類似度の最大値もしくは最小値が記憶されている。最大/最小メモリ回路 403が最小値を記憶するのは、評価関数が二乗誤差の場合である場合であり、比較回路 402が最大値を記憶するのは評価関数が相関関数の場合である。

[0148] 比較回路 402は、類似度メモリ回路 401が出力する現在の類似度と、最大/最小メモリ回路 403に記憶されている過去における類似度の最大値もしくは最小値とを比較する。この比較の結果、類似度メモリ回路 401に記憶されている類似度が、最大値より大きいこと、又は、最小値より小さいことを条件にして、類似度メモリ回路 401に記憶されている類似度を、最大/最小メモリ回路 403に書き込むことにより、最大/最小メモリ回路 403における最大値又は最小値の更新を行う。力かる更新にあたって、パラメータ記憶回路 116に対し、現在の XIの先頭時刻と、 X2の先頭時刻とを、類似度の高いセグメントの組の候補として記憶するように指示を出す。以上が判定回路 106の内部構成である。これで、速度変換を実行するためのハードウェア構成の説明を終える。

[0149] 以上のようにして構成された変換装置の動作にっ、て、以下説明する。

(類似度算出）

2つのセグメント X1、X2間の時間差を TLmin力も Tljnaxまでの範囲で変化させながら、類似度計算回路 105がバッファメモリ回路 103に格納された XIとバッファメモリ回路 104に格納された X2との類似度を算出する。次に、判定回路 106は類似度計算回路 105が出力する類似度の内から類似度の最も高い値を示すセグメントの組を検出する。

[0150] そして、 2つのセグメントに対応するアドレス値をポインタ値計算回路 117が求めるために用いた 2つのセグメントの開始時刻と、セグメントの類似度とを、 1つの追記単位として、パラメータ記憶回路 116における選択ログに追記する。

(：セグメントの選択；）

これらの処理を、所定の時間範囲 Tr内の複数の異なる時刻において行う。そしてパラメータ選択回路 120が、パラメータ記憶回路 116に記憶されている所定の時間範囲 Tr内の複数の異なる時刻で求めた類似度の中から類似度の高い順番に、速度設定回路 115に設定されている所望の時間軸変換比 aが得られる組数だけセグメントの組を選択する。ここでパラメータ記憶回路 116の追記単位において、選択されたセグメントに対応する追記単位における選択フラグをオンに設定し、選択されな力つたセグメントに対応する追記単位における選択フラグはオフに設定する。

[0151] (重ね合わせ）

そしてパラメータ記憶回路 116の選択ログにおいて、オンと設定された追記単位に対応するセグメントの組は、乗算回路 110、乗算回路 111、加算回路 112により重み付け加算されて出力され、それ以外の区間におけるセグメントは、そのまま出力される。

第 1実施形態で述べた図 5に対して、本実施形態に係る変換装置が、時間軸伸張 ( 時間軸変換比 a =4/3)の場合の処理を以下に説明する。

G番目の処理単位）

記憶回路 101に記録されているオーディオデータのうち、潘目の処理単位に対する処理を行う。ここでは、 i番目の処理単位においてポインタ制御回路 118が出力するポインタ 502_iとポインタ 503_iとを基準として、 Xl(l)〜Xl(Ts)と X2(l)〜X2(Ts)とがノッファメモリ回路 103とバッファメモリ回路 104に、読み出される。

[0152] X2に対する時間差を、 TLmin力 TLmaxまでの範囲で変化させつつ、 XIを取り込んでゆき、 XIと、 X2との類似度を類似度計算回路 105に算出させる。

そして判定回路 106により類似度の高い値の探索が行われ、その時の XIと X2の時間差が TLoptとして算出される。類似度の評価関数が二乗誤差の場合には、判定回路 106により類似度計算回路 105が出力する二乗誤差の最小値が検出され、類似度の評価関数が相関関数の場合には、判定回路 106により類似度計算回路 105 力 S出力する相関関数の最大値が検出される。

[0153] パラメータ記憶回路 116は、判定回路 106が最高の類似度を検出した時の類似度の値と、 XIの先頭時刻と、 X2の先頭時刻とを記憶する。

(i+1番目の処理単位）次に i+1番目の処理単位においてポインタ制御回路 118が出力するポインタ 502_i+ 1と、ポインタ 503J+1とを基準として、 X2'に対する時間差を、 TLmin力も Tl_maxまで変化させつつ、 XI 'を取り込む。そして、 XI 'と、 X2'との類似度が類似度計算回路 105に算出される。

[0154] 判定回路 106による類似度の高い値の探索が行われ、その時の XI 'と X2'の時間差が TLopt'となる。判定回路 106が最高の類似度を検出した時の類似度の値と XI ' の先頭時刻と X2'の先頭時刻は、パラメータ記憶回路 116により記憶される。

G+2番目の処理単位）

i+2番目の処理単位においてポインタ制御回路 118が出力するポインタ 502_i+2とポインタ 503_i+2とを基準として同様の処理がなされる。

[0155] 判定回路 106により最高の類似度が検出されれば、その時の類似度の値と XI"の先頭時刻と X2"の先頭時刻とが、パラメータ記憶回路 116に記憶される。図 5の例ではこれで探索は終わる。

(類似度に基づくソーティング）

次にパラメータ選択回路 120が、パラメータ記憶回路に記憶されている潘目カも i+ 2番目の処理単位における類似度の高い値を比較し、類似度の高い方からセグメントの組を選択していく。そして出力信号の時間長が、入力信号の時間長に対して速度設定回路 115に設定された時間軸変換比 a (出力時間長/入力時間長）になるまで、パラメータ選択回路 120が (数 3)に基づいて、類似度の高いセグメントの組の選択を繰り返す。

[0156] 図 5の例では、セグメントの糸 1X1と X2および XI，と X2'の類似度が高ぐこれら 2つのセグメントの組の選択により（数 3)の条件が満足されるとパラメータ選択回路 120により判断され、パラメータ記憶回路 116における選択フラグがオンに設定される。

(重ね合わせ）

パラメータ記憶回路 116に記憶されて、るセグメントの先頭時刻に基づ!/、て、ボインタ値計算回路 117によりアドレス値が算出される。ポインタ制御回路 118が出力した 2つのセグメントに対応するアドレス値により、時間長 Tsの X2 (511)と XI (510)が記憶回路 101から読み出され、ノッファメモリ回路 104とバッファメモリ回路 103とに出力される。

[0157] 窓関数発生回路 107は、漸増する窓関数 512と漸減する窓関数 513とを出力し、乗算回路 110はバッファメモリ回路 103に蓄えられている XI (510)に対して窓関数発生回路 107が出力する漸増する窓関数 512を乗じて出力し、乗算回路 111はバッファメモリ回路 104に蓄えられている X2 (511)に対して窓関数発生回路 107が出力する漸減する窓関数 513を乗じて出力する。

[0158] 加算回路 112は乗算回路 110の出力と乗算回路 111の出力とを加算した加算結果 514を出力バッファ回路 114に出力する。そしてポインタ制御回路 118が XIに後続するサンプルを開始点とし、 X2 'の開始点直前のサンプルを終了点とする XO (51 6)を記憶回路 101から読み出し、出力バッファ回路 114に出力する。

次にパラメータ記憶回路 116に記憶されて、るセグメントの糸 1X1，と X2，のセグメントの先頭時刻に基づいて、ポインタ値計算回路 117によりアドレス値が求められ、ボインタ制御回路 118が出力した 2つのセグメントのアドレス値により、時間長 Tsの X2'と XI，とが記憶回路 101から読み出されて、ノッファメモリ回路 104とバッファメモリ回路 103とに出力される。

[0159] 窓関数発生回路 107は、漸増する窓関数 512と漸減する窓関数 513とを出力し、乗算回路 110はバッファメモリ回路 103に蓄えられている XI 'に対して窓関数発生回路 107が出力する漸増する窓関数 512を乗じて出力する。乗算回路 111はバッファメモリ回路 104に蓄えられている X2'に対して窓関数発生回路 107が出力する漸減する窓関数 513を乗じて出力し、加算回路 112は乗算回路 110の出力と乗算回路 1 11の出力とを加算した信号 517を出力バッファ回路 114に出力する。そしてポインタ制御回路 118が XI 'に後続するサンプルを開始点とし、 X2" (519)の開始点直前のサンプルを終了点とする X3 (518)と、 X2" (519)と、 X2" (519)に後続するサンプルを開始点とするオーディオデータ X4 (520)を記憶回路 101から読み出し、出カバッファ回路 114に出力する。

[0160] 上記処理を入力信号が終了するまで繰り返しても良いし、全入力信号に対して上記処理を 1回で施してしまっても良い。また、第 1実施形態に示した図 6の具体例に対して、本実施形態に係る変換装置が、時間軸圧縮 (時間軸変換比 a =2/3)を行う場合の動作例につ、て説明する。

G番目の処理単位）

記憶回路 101に記録されているオーディオデータに対して、潘目の処理単位を処理する場合をここでは想定している。この場合、ポインタ制御回路 118が出力するポインタ 602_iとポインタ 603_iを基準として、バッファメモリ回路 103とバッファメモリ回路 104とに、 Xl (l〜Ts)と X2 (l〜Ts)とが読み出される。 X2は、 604で示される XIに対して、 TLminだけ遅延する 607_minから TLmaxだけ遅延する 607_maxまで範囲に存在し得る。

[0161] TLmin力 TLmaxまで、 1サンプルずつ時間差を変化させながら、 X2を取り込んでゆく。そして XIとの類似度を類似度計算回路 105に求めさせる。こうして、 XIと、 X2 との類似度が算出されれば、判定回路 106により類似度の高い値の探索が行われる。その結果、得られた XIと X2の時間差を TLoptとする。類似度の評価関数が二乗誤差の場合には、判定回路 106は類似度計算回路 105が出力する二乗誤差の最小値を検出し、類似度の評価関数が相関関数の場合には、判定回路 106は類似度計算回路 105が出力する相関関数の最大値を検出する。こうして、最高の類似度が算出されれば、パラメータ記憶回路 116は、判定回路 106が最高の類似度を検出した時の類似度の値と XIの先頭時刻と X2の先頭時刻を記憶する。

(i+1番目の処理単位）

次に i+1番目の処理単位においてポインタ制御回路 118が出力するポインタ 602_i+ 1とポインタ 603_i+lを基準として、 X2 'を XI 'に対して遅延する時間差を、 TLminから TLmaxまで、 1サンプルずつ変えながら取り込み、 XI 'との類似度を類似度計算回路 105が求め、判定回路 106が類似度の高い値の探索を行い、その時の XI 'と X2 'の時間差は TLopt 'となり、ノメータ記憶回路 116は、判定回路 106が最高の類似度を検出した時の類似度の値と XI，の先頭時刻と X2'の先頭時刻を記憶する。

[0162]

G+2番目の処理単位）

さらに i+2番目の処理単位においてポインタ制御回路 118が出力するポインタ 602_i +2とポインタ 603_i+2を基準として同様の処理を行い、パラメータ記憶回路 116は、判定回路 106が最高の類似度を検出した時の類似度の値と XI"の先頭時刻と X2" の先頭時刻を記憶する。図 6の例ではこれで探索は終わり、次にパラメータ選択回路 120が、パラメータ記憶回路に記憶されている i番目カゝら i+2番目の処理単位における類似度の高い値を比較し、類似度の高い方力もセグメントの組を選択していく。そして出力信号の時間長が、入力信号の時間長に対して速度設定回路 115に設定された時間軸変換比 a (出力時間長/入力時間長）になるまで、パラメータ選択回路 120 が（数 4)に基づいて、類似度の高いセグメントの組の選択を繰り返す。

(類似度の判断）

図 6の例では、セグメントの糸 1X1と X2および XI 'と X2'の類似度が高ぐこれら 2つのセグメントの組の選択により（数 4)の条件が満足されるとパラメータ選択回路 120が判断し、ノメータ記憶回路 116に選択のフラグを立てる。そしてパラメータ記憶回路 116に記憶されて、るセグメントの先頭時刻に基づ、て、ポインタ値計算回路 117がアドレス値を求め、ポインタ制御回路 118が出力した 2つのセグメントに対応するアドレス値により、時間長 Tsの XI (610)と X2 (611)を記憶回路 101から読み出し、バッファメモリ回路 103とバッファメモリ回路 104とに出力する。

(XI, X2に対する重ねあわせ）

窓関数発生回路 107は、漸減する窓関数 612と漸増する窓関数 613とを出力し、乗算回路 110はバッファメモリ回路 103に蓄えられている XI (610)に対して窓関数発生回路 107が出力する漸減する窓関数 612を乗じて出力する。乗算回路 111はノッファメモリ回路 104に蓄えられている X2 (611)に対して窓関数発生回路 107が出力する漸増する窓関数 613を乗じて出力し、加算回路 112は乗算回路 110の出力と乗算回路 111の出力とを加算した信号 614を出力バッファ回路 114に出力する。そしてポインタ制御回路 118が X2に後続するサンプルを開始点とし、 XI 'の開始点直前のサンプルを終了点とする X0 (616)を記憶回路 101から読み出し、出力バッファ回路 114に出力する。

次にパラメータ記憶回路 116に記憶されているセグメントの糸 1X1，と X2，のセグメントの先頭時刻に基づいて、ポインタ値計算回路 117がアドレス値を求め、ポインタ制御回路 118が出力した 2つのセグメントのアドレス値により、時間長 Tsの XI，と X2 'を記憶回路 101から読み出し、バッファメモリ回路 103とバッファメモリ回路 104とに出力する。

(XI ' ,X2 'に対する重ねあわせ）

窓関数発生回路 107は、漸減する窓関数 612と漸増する窓関数 613とを出力し、乗算回路 110はバッファメモリ回路 103に蓄えられている XI 'に対して窓関数発生回路 107が出力する漸減する窓関数 612を乗じて出力する。乗算回路 111はバッファメモリ回路 104に蓄えられている X2'に対して窓関数発生回路 107が出力する漸増する窓関数 613を乗じて出力し、加算回路 112は乗算回路 110の出力と乗算回路 1 11の出力とを加算した信号 617を出力バッファ回路 114に出力する。そしてポインタ制御回路 118が X2'に後続するサンプルを開始点とするオーディオデータ X4 (618 )を記憶回路 101から読み出し、出力バッファ回路 114に出力する。

[0164] 上記処理を入力信号が終了するまで繰り返しても良いし、全入力信号に対して上記処理を 1回で施してしまっても良い。

以上のように本実施形態によれば、パラメータ記憶回路 116が判定回路 106の検出した最も類似度の高い時の類似度の値と XIの先頭時刻と X2の先頭時刻を記憶し、ノラメータ選択回路 120が、ノラメータ記憶回路 116に記憶されている複数の異なる時刻の処理単位における類似度の値を比較して、類似度の高、方カゝら順番にセグメントの組を選択する結果、入力信号のある範囲内における様々なセグメントの組み合わせの中から、類似度が高く重み付け加算するのに最適なセグメントの組を優先的に選択することができるので、音声欠落や音声重複が少なぐ音質劣化も少ないという効果がある。

[0165] また、パラメータ選択回路 120が、パラメータ記憶回路 116の記憶されている複数の異なる時刻に求めた高い類似度のセグメントの組の中から、さらに類似度の高い値を持つセグメントの組を、（数 3)もしくは (数 4)に基づいて所望の時間軸変換比 aが得られる組数だけ選択するので、所望の時間軸変換比 aに細かくかつ精度良く変えることができという効果もある。

[0166] ここで、類似度が高い値を持つセグメントの組は一般的に無音区間や母音の発生区間に偏在しているので、人間が発声速度を変える場合の速度の遷移に類似させることができると!/、う効果がある。

そして類似度計算回路 105は、類似度が高くなるセグメント間の時間差の決定と重み付け加算を行うセグメントの組の選択を、類似度と、う単一の評価尺度を用いて行うので、処理の複雑さや処理量を抑えることができると!/、う効果もある。

[0167] さらにパラメータ記憶回路 116に記憶されているパラメータに基づいて、ポインタ値計算回路 117がアドレスを計算し、記憶回路 101からバッファメモリ回路 103とバッファメモリ回路 104に類似度が高いセグメントの組 (XI, X2)を読み出すので、どのような場合でも加算回路 112の出力の時間長を一定の処理単位の時間長 Tsにでき、音質が低下しにく、と、う効果もある。

[0168] 以上のように本実施形態によれば、速度変換をノ、一ドウアで実現するので、かかるハードウェア構成の一部又は全部のパイプラインィ匕を実現することで、速度変換の高速ィ匕を図ることができる。

(第 3実施形態）

本実施形態は、第 1実施形態又は第 2実施形態に示した音声再生のための変換装置を、映像及び音声の再生を行う再生装置に組込む場合の改良に関する。

[0169] 図 21は、第 3実施形態に係る変換装置が組込まれる再生装置の内部構成を示す図であり、本図に示すように、本実施形態に係る再生装置は、記憶回路 1、映像音声分離回路 2、映像復号回路 3、音声復号回路 4、音声速度変換装置 5、映像速度変換装置 8、制御回路 9、速度設定回路 115から構成される。

映像速度変換装置 8は速度設定回路 115から出力された時間軸変換比 aに基づいて、映像復号回路 3から出力された映像信号に対して速度変換処理を施す。映像速度変換は、時間軸変換比 a〉1の時間軸伸張の場合には映像フレームを繰り返して（フリーズして）出力し、時間軸変換比 aく 1の時間軸圧縮の場合には映像フレームを飛ばして (スキップして）出力することにより実現できる。特に時間軸圧縮の場合には、 B-pictureをスキップするようにして、映像復号回路 3での B- pictureの復号処理を省略することができる。映像速度変換装置 8での速度変換処理は、速度変換処理後の映像の動きが滑らかになるように、ほぼ均等に (線形に）映像フレームのフリーズ/ スキップが実施される。

[0170] 音声速度変換装置 5は、第 2実施形態に示したものであり、速度設定回路 115から出力された時間軸変換比 aに基づいて、音声復号回路 4から出力されたオーディオデータに対して速度変換処理を施す。音声速度変換装置 5での速度変換処理は、類似度の高いセグメントの組が優先的に選択されて重み付け加算されるため、主に無音区間や有音区間が伸張/圧縮される結果、非線形に速度が変わる。

[0171] 制御回路 9は、記憶回路 1に対して所望のデータを出力させるためのアドレスを出力し、映像音声分離回路 2に対してビデオデータを分離抽出するための映像識別番号とオーディオデータを分離抽出するための音声識別番号を出力し、映像復号回路 3に対して通常再生や特殊再生などの映像復号制御信号を出力する。映像速度変換装置 8に対しては、速度変換処理の開始/停止などの映像速度変換制御信号を出力し、音声復号回路 4に対して通常再生や特殊再生などの音声復号制御信号を出力し、音声速度変換装置 5に対して速度変換処理の開始/停止などの音声速度変換制御信号を出力する。

[0172] 速度設定回路 115は映像速度変換装置 8と音声速度変換装置 5と制御回路 9に所望の時間軸変換比 aの情報を出力する。

以上のように本実施形態によれば、映像速度変換装置 8が時間軸に対してほぼ均一に、つまり、線形に時間軸変換比 αで映像信号に速度変換処理を行い、音声速度変換装置 5が時間軸に対して不均一に、つまり、非線形に、時間軸変換比 αでォ一ディォデータに速度変換処理を行う結果、映像信号には簡単な処理でガクガクしない滑らかな速度変換処理を施すことができ、オーディオデータには、人間が発声速度を変える場合の速度遷移に類似した自然な速度変換を施すことができる。

[0173] さらに映像と音声の同期は途中でずれることはあるものの、音声速度変換装置 5は非線形であるが正確に時間軸変換比 αで速度変換を行うので、少なくとも最後には映像と音声の同期を一致させることができるという効果がある。

また、音声速度変換装置 5は第 1実施形態で示したように、所定の時間範囲 Tr毎に区切って処理を行うので、少なくとも時間 Tr毎には映像と音声の同期を一致させることができるという効果がある。 (第 4実施形態）

本実施形態は、第 1実施形態及び第 2実施形態に示した再生装置が、速度変換を実行するにあたっての時間範囲 Trの設定や、変換比率 αの設定を、ユーザからの G UI操作に基づき実行するための改良に関する。本実施形態に係る再生装置は、図 2 2に示すようなセットアップメニューを表示し、これを通じて、速度変換のための指定を受け付ける。

[0174] 図 22は、速度変換のためのセットアップメニューの一例を示す図である。

本メニューは、スライドバー wdl、ウィンドウ wd2、スタート点/エンド点ボタン wd3,wd4 、時間範囲 Trナビ wd5,wd6、数値欄 nml、再生ボタン nm2、キャンセルボタン nm3といつた GUI部品からなる。

スライドバー wdlは、スタート点 Zエンド点の位置決め操作を、ユーザから受け付ける GUI部品である。リモコンの左右キーを押下することで、スライドバーをガイド上に左右に移動させ、そのガイドにおけるスライドバーの位置を、映像信号上の位置に変換することによりこの位置決め操作はなされる。速度変換の対象が 2時間の映像信号であり、スライドバーがガイドの真ん中あたりに存在しているのなら、映像信号先頭から 1 時間経過後の位置が指示されることになる。

[0175] ウィンドウ wd2は、映像信号のうち、スライドバーにて指示されている位置の映像が表示される。スライドバーに対する位置決め操作と、ウィンドウ wd2によるフィードバックとにより、スタート点 Zエンド点になるべき位置の微調整が可能になる。

スタート点 Zエンド点ボタン wd3,wd4は、ガイドにおけるスライドバーの位置を、スタート点 Zエンド点として確定する GUI部品である。スタート点 Zエンド点ボタンに対する押下で時間範囲 Trのスタート点と、時間範囲 Trのエンド点とが確定されれば時間範囲 Trが生成されたことになる。

[0176] 時間範囲 Trナビ wd5,wd6は、スライドバーによる位置決めと、スタート点 Zエンド点ボタンに対する確定操作とで生成された時間範囲 Trを視覚的に表現するものであり、時間範囲 Trのスタート点に位置する映像のサムネール、及び、エンド点に位置する映像のサムネールにより時間範囲 Trを表す。

数値欄應1は、時間軸の比率 αの数値入力を受け付ける。この操作は、数値欄に 1 〜200の数値を入力することによりなされる。

[0177] 再生ボタン nm2は、上述したように設定された時間範囲 Trと、数値 aとに基づき速度変換を行い、その変換結果たる音声を、映像と共に再生する旨の指示を受け付けるボタンである。

キャンセルボタン nm3は、本メニューに対する設定を中止する操作を受け付けるボタンである

かかるメニューは、 OSD(On Screen Display)グラフィクスや BML(Broadcast Markup Languege)を用いて記述される。再生装置は、力かるメニューを再生映像に合成して、力かるメニューに対する操作に従い、時間範囲 Trや比率 αを設定した上で、変換装置に速度変換を行わせる。

[0178] 以上のように本実施形態によれば、速度変換の対象となる時間範囲 Trを、再生時間軸上の何処に定める力、そしてその際の比率 αを、どのような値にすべきかという調整が、対話的になされるので、速度変換の変換結果として得られる音声を、より聴きやすいものにすることができる。

(第 5実施形態）

第 1実施形態、第 2実施形態では、各セグメントの組みに対して類似度を算出して、この類似度に基づき、セグメントの組みの順位付けを行なったが、本実施形態は、このセグメントの組みの順位付けを省く改良を提案する。この順位付けの代わりに、本実施形態では、類似度の閾値を導入する。具体的にいうと、図 7、図 8のフローチヤ一ト、図 12、図 13のフローチャートにおいて、 XI、 Χ2のどちらかが基準に設定されて、時間間隔 A Tdだけ移動した際、これを基準にして、 TLmaxカゝら TLminの範囲において、他方のセグメントを移動させる。そして、セグメントの移動点のそれぞれにおいて、この XI、 X2の組みに対する類似度を算出する。そうして類似度が算出されれば、算出された類似度がこの閾値よりも低いかどうかを判定する。そして低いと判定された場合、かかる XI、 X2のセグメントの組みを重ね合わせの対象にし、その後、基準セグメントを移動させる。つまり、 TLmax力も Tljninの範囲の中で補助セグメントを移動させた場合に、最も類似度が高くなる X2を、選択するのではなぐ補助セグメントの移動にあたって、その類似度が初めて閾値を上回るものが発見され次第、類似度の最小値の探索を打ち切り、選択の対象とするのである。

以上は、類似度に最小 2乗誤差を採用した場合の処理であるが、類似度に相関関数を採用した場合は、類似度が閾値より高いかどうかが判定の対象になる。

力かる重ね合わせにあたって、セグメントの時間差の累計をとる。かかる累計が数 3 、数 4に示される条件を満たす限り、同様の処理を繰り返す。そして、この累計が、数 3、数 4の左辺に示す目標値時間長を超えた時点で、重ね合わせを終了する。つまり、第 1実施形態では、数 3、数 4を満たすセグメントの組みを選択することで、類似度が高、順にセグメントの組みを順位付けした上、そうして選択したセグメントの組みを、再生時間軸に従い、出力していったが、本実施形態では、そうした順位付けを省き、数 3、数 4を満たす限り、重ね合わせを実行していることがわかる。このような速度変換を行うことで、速度変換のリアルタイム実行が現実的になり、速度変換を、一般の家電機器に組込むことが、現実的になる。

<備考 >

以上、本願の出願時点において、出願人が知り得る最良の実施形態について説明したが、以下に示す技術的トピックについては、更なる改良や変更実施を加えることができる。各実施形態に示した通り実施する力、これらの改良'変更を施すか否かは、何れも任意的であり、実施する者の主観によることは留意されたい。

(時間範囲 Tr)

ユーザにより指定された時間範囲 Trは、プレイリストを構成する再生区間として、指定されたものであってもよい。変換装置による速度変換は、このプレイリスト作成の際実行され、トリック再生用のオーディオデータを作成してもよ、。

(リアルタイム記録への発展）

オーディオデータ全体に対して、類似度が上位となる組みを選ぶとヽぅ処理を前提にしたため、オーディオデータが記憶回路内に存在することを必要とした力セグメント対象の範囲を、オーディオデータの一部に狭めるならば、オーディオデータの記録途中でも、又は、オーディオデータの再生の途中でも、本発明による速度変換を実行することが可能になる。

(オリジナルのオーディオデータとの対応付け）速度変換の結果であるトリック再生用のオーディオデータは、オリジナルオーディオデータと多重化した上で、記録媒体に記録するのが望ましい。また、プレイリスト情報のメインパス情報にオリジナルオーディオデータを指定させ、サブパス情報にトリック再生用のオーディオデータを指定させることで、これらが、 1つの再生パスを構成するようにしてもよい。

(ォーサリング技術への発展）

本発明に力かる速度変換を、ォーサリングシステムにおいて実行してもよい。そして、そうして速度変換により得られたオーディオストリームを、映画作品の副音声として、

DVDや BD-ROMに記録して、ユーザに頒布してもよい。こうすることで、再生装置は、 DVDや BD-ROMに記録された映画作品をトリック再生する際、速度変換により得られたオーディオストリームを副音声として選択することで、本発明の速度変換により得られたオーディオストリームを再生させることができる。これによりユーザは、映画作品のトリック再生時において、聴きやすいきれいな音声で、映画作品の内容を短区間に理解することができる。

(音声要約の発展）

要約音声を作成するという技術に、本発明にかかる速度変換を応用してもよい。具体的にいうと、 α力 %、 10%等短い値に設定されたオーディオデータを、要約音声として、第 3実施形態に示したメニューを用いて予め作成しておく。そして複数の動画像のサムネールが一覧表示されているようなプログラムナビの GUIにおいて、ある動画像のサムネールがセレクテッド状態になった際、力かる要約音声を再生するのである。こうするとユーザは、今セレクテッド状態になっている動画像力どのような内容のものであるかを、短時間に知ることができ、その動画像を再生するかどうかの判断を好適に行うことができる。

(類似度を求める評価尺度）

第 1実施形態に示した図 8のフローチャートにおけるステップ S709、図 13のフローチャートにおけるステップ S809は、類似度を求める評価尺度として、（数 1)に示した正規ィ匕していない二乗誤差の小ささや、（数 2)に示した正規ィ匕していない相関関数の大きさを用いたが、正規化した二乗誤差の小ささや、正規ィ匕した相関関数の大きさを用いることもできる。この場合には、演算量が増加するが、オーディオデータの振幅の大きさに依存しない評価尺度となるので、オーディオデータの振幅に影響されずに類似度を求めることができ、音質改善が期待できる。

(オーディオデータの出力 Y (n)の時間長）

第 1実施形態に示した図 10のフローチャートにおけるステップ S743、図 15のフロ一チャートにおけるステップ S843では、（数 5)に基づいて XI (n)と X2 (n)とを重み付け加算した固定時間長 Tsの信号 Y (n)を出力しているが、重み付け加算したオーディォデータの出力 Υ (η)の時間長を可変にしても良い。この場合には、例えば類似度の高い、 2つのセグメント間の時間差 T1— optが処理単位の時間長 Tsよりも短い場合に、重み付け加算長を TLoptにすることで、不必要な重み付け加算を減らすことができ、演算量の削減と音質の改善、または時間軸圧縮の場合の時間軸変換比 aをより小さ V、値に設定できることが期待できる。

(選択対象）

第 1実施形態に示した図 7のフローチャートにおけるステップ S703からステップ S7 21では、図 12のフローチャートにおけるステップ S803からステップ S821では、スタ一ト点カもエンド点まで時間 ATd毎に最も高い類似度 R (j) (ここで j: 0〜i)を 1度に求め、図 9におけるステップ S722力ら 736では、図 14におけるステップ S822力ら 836 では、それを 1度に比較して類似度の高い方力順に選択している力例えば所定の時間範囲 Tr毎に区切って行っても良い。この場合には、図 7におけるステップ S715 力ステップ S718、図 12におけるステップ S815からステップ S818において必要な記憶容量を小さくできるだけでなぐ複数文章を含む長さ毎に区切って実行することにより、スタート点力エンド点までの途中で所望の時間軸変換比 α力のずれが大きくなることが防がれるば力りでなぐ文間の無音区間を含めて効率的に時間軸伸張できる。

(周期の時間）

第 1実施形態に示した図 7のフローチャートにおけるステップ S719、図 12のフローチャートにおけるステップ S819では、高い類似度 R (TLopt)を求める周期の時間 ΔΤ dは一定であるが、可変でも良い。この場合には、例えば類似度が高くなるセグメント間の時間差 TLoptが短い時には、時間 ATdも短くすることにより、重み付け加算したオーディオデータの出力の周期を短くすることができ、結果として時間軸変換比 aの範囲を広げることができる。

(選択対象）

第 1実施形態に示した図 9のフローチャートにおけるステップ S736、図 14のフローチャートにおけるステップ S836では、所定に時間軸変換比 aになるまで類似度の高 V、セグメントの組を選択して、るが、一定の閾値よりも類似度が高、セグメントの組を選択しても良い。この場合には、入力信号の性質に応じて一定の品質で音声速度変換処理が可能になる。

(オーディオデータの読み込み単位）

第 1実施形態に示した図 8のフローチャートにおけるステップ S707、 S708、図 13 のフローチャートにおけるステップ S807、 S808では、オーディオデータを処理単位の時間長 Ts単位で読み込んで、るが、もっと大き!/、処理単位毎に読み込んでも良!ヽ。例えば、図 7におけるステップ S700からステップ S721や、図 13におけるステップ S 800からステップ S821で使うオーディオデータを 1度に読み込んでしまっても良い。この場合には、最初にオーディオデータを読み込むための記憶容量は必要になるが、あとはポインタの移動だけでセグメントの読み込み処理を済ませることができるので、重複の多いオーディオデータの読み込み処理の無駄を省くことができ、処理を効率的かつ高速に行えるようになる。

(評価尺度）

本実施の形態の類似度計算回路 105における評価尺度として、正規ィ匕していない二乗誤差の小ささや、正規ィ匕していない相関関数の大きさを用いたが、正規化した二乗誤差の小ささや、正規ィ匕した相関関数の大きさを用いることもできる。この場合には、演算量が増加するが、オーディオデータの振幅の大きさに依存しない評価尺度となるので、オーディオデータの振幅に影響されずに類似度を求めることができ、音質改善が期待できる。

(処理単位の大きさ）

第 2実施形態の図 17において、ノッファメモリ回路 103とバッファメモリ回路 104では、オーディオデータを処理単位の時間長 Ts単位で記憶回路 101から読み込んでいるが、もっと大きい処理単位毎に読み込んでも良い。例えば図 5における時間軸伸張の場合には、 504_maxの開始点から 509の終了点までを、図 6に示す時間軸圧縮の場合には、 604の開始点から 609_maxの終了点までを、バッファメモリ回路 103とノッファメモリ回路 104に読み込んでしまうことにより、異なる時刻において、 2つのセグメント間の時間差を変えながら類似度を求める時と、パラメータ選択回路 120により選択された 2つのセグメントを重み付け加算する時に、記憶回路 101へのアクセスをしないようにできる。この場合には、記憶回路 101からバッファメモリ回路 103とバッファメモリ回路 104への転送回数が少なくて済むので、処理時間を短縮することが可能となる。

[0182] (システム LSIィ匕）

第 1実施形態において図 1に示した再生装置及び変換装置の内部構成や、第 2実施形態において、図 17に示した変換装置の内部構成、第 3実施形態において、図 2 1に示した再生装置の内部構成は、 1つのシステム LSIとして構成してもよ、。

システム LSIとは、高密度基板上にベアチップを実装し、ノッケージングしたものをいう。複数個のベアチップを高密度基板上に実装し、ノッケージングすることにより、あたカゝも 1つの LSIのような外形構造を複数個のベアチップに持たせたものも、システム LSIに含まれる (このようなシステム LSIは、マルチチップモジュールと呼ばれる。；)。

[0183] ここでパッケージの種別に着目するとシステム LSIには、 QFP (タッドフラッドアレイ）、 PGA (ピングリッドアレイ)という種別がある。 QFPは、パッケージの四側面にピンが取り付けられたシステム LSIである。 PGAは、底面全体に、多くのピンが取り付けられたシステム LSIである。

これらのピンは、他の回路とのインターフェイスとしての役割を担っている。システム LSIにおけるピンには、こうしたインターフェイスの役割が存在するので、システム LSI におけるこれらのピンに、他の回路を接続することにより、システム LSIは、再生装置の中核としての役割を果たす。

[0184] 力かるシステム LSIは、再生装置は勿論のこと、 TVやゲーム、パソコン、ワンセグ携帯等、映像再生を扱う様々な機器に組込みが可能であり、本発明の用途を多いに広げることができる。

図 23は、第 3実施形態に示した再生装置の内部構成を組込んだシステム LSIを模式的に示す図である。

[0185] 具体的な生産手順の詳細は以下のものになる。まず各実施形態に示した構成図を基に、システム LSIとすべき部分の回路図を作成し、回路素子や IC,LSIを用いて、構成図における構成要素を具現化する。

そうして、各構成要素を具現化してゆけば、回路素子や IC,LSI間を接続するバスやその周辺回路、外部とのインターフェイス等を規定する。更には、接続線、電源ライン、グランドライン、クロック信号線等も規定してゆく。この規定にあたって、 LSIのスぺックを考慮して各構成要素の動作タイミングを調整したり、各構成要素に必要なバンド幅を保証する等の調整を加えながら、回路図を完成させてゆく。

[0186] 各実施形態の内部構成のうち、一般的な部分については、既存の回路パターンを定義した Intellectual Propertyを組み合わせて設計するのが望ましい。特徴的な部分につ、ては、 HDLを用いた抽象度が高!、動作レベルを記述やレジスタトランスファレベルでの記述を用いてトップダウン設計を行うのが望まし!/、。

回路図が完成すれば、実装設計を行う。実装設計とは、回路設計によって作成された回路図上の部品 (回路素子や IC,LSI)を基板上のどこへ配置するか、あるいは、回路図上の接続線を、基板上にどのように配線するかを決定する基板レイアウトの作成作業である。

[0187] こうして実装設計が行われ、基板上のレイアウトが確定すれば、実装設計結果を CA Mデータに変換して、 NC工作機械等の設備に出力する。 NC工作機械は、この CAM データを基に、 SoC実装や SiP実装を行う。 SoC(System on chip)実装とは、 1チップ上に複数の回路を焼き付ける技術である。 SiP(System in Package)実装とは、複数チップを榭脂等で 1パッケージにする技術である。以上の過程を経て、本発明に係るシステム LSIは、各実施形態に示した再生装置の内部構成図を基に作ることができる。図 24は、こうして作られたシステム LSIを、機器内に組み込んだ状態を示す図である。

[0188] 尚、上述のようにして生成される集積回路は、集積度の違いにより、 IC、 LSI,スーパ -LSI,ウノレ卜ラ LSIと呼称されることちある。 FPGAを用いてシステム LSIを実現した場合は、多数のロジックエレメントが格子状に配置されており、 LUT(Look Up Table)に記載されている入出力の組合せに基づき、縦'横の配線をつなぐことにより、各実施形態に示したノヽードウエア構成を実現することができる。 LUTは、 SRAMに記憶されており、力かる SRAMの内容は、電源断により消滅するので、力かる FPGAの利用時には、コンフイダ情報の定義により、各実施形態に示したハードウェア構成を実現する LUTを、 SRAMに書き込むませる必要がある。更に、デコーダを内蔵した映像復調回路は、積和演算機能を内蔵した DSPで実現するのが望ましい。

(アーキテクチャ）

本発明に力かるシステム LSIは、再生装置の機能を実現するものなので、システムし SIは、 Uniphierアーキテクチャに準拠させるのが望まし、。

[0189] Uniphierアーキテクチャに準拠したシステム LSIは、以下の回路ブロックから構成される。

•データ並列プロセッサ DPP

これは、複数の要素プロセッサが同一動作する SIMD型プロセッサであり、各要素プ口セッサに内蔵されている演算器を、 1つの命令で同時動作させることで、ピクチャを構成する複数画素に対するデコード処理の並列化を図る。

[0190] 特に、第 2実施形態に示した比較回路 402に SIMDプロセッサを採用して、 Ts個のセグメントの組みを、類似度が高い順に並べる処理を、並列化すれば、速度変換のリアルタイム処理が可能になる。速度変換をハードウェアで再生装置に実装する場合は、変換装置のアーキテクチャの改良次第で、リアルタイムに速度変換を実現することがでさる。

•命令並列プロセッサ IPP

これは、命令 RAM、命令キャッシュ、データ RAM、データキャッシュからなる「Local Memory Contoroller」、命令フェッチ部、デコーダ、実行ユニット、レジスタファイルからなる「Processing Unit部」、複数アプリケーションの並列実行を Processing Unit部に行わせる「Virtual Multi Processor Unit部」で構成される。

[0191] 'CPUブロックこれは、 ARMコア、外部バスインターフェイス (Bus Control Unit:BCU)、 DMAコント口ーラ、タイマー、ベクタ割込コントローラといった周辺回路、 UART、 GPIO(General Pur pose Input Output),同期シリアルインターフェイスなどの周辺インターフェイスで構成される。先に述べたコントローラは、この CPUブロックとしてシステム LSIに実装される。

[0192] ·ストリーム I/Oブロック

これは、 USBインターフェイスや ATA Packetインターフェイスを介して、外部バス上に接続されたドライブ装置、ハードディスクドライブ装置、 SDメモリカードドライブ装置とのデータ入出力を行う。

•AVI/0ブロック

これは、オーディオ入出力、ビデオ入出力、 OSDコントローラで構成され、テレビ、 A Vアンプとのデータ入出力を行う。

[0193] 'メモリ制御ブロック

これは、外部バスを介して接続された SD- RAMの読み書きを実現するブロックであり、各ブロック間の内部接続を制御する内部バス接続部、システム LSI外部に接続された SD- RAMとのデータ転送を行うアクセス制御部、各ブロックからの SD- RAMのァクセス要求を調整するアクセススケジュール部力もなる。

(本発明に係るプログラムの生産形態）

本発明に係るプログラムは、コンピュータが実行することができる実行形式のプログラム (オブジェクトプログラム)であり、実施形態に示したフローチャートの各ステップや、機能的構成要素の個々の手順を、コンピュータに実行させるような 1つ以上のプログラムコードから構成される。ここでプログラムコードは、プロセッサのネイティブコード、 JAVA (登録商標)バイトコードというように、様々な種類がある。

[0194] 本発明に力かるプログラムは、以下のようにして作ることができる。先ず初めに、ソフトウエア開発者は、プログラミング言語を用いて、各フローチャートや、機能的な構成要素を実現するようなソースプログラムを記述する。この記述にあたって、ソフトウェア開発者は、プログラミング言語の構文に従い、クラス構造体や変数、配列変数、外部関数のコールを用いて、各フローチャートや、機能的な構成要素を具現するソースプログラムを記述する。 [0195] 記述されたソースプログラムは、ファイルとしてコンパイラに与えられる。コンパイラは、これらのソースプログラムを翻訳してオブジェクトプログラムを生成する。

オブジェクトプログラムが生成されるとプログラマはこれらに対してリンカを起動する。リンカはこれらのオブジェクトプログラムや、関連するライブラリプログラムをメモリ空間に割り当て、これらを 1つに結合して、ロードモジュールを生成する。こうして生成されるロードモジュールは、コンピュータによる読み出しを前提にしたものであり、各フロ一チャートに示した処理手順や機能的な構成要素の処理手順を、コンピュータに実行させるものである。以上の処理を経て、本発明に係るプログラムを作ることができる

(プログラムの実行時間）

プログラムコードにおいて、一命令の実行区間が、命令のフェッチ区間に等しい場合、フローチャートに示される手順の実行に必要な命令数を実効ステップ数 Taとすると、 MPUにおける命令語長のワード数やフェッチ単位のワード数から、本発明にかかるプログラムの処理区間が与えられる。具体的には、以下の式にて算出される。実効ステップ数 Ta Xフェッチサイクル X (命令語長のワード数/フェッチ単位のワード数）

第 1実施形態に示した MPU力本発明に力かるプログラムをパイプラインで実行しようとする場合、そのパイプラインの深さが D、ピッチが P秒であるなら、本発明にかかるプログラムの実行には、（D + Ta— 1) X P秒になるので、本発明に力かるプログラムをリアルタイムに実行できるかどうかは、当該時間に基づき、検証すべきである。

[0196] リアルタイム処理を実現する場合、かかる処理時間を考慮しつつ、装置の動作クロックや、メモリの規模を決定するのが望ましい。

(並列化）

本発明に力かるプログラムのうち、並列処理が可能な部分と、逐次処理が必要な部分との比率が F:l—Fであると仮定する。

[0197] そして、本発明に力かるプログラムの処理時間が時間 Aであるから、これを n個のプ口セッサで同時に実行する場合、本発明に力かる処理時間 Bは、アムダールの法則により、

時間 =八 /!1 +八（1ー？)になる。

これら n個のプロセッサに、速度変換を実行させるには、時間範囲 Trを、このプロセッサ数 nで分割すると共に、（数 3)、（数 4)に示した目標値時間長を、 nで分割して、 n個のプロセッサにこれらに対する速度変換を同時実行させるのが望ましい。

[0198] 力かる並列化を行う制御部は、主記憶を共有し合う複数の MPU力なる密結合のマルチプロセッサシステムであってもよい。また、バス、通信回線を共有する複数の M PUからなる粗結合のマルチプロセッサシステムであってもよい。

(リアノレタイム OS)

本発明に力かるプログラムは、リアルタイム OS(RTOS)上で動作させるのが望ましヽ。リアルタイム OSでは、最悪実行時間の予測が可能であるので、上述したようなリアルタイム化が現実的になるとの利点がある。

[0199] リアルタイム OSは、カーネル、デバイスドライバから構成される。

カーネルは、システムコール処理、割込信号により割込ハンドラを起動するハンドラ入口処理、割込ハンドラの出口処理を行う。

デバイスドライバは、ハードウェア的な割込み信号により起動する「割込ハンドラ部」と、「割込タスク部」、「リクエスト処理部」から構成される。デバイスドライバは、システムコールの形で実現してもよいし、アプリケーションタスクの形で実現してもよい。システムコールの形で実現した場合、デバイスドライバは、システムのメモリ空間にマツピングされ、特権モードで動作することになる。

[0200] 各図のソフトウェア的な構成要素を、 RTOS上のタスクとして実装して、動作させること力リアルタイム処理の実現につながる。

産業上の利用可能性

[0201] 本発明に係る再生装置は、上記実施形態に内部構成が開示されており、この内部構成に基づき量産することが明らかなので、資質において工業上利用することができる。そして、音声の基本周波数を変えずに継続時間長のみを変えることができ、速度を変えても明瞭度が下がりにくいので、ディスク媒体や半導体メモリに記録された音声信号を、使用者が聞き易い速度や聞きたい速度で再生することが必要な用途に適用できるので、 DVD士 Rプレーヤ、 DVD士 Rレコーダ、ハードディスクレコーダ、放送受像機あるいは半導体メモリを用いたビデオレコーダなどの製品分野の開発に適用する事ができる。

Claims

請求の範囲

[1] 変換装置であって、

オリジナルのオーディオデータを構成する複数セグメントのうち一部のものの再生期間を、他のセグメントの再生期間と重ね合わせるセグメント処理手段と、

重ね合わせの対象になったセグメントの組みと、当該重ね合わせの対象にならなかつたセグメントとを、時系列に並べることで、変換結果となるオーディオデータを生成する生成手段とを備え、

前記重ね合わせの対象になったセグメントの組みと、当該重ね合わせの対象にならな力つたセグメントとは、オリジナルのオーディオデータの時間軸において、非線形な関係にある

ことを特徴とする変換装置。

[2] 前記変換装置は、

オリジナルのオーディオデータを構成するセグメントの組合せを複数生成して、個々の組合せについて、類似度を算出する算出手段を備え、

前記重ね合わせの対象となるセグメントの組みは、

複数セグメントの組合せのうち、算出手段により算出された類似度の高さが上位となるものであり、

前記重ね合わせの対象にならな力つたセグメントは、

複数セグメントの組合せのうち、算出手段により算出された類似度の高さが上位にならなかったものである

ことを特徴とする請求項 1記載の変換装置。

[3] 前記変換装置は、

重ね合わせの対象となるセグメントの組みをオーディオデータ力選択する選択手段を備え、

選択手段は、 1つ選択して、その度に、その組みにおけるセグメント間の時間差の累計をとり、

重ね合わせの対象となるセグメントの組みは、

当該時間差の累計値が、目標時間長を越えないことを条件として、選択手段がセグメントの組みの選択を繰り返すことで選ばれる

ことを特徴とする請求項 2記載の変換装置。

[4] 元のオーディオデータの時間長と、目標時間長との比率を αとした場合、

前記変換が圧縮である場合の目標時間長は、オーディオデータの時間長 X (1— α )であり、

前記変換が伸長である場合の目標時間長は、オーディオデータの時間長 X ( α— 1)である

ことを特徴とする請求項 3記載の変換装置。

[5] 重ね合わせの対象となるセグメントの組みのそれぞれは、基準セグメント、補助セグメントからなり、

基準セグメントは、オーディオデータのスタート点からエンド点まで、ある時間間隔置きに存在する複数のセグメントの中のどれかであり、

補助セグメントは、基準セグメントの位置を基準にして最大遅延時間だけ隔てられた時点から、最小遅延時間だけ隔てられた時点までに存在する複数のセグメントのどれかであり、

前記時間間隔とは、最小遅延時間を上回る時間長である、請求項 2記載の変換装置。

[6] 最小遅延時間は入力信号の最短周期の近傍の値であり、最大遅延時間は、入力信号の最長周期の近傍の値であり、

基準セグメントの時間長が最小遅延時間と最大遅延時間の中間値であり、かつ基準セグメントから最大遅延時間だけ隔てた位置に補助セグメントが配された場合、基準セグメントと補助セグメントとにはギャップが生じ、

基準セグメントの時間長が最小遅延時間と最大遅延時間の中間値であり、かつ基準セグメントから最小遅延時間だけ隔てた位置に補助セグメントが配された場合、基準セグメントと補助セグメントとにはオーバーラップが生じる、ことを特徴とする請求項 5記載の変換装置。

[7] 速度変換が時間圧縮である場合、補助セグメントは、再生時間軸において基準セグメントより後に位置し、前記変換が伸長である場合、補助セグメントは、再生時間軸において基準セグメントより前に位置する、ことを特徴とする請求項 2記載の変換装置。

前記変換装置は、音声用の変換装置として映像及び音声の再生出力を行う再生装置に組み込まれ、

再生装置は、映像再生の速度変換を行う映像用の変換装置を備え、

映像用の変換装置は、

ビデオデータを構成する複数のフレームのうち、一部をフリーズ又はスキップしつつ出力することで、速度変換を行う

ことを特徴とする請求項 1記載の変換装置。