TWI493541B

TWI493541B - 用以操縱包含暫態事件的音訊信號之裝置、方法和電腦程式

Info

Publication number: TWI493541B
Application number: TW099100653A
Authority: TW
Inventors: Frederik Nagel; Andreas Walther; Guillaume Fuchs; Jeremie Lecomte; Harald Popp; Tilo Wik
Original assignee: Fraunhofer Ges Forschung
Priority date: 2009-01-30
Filing date: 2010-01-12
Publication date: 2015-07-21
Also published as: AU2010209943A1; JP5325307B2; RU2543309C2; KR101317479B1; KR20110119745A; EP2214165A2; CN102341847A; BRPI1005311A2; HK1162080A1; US9230557B2; RU2011133694A; EP2392004A2; EP2214165A3; WO2010086194A2; TW201103009A; CN102341847B; CA2751205A1; ES2566927T3; BRPI1005311B1; AU2010209943B2

Description

用以操縱包含暫態事件的音訊信號之裝置、方法和電腦程式

本發明係有關於用以操縱包含暫態事件的音訊信號之裝置、方法和電腦程式。

發明背景

依據本發明之實施例有關於用以操縱包含暫態事件的音訊信號的一裝置、一方法和一電腦程式。在下文中，典型的應用情景將被描述，其中依據本發明的實施例可被應用。

在現行的音訊信號處理系統中，音訊信號時常使用數位技術來被處理。例如，特定信號部分，諸如暫態部分，對數位信號處理有特定的要求。

暫態事件(或「暫態」)是一信號中的事件，在該等事件期間，整個頻帶或某一頻率範圍內的信號的能量快速變化，即其能量快速增加或快速降低。特定暫態(暫態事件)的特徵可在頻譜中的信號能量分佈中得出。典型地，一暫態事件期間的音訊信號的能量在整個頻率範圍內分佈，而在非暫態信號部分中，能量在正常情況下集中在音訊信號的一低頻部分中或集中在一個或一個以上特定頻帶中。此意味著一非暫態信號部分，亦稱為一穩態或「音調」信號部分，具有一非平頻譜。此外，暫態信號部分的頻譜通常是無序的且「不可預測的」(例如，當在知曉暫態信號部分之前的一信號部分的一頻譜時)。換言之，信號的能量包括在相對較少的頻譜線或頻譜帶中，其等被強烈加重而超越一音訊信號的一雜訊基準。但是在一暫態部分中，音訊信號的能量將在許多不同的頻帶內分佈且尤其將在一高頻部分中分佈以致於音訊信號的暫態部分的一頻譜將相對較平坦且通常將比音訊信號的一音調部分的一頻譜平坦。然而，應指出的是，存在有具有一平坦頻譜的其他類型的信號，例如，像不表示一暫態的類雜訊信號。然而，儘管類雜訊信號的頻譜分格具有不相關或弱相關相位值，但是一暫態中頻譜分格通常存在有一非常顯著的相位相關性。

典型地，一暫態事件是音訊信號的一時域表示中的一強烈變化，其意味著在執行一傅立葉分解時信號將包括許多較高頻成分。此等許多較高次諧波的一重要特徵是此等較高次諧波的相位具有極其特定的相互關係，以致於所有這些諧波的疊加將使信號能量產生快速變化(當在時域中考慮時)。換言之，一暫態事件附近的頻譜存在有一強關聯性。所有諧波中的特定的相位情況還可被稱為「垂直相干性」。此「垂直相干性」有關於信號的一時間/頻率譜圖表示，其中一水平方向與信號隨著時間的演進相對應且其中一垂直維度描述隨著頻率之一短時間頻譜中對頻譜成分的頻率的相依性。

例如，若變化在大時域範圍內執行，例如，藉由量子化方式，則該等變化將影響整個區塊。因為暫態藉由能量中的一短期增加被特徵化，所以當該區塊變化時，此能量可能將在該區塊所表示的整個區域內被塗抹開。

當一信號的再現速度變化而音高維持不變時或當信號被轉置而原始的再現持續時間維持不變時，問題亦變得尤為明顯。使用一相位語音編碼器或諸如(P)SOLA的一方法(參見關於此問題的參考文獻[A1]至[A4])上述兩種情況均可被實現。後者藉由使以時間延展因數來加速的經延展信號再現來實現。在時間離散信號表示下，此與維持取樣頻率的同時以延展因數來降低取樣信號相對應。諸如相位語音編碼器的時間延展方法實際上僅適於穩態或準穩態信號，因為暫態藉由分散方式在時間上「被塗抹開」。相位語音編碼器削弱了信號的所謂的垂直相干特性(與一時間/頻率譜圖表示有關)。

音訊信號的時間延展在娛樂及藝術中均起重要作用。通用的演算法基於重疊及相加(OLA)技術，諸如相位語音編碼器(PV)、同步重疊相加(SOLA)、音高同步重疊相加(PSOLA)，及波形相似性重疊相加(WSOLA)。儘管此等演算法能夠改變音訊信號的重放速度同時保留它們的原始音高，但是暫態未被保留完好。使用OLA技術在時間上延展音訊信號而不改變其音高需要分別處理暫態及持續的信號部分以避免暫態分散[B1]及時常伴隨WSOLA及SOLA發生的時域混疊。延展諸如一定音管發出的一絕對的音調信號與諸如響板發出的一打擊式信號的一結合的任務提出了一項挑戰。

在下文中，將參照一些習知的方式以提供本發明之背景。

一些現行的方法較強地延展暫態周圍的時間以在暫態持續時間內不執行時間延展或只執行很短時間延展(例如參見參考文獻[5]至[8])。

以下文章及專利描述時間及/或音高的操縱方法：[A1]、[A2]、[A3]、[A4]、[A5]、[A6]、[A7]、[A8]。

在[B2]中，一方法被提出，其在經時間延展版本中大致保留了一信號的包絡以及其頻譜特性。此方式希望一時間擴張打擊事件的衰減慢於原始事件。

若干廣為人知的方法允許有區別地處理暫態及穩態信號成分，例如，將信號模型化為正弦波、暫態及雜訊(S+T+N)的總合[B4、B5]。為了在時間標度修改之後保留暫態，所有三部分被分別延展。此技術能夠完美地保留音訊信號的暫態成分。但是，所產生的聲音時常感覺不自然。

更多的方法改變時間延展的量且在暫態時間期間將其設定成一或在暫態事件下鎖定相位[B3、B6、B7]。

文獻[B8]證明利用PV技術暫態是如何在時間及頻率延展中被保留的。在此方法中，暫態在信號被延展之前從該信號中截除(cut out)。暫態部分的移除使信號內產生間隙，該等間隙藉由PV程序被延展。在延展之後，暫態在適合於經延展間隙的情況下被重新加入該信號中。

從上述內容可以看出，需要操縱包含一暫態事件的一音訊信號的一方案，其提供具改良感知品質的輸出信號。

發明概要

依據本發明的一實施例產生一裝置，其用以操縱包含一暫態事件的一音訊信號。該裝置包含一暫態信號替換器，其係組配以以適應於該音訊信號的一個或一個以上非暫態信號部分的信號能量特性或適應於該暫態信號部分的一信號能量特性的一替換信號部分來替換該音訊信號之包含該暫態事件的一暫態信號部分，以獲得一暫態減少音訊信號。該裝置進一步包含一信號處理器，該處理器係組配以處理該暫態減少音訊信號來獲得該暫態減少音訊信號的一經處理版本。該裝置還包含一暫態信號重新插入器，其係組配以將該暫態減少音訊信號的經處理版本與以一原始或經處理形式表示該暫態信號部分的一暫態內容的一暫態信號結合。

上述實施例係基於以下研究結果：該信號處理器提供具有改進品質的一輸出信號若該暫態信號部分藉由一替換信號部分所替換，同時減少或消除該暫態事件，該替換信號部分的一信號能量適應於該原始音訊信號的信號能量特性。此構想避免了藉由僅從該音訊信號中消除該暫態信號部分而產生的輸入該信號處理器的信號的能量的較大步階式變化，且還可避免或至少降低一暫態對該信號處理器的有害影響。

因此，藉由移除或減少該音訊信號中的該暫態事件(以獲得該暫態減少音訊信號)，且藉由限制與該輸入音訊信號相比時該暫態減少音訊信號的能量變化，該信號處理器接收一適當的輸入信號，使得其輸出信號近似想要的不具有暫態事件的輸出信號。

在一較佳實施例中，該暫態信號替換器係組配以提供該替換信號部分(或暫態減少信號部分)使得與該暫態信號部分相比，該替換信號部分表示具有一平滑時間演進的一時間信號，且使得在該替換信號部分的一能量與該暫態信號部分之前或該暫態信號部分之後的音訊信號的一非暫態信號部分的一能量之間的一偏差小於一預定的臨界值。以此方式，使該替換信號部分滿足兩條件可被實現，即一所謂的「暫態條件」及一所謂的「能量條件」。該暫態條件指示時域中的一步階或波峰所表示的一暫態事件在該替換信號部分內的強度(或步階高度或波峰高度)上受限制。該能量條件進一步指示(該替換信號部分的)暫態減少音訊信號應具有能譜分佈的一平滑時間演進。通常，能譜分佈的時間演進中的不連續性導致可聽得到的人工因素的產生。因此，藉由限制能譜分佈的此等時間不連續性，可避免可聽得到的人工因素，人工因素可能係由僅從輸入音訊信號中刪除(而不替換)一暫態信號部分而產生。

在一較佳實施例中，該暫態信號替換器係組配以外插暫態信號部分之前的一個或一個以上信號部分的振幅值來獲得該替換信號部分的振幅值。該暫態信號替換器還係組配以外插暫態信號部分之前的一個或一個以上信號部分的相位值來獲得該替換信號部分的相位值。使用此方法，該暫態減少音訊信號的一平滑振幅演進可被獲得。而且，該暫態減少音訊信號的不同頻譜成分的相位(藉由外插)被良好地控制，使得藉由暫態信號部分期間的特定相位值(與非暫態信號部分的相位值不同)被特徵化的暫態事件被抑制。

換言之，相位值藉由外插被強加，產生的該等相位值與特徵化暫態的相位值不同。外插還提供以下優勢：充分知曉暫態信號部分之前的音訊信號部分以執行外插。但是，自然可能進一步應用某旁側資訊，例如外插參數，以執行外插。

在另一較佳實施例中，該暫態信號重新插入器(150)係組配以使該暫態減少音訊信號的經處理版本與以一原始或經處理形式表示該暫態信號部分的一暫態內容的暫態信號交叉淡化。在此情況下，該暫態減少信號的該經處理版本可能是輸入音訊信號的一經時間延展的版本。因此，暫態可被平滑地重新插入到該輸入音訊信號的一經延展的版本中。換言之，在暫態減少音訊信號(時間)延展之後，(呈經處理或未經處理形式的)暫態在適合於該等經延展間隙之情況下被重新加入到該信號中。

在另一較佳實施例中，該暫態信號替換器係組配以在該暫態信號部分之前的一信號部分的一振幅值與該暫態信號部分之後的一信號部分的一振幅值之間內插以獲得該替換信號部分的一個或一個以上振幅值。除此之外，該暫態信號替換器係組配以在該暫態信號部分之前的一信號部分的一相位值與該暫態信號部分之後的一信號部分的一相位值之間內插以獲得該替換信號部分的一個或一個以上相位值。藉由執行一內插，振幅值及相位值的一尤其平滑的時間演進均可被獲得。相位的內插通常還使得暫態事件減少或消除，因為暫態通常在直接接近暫態處包含一極其特別的相位分佈，該相位分佈通常與一遠離暫態的某一間距處的相位分佈不同。

在一較佳實施例中，該暫態信號替換器係組配以施加一加權雜訊(例如，適應於該音訊信號的一個或一個以上非暫態信號部分的信號能量特性或適應於該暫態信號部分的一信號能量特性的一類雜訊信號頻譜)來獲得該替換信號部分的振幅值，且施加一加權雜訊來獲得該替換信號部分的相位值。藉由施加一加權雜訊可以在保持對能量的影響足夠小的同時進一步減少暫態。

在一較佳實施例中，該暫態信號替換器係組配以將該暫態信號部分的非暫態成分與外插或內插值結合來獲得該替換信號部分。已發現的是該暫態減少音訊信號(及使用該信號處理器而獲得的其經處理版本)的品質可得到改進，若該暫態信號部分的非暫態成分被維持。例如，該暫態信號部分的音調成分僅可對暫態產生一有限的影響(因為一時間暫態通常由在頻率範圍內具有一特定相位分佈的一寬頻信號引起)。因此，該暫態信號部分的音調非暫態成分可能攜帶有珍貴資訊，其實際上可有利於想要的信號處理器輸出信號的產生。因此，藉由保持此等信號部分─同時減少暫態─可有利於改良經處理的音訊信號。

在本發明的一實施例中，該暫態信號替換器係組配以獲得依據一暫態信號部分的一長度而定的可變長度的替換信號部分。已發現的是音訊信號品質有時可藉由使該等替換信號部分的長度適應於該等暫態信號部分的一可變長度來改進。例如，在某些信號中，該等暫態信號部分的持續時間可能非常短。在此情況下，經最佳化處理的一音訊信號可藉由僅替換該輸入音訊信號的一相對較短部分來獲得。因此，盡可能多的原始輸入音訊信號的(非暫態)資訊可被維持。此外，藉由保持該替換信號部分較短(依據該暫態信號部分的長度)，隨後的替換信號部分的重疊在很多情況下可被避免。因此，在大多數情況下，在兩個隨後的替換信號部分之間有一原始非暫態信號部分是可以實現的。因此，能足夠精確地產生經處理的音訊信號，并保持盡可能多的原始輸入音訊信號的(非暫態)資訊。

在一較佳實施例中，該信號處理器係組配以處理該暫態減少音訊信號使得該暫態減少音訊信號的經處理版本的一給定時間信號部分依據該暫態減少音訊信號的複數個時間上非重疊時間信號部分而定。換言之，較佳的是在產生該暫態減少音訊信號的經處理版本的信號部分時該信號處理器包含時間記憶體。使用一記憶體的信號處理允許對該暫態減少音訊信號進行區塊式處理，或允許對該暫態減少音訊信號進行時間濾波(例如FIR濾波，或IIR濾波)。還得出的是關於替換暫態信號部分的本發明之構想非常適於與此信號處理器協同工作。儘管暫態在正常情況下會對所描述的執行一區塊式處理或具有一時間記憶體的信號處理器產生明顯的負面影響，但是本發明的替換信號部分使暫態的此有害影響降低。儘管一暫態在正常情況下會對該信號處理器所提供的多個信號部分產生影響─延伸超出該暫態信號部分的時間限度─但是一暫態的有害影響被本發明之構想降低或甚至被消除。藉由維持該暫態減少信號能量的一平滑時間演進，可以使任何降級都足夠平滑。例如，(該信號處理器的區塊式處理的)一區塊(例如，除了一原始非暫態信號部分之外還)包含一替換信號部分，其未嚴重降級，因為該替換信號部分的能量適應於該區塊的其餘部分。因此，從整體來看，區塊僅受暫態事件消除或減少的輕微影響。而且，由於一替換信號部分的使用，使會受一暫態事件且還受暫態信號部分之(例如，以一強制歸零形式的)完全移除的負面影響的一時間濾波幾乎不受暫態移除(或減少)的影響。

在一較佳實施例中，該信號處理器係組配以執行對該暫態減少音訊信號的基於時間區塊的處理來獲得該暫態減少音訊信號的經處理版本。該暫態信號替換器還係組配以利用比一時間區塊的持續時間精細的時間解析度來調整需經替換信號部分替換的信號部分的持續時間，或以具有小於該時間區塊的持續時間的一時段的一替換信號部分來替換具有小於該時間區塊的持續時間的一時段的一暫態信號部分。因此，本文所提出的替換允許對音訊信號進行一低失真處理，即使被移除的暫態部分的長度與該等時間區塊的長度不同。

在一較佳實施例中，該信號處理器係組配以一頻率相關的方式來處理該暫態減少音訊信號，使得該處理動作將暫態降級頻率相關相位偏移引入到該暫態減少音訊信號中。但是，甚至此暫態降級信號處理也不會對經處理的音訊信號產生明顯的有害影響，因為暫態通常與暫態減少音訊信號被分別處理。因此，儘管一暫態降級信號處理演算法可應用於該信號處理器，但是使用對暫態的一分別處理且在該處理的稍後階段使用暫態的一重新插入，暫態的品質可被維持。

在一較佳實施例中，該暫態信號替換器包含一暫態檢測器，其中該暫態檢測器係組配以提供一時變檢測臨界值用於音訊信號中的暫態檢測，使得該檢測臨界值遵循具有一可調整平滑時間常數的音訊信號包絡。該暫態檢測器係組配以響應於一暫態的檢測及/或依據音訊信號的一時間演進而定來改變該平滑時間常數。藉由使用此暫態檢測器，可以檢測不同強度的暫態，即使暫態在時間上間隔很緊密。例如，本發明之構想允許對一弱暫態進行檢測，即使該弱暫態緊緊跟隨一先前的較強暫態。因此，針對暫態替換的暫態檢測可以一可靠且精確的方式來執行。

在一較佳實施例中，該裝置包含一暫態處理器，其係組配以接收表示該暫態信號部分的暫態內容的一暫態資訊。在此情況下，該暫態處理器可被組配以在該暫態資訊的基礎上獲得一經處理的暫態信號，在該經處理的暫態信號中音調成分減少。該暫態信號重新插入器可被組配以將該暫態減少音訊信號的經處理版本與該暫態處理器所提供的經處理的暫態信號結合。因此，該暫態減少音訊信號及該輸入音訊信號的暫態成分(由暫態資訊來表示)的分別處理可以這樣的一種方式執行使得不同信號部分的一隨後的結合使一恰當的總輸出信號產生。該暫態信號部分中的已經「主」信號處理器處理的此等信號成分(例如，音調信號成分)不需要包括在暫態的分別處理中。因此，恰當的共享暫態信號部分的音訊成分的處理可被執行。

依據本發明的進一步的實施例產生用以操縱包含暫態事件的音訊信號的一方法及一電腦程式。

圖式簡單說明

第1圖顯示依據本發明的一實施例的用以操縱包含一暫態事件的一音訊信號的一裝置的一方塊示意圖；第2圖顯示依據本發明的一實施例的一暫態信號替換器的一方塊示意圖；第3a-3c圖顯示依據本發明的實施例的一信號處理器的方塊示意圖；第4圖顯示依據本發明的一實施例的一暫態信號重新插入器的一方塊示意圖；第5a圖顯示第1圖的該信號處理器中需使用的一語音編碼器的實施態樣的一概述；第5b圖顯示第1圖的一信號處理器之部分(分析)的一實施態樣；第5c圖說明第1圖的一信號處理器的其他部分(延展)；第6圖說明第1圖的該信號處理器中需使用的一相位語音編碼器的一轉換實施態樣；第7圖顯示一相位語音編碼演算法的一示意圖，其利用與分析跳距不同的合成跳距來操作，例如，其等相差了1倍；第8圖顯示一音訊信號的振幅的一時間演進的一圖形表示；第9圖顯示第1圖的該裝置中的該信號處理的一時序的一圖形表示；第10圖顯示可能在依據第1圖的一裝置中出現的信號的一圖形表示；第11圖顯示可能在依據第1圖的一裝置中出現的信號的另一圖形表示；第12圖顯示依據本發明的一實施例的用以操縱一音訊信號的一方法的一流程圖；第13圖顯示依據本發明的一實施例的一暫態移除及內插的一圖形表示；第14圖顯示依據本發明的一實施例的一時間延展及暫態重新插入的一圖形表示；第15圖顯示在利用該相位語音編碼器的一時間延展應用中的本發明之暫態處理的不同步驟中出現的信號波形的一圖形表示；且第16圖顯示在一時間延展的不同步驟所呈現的信號的一圖形表示。

較佳實施例之詳細說明

在下文中，依據本發明的一些實施例將被描述。用以操縱包含一暫態事件的一音訊信號的一裝置的一第一實施例將參見第1圖被描述，第1圖顯示該第一實施例的一概述，還可參見第2、3a至3c、4、5a、5b、5c、6及7圖被描述，該等圖式顯示該第一實施例的組件及相位語音編碼器的操作(第7圖)的細節。一暫態信號在第8圖中顯示，且其處理在第9至11圖中說明。第12圖顯示一相對應的方法的一流程圖。

隨後，參見第13至17圖，用以操縱包含一暫態事件的一音訊信號的一裝置的一第二實施例的操作將被描述。

依據第1圖的實施例

依據本發明的一實施例，第1圖顯示用以操縱包含一暫態事件的一音訊信號的一裝置的一方塊示意圖。在第1圖中所顯示的該裝置整體由100表示。該裝置100係組配以接收包含一暫態事件的一音訊信號110且係組配以在其基礎上將一未經處理的「自然」或合成暫態提供給一經處理的音訊信號120。該裝置100包含一暫態信號替換器130，該暫態信號替換器130係組配以用適應於該音訊信號的一個或一個以上非暫態信號部分的信號能量特性或適應於該暫態信號部分的一信號能量特性的一替換信號部分來替換包含該音訊信號110的該暫態事件的一暫態信號部分以獲得一暫態減少音訊信號132。可取捨地，該替換信號部分的相位特性可適應於該音訊信號的一個或一個以上非暫態信號部分的相位特性。該裝置100進一步包含一信號處理器140，該信號處理器140係組配以處理該暫態減少音訊信號132來獲得該暫態減少音訊信號的一經處理版本142。該裝置100進一步包含一暫態信號重新插入器150，該暫態信號重新插入器150係組配以將該暫態減少音訊信號的經處理版本142與一暫態信號152結合以獲得具有未經處理的「自然」或合成暫態的經處理的音訊信號120。該暫態信號152可以以一原始或經處理的形式來表示該暫態信號部分的一暫態內容，該暫態信號部分已藉由該暫態信號替換器130替換為該替換信號部分。

該暫態信號替換器130可進一步可取捨地提供一暫態資訊134，該暫態資訊134表示該暫態信號部分(由該暫態減少音訊信號132中的該替換信號部分所替換)的該暫態內容。因此，該暫態資訊134可用來「保存」該音訊信號110的該暫態內容，該暫態內容在該暫態減少音訊信號132中被減少或甚至完全被抑制。該暫態資訊134可被直接轉送至該暫態信號重新插入器150以作為該暫態信號152。但是，裝置100可進一步包含一可取捨的暫態處理器160，該暫態處理器160係組配以處理該暫態資訊134來由此得出該暫態信號152。例如，該暫態處理器160可被組配以執行一暫態頻率變換、一暫態頻率偏移，或一暫態合成。

該裝置100可進一步包含可取捨的一信號調節器170，該信號調節器170係組配以調節該經處理的音訊信號120來獲得用以再現的一經調節的音訊信號。

關於該裝置100的功能，大體上來說該裝置100允許分別處理該音訊信號110的一非暫態音訊內容(由該暫態減少音訊信號132來表示)及該音訊信號110的一暫態音訊內容(由該暫態資訊134來表示)。暫態事件在該暫態減少音訊信號132中被減少或甚至被抑制，使得該信號處理器140可執行一信號處理，該信號處理會使暫態事件降低且/或會受暫態事件的有害影響。但是，藉由以能量適應的替換信號部分來替換暫態信號部分，該暫態信號替換器130用來避免聽得見的人工因素，該等聽得見的人工因素可能是由信號處理器140所引入，若僅將暫態信號部分設定成零。

恰當的聽覺效果還可藉由該暫態信號重新插入器150重新插入暫態來獲得。當然，若僅消除暫態事件，则聽覺效果通常會嚴重降級。基於此原因，暫態被重新插入到該經處理的音訊信號142中。該等重新插入的暫態可與由該暫態信號替換器130從該音訊信號110中所移除的該等暫態相同。可選擇地，對該等被移除的(或經替換的)暫態的一處理例如可以以一頻率變換或頻率偏移的形式來執行。但是，在某些實施例中，該等重新插入的暫態甚至可被合成產生，例如在描述需被重新插入的暫態的一時間及強度的暫態參數的基礎上。

暫態信號替換器細節

在下文中，參見第2圖，該暫態信號替換器130的功能將被描述，其中第2圖顯示該暫態信號替換器130的一實施例的一方塊示意圖。該暫態信號替換器130接收該音訊信號110且在其基礎上提供該暫態減少音訊信號132。

為了達到此目的，該暫態信號替換器130例如可包含一暫態檢測器130a，該暫態檢測器130a係組配以檢測一暫態且提供關於該暫態的一時序的一資訊。例如，該暫態檢測器130a可提供一資訊130b，該資訊130b描述一暫態信號部分的一開始時間及一結束時間。關於暫態檢測的不同構想是領域中所習知的，藉此此處將省略詳細描述。但是，在某些情況下，該暫態檢測器130a可被組配以區分不同長度的暫態使得一被辨識出的暫態信號部分的長度可依據實際的信號形狀而變化。

可選擇地，該暫態信號替換器可包含一旁側資訊擷取器130c，例如，若描述暫態的一時序的一旁側資訊與該音訊信號110相關聯。在此情況下，該暫態檢測器130a自然可被省略。該旁側資訊擷取器130c可進一步可取捨地被組配以在與該音訊信號110相關聯的該旁側資訊基礎上提供一個或一個以上內插參數、外插參數及/或替換參數。該暫態替換器130進一步包含一暫態部分替換器130d，例如，一暫態部分內插器或一暫態部分外插器。該暫態部分替換器130d係組配以接收該音訊信號110及(由該暫態檢測器130a或該旁側資訊擷取器130c所提供的)該暫態時間資訊130b且以一替換信號部分來替換該音訊信號110的一暫態部分。

在下文中，關於檢測及替換(或移除)暫態的細節將被描述。尤其是暫態移除的不同方法將被詳細討論。

暫態(例如樂器的起音點(onset)或打擊式信號)大體上可作為一短時間間隔來描述，在此間隔期間，信號以一難以預料的方式快速發展。例如，一暫態可藉由評估該音訊信號110的一時域表示來檢測(使用該暫態檢測器130a)。若該音訊信號110的該時域表示超過一臨界值(可以是時變的)，則一暫態事件的存在可被指示出來。包含該暫態事件的一時間區域可被視為一暫態信號部分，且可藉由該暫態時間資訊130b來描述。

因為此等信號部分(即暫態，或信號以一難以預料的方式在期間快速發展的時間間隔，)理想地未在時間上延展，在時間延展之前從信號中移除「一暫態時間段」(可藉由該信號處理器140來執行)是有利的。抑制可在被視為「非穩態」的整個時間段期間發生。對於打擊樂器而言，此時間段大部分由整個聲音事件(例如單一的脚踏钹(HiHat)擊打)組成。對於樂器的起音點，一所謂的ADSR(起音　衰減　延持　釋音)波封可用來說明暫態時間段。

第8圖顯示一信號振幅的一時間演進的一圖形表示800。一橫座標810描述時間，且一縱座標812描述振幅。一曲綫814描述該振幅的一時間演進。從第8圖可以看出，該振幅的該時間演進包含一起音間隔、一衰減間隔、一延持間隔及一釋音間隔。例如，該起音間隔及該衰減間隔可被視為一「暫態區域」或暫態信號部分。

但是，已發現的是對於進一步的信號處理(例如，在該信號處理器140中)而言，由暫態抑制所引起的音訊信號中的間隙應被填充使得在聽到經處理的信號(=合成信號)(例如，使用該信號處理器140來處理)時，聽上去感覺是不具有破裂性暫停及振幅調變的連續的暫態自由信號。

對於本文所描述的應用的特定情況而言，較佳的是抑制合成信號中(例如，提供給該信號處理器140的該信號132中，或從而在由該信號處理器140所提供的該信號142中)的原始信號(例如，信號110)的所有暫態部分，而音調部分及非暫態雜訊成分繼續存在。

關於此方面，已經存在有各種方法來解決，但是其目標絕不是得到一高質量暫態調整(或暫態清除)信號。關於此問題，可參照刊物，例如[Edler]。

關於暫態檢測方法的效率及分解為各種成分的效率，例如「暫態+雜訊」，下述結論可分別從專業刊物[Bello]及[Daudet]中得出，該等刊物極好地概述了常見的方法：此等方法無一明顯優於其他方法；選擇應由各自的應用及可用的運算能力來控制。

由此可見對特定的檢測及分解方法的選擇可顯著地影響本發明的方法的結果。對於熟於此技者，可以容易應用任何各種已知的方法以提供可能的最佳條件給各自的應用情景。

暫態部分替換的構想

某些應用情景是關於產生信號部分，該等信號部分不需要通過用一參考信號來驗證而被評估為「對」或「錯」，而僅以它們總體良好的聲音為基礎來評估。此意味著依據本發明之實施例不限於分離該等部分且不限於省略該等暫態成分，而是可產生其等自身具有特性的合成信號。

因此合成信號產生(例如，由該暫態信號替換器130d產生一暫態減少信號132)可以是暫態時間段期間的信號分解及信號產生(從假定信號的一內插及/或外插的意義上說)的一結合。原始信號的非暫態成分可被與該等內插/外插成分混合，或可將其替換。

在依據本發明的一些實施例中，外插可等於使用過去值的一合成信號產生。因此，外插可能能夠即時執行。相反，在一些實施例中，內插可等於使用先前值及後續值的一合成信號產生。因此，在某些情況下，內插可能需要預測(look-ahead)。

為了總結上述內容，不同的構想可被應用到該暫態部分替換器130d中以獲得該暫態減少音訊信號132。

例如，該暫態部分替換器130d可被組配以從該音訊信號110中減少暫態成分來獲得暫態減少音訊信號。在此情況下，該暫態部分替換器130d可被組配以確保在代替暫態信號部分的替換信號部分中保持足夠的能量。例如，包含一暫態相位特性的頻率成分可從該音訊信號110中移除，而其他不包含暫態相位特性的頻率成分(例如音調頻率成分)可從暫態信號部分被接收到替換信號部分中。因此，可確保替換信號部分包含足夠的信號能量，該信號能量未強烈偏離先前及後續信號部分的信號能量。

可選擇地，該暫態部分替換器130d可被組配以藉由破壞暫態信號部分中的暫態形成相位關係來獲得替換信號部分。例如，該暫態部分替換器可被組配以使暫態信號部分的不同頻率成分的相位隨機化或(確定地)對其進行調整。因此，以此方式所獲得的該替換信號部分可包含(至少接近)與暫態信號部分相同的能量(因為頻率成分的相位修改不改變能量)。但是，由替換信號部分所描述的時間信號的暫態形成時間演進可能消失，因為暫態時間演進係基於不同頻率成分的一特定相位關係，而特定相位關係已被破壞。

但是，可選擇地，該暫態部分替換器130d可根據暫態信號部分之前的一非暫態信號部分內插，例如，能量在不同頻帶中的一時間演進。因此，替換信號部分的內容可僅基於暫態信號部分之前的一非暫態信號部分的內容的一外插。因此，暫態信號部分的內容可被完全忽視。

但是，可選擇地，使用該暫態部分替換器130d藉由在暫態信號部分之前的一非暫態信號部分的內容與暫態信號部分之後的一非暫態信號部分的內容之間內插，替換信號部分的內容可被獲得。暫態信號部分的內容可同樣被完全忽視。內插可被執行，例如，在一時間-頻率域中。

但是，可選擇地，該等上述方法的組合可用以獲得替換信號部分的內容。例如，暫態信號部分的一非暫態內容(例如藉由移除暫態內容或藉由破壞暫態形成相位關係來擷取)可與藉由內插或外插一個或一個以上暫態信號部分所獲得的一音訊信號內容組合。作為另一範例，一暫態信號部分中的一暫態形成相位關係可被破壞且暫態信號部分的一能量可被調整以適應於相鄰的非暫態信號部分的一能量。

鑒於以上內容，可以說替換信號部分僅在非暫態信號部分的基礎上合成(例如，在該暫態信號部分之前及/或在該暫態部分之後)(而不使用該暫態信號部分的內容)或僅在暫態信號部分的基礎上合成，或在一個或一個以上非暫態信號部分及暫態信號部分的一結合的基礎上合成。

關於暫態減少音訊信號的產生的進一步構想-基礎

在下文中，關於暫態減少音訊信號132的產生的進一步構想將被描述，其層面可被應用於本文所描述的任何實施例中。關於檢測及替代的過程，可參見WO 2007/118533，其全部內容在此併入本文以為參考資料。

WO 2007/118533 A1描述用以周圍區域信號的產生的一裝置及一方法。此文件描述一暫態檢測器，該暫態檢測器被提供以檢測一暫態時間段。在WO 2007/118533 A1中所描述的該暫態檢測器可，例如，用以實施(或替換)本文所描述的暫態檢測器130a。該刊物進一步描述一合成信號產生器，其產生滿足一暫態條件及一連續條件的一合成信號。例如在WO 2007/118533 A1中所描述的該合成產生器可用以實施該暫態部分替換器130d，或甚至可代替該暫態部分替換器130d。因此，在WO 2007/118533 A1中所描述的關於一合成信號的產生的構想可用於本發明的一些實施例中的暫態減少音訊信號132的產生。

關於暫態減少音訊信號的產生的進一步構想-延伸

產生的信號的高音訊質量實質上在此處所描述的應用中(在維持一良好的聽覺效果的同時處理包含一暫態的一信號)比在WO 2007/118533的應用(周圍信號產生)中更加關鍵，WO 2007/118533中所描述的方法藉由一些步驟被擴展以改進音訊信號品質。

例如，除了振幅外插之外，依據本發明的一實施例還可包含外插或內插相位值以獲得具有改進的品質而沒有暫態部分的一合成信號。

例如，外插或內插係使用一線性預測或線性預測編碼(LPC)來執行，或線性地及/或以樣條或類似物+加權雜訊來執行。

在一些實施例中，上述暫態減少音訊信號132的產生在與一相位語音編碼器結合使用時可能尤其有利，該相位語音編碼器可以是該信號處理器140的一部分，或可構成該信號處理器140。在一些實施例中，該相位語音編碼器的性質被利用，該性質通常被視為一大問題[8]，這在於在暫態期間與先前的音框無可預測關係存在。在一些實施例中，正是這一事實被利用以抑制暫態，因為該暫態藉由迫使與先前分格建立關係而被抹除。換言之，描述該替換信號部分(例如，呈複數形式)的該等不同時間-頻率分格的不同係數的相位被調整，例如，係藉由從(一先前的非暫態信號部分的)先前時間-頻率分格起外插，或在一先前的非暫態信號部分的相對應的時間-頻率分格與一隨後的非暫態信號部分的相對應的時間-頻率分格之間內插。在刊物[Maher]中，一可比較的內插方法被描述。在[Maher]中所呈現的該方法不能即時地執行，因為接隨信號間隙的部分亦被需要。除此之外，[Maher]僅描述對一音訊信號中的「波峰」的處理(相比之下，依據本發明的一些實施例處理所有頻率線)，且雜訊成分亦未被明確處理。換言之，在一些實施例中，在[Maher]中所描述的關於一音訊信號中的間隙的橋接的構想可利用本申請案被應用以在原始輸入音訊信號110基礎上獲得暫態減少音訊信號132。作為一暫態信號部分被識別的一部分可使用[Maher]中所描述的方法被替換，而不是橋接一音訊信號的一「丟失」部分。但是，內插/外插可針對每個頻率分格獨立執行。可取捨地，振幅及相位可被(例如，分別地)內插。

暫態檢測器130a

在下文中，關於暫態檢測器130a所呈現的一些細節將被描述。但是，應指出的是暫態檢測器130a的許多不同的實施態樣可被使用，使得下述細節應被視為一有利的實施態樣的範例。在一些實施例中，可適性臨界值較佳地用以辨識暫態時間段。通常，可適性臨界值是一檢測函數的平滑版本，其可引起大波動且進而不能檢測到大波峰附近的小波峰。詳情可參照刊物[Bello]。此問題可被解決，例如，係藉由依據當前檢測到的情況(暫態區/非暫態區)且依據檢測函數的發展(例如，起音、衰減)的平滑常數之適當適應。

在下文中，關於上文所提到的層面的一些參考文獻將被給出：[Edler]、[Bello]、[Goodwin]、[Walther]、[Maher]、[Daudet]。

暫態部分擷取器130e

除了上述功能之外，該暫態信號替換器130可進一步包含一暫態部分擷取器130e，該暫態部分擷取器130e可被組配以接收該音訊信號110(或至少其暫態信號部分)，且被組配以提供該暫態資訊134。該暫態部分擷取器130e可被組配以提供任何可能形式的暫態資訊134，例如呈暫態-信號-部分-時間-信號的形式，呈暫態-信號-部分-時間-頻率-域-表示的形式，或呈暫態參數(例如，暫態時間資訊及/或暫態強度資訊及/或暫態陡度資訊及/或任何其他恰當的暫態資訊)的形式。

特別地，該暫態部分擷取器130e可被組配以僅針對已從音訊信號110中移除的信號部分來提供暫態資訊134以獲得暫態減少音訊信號132來保持資料率較小。

信號處理器140的可選擇實施態樣-概述

在下文中，該信號處理器140的實施態樣的不同的基本構想將被描述。第3a圖說明第1圖的該信號處理器140的一較佳的實施態樣。此實施態樣包含一頻率選擇分析器310及一隨後連接的頻率選擇處理裝置312，該頻率選擇處理裝置312被實施使得其對原始音訊信號的「垂直相干性」產生負面影響。此頻率選擇處理的一範例是一信號在時間上的延展或一信號在時間上的收縮，其中此延展或收縮動作以一頻率選擇的方式被應用使得，例如，該處理動作將相位偏移引入經處理的音訊信號中，對於不同的頻帶該等相位偏移是不同的。例如該等相位偏移可被引入使得暫態被降級。第3a圖中所顯示的信號處理器140可進一步可取捨地包含一頻率結合器314，該頻率結合器314係組配以將由該頻率選擇處理312所提供的經處理的音訊信號的不同的頻率成分結合成一單一的信號(例如，一時域信號)。

可將該暫態減少音訊信號132分為複數個頻率成分(例如，複數值頻譜係數)的頻率選擇分析器310及可被組配以獲得在不同頻帶的複數個複數值頻譜係數基礎上的經處理的音訊信號142的時域表示的頻率結合器314均可被組配以執行一區塊式處理。例如，該頻率選擇分析器310可處理一(例如，視窗化的)區塊音訊信號132的樣本以獲得表示該區塊音訊信號樣本的音訊內容的一組複數值頻譜係數。相似地，可取捨的頻率結合器314可接收一組複數值係數(例如，複數個頻帶中的每一頻帶有一個係數)且在其基礎上提供包含複數個時域樣本的一有限時間間隔範圍內的一時域表示。

另一較佳信號處理在第3b圖的一相位語音編碼器處理脈絡中被說明。一般說來，一相位語音編碼器包含一次頻帶/轉換分析器320，一隨後連接的處理器322，且隨後是一次頻帶/轉換結合器324，該隨後連接的處理器322用以執行對由該分析器320所提供的複數個輸出信號的一頻率選擇處理，該次頻帶/轉換結合器324將經該處理器322所處理的信號結合以在一輸出326處最終獲得時域中的一經處理的信號142。此外，時域中的經處理的信號142對於一低通濾波信號而言是一全頻寬信號，只要經處理的信號142的頻寬大於由項目322及324之間的單一分支所表示的頻寬，因為該次頻帶/轉換結合器324執行頻率選擇信號的結合。

關於此相位語音編碼器的進一步的細節將在下文結合第5a、5b、5c及6圖討論。

第3c圖顯示該信號處理器140的另一可能的實施態樣。可以看出，在一些實施例中，該暫態減少音訊信號132甚至可在時域中被處理。通常時域處理330可包含一記憶體，使得該信號132中的一暫態將對該經處理的音訊信號142產生長期的影響。在某些情況下，該暫態減少音訊信號132會在該經處理的音訊信號142中引起一暫態響應，該暫態響應明顯比暫態持續時間(或暫態信號部分的持續時間)長(例如，延長了1倍，或甚至延長了4倍，或甚至延長了9倍)。在此情況下，該音訊信號132中的暫態會以不想要的方式顯著地降級，經處理的音訊信號142，例如，係藉由產生可聽見的回音。而且，一暫態信號部分的完全刪除亦會對經處理的音訊信號142產生一長期影響，因為一暫態信號部分的完全刪除本身使一暫態產生。

使用一語音編碼器的信號處理器的實施態樣-濾波器組實施態樣

在下文中，參見第5及6圖，一語音編碼器的較佳實施例被說明，其可用於該信號處理器140的一實施態樣或可以是該信號處理器140的一部分。第5a圖顯示一相位語音編碼器的一濾波器組實施態樣，其中一輸入音訊信號(例如，該暫態減少音訊信號132)在一輸入500處饋入且一經處理的音訊信號(例如，該經處理的音訊信號142)在一輸出510處獲得。特別地，第5a圖中所說明的示意濾波器組的每一通道包括一帶通濾波器501及一下游振盪器502。來自每個通道的所有振盪器的輸出信號被一結合器結合以在輸出510處獲得輸出信號，該結合器例如，作為一加法器被實施且在503處被標示。每一濾波器501被實施使得其一方面提供一振幅信號另一方面提供一頻率信號。該振幅信號及該頻率信號是說明一濾波器501中的振幅隨著時間的一發展的時間信號，而該頻率信號表示由一濾波器501濾波的信號的頻率的一發展。

濾波器501的一示意性設置在第5b圖中說明。第5a圖的每一濾波器501可如第5b中所示被設定，但是，其中僅供給兩輸入混合器551及加法器552的頻率f_i 對於每個通道是不同的。該等混合器輸出信號均經低通濾波器553低通濾波，其中該等低通信號在此範圍內不同因為它們由相位相差90°的局部振盪器信號產生。上部低通濾波器553提供一正交信號554，而下部濾波器553提供一同相信號555。此二信號即I及Q，被供給一座標轉換器556，該座標轉換器556依據矩形表示產生一幅度相位表示。第5a圖的幅度信號或振幅信號隨著時間分別在一輸出557處輸出。相位信號被供給一相位展開器558。在該元件558的輸出處，不再有始終在0與360°之間的相位值呈現，但是出現線性增加的一相位值。此「展開的」相位值供給一相位/頻率轉換器559，該相位/頻率轉換器559例如可作為一簡單的相位差形成器來被實施，其從在一當前時間點處的一相位中減去一先前時間點處的相位以獲得該當前時間點的一頻率值。此頻率值加入到濾波通道i的恒定頻率值f_i 中以在輸出560處獲得一時變頻率值。在該輸出560處的該頻率值具有一直接分量=f_i 及一交變分量=濾波通道中的信號的一當前頻率偏離平均頻率f_i 的頻率偏差。

因此，如第5a及5b圖中所說明的，相位語音編碼器實現了頻譜資訊與時間資訊的分離。頻譜資訊在特定通道中或在頻率f_i 中，頻率f_i 提供每一通道的頻率的直接部分，而時間資訊分別包含於隨著時間而變的頻率偏差或幅度中。

第5c圖顯示可在第5a圖中以虛線所標出的語音編碼器的位置處的該語音編碼器中執行的一操縱。

對於時間調整，例如，每一通道中的振幅信號A(t)或每一信號中的信號f(t)的頻率可分別被整數倍降低取樣率或內插。因為對本發明有用，所以為了達到變換的目的，一內插，即該等信號A(t)及f(t)的一時間延伸或擴展被執行以獲得擴展信號A’(t)及f’(t)，其中內插由一擴展因數來控制。藉由內插相位變量，即內插在由加法器552加上恒定頻率之前的值，第5a圖中的每一個別的振盪器502的頻率不改變。但是，總體音訊信號的時間變化變慢，即慢了一半。結果得到一時間上擴展的具有原始音高，即具有其諧波的原始基本波的音調。

對於頻率變換，下面的構想可被使用。藉由執行第5c圖中所說明的信號處理，其中此處理動作在第5a圖中的每個濾波頻帶通道中執行，且藉由在一整數倍降低取樣器中對產生的時間信號整數倍降低取樣率，音訊信號可收縮回到其原始持續時間而同時所有頻率加倍。此使得音高變換之因數為2，但是，其中具有與原始音訊信號相同的長度即相同數目取樣的一音訊信號被獲得。

使用一語音編碼器的信號處理器的實施態樣-轉換實施態樣

作為第5a圖中所說明的該濾波器組實施態樣的一可替代方案，一相位語音編碼器的一轉換實施態樣還可如第6圖所述那樣來使用。此處，該音訊信號132饋入一FFT(快速傅立葉轉換)處理器中，或更一般地，饋入一短時間傅立葉轉換處理器600中作為時間樣本的一序列。該FFT處理器600在第6圖中示意性地實施以對一音訊信號執行一時間加窗動作以便接著藉由一FFT方式來計算頻譜的幅度及相位，其中此計算針對與音訊信號的嚴重重疊的多個區塊有關的連續頻譜來執行。

在一極端情況下，針對每個新音訊信號樣本，一新頻譜可被計算，其中一新頻譜還可例如僅針對每第二十個新樣本來計算。兩頻譜之間的樣本中的此距離a較佳地由一控制器602給定。該控制器602進一步被實施以向一IFFT(反快速傅立葉轉換)處理器604提供輸入(feed)，該IFFT處理器604被實施以一重疊操作來操作。特別地，該IFFT處理器604被實施使得其藉由基於一修改的頻譜的幅度及相位來每一頻譜執行一IFFT來執行一短時間傅立葉反轉換以接著執行一重疊相加操作，從中獲得產生的時間信號。該重疊相加操作消除了分析視窗的影響。

時間信號的一擴展藉由兩頻譜之間的距離b大於在FFT頻譜產生中的該等頻譜之間的距離a來實現，當該二頻譜經該IFFT處理器604處理時。基本想法是僅藉由與該等分析FFT相比，使該等反FFT間隔較遠來擴展音訊信號。因此，合成音訊信號中產生的時間變化比原始音訊信號中產生的時間變化慢。

但是在沒有區塊606中的一相位重新調整動作的情況下會致使人工因素產生。例如，在考量其中連續的相位值以45°來實現的一單一的頻率分格時，此意味著此濾波器組中的信號在相位上以一週期的1/8的比率增加，即每一時間間隔增加45°，其中此處的時間間隔是連續的FFT之間的時間間隔。若現在反FFT彼此間隔更遠，則此意味著45°相位增加在一較長時間間隔內發生。此意味著由於相位偏移，在隨後的重疊相加過程中發生失配而導致了不需要的信號消除。為了消除此人工因素，相位以與音訊信號藉以在時間上擴展的因數完全相同的因數被重新調整。每一FFT頻譜值的相位因此增加到b/a倍，藉此失配消除。

儘管在第5c圖中所說明的實施例中藉由內插振幅/頻率控制信號為第5a圖的濾波器組實施態樣中的一信號振盪器實現擴展，第6圖中的擴展藉由兩IFFT頻譜之間的大於兩FFT頻譜之間距離的距離來實現，即b大於a，但是其中為了防止一人工因素出現，一相位重新調整依據b/a來執行。

關於相位語音編碼器的詳細說明，請參照下列文件：

Mark Dolson所著的“The phase Vocoder：A tutorial”，Computer Music Journal，第10卷，第4期，第14--27頁，1986年，或L. Laroche及M. Dolson所著的“New phase Vocoder techniques for pitch-shifting,harmonizing and other exotic effects”，Proceedings 1999 IEEE Workshop on applications of signal processing to audio and acoustics，紐普茲，紐約，1999年10月17-20日，第91至94頁；A. Rbel所著的“New approached to transient processing interphase vocoder”，Proceeding of the 6th international conference on digital audio effects(DAFx-03)，倫敦，英國，2003年9月8-11日，第DAFx-1至DAFx-6頁；Meller Puckette所著的“Phase-locked Vocoder”Proceedings 1995,IEEE ASSP,Conference on applications of signal processing to audio and acoustics，或美國專利申請案第6,549,884號案。

在下文中，基於轉換的相位語音編碼器的功能的一範例將參見第7圖來簡要描述。第7圖顯示利用合成跳距的一相位語音編碼演算法操作的一示意圖，例如，該合成跳距(hop size)與分析跳距不同有1倍之差。

相位語音編碼(PV)演算法用以修改一信號的持續時間而不改變其音高[B9]。其將一信號分為所謂的顆粒(grain)，該等顆粒表示通常具有數十毫秒範圍內的一長度的信號的加窗截除部(windowed cutout)。該等顆粒在一重疊相加(OLA)過程中被重新排列，在此過程中，合成跳距與分析跳距不同。為了延展信號，例如，將其延展到2倍，合成跳距是分析跳距的兩倍。第7圖說明該演算法。

暫態信號重新插入器

在下文中，第1圖中所顯示的暫態信號重新插入器150的一較佳實施態樣將參見第4圖來描述。

該暫態信號重新插入器150包含作為一重要元件的一信號結合器150a。該信號結合器150a係組配以接收經處理的音訊信號142及暫態信號152，且在其基礎上提供經處理的音訊信號120。該信號結合器150a例如可被組配以執行以暫態信號152之一部分對經處理的音訊信號142之一部分的一硬切換式替換。但是，在一較佳實施例中，該信號結合器150a可被組配以在經處理的音訊信號142與暫態信號152之間形成一交叉淡化，使得經處理的音訊信號120內該等信號142、152之間有一平滑轉態。

但是，該暫態信號重新插入器150可被組配以判定一最佳插入係數。例如，該暫態信號重新插入器150可包含用以計算暫態重新插入部分的一長度的一計算器150b。該暫態重新插入部分的此長度的計算例如可能是重要的，若(例如藉由暫態檢測器130a所判定的)經替換的暫態部分的長度是依據信號特性而變的。在經處理的音訊信號142包含與原始輸入音訊信號110相比時不同的一長度(或每秒包含不同樣本數目，或不同總樣本數)的情況下，計算器150b可考慮一延展因數或壓縮因數以判定暫態重新插入部分的長度。參見第10及11圖此長度變化的一詳細討論將在下文提供。

該暫態信號重新插入器150可進一步包含用以計算一重新插入位置的一計算器150c。在某些情況下，該重新插入位置的計算可將經處理的音訊信號142的一延展或一壓縮考慮在內。在某些情況下，較佳地是經處理的音訊信號120中的一非暫態信號內容與一暫態信號內容之間的關係(例如，時間關係)至少與原始輸入音訊信號110中的該非暫態音訊內容與該暫態音訊內容的時間關係大致相同。但是，除了預先計算適當的暫態信號重新插入位置之外，該重新插入位置的一微調可被執行。例如，用以計算該等重新插入位置的計算器150c可被組配以讀取經處理的音訊信號142及暫態信號152，且被組配以在比較經處理的音訊信號142與暫態信號152的基礎上判定一重新插入時間點。關於重新插入位置的可能的計算的細節將參見第10及11圖中所說明的範例在下文中描述。

可能的時序關係

在下文中，關於一可能的時序關係的細節將參見第9圖來描述。第9圖顯示對原始輸入音訊信號110的不同區塊的處理的一圖形表示。一第一圖形表示910描述原始輸入音訊信號110的一時間演進，其中一橫座標912表示時間。輸入音訊信號110包含一暫態信號部分920，其長度可變。作為一時序參考，信號處理器140的處理間隔，或處理區塊922a、922b、922c在圖形表示910中被顯示。可以看出，暫態信號部分920的持續時間可能小於該等處理間隔922a、922b、922c的時段。但是在某些情況下，暫態信號部分的時段甚至可能大於該等處理間隔的時段，或延伸越過一處理間隔以上。在某些情況下，該等處理間隔922a、922b、922c還可能是時間重疊的。

一圖形表示930表示暫態減少音訊信號132，該暫態減少音訊信號132可藉由暫態信號替換器130所執行的暫態替換來獲得。可以看出，暫態信號部分920已經被一替換信號部分替換。

一圖形表示950描述經處理的音訊信號142，該經處理的音訊信號142可被獲得，例如，係使用對暫態減少音訊信號132的一區塊式處理。例如該處理可使用一相位語音編碼器及一降低取樣來執行。在此處理中，該等區塊可取捨地被視窗化，該等區塊還可取捨地被疊加。

另一圖形表示970表示經處理的音訊信號120，其中暫態(或其修改版本)已被暫態信號重新插入器150重新插入。

重要的是要指出暫態信號部分920可能會對整個區塊1”產生影響若在該區塊式處理中已考慮到暫態信號部分920，因為暫態能量在此區塊式處理中通常會在整個區塊上散開。因此，若在該區塊式處理中需考慮暫態信號部分，則該區塊的總能量將可能由於暫態能量而出錯。而且，暫態通常會展開(即增寬)，若暫態受該區塊式處理影響。相反，對暫態的分別處理允許將暫態的影響限制在經處理的音訊信號120之與暫態相關聯的一時間間隔1”中。暫態信號部分朝向信號處理器140中的該區塊式信號處理的一整個區塊的一擴展可被避免。相反，經處理的音訊信號120中的暫態信號部分的持續時間可藉由暫態處理器160所執行的暫態處理來判定。可選擇地，若需要，可以在暫態信號部分920的原始持續時間內將暫態信號部分920插入到經處理的音訊信號142中。因此，信號處理器140中不想要的暫態能量的擴展可被避免。

音訊信號的時間擴展

從上述說明中可以看出，用以操縱包含一暫態事件的一音訊信號的本發明之構想可應用到許多不同的應用中。例如，該構想可被應用到其中暫態將藉由信號處理來降級且其中仍然想要維持暫態的任何音訊信號處理中。例如，許多類型的非線性音訊信號處理由於暫態的存在會產生被嚴重降級的結果。除此之外，某些類型的時間濾波由於暫態的存在而會受到嚴重影響。而且，一音訊信號的任何區塊式處理通常都將由於暫態的存在而降級，因為暫態的能量將被塗抹在一整個處理區塊上，從而致使人工因素產生。

然而，音訊信號的時間延展可被視為用以操縱包含一暫態事件的一音訊信號的本構想的一尤其重要的應用。由於此原因，關於此應用的細節將在下文中描述。

在下文中，關於音訊信號的時間延展的習知構想的一些缺點將被描述以有利於對本發明之構想的優點的理解。由一相位語音編碼器對音訊信號進行的時間延展包含藉由分散來「塗抹開」暫態信號部分，因為信號的(從不同頻帶成分之間的一特定的相位關係的意義上說)所謂的垂直相干性被削弱。與所謂的重疊相加(OLA)方法一起執行的方法可能產生暫態聲音事件的破壞性預回音及延遲回音。在暫態環境中進行較顯著的時間延展時，此等問題確實可能遇到。但是若發生變換，變換因數在暫態環境中將不再恒定，即疊加(可能是音調的)信號成分的音高將改變且將感知為是破壞性的。

若暫態被截除且若產生的間隙經延伸，則由此一非常大的間隙將須被填充。若暫態彼此緊隨，則該等大間隙可能重疊。

在下文中，一種用於信號的轉換的新方法將被描述。此處所呈現的該方法解決了上述提到的問題。

依據此方法的一層面，包含暫態的一視窗化部分從需被操縱的信號(例如，原始輸入音訊信號110)被內插或外插。若對於該應用來說時間是關鍵的，即若延遲需被避免，則外插可較佳地被選定。若未來被稱為所謂的預測，且若延遲不是太重要，則內插是較佳的。

在一些實施例中，該方法實質上可由下列步驟組成，且將在第10及11圖中說明。

1.暫態的辨識；

2.暫態長度的判定；

3.暫態保存；

4.外插及/或內插；

5.實際方法的應用，例如相位語音編碼器；

6.經保存的暫態的重新插入；及

7.可能的(可取捨的)重新取樣(用於取樣率的修改)。

當此序列被執行時，暫態的時段在降低取樣下被縮短。若此非所欲，則暫態將被調變使得其在鍵控之後被重新插入之前逐漸處於所期待的頻帶內(步驟6及7互換)。

在下文中，一些細節將參見第10圖來描述。第10圖顯示不同信號的一圖形表示，其可出現在依據第1圖的裝置100的一實施例中。第10圖表示的全部內容由1000來表示。一信號表示1010描述原始輸入音訊信號110的一時間演進。可以看出，輸入音訊信號110包含一暫態信號部分1012，該暫態信號部分1012的一可變寬度(或持續時間)可藉由暫態檢測器130a以一信號適應的方式來判定。暫態信號部分1012可由暫態信號替換器130移除，且可被一替換信號部分替換。因此，可獲得在一信號表示1020中所顯示的一暫態減少音訊信號132。一替換信號部分在參考數字1022處被顯示，其替換暫態信號部分1012。暫態減少音訊信號132可以一區塊式方式來處理，其中不同的處理視窗(判定該分塊處理的粒度，且還可以「顆粒」來表示)在一信號表示1030中顯示。例如，對於每一區塊(或「顆粒」)而言，一組頻譜係數可被獲得，以形成暫態減少音訊信號132的一時間-頻率域表示。一相位語音編碼處理可在暫態減少音訊信號132的該時間-頻率域表示內應用，藉此獲取增加了持續時間的一信號。為了達到此目的，可獲取經內插的時間-頻率域係數。該等時間-頻率域係數可接著用以構建一時域信號，與原始輸入音訊信號相比，該時域信號的時段延伸，同時音高維持不變。換言之，信號週期的數目增加。藉由相位語音編碼操作所獲得的信號在一信號表示1040中顯示。從圖形表示1040可以看出一所謂的「截除暫態區域」(其中一替換信號部分已被插入以替換暫態信號部分)相對於原始輸入音訊信號110中的暫態信號部分的一時間位置被時移(當參照輸入音訊信號的一開始而考慮時)。

隨後，先前已被替換的暫態信號部分被重新插入，例如，係藉由暫態信號重新插入器150。例如，暫態信號152所描述的暫態信號部分可交叉淡化到暫態減少音訊信號的經處理的版本142中。暫態重新插入的結果在一圖形表示1050中顯示。

在一隨後的降低取樣中，經處理的音訊信號120的一時段可被減少。該降低取樣例如可藉由信號調節器170來執行。該降取樣例如可包含時間標度的一變化。可選擇地，多個樣本點可被減少。因此，與相位語音編碼器所提供的信號相比，經降低取樣的信號的一時段減少。同時，與相位語音編碼器所提供的信號相比，多個週期可藉由降低取樣被維持。因此，與相位語音編碼器所提供的信號(在信號表示1040中顯示)相比，在一信號表示1050中所顯示的經降低取樣的信號的音高可增加。

第11圖顯示另一信號表示，其表示在第1圖的裝置100的另一實施例中出現的信號。該處理與參見第10圖所解釋的處理相似，藉此此處僅描述處理順序中的差別，且藉此相同的信號表示及信號特性將由第10及11圖中相同的參考數字表示。

在信號表示1100所表示的信號處理中，降低取樣在暫態信號重新插入之前執行。因此，一信號表示1150顯示不具有一插入的暫態信號部分的經降低取樣的信號。但是，暫態信號部分使用一暫態頻率偏移操作1160來被頻移，該操作1160可由暫態處理器160執行。頻率偏移的暫態信號(相對於經暫態信號替換器130所替換的暫態信號部分的頻率偏移)可由暫態信號重新插入器150重新插入經降低取樣處理的音訊信號142中。暫態重新插入的結果在一信號表示1170中顯示。

暫態信號部分的配適

在下文中，將描述如何使用暫態信號插入器150將暫態信號152與經處理的音訊信號142結合。例如，暫態信號插入器150可被組配以從經處理的音訊信號142中截除一暫態區域，暫態信號152需被插入其中。本文可能考慮的是暫態信號152的邊界部分可能在時間上會與截除暫態區域的邊界部分重疊。在此重疊的邊界部分中，經處理的音訊信號142與暫態信號152之間可發生一交叉淡化。暫態信號152還可以相對於經處理的音訊信號142被時移，使得被覆蓋的暫態區域的邊界部分的波形與暫態信號152的邊界部分的波形十分一致。

精確的配適可藉由計算產生的凹口的邊緣與暫態部分的邊緣的交叉相關的最大值來執行(其中該凹口可能係由從經處理的音訊信號142中截除暫態區域而引起)。以此方式，暫態的主觀音訊品質不再會由於分散及回音效應而被削弱。

為達到選擇一適當的截除部之目的，對暫態位置的精確判定可被執行，例如，係在一合適的時間段內對能量採用浮動重心計算。

依據最大交叉相關的暫態的最佳配適可能需要在原始位置上於時間上略微偏移。但是，由於存在時間前遮罩，尤其是後遮罩效應，經重新插入的暫態的位置不需要與原始位置精確匹配。由於後遮罩作用期間較長，在此脈絡中偏好正時間方向上的暫態的偏移。藉由插入原始信號部分，取樣率的變化致使音色的變化，或音高的變化產生。但是，此大體上藉由心理聲學遮罩機構方式經暫態所遮罩。

暫態處理

若暫態在重新插入之前與截除之後相比具有較少音調，例如，因為其僅將被加入到經處理的信號上，則相對應的視窗化的暫態部分將須以合適的方式來處理。在此脈絡中，反向(LPC)濾波可被實施。

一可選擇的方式將在下列內容中簡要地描述：

1.　判定(例如由暫態資訊134所描述的暫態信號部分的)短時間傅立葉轉換(STFT)以獲得一頻譜；

2.　判定(例如該暫態信號部分的頻譜的)倒頻譜；

3.　高通濾波該倒頻譜(第一係數被設定成0)以獲得該頻譜的一高通濾波；

4.　將例如該暫態信號部分的)頻譜除以(例如該暫態信號部分的)經濾波的頻譜以獲得一平滑化的頻譜；及

5.　反向轉換(例如該平滑化的頻譜)至時域(例如，以獲得經處理的暫態信號152)。

產生的信號顯示(至少大致)與輸出信號相同的頻譜包絡，但是已丟失了音調部分。

方法

依據本發明的一實施例包含用以操縱包含一暫態事件的一音訊信號的一方法。第12圖顯示此方法1200的一流程圖。

該方法1200包含一步驟1210，其以適應於該音訊信號的一個或一個以上非暫態信號部分的信號能量特性或適應於該暫態信號部分的一信號能量特性的一替換信號部分來替換包含該音訊信號的該暫態事件的一暫態信號部分來獲得一暫態減少音訊信號。

該方法1200進一步包含一步驟1220，其處理該暫態減少音訊信號以獲得該暫態減少音訊信號的一經處理版本。

該方法1200進一步包含一步驟1230，其將該暫態減少音訊信號的該經處理版本與以一原始或經處理的形式表示該暫態信號部分的一暫態內容的一暫態信號結合。

該方法1200可藉由本文所描述的同樣關於上述本發明之裝置的任何特徵或功能來補充。

換言之，儘管一些層面已在一裝置的脈絡中被描述，但顯然此等層面還表示相對應的方法的一說明，其中一區塊或裝置與一方法步驟或一方法步驟的一特徵相對應。類比地，一方法步驟的脈絡中所描述的層面還表示一相對應裝置的一相對應區塊或項目或特征的一說明。

電腦程式

依據某些實施要求，本發明之實施例可以硬體或軟體來實施。該實施可使用一數位儲存媒體來執行，例如軟碟、數位視訊光碟(DVD)、藍光光碟、光碟(CD)、唯讀記憶體(ROM)、可規劃唯讀記憶體(PROM)、可抹除可規劃唯讀記憶體(EPROM)、電氣可抹除可規劃唯讀記憶體(EEPROM)或快閃(FLASH)記憶體，該數位儲存媒體上儲存有電子可讀控制信號且與(或能夠與)一可規劃電腦系統協作使得各個方法被執行。因此，數位儲存媒體可以是電腦可讀的。

依據本發明的一些實施例包含具有電子可讀控制信號的一資料載體，其能夠與一可規劃電腦系統協作，使得本文所描述的方法中之一者被執行。

一般說來，本發明之實施例可作為具有一程式碼的一電腦程式產品來實施，當該電腦程式產品在一電腦上運行時，該程式碼可操作地用以執行該等方法中之一者。該程式碼例如可被儲存在一機器可讀載體上。

其他實施例包含用以執行本文所描述的該等方法中之一者的儲存在一機器可讀載體上的電腦程式。

換言之，本發明之方法的一實施例進而是具有一程式碼的一電腦程式，當該電腦程式在一電腦上運行時，該程式碼用以執行本文所描述的該等方法中之一者。

本發明之該等方法的另一實施例進而是一資料載體(或一數位儲存媒體，或一電腦可讀媒體)，其包含記錄於其上用以執行本文所描述的該等方法中之一者的電腦程式。

本發明之方法的另一實施例進而是表示用以執行本文所描述的該等方法中之一者的電腦程式的一資料串流或一序列信號。該資料串流或序列信號例如可被組配以經由一資料通訊連接，例如經由網際網路來傳送。

另一實施例包含一處理裝置，例如，係組配以或適於執行本文所描述的該等方法中之一者的一電腦或一可規劃邏輯裝置。

另一實施例包含一電腦，其上安裝有用以執行本文所描述的該等方法中之一者的電腦程式。

在一些實施例中，一可規劃邏輯裝置(例如，一場可規劃閘極陣列)可用以執行本文所描述的該等方法的某些功能或所有功能。在一些實施例中，一場可規劃閘極陣列可與一微處理器協作以執行本文所描述的該等方法中之一者。一般說來，該等方法較佳地藉由任何硬體裝置來執行。

結論

為了總結上述內容，依據本發明的該等實施例包含處理不需或不能藉由實際處理常式的方式(例如，使用信號處理器)來處理的聲音事件的一新方法。在一些實施例中，本發明之方法實質上由外插或內插包含需被分別處理的聲音事件的信號部分組成。該處理動作之後，被分別處理的該等暫態部分被再次加入。此處理動作不限於時間或頻率延展，但是當該信號的實際處理對暫態信號部分不利(或受該等暫態信號部分負面影響)時，此處理一般可在信號處理中使用。

在下文中，該新方法的一些優勢被描述，該等優勢可在該等實施例的某些實施例中獲得。利用該新方法，可能在使用時間延展及變換方法處理暫態期間產生的人工因素(諸如分散、預回音及延遲回音)被有效防止。疊加的(可能是音調的)信號部分的品質削弱的可能性被避免。

依據本發明之實施例可被應用於不同應用領域中。該方法例如適於任何其中音訊信號的再現速度或它們的音高需改變的音訊應用。

為了總結上述內容，用於分別處理音訊信號中的聲音事件以避免人工因素的一裝置及方法已被描述。

實施例2

本發明的另一實施例將參見第13-16圖在下文中被描述。

首先，關於一暫態檢測的細節將被討論。隨後，該暫態處理將參見第13及14圖被解釋。該暫態處理的結果將參見第15圖被討論。該暫態處理的額外改進將參見第16圖被解釋。除此之外，該實施例的一性能演進將被給出，且一些結論將被得出。

實施例2-暫態檢測

為了實施本發明之構想，重要的是檢測暫態是否存在以允許替換暫態及分別處理暫態。

除了即將實現的時間延展應用之外，範圍廣泛的信號處理方法需要瞭解關於一音訊信號的暫態內容。主要的範例是區塊長度的判定(B. Edler所著的“Coding of audio signals with over-lapping block transform and adaptive window functions(德語),”Frequenz ，第43卷，第9期，第252-256頁，1989年9月)或轉換音訊編解碼中的暫態信號及穩態的分別編碼(Oliver Niemeyer及Bernd Edler所著的“Detection and extraction of transients for audio coding,”，AES 120th Convention ，巴黎，法國，2006年)in transform audio codecs，暫態成分的修改(M. M. Goodwin 及C. Avendano所著的“Frequency-domain algorithms for audio signal enhancement based on transient modifiation,”，Journal of the Audio Engineering Society .，第54卷，第827-840頁，2006年。)及音訊信號分段(P. Brossier、J.P. Bello，及M.D. Plumbley所著的“Real-time temporal segmentation of note objects in music signals,”，ICMC ，邁阿密，美國，2004年)。許多應用是檢測暫態的方式。最普遍的是，該檢測藉由運算一檢測函數來執行(J.P. Bello、L. Daudet、S. Abdallah、C. Duxbury、M. Davies，及M.B. Sandler所著的“A tutorial on onset detection in music signals,”，Speech and Audio Processing ,IEEE Transactions on ，第13卷，第5期，第1035-1047頁，2005年9月)，即局部最大值與暫態的出現一致的函數。各種提出的方法藉由研究次頻帶信號的(加權)幅度或能量包絡、寬帶信號、其導數或其相對差異函數得出此檢測函數(例如，參見參考文獻(A. Klapuri所著的“Sound onset detection by applying psychoacoustic knowledge,”，ICASSP，1999年)及(P. Masri及A. Bateman所著的“Improved modelling of attack transients in music analysis-resynthesis,”，ICMC，1996年)。)

其他方法計算經量測的相位與預測相位之間的偏差(例如，參見C. Duxbury、M. Davies，及M. Sandler所著的“Separation of transient information in musical audio using multiresolution analysis techniques,”，DAFX ，2001年)，次頻帶信號的相位及幅度的結合檢驗(參見C. Duxbury、M. Sandler，及M. Davies所著的“A hybrid approach to musical note onset detection,”，DAFX ，2002年)，或一可適性線性預測器所產生的誤差(例如，參見W-C. Lee及C-C. J. Kuo,“Musical onset detection based on adaptive linear prediction,”，ICME ，2006年)。藉由波峰選取，暫態的存在及其在時間上的位置作為一個二元決策來獲得或連續的檢測函數被應用以控制修改單元的動作(例如，參見參考文獻M. M. Goodwin及C. Avendano所著的“Frequency-domain algorithms for audio signal enhancement based on transient modifiation,”，Journal of the Audio Engineering Society .，第54卷，第827-840頁，2006年)。

利用二元決策，由於檢測階段中的分類錯誤而造成的錯誤指派可能會在某些應用中導致嚴重的減損。對於目前的演算法而言，誤否定(即錯失一暫態)會比誤肯定即檢測出一不存在的暫態)糟糕。第一種情況會導致一塗抹開的暫態成分出現而後者僅產生一多餘的內插若內插適當地執行。

短時間傅立葉轉換區塊的綜合加權絕對值用於暫態區域的檢測。此函數顯示起音暫態期間的顯著的升高且還能夠標示打擊式信號及相關聯的混響的衰減。關於平滑檢測函數的波峰選取使用基於以下所描述的一百分位計算的一可適性臨界值來實現，例如，參考文獻J.P. Bello、L. Daudet、S. Abdallah、C. Duxbury、M. Davies，及M.B. Sandler所著的“A tutorial on onset detection in music signals,”，Speech and Audio Processing,IEEE Transactions on ，第13卷，第5期，第1035-1047頁，2005年9月。

總結上述內容，關於暫態檢測的不同構想是領域中所習知的且可應用於本發明之裝置中。例如，上述關於暫態檢測的構想可在暫態信號替換器130的暫態檢測器130a中使用。

實施例2-暫態處理

在下文中，一暫態處理將參見第13及14圖來描述。第13圖顯示一暫態移除及內插的一圖形表示。第14圖顯示一時間延展及暫態重新插入的一圖形表示。因此，第13及14圖中的該等示意表示說明所呈現的演算法的處理步驟的順序。

第13圖的一第一列1310顯示包含一暫態事件1312的原始信號(即音訊信號110)。響應於(或透過)此暫態1312的檢測，一暫態區域(例如從一暫態區域開始位置1314延伸至一暫態區域結束位置1316)被界定(例如藉由暫態檢測器130a)，其隨後被從信號中減除。換言之，首先，暫態被檢測出且被視窗化。其次，被從該信號中減除。在參考文獻[B20]中顯示一信號，其中暫態被減除。該暫態本身被儲存以備稍後使用。直到此步驟，該演算法與參考文獻[B8]中所描述的相同，儘管此處所使用的截除視窗是矩形的(點狀粗線)。為了儲存暫態，前後加上了幾毫秒的保護間隔且視窗被錐形化(細實線)以界定用於將儲存的暫態平滑地重新插入到時間刪除無暫態信號中的交叉淡化區域。

隨後，依據本實施例的發明性演算法的最重要的特徵-內插以填充間隙-被應用。換言之，最後，產生的間隙透過內插來填充。內插的結果可在第13圖的底列中參考數字1330處看出。因為在內插之後信號通常為準穩態，所以現在信號可延展而不引入惱人的人工因素。此延展的結果在第14圖的第一列中參考數字1410處說明。經移位的位置處的暫態區被識別且為從前儲存的視窗化暫態的重新插入做準備。因此，錐形化的視窗(已用於暫態的擷取及/或儲存，且藉由圖形表示中的細實線於參考數字1310處來顯示)被轉換且施加於該信號以允許暫態重新加入。此處理的結果在參考數字1420中顯示。最終，儲存的暫態加入到經延伸的信號中，此在圖形表示中參考數字1430處可以看出。

為了總結上述內容，藉由暫態移除所引起的暫態移除及間隙內插在第13圖中顯示。首先，暫態被檢測出且被視窗化。其次，其從該信號中被減除。最後，產生的間隙透過內插來填充。第14圖顯示緊隨暫態移除及內插的時間延展及暫態重新插入。首先，準穩態信號經延展，例如，係使用本文所描述的語音編碼器。隨後，藉由與第14圖中用以儲存暫態的視窗的反向視窗相乘來為該經時間延展的信號中的暫態的位置作準備。最後，暫態被重新加入到該信號中。換言之，最終，儲存的暫態加入到經延展的信號中。

實施例2-暫態處理結果

在下文中，本發明的暫態處理的一些結果將參見第15圖來討論。第15圖顯示利用相位語音編碼器的時間延展應用中的該發明之暫態處理步驟的一圖形表示。第一列包含未經延展的信號，而第二列包含經延伸的口(port)。應注意在該第一列及該第二列的圖形表示中所使用的時間跨距不同。

第15圖繪示在響板混合一定音管的基礎上不同演算步驟的結果。

第15a圖中描述具有經檢測的暫態區域標示的原始輸入信號的一波形圖。第15b圖顯示截除暫態區域，該等經截除暫態區域(在一隨後的步驟中)內插以產生在第15c圖中所顯示的無暫態穩態信號。第15d圖包含包括交叉淡化保護間隔的該等暫態區域而第15e圖顯示經內插的(且通常經時間延展的)信號，該信號在時間刪除暫態位置處受到反向交叉淡化視窗的阻尼。作為完成部分，第15f圖顯示時間延展演算法的最終輸出。

因此，第15a圖表示音訊信號110。第15e圖表示暫態減少音訊信號132。第15d圖表示暫態信號152。第15f圖表示經處理的音訊信號120。

實施例2-暫態處理改進

已發現關於截除暫態區域的內插的不同構想在某些情況下是重要的。例如，若暫態之前的信號與暫態之後的信號相當不同，則在一暫態區域內的內插是困難的。在此情況下，在暫態事件期間所牽涉的信號在某些情況下幾乎不能被預測。第16圖說明此情況，該情況藉由舉例的方式使用分別對兩部分中的其中之一的可能的評估來簡化。演算法(例如用以執行內插以填充間隙的演算法)必須決定(用以填充間隙的內插信號的)所包含的音高。相同的演算法應用於更加複雜的寬帶信號。克服此問題的一可能的解決方案在於彼此交叉淡化的向前預測及向後預測。因此，當運算用以填充間隙的內插信號時，這樣一彼此交叉淡化的向前預測及向後預測可被應用。

此問題在第16圖中說明且依據本發明的一層面的一解決方案被呈現。第16圖顯示出暫態的內插(即由暫態移除所引起的對間隙的內插)是困難的若該信號在暫態期間顯著地變化。在內插範圍(即由移除暫態所引起的間隙)期間存在無限的音高曲線式樣。第16a圖以時間頻率表示形式來顯示包含一暫態事件的一信號的一圖形表示。一暫態範圍，即已作為一暫態時間間隔而被識別的一時間間隔由1610來表示。第16b圖顯示用以獲得輸入音訊信號的一時間部分的不同可能性的一圖形表示，在此時間部分期間，一暫態已經被檢測出且被移除。可以看出，若在時間上在暫態於期間從輸入音訊信號中被移除的時間間隔1620之前有一第一音高，及在時間上在該時間間隔1620之後有一第二音高，則必須判定出用以填充移除該暫態時間間隔1620而留下的間隙的一音高演進。可以看出，例如，可以(在時間方向上)對該時間間隔1620之前的該基頻向前外插以獲得該時間間隔1620期間的音高(參見虛線1630)。可選擇地，可以(在時間方向上)對在該時間間隔1620之後呈現的一音高向後外插以獲得該時間間隔1620期間的音高(參見虛線1632)。可選擇地，可以在該時間間隔1620期間在該時間間隔1620之前呈現的一音高與該時間間隔1620之後呈現的一音高之間內插(參見虛線1634)。自然地，獲得該時間間隔1620(由暫態移除所引起的間隙)期間的一音高演進的不同方案是可能的。

暫態信號重新插入之後的最終獲得的經處理的信號的一影響在第16c圖中顯示。可以看出，重新插入的暫態信號部分(反映暫態信號部分的一原始或經處理的暫態內容)在時間上可能短於經處理的(例如經時間延展的)音訊信號142，該音訊信號142被處理而不具有暫態內容。因此，對用以填充藉由音訊信號132中的暫態移除所引起的間隙的構想的選擇實際上可能對經處理的音訊信號120產生可聽得見的影響，甚至在暫態重新插入之後，例如若(由暫態信號152所描述的)該重新插入的暫態部分短於經處理的音訊信號142中的間隙填充的經處理的結果。可參照重新插入的暫態之前的時間間隔140及該重新插入的暫態之後的一時間間隔142。

為了總結上述內容，參見第16圖已顯示的是暫態區域的內插需要一些考慮，若信號在暫態期間顯著地變化。在內插範圍期間存在無限的音高曲線式樣。第16a圖顯示包含一暫態事件的一信號。第16b圖顯示以虛線來標示的內插暫態範圍的不同可能性。第16c圖顯示一經延展的信號。因為經延展的內插區延伸超出暫態部分，所以內插的信號可聽得到且可導致可感知的人工因素。

實施例2-性能評估

為了獲得對所提出的方法的可感知性能的一些瞭解，非正式的收聽被實施。選定的信號包括具有暫態及穩態信號特性的項目以評估針對暫態信號的新方案的益處，同時確保該等穩態信號不被降級。

與最佳軟體時間延展演算法相比較，此非正式的測試顯示出對於前文所提到的定音管與響板的結合優勢明顯。結果顯示當焦點落在暫態信號上時，基於PV的時間延展演算法優於WSOLA。

利用新方法來延展現實世界的信號有時亦優於以其他方法來延展。

結論

為了總結上述內容，一新暫態處理方案已被描述，其可有利地用於時間延展演算法。在不影響各自對方的情況下改變音訊信號的速度或音高時常用於音樂製作及創造性再現，諸如重新混合。其還可用於達到其他目的，諸如頻寬擴展及速度增強。儘管穩態可在不有損品質的情況下被延展，但是當使用習知的演算法時，暫態時常在延展之後不能被完好保留。本發明展示用於時間延展演算法中的暫態處理的一方法。暫態區由穩態信號來替換。因此被移除的信號被保存且在時間延展之後被重新插入到時間擴張穩態音訊信號中。

延展諸如一定音管發出的一絕對音調信號及諸如響板發出的一打擊式信號的一組合這項任務提出了一項挑戰。

儘管某些習知的方法大致保留了經時間延展版本的一信號的包絡以及其頻譜特性，且希望一時間擴張打擊事件衰減慢過原始事件，但是本發明遵循相對的假定：對於音樂信號的時間調整而言，目標是保留暫態事件的包絡。因此，依據本發明的一些實施例僅延展延持的成分以實現聽起來像是以不同的情緒來演奏相同樂器的效果(例如，參見參考文獻[B3])。為了實現此效果，暫態及穩態信號成分依據本發明被分別處理。

依據本發明的實施例係基於刊物[B8]中所描述的構想，其中已證明暫態是如何利用語音編碼器在時間及頻率延展上被保留下來的。在此方法中，在信號延展之前暫態從該信號中被截除。暫態部分的截除導致該信號內出現間隙，該等間隙藉由相位語音編碼處理被延展。在延展之後，暫態在適合於該等經延展的間隙的情況下被重新加入到該信號中。但是，已發現該解決方案對於許多信號而言包含了一些優勢。但是還發現藉由截除該等暫態，新的人工因素出現了，因為該等間隙將新的非穩態部分引入到該信號中，尤其是在引入的間隙的邊界處。此等非穩態例如可在第15b圖中看到。

文中所描述的本發明之方法的實施例具有超越例如在刊物[B3]、[B6]、[B7]中所描述的技術的優勢，它們能夠使時間延展在不必在有一暫態的情況下改變延展因數。該發明之方法與例如參考文獻[B8]及[B5]中所描述的該等方法具有共性。本發明方案將信號分為一暫態部分及一無暫態準穩態信號。與[B8]中所描述的方法相比，由截除暫態而產生的間隙由穩態信號替換。一內插方法用以估計貫穿間隙的圍繞間隙期的信號的延續。那麼產生的準穩態部分非常適於時間延展演算法。由於此信號現在(即內插或外插之後)不再包括暫態及間隙，所以經延伸的暫態及經延伸的間隙的人工因素可被防止。延展動作執行之後，該等暫態替換內插信號的多個部分。此項技術依賴於暫態的準確檢測及穩態部分的可感知的正確內插。但是，除了內插以外，其他填充技術也可如上所述來使用。

為了更好地總結上述內容，在上述某些實施例中，目標是延展諸如定音管加響板發出的一絕對音調信號及一暫態信號的一結合而不產生任何可感知的人工因素。已顯示出本發明對實現此目的的方式有顯著地提高。本發明的重要層面其中之一在於對一暫態事件的正確識別，尤其是其精確的起音點，且更困難的是其衰減及其相關聯的混響。因為衰減及一暫態事件的一混響覆蓋有信號的穩態部分，此等部分需要仔細處理以避免重新加入到信號的經延伸部分中之後出現可感知的波動。

一些收聽者趨向於偏好混響與延的信號部分一起延展的版本。此偏愛與實際目標矛盾，其將暫態及相關聯的聲音作為一個整體來考慮。因此，在某些情況下，需要更多的瞭解收聽者的偏好。

但是，依據本發明的觀念及原則性方法已針對一特殊情況證明了它們的價值及應用。然而，所希望的是本發明的應用範圍甚至可被擴展。由於其結構，本發明之演算法可輕易地適應用於暫態部分的操縱，例如，相較於穩態信號部分改變它們的位準。

該發明之方法的另一可能的應用會是任意地衰減或放大暫態以便重播。此可用以改變諸如鼓發出的暫態事件的響度或甚至完全移除它們，因為將信號分離為暫態及穩態部分是該演算法所固有的。

上述該等實施例僅是說明本發明的原則。應理解的是在此所描述的該等安排及該等細節的修改及變化對於熟於此技者而言是顯而易見的。因此，其旨在僅受獨立的專利之申請專利範圍的範圍的限制而不受藉由本文的實施例的說明及解釋的方式所呈現的特定細節的限制。

參考文獻

[A1] J.L. Flanagan and R.M. Golden,“The Bell System Technical Journal,November 1966”,pages 1394 to 1509;

[A2] United States Patent 6,549,884,Laroche,J. ＆ Dolson,M.:“Phase─vocoder pitch-shifting”；

[A3] Jean Laroche and Mark Dolson,“New Phase-Vocoder Techniques for Pitch-Shifting,Harmonizing and Other Exotic Effects”,by Proc.

[A4] Zlzer,U:“DAFX: Digital Audio Effects”,Wiley ＆ Sons,Edition: 1(26 February 2002),pages 201-298;

[A5] Laroche L.,Dolson M.:”Improved phase vocoder timescale modification of audio”,IEEE Trans. Speech and Audio Processing,vol. 7,no. 3,pp. 323-332;

[A6] Emmanuel Ravelli,Mark Sandler and Juan P. Bello:“Fast implementation for non─linear time-scaling of stereo audio”,Proc. of the 8^th Int. Conference on Digital Audio Effects(DAFx’05),Madrid,Spain,September 20-22,2005；

[A7] Duxbury,C.,M. Davies,and M. Sandler(2001,December):“Separation of transient information in musical audio using multiresolution analysis techniques”. In: Proceedings of the COST G-6 Conference on Digital Audio Effects(DAFX-01),Limerick,Ireland;

[A8] Rbel A.:“A NEW APPROACH TO TRANSIENT PROCESSING IN THE PHASE VOCODER”,Proc. Of the 6^th Int. Conference on Digital Audio Effects(DAFx-03),London,UK,September 8-11,2003.

[B1] T. Karrer,E. Lee,and J. Borchers,“Phavorit：A phase vocoder for real-time interactive time-stretching,”inProceedings of the ICMC 2006 International Computer Music Conference, New Orleans,USA,November 2006,pp. 708-715.

[B2] T. F. Quatieri,R. B. Dunn,R. J. McAulay,and T. E. Hanna,“Time-scale modifications of complex acoustic signals in noise,”Technical report,Massachusetts Institute of Technology,February 1994.

[B3] C. Duxbury,M. Davies,and M. B. Sandler,“Improved time-scaling of musical audio using phase locking at transients,”in112th AES Convention, Munich,2002,Audio Engineering Society.

[B4] S. Levine and Julius O. Smith III,“A sines + transients + noise audio representation for data compression and time/pitchscale modifications,”1998.

[B5] T. S. Verma and T. H. Y. Meng,“Time scale modification using a sines+transients+noise signal model,”inDAFX98, Barcelona,Spain,1998.

[B6] A. Rbel,“A new approach to transient processing in the phase vocoder,”in6th Conference on Digital Audio Effects(DAFx-03), London,2003,pp. 344-349.

[B7] A. Rbel,“"Transient detection and preservation in the phase vocoder,”inInt. Computer Music Conference (ICMC 03),Singapore,2003,pp. 247-250.

[B8] F. Nagel,S. Disch,and N. Rettelbach,“A phase vocoder driven bandwidth extension method with novel transient handling for audio codecs,”in126th AES Convention, Munich,2009.

[B9] M. Dolson,“The phase vocoder: A tutorial,”Computer Music Journal, vol. 10,no. 4,pp. 14-27,1986.

[B10] B. Edler,“Coding of audio signals with over-lapping block transform and adaptive window functions (in german),”Frequenz, vol. 43,no. 9,pp. 252-256,Sept. 1989.

[B11] Oliver Niemeyer and Bernd Edler,“Detection and extraction of transients for audio coding,”inAES 120th Convention, Paris,France,2006.

[B12] M. M. Goodwin and C. Avendano,“Frequency-domain algorithms for audio signal enhancement based on transient modifiation,”Journal of the Audio Engineering Society., vol. 54,pp. 827-840,2006.

[B13] P. Brossier,J.P. Bello,and M.D. Plumbley,“Real-time temporal segmentation of note objects in music signals,”inICMC, Miami,USA,2004.

[B14] J.P. Bello,L. Daudet,S. Abdallah,C. Duxbury,M. Davies,and M.B. Sandler,“A tutorial on onset detection in music signals,”Speech and Audio Processing,IEEE Transactions on, vol. 13,no. 5,pp. 1035-1047,Sept. 2005.

[B15] A. Klapuri,“Sound onset detection by applying psychoacoustic knowledge,”in ICASSP,1999.

[B16] P. Masri and A. Bateman,“Improved modelling of attack transients in music analysis-resynthesis,”in ICMC,1996.

[B17] C. Duxbury,M. Davies,and M. Sandler,“Separation of transient information in musical audio using multiresolution analysis techniques,”inDAFX ,2001.

[B18] C. Duxbury,M. Sandler,and M. Davies,“A hybrid approach to musical note onset detection,”inDAFX ,2002.

[B19] W-C. Lee and C-C. J. Kuo,“Musical onset detection based on adaptive linear prediction,”inICME ,2006.

[Edler] O. Niemeyer and B. Edler,“Detection and extraction of transients for audio coding”,presented at the AES 120^th Convention,Paris,France,2006;

[Bello] J.P. Bello et al.,“A Tutorial on Onset Detection in Music Signals”,IEEE Transactions on Speech and Audio Processing,Vol. 13,No. 5,September 2005；

[Goodwin] M. Goodwin,C. Avendano,“Enhancement of Audio Signals Using Transient Detection and Modification”,presented at the AES 117^th Convention,USA,October 2004;

[Walther] Walther et al.,“Using Transient Suppression in Blind Multi-channel Upmix Algorithms”,presented at the AES 122th Convention,Austria,May 2007；

[Maher] R.C. Maher,“A Method for Extrapolation of Missing Digital Audio Data”,JAES,Vol. 42,No. 5,May 1994；

[Daudet] L. Daudet,“A review on techniques for the extraction of transients in musical signals”,book series: Lecture Notes in Computer Science,Springer Berlin/Heidelberg,Volume 3902/2006,Book：Computer Music Modeling and Retrieval,pp. 219-232.

100．．．裝置

110．．．音訊信號/原始輸入音訊信號/輸入音訊信號

120．．．經處理的音訊信號

130．．．暫態信號替換器/暫態替換器

130a．．．暫態檢測器

130b．．．資訊/暫態時間資訊

130c．．．旁側資訊擷取器

130d．．．暫態部分替換器

130e．．．暫態部分外插器

132．．．暫態減少音訊信號/信號/暫態減少信號/音訊信號

134．．．暫態資訊

140．．．信號處理器/時間間隔

142．．．暫態減少音訊信號的經處理版本/信號/經處理的信號/經處理的音訊信號/時間間隔

150．．．暫態信號重新插入器

150a．．．信號結合器

150b、150c．．．計算器

152．．．暫態信號

160．．．可取捨的暫態處理器/暫態處理器

170．．．信號調節器

310．．．頻率選擇分析器

312．．．頻率選擇處理裝置/頻率選擇處理

314．．．頻率結合器

320．．．次頻帶/轉換分析器/分析器

322．．．處理器/項目

324．．．次頻帶/轉換結合器/項目

326、510、557、560．．．輸出

330．．．時域處理

500．．．輸入

501．．．帶通濾波器/濾波器

502．．．下游振盪器/振盪器

503、552．．．加法器

551．．．輸入混合器

553．．．低通濾波/低通濾波器/濾波器

554．．．正交信號

555．．．同相信號

556．．．座標轉換器

558．．．相位展開器/元件

559．．．相位/頻率轉換器

600．．．短時間傅立葉轉換處理器/FFT處理器

602．．．控制器

604．．．IFFT處理器

606．．．區塊

800、930、950、970．．．圖形表示

810、912．．．橫座標

812．．．縱座標

814．．．曲線

910．．．第一圖形表示/圖形表示

920、1012．．．暫態信號部分

922a~c．．．處理區塊

1000．．．第10圖表示的全部內容

1010、1020、1030、1040、1100、1150、1170．．．信號表示

1022．．．參考數字

1040．．．信號表示/圖形表示

1050．．．圖形表示/信號表示

1160．．．暫態頻率偏移操作

1200．．．方法

1210~1230．．．步驟

1310．．．第一列

1312．．．暫態事件/暫態

1314．．．暫態區域開始位置

1316．．．暫態區域結束位置

1310、1330、1410~1430．．．參考數字

1310．．．第13圖的第一列

1330．．．第13圖的底列

1410．．．第14圖的第一列

1420．．．結果

1430．．．圖形表示

1610．．．暫態範圍/時間間隔

1620．．．時間間隔/暫態時間間隔

1630~1634．．．虛線

i．．．濾波通道

f_i ．．．頻率/頻率值/直接分量/平均頻率

A(t)．．．振幅信號/信號

A(t)、f(t)．．．信號

Δf(t)．．．交變分量

A’(t)、f’(t)‧‧‧擴展信號

a、b‧‧‧距離

1”‧‧‧區塊/時間間隔

I‧‧‧正交信號

Q‧‧‧同相信號

第1圖顯示依據本發明的一實施例的用以操縱包含一暫態事件的一音訊信號的一裝置的一方塊示意圖；

第2圖顯示依據本發明的一實施例的一暫態信號替換器的一方塊示意圖；

第3a-3c圖顯示依據本發明的實施例的一信號處理器的方塊示意圖；

第4圖顯示依據本發明的一實施例的一暫態信號重新插入器的一方塊示意圖；

第5a圖顯示第1圖的該信號處理器中需使用的一語音編碼器的實施態樣的一概述；

第5b圖顯示第1圖的一信號處理器之部分(分析)的一實施態樣；

第5c圖說明第1圖的一信號處理器的其他部分(延展)；

第6圖說明第1圖的該信號處理器中需使用的一相位語音編碼器的一轉換實施態樣；

第7圖顯示一相位語音編碼演算法的一示意圖，其利用與分析跳距不同的合成跳距來操作，例如，其等相差了1倍；

第8圖顯示一音訊信號的振幅的一時間演進的一圖形表示；

第9圖顯示第1圖的該裝置中的該信號處理的一時序的一圖形表示；

第10圖顯示可能在依據第1圖的一裝置中出現的信號的一圖形表示；

第11圖顯示可能在依據第1圖的一裝置中出現的信號的另一圖形表示；

第12圖顯示依據本發明的一實施例的用以操縱一音訊信號的一方法的一流程圖；

第13圖顯示依據本發明的一實施例的一暫態移除及內插的一圖形表示；

第14圖顯示依據本發明的一實施例的一時間延展及暫態重新插入的一圖形表示；

第15圖顯示在利用該相位語音編碼器的一時間延展應用中的本發明之暫態處理的不同步驟中出現的信號波形的一圖形表示；且

第16圖顯示在一時間延展的不同步驟所呈現的信號的一圖形表示。

100．．．裝置

110．．．音訊信號

120．．．經處理的音訊信號

130．．．暫態信號替換器/暫態替換器

132．．．暫態減少音訊信號

134．．．暫態資訊

140．．．信號處理器

142．．．暫態減少音訊信號的經處理版本

150．．．暫態信號重新插入器

152．．．暫態信號

160．．．可取捨的暫態處理器/暫態處理器

170．．．信號調節器

Claims

一種用以操縱包含一暫態事件的一音訊信號的裝置，該裝置包含：一暫態信號替換器，其係組配以用一替換信號部分來替換該音訊信號的包含該暫態事件的一暫態信號部分以獲得一暫態減少音訊信號，該替換信號部分適應於該音訊信號的一個或一個以上非暫態信號部分的信號能量特性，或適應於該暫態信號部分的一信號能量特性；一信號處理器，其係組配以處理該暫態減少音訊信號來獲得該暫態減少音訊信號的一經處理版本；及一暫態信號重新插入器，其係組配以將該暫態減少音訊信號的該經處理版本與以一原始或經處理的形式表示該暫態信號部分的一暫態內容的一暫態信號結合。
如申請專利範圍第1項所述之裝置，其中該暫態信號替換器係組配以提供該替換信號部分，使得該替換信號部分與該暫態信號部分相比時表示具有一平滑化時間演進的一時間信號，使得該替換信號部分的一能量與該暫態信號部分之前或該暫態信號部分之後的該音訊信號的一非暫態信號部分的一能量之間的一偏差小於一預定的臨界值。
如申請專利範圍第1或2項所述之裝置，其中該暫態信號替換器係組配以外推該暫態信號部分之前的一個或一個以上信號部分的振幅值來獲得該替換信號部分的振幅值，以及其中該暫態信號替換器係組配以外推該暫態信號部分之前的一個或一個以上信號部分的相位值來獲得該替換信號部分的相位值。
如申請專利範圍第1或2項所述之裝置，其中該暫態信號替換器係組配以在該暫態信號部分之前的一信號部分的一振幅值與該暫態信號部分之後的一信號部分的一振幅值之間內插來獲得該替換信號部分的一個或一個以上振幅值，以及其中該暫態信號替換器係組配以在該暫態信號部分之前的一信號部分的一相位值與該暫態信號部分之後的一信號部分的一相位值之間內插來獲得該替換信號部分的一個或一個以上相位值。
如申請專利範圍第3項所述之裝置，其中該暫態信號替換器係組配以施加一加權雜訊來獲得該替換信號部分的該等振幅值，或係組配以施加一加權雜訊來獲得該替換信號部分的該等相位值。
如申請專利範圍第3項所述之裝置，其中該暫態信號替換器係組配以將該暫態信號部分的非暫態成分與外推或內插值結合來獲得該替換信號部分。
如申請專利範圍第1項所述之裝置，其中該暫態信號替換器係組配以獲得依據當前暫態信號部分的一長度而定的可變長度的替換信號部分。
如申請專利範圍第1項所述之裝置，其中該信號處理器係組配以處理該暫態減少音訊信號，使得該暫態減少音訊信號的該經處理版本的一給定的時間信號部分係依據該暫態減少音訊信號的複數個時移時間信號部分而定。
如申請專利範圍第1項所述之裝置，其中該信號處理器係組配以執行該暫態減少音訊信號的一基於時間區塊的處理來獲得該暫態減少音訊信號的該經處理版本；以及其中該暫態信號替換器係組配以利用比一時間區塊的持續時間精細的一時間解析度來調整欲被該替換信號部分替換的該暫態信號部分的持續時間，或以具有小於該時間區塊之該持續時間的一時段的一替換信號部分來替換具有小於該時間區塊之該持續時間的一時段的一暫態信號部分。
如申請專利範圍第1項所述之裝置，其中該信號處理器係組配來以一取決於頻率的方式來處理該暫態減少音訊信號，藉此該處理將暫態降級之取決於頻率的相位偏移引入到該暫態減少音訊信號中。
如申請專利範圍第1項所述之裝置，其中該暫態信號替換器包含一暫態檢測器，其中該暫態檢測器係組配以提供一時變的檢測臨界值用於該音訊信號中的暫態的檢測，使得該檢測臨界值遵循具有可調整平滑時間常數的該音訊信號的一波封，以及其中該暫態檢測器係組配以響應於一暫態的檢測及/或依據該音訊信號的一時間演進來改變該平滑時間常數。
如申請專利範圍第1項所述之裝置，其中該裝置包含一暫態處理器，該暫態處理器係組配以接收一暫態資訊且在該暫態資訊基礎上獲得一經處理的暫態信號，在該經處理的暫態信號中音調成分減少，以及其中該暫態信號重新插入器係組配以將該暫態減少音訊信號的該經處理版本與該暫態處理器所提供的該經處理的暫態信號結合。
如申請專利範圍第1項所述之裝置，其中該暫態信號替換器包含一暫態檢測器，該暫態檢測器係組配以在該音訊信號的一監測基礎上或在伴隨該音訊信號的一旁側資訊的基礎上來檢測該音訊信號的一暫態信號部分，且判定該暫態信號部分的一長度；其中該暫態信號替換器係組配以考慮該暫態檢測器所判定的該暫態信號部分的該長度；其中該暫態信號替換器係組配以在一時間-頻率域中外推與該暫態信號部分之前的該音訊信號的一非暫態信號部分相關聯的複數值時間-頻率域係數來獲得該替換信號部分的時間-頻率域係數，或其中該暫態信號替換器係組配以於時間-頻率域中，在與該暫態信號部分之前的該音訊信號的一非暫態信號部分相關聯的複數值時間-頻率域係數與該暫態信號部分之後的該音訊信號的一非暫態信號部分相關聯的複數值時間-頻率域係數之間內插，以獲得該替換信號部分的時間-頻率域係數；其中該信號處理器係組配以藉由時間延展或時間壓縮來執行一暫態降級音訊信號處理，使得該信號處理器所提供的經處理的信號包含一持續時間，該持續時間大於或小於該音訊信號處理器所接收的未經處理的信號的持續時間；以及其中該裝置係組配以適應該暫態信號重新插入器所獲得的信號的一時間縮放或取樣率，使得至少該暫態信號重新插入器所獲得的該信號的非暫態成分在與輸入到該暫態信號替換器中的該音訊信號相比時被頻移。
如申請專利範圍第1項所述之裝置，其中該暫態信號重新插入器係組配以使該暫態減少音訊信號的該經處理版本與以一原始或經處理形式表示該暫態信號部分的一暫態內容的一暫態信號交叉淡化。
一種用以操縱包含一暫態事件的一音訊信號的方法，該方法包含以下步驟：以適應於該音訊信號的一個或一個以上非暫態信號部分的信號能量特性或適應於一暫態信號部分的信號能量特性的一替換信號部分來替換該音訊信號之包含該暫態事件的該暫態信號部分，以獲得一暫態減少音訊信號；處理該暫態減少音訊信號以獲得該暫態減少音訊信號的一經處理版本；及將該暫態減少音訊信號的該經處理版本與以一原始或經處理形式表示該暫態信號部分的一暫態內容的一暫態信號結合。
一種電腦程式，其用以在一電腦上運行時執行如申請專利範圍第15項所述之方法。