[go: up one dir, main page]

EP1388147B1 - Verfahren zur erweiterung der bandbreite eines schmalbandig gefilterten sprachsignals, insbesondere eines von einem telekommunikationsgerät gesendeten sprachsignals - Google Patents

Verfahren zur erweiterung der bandbreite eines schmalbandig gefilterten sprachsignals, insbesondere eines von einem telekommunikationsgerät gesendeten sprachsignals Download PDF

Info

Publication number
EP1388147B1
EP1388147B1 EP01943072A EP01943072A EP1388147B1 EP 1388147 B1 EP1388147 B1 EP 1388147B1 EP 01943072 A EP01943072 A EP 01943072A EP 01943072 A EP01943072 A EP 01943072A EP 1388147 B1 EP1388147 B1 EP 1388147B1
Authority
EP
European Patent Office
Prior art keywords
speech signal
narrowband
signal time
generated
expanded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
EP01943072A
Other languages
English (en)
French (fr)
Other versions
EP1388147A1 (de
Inventor
Roland Aubauer
Stefano Ambrosius Klinke
Frannk Lorenz
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Siemens Corp
Original Assignee
Siemens AG
Siemens Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG, Siemens Corp filed Critical Siemens AG
Publication of EP1388147A1 publication Critical patent/EP1388147A1/de
Application granted granted Critical
Publication of EP1388147B1 publication Critical patent/EP1388147B1/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility

Definitions

  • the present invention relates to a method for expanding the bandwidth of a narrowband filtered speech signal, in particular a speech signal sent by a telecommunication device according to the preamble of claim 1, the preamble of claim 3 and the preamble of claim 12.
  • Speech coding methods are characterized by their different bandwidths.
  • narrowband encoders English: narrow-band coder
  • wideband encoders English: wideband coder
  • voice signals which are typically between 50 and 7000 Hz are, convert into coded speech signals.
  • the speech signals that are fed to the narrowband encoder are usually sampled at a lower sampling rate than the speech signals that are fed to the broadband encoder.
  • the net bit rate of the narrowband encoder is usually lower than the net bit rate of the broadband encoder.
  • the coded voice signals of different bandwidth are transmitted within the same channel mode, this enables the use of different rates in the channel coding, which leads to different error protection. If the same channel mode is used, it is possible to add more redundant error protection bits to the narrow-band coded speech signals in the course of the channel coding than to the broadband coded speech signals in the event of poor transmission conditions via the transmission channel. Therefore, the transmission of Speech signals over a transmission channel in which, depending on the transmission conditions, the speech coding is switched between a broadband and a narrowband speech coding ["wide-band” to narrow-band “switching (" WB / NB "switching)] and the channel coding, in particular the rate of the channel coding is adapted to this. At the receiving end, the coded speech signals are decoded in accordance with the coding.
  • the new telecommunications system for wireless telecommunication UMTS (U niform M obile T elecommunications S ystem ”) a broadband coding, for example, been standardized to ensure the future UMTS terminals a very good voice quality.
  • a disadvantage of such an approach is that a receiving subscriber finds the sudden switching from broadband coding to narrowband coding and the associated loss of quality particularly extremely disruptive.
  • the receiving subscriber will find the sudden switching from broadband coding to narrowband coding and the associated loss of quality to be extremely disruptive.
  • the previously known telecommunications systems use various digital and analog coding methods to transmit the voice signals.
  • the restoration is carried out by generating frequencies in the lower frequency range by means of non-linear signal processing, by means of which subharmonic frequencies of the signal are generated and added to the high-pass signal.
  • EP 0 994 464 also discloses a further development in which the non-linear signal processing is carried out by multiplying the signal by a function of the signal.
  • a disadvantage of the methods mentioned is that the filter characteristic (transmission characteristic of the telephone) with which the signal was filtered on the remote subscriber terminal is generally unknown and can be very different for different device types. This is shown in FIGURE 7. A restoration of the voice signal is therefore only possible if the filter characteristics of the participating devices involved are known or if these devices are matched to one another.
  • the digital speech signal is split up for further processing and transmission into coefficients that describe the spectral coarse structure of a signal section, and into an excitation or prediction error signal, the so-called residual signal, which forms the spectral fine structure.
  • This residual signal no longer contains the spectral envelope of the speech signal, which is represented by the coefficients that describe the spectral rough structure.
  • a typical representation for the spectral coarse structure are the LPC coefficients (linear predictive coding) determined in linear prediction analysis, which describe a recursive filter, the so-called synthesis filter, whose transfer function corresponds to the spectral coarse structure. These coefficients are used in their actual or a transformed form in many speech coders.
  • the received residual signal is used as an input signal for the synthesis filter on the receiver side, so that the reconstructed speech signal is available at the output of the filter.
  • the LPC coefficients are consequently a representation of the spectral coarse structure of a speech signal section and can be used for the synthesis of speech signals using an appropriate excitation signal.
  • code books For an expansion of the bandwidth in the upper frequency range, methods are known which are based on special language data books, so-called code books (codebooks), which form a relation between the LPC coefficients of a narrow-band speech signal section and those of a broadband speech signal section. The result of this is that the code books have to be trained with narrowband and broadband language at the same time and must be stored in the communication terminal.
  • a broadband excitation signal is generated from the narrowband residual signal, which was generated by the linear prediction analysis of the narrowband speech signal, which contains frequency components above the bandwidth of the narrowband speech signal.
  • the object on which the invention is based is to expand the bandwidth of a narrow-band filtered speech signal in a simple and inexpensive manner without loss of quality.
  • This object is based on the method defined in the preamble of claim 1 by the features specified in the characterizing part of claim 1, starting from the method defined in the preamble of claim 3 by the features specified in the characterizing part of claim 3 and starting from the in the preamble of claim 12 defined method solved by the features of claim 12 specified features.
  • the narrowband speech signal is divided into a spectral structure having speech signal time segments, each narrowband speech signal time segment is classified as a voiced sound or as an unvoiced sound, supplements with a spectral structure for the expansion of the narrowband speech signal are generated with respect to the sound-related classification carried out, the supplement being independent of the respective sound, at least in the case of the voiced sound spectral structure of the narrowband speech signal time segment, the invention preferably through an FFT analysis (F ast F individual Fourier T ransformation) is calculated, and the spectral structure of the complement produced are time sections linked such that each is formed to claim 2 an expanded spectral structure and then with respect to the time segment duration broadband a according to claim 1 from the expanded spectral structure, in particular by an IFFT analysis (I nverse F ast F individual Fourier T ransformation) according to claim 2, in each
  • An alternative method of how the narrowband filtered speech signal can be estimated with respect to frequency components above the cutoff frequency in the time domain is specified in claim 12, according to which first the narrowband speech signal is divided into speech signal time segments and each narrowband speech signal time segment is classified as a voiced sound or as an unvoiced sound and then the narrowband speech signal time segments are processed in such a non-linear manner that a modified one in each case Speech signal time period is generated, which contains on the one hand the respective substantially unchanged narrowband speech signal time period and on the other hand above the first cut-off frequency signal components generated by the non-linear signal processing and the modified speech signal time segments are filtered differently with respect to the type-related classification carried out in such a way that broadband extended speech signal time segments are made from the modified speech signal time segments and thus a broadband expanded speech signal is created.
  • the modified speech signal time segments are filtered such that in the case of a voiced speech signal time segment little energy above the first cutoff frequency - e.g. 4 kHz - and in the case of an unvoiced speech signal time segment more energy above the first cutoff frequency - e.g. 4 kHz is allowed through.
  • An essential advantage of the methods according to the invention for expanding a narrowband filtered speech signal in the upper frequency range according to claims 1, 3 and 12 compared to the known methods is the saving of memory space, because essentially memory-consuming code books can be dispensed with. They also allow the narrowband speech signal to be expanded without precise knowledge of the original broadband excitation signal. In addition, the methods according to claims 3 and 12 are characterized by very little computing effort. Finally, the training of the memory-consuming code books, which usually has to be carried out in the development phase of telecommunication devices used for voice transmission, is omitted in all methods.
  • the supplement generated for the narrow-band speech signal time segments classified as voiced sounds is generated in such a way that the energy of this supplement is negligible in relation to the total energy of the narrow-band voice signal segment.
  • the further development according to claim 4 ensures an improvement in the quality of the broadband extended voice signal, since this type of further development takes into account that a substantial part of the signal energy is continued in the case of unvoiced sounds in the upper frequency range, so that the exact course of this part is prevented , which is done by always making the same addition and thus falsifying the synthesized speech signal.
  • the supplement generated for the narrow-band speech signal sections classified as unvoiced sounds is generated in such a way that the energy of this supplement is not negligible in relation to the total energy of the narrow-band speech signal section. In this way, an expansion of the narrowband filtered speech signal can be carried out easily without precise knowledge of the unvoiced sound.
  • the supplement generated for the narrow-band speech signal time segments classified as unvoiced sounds is generated in such a way that on the basis of at least one broadband code book from first filter coefficients of the narrow-band voice signal time segment second filter coefficients of a broadband speech signal period are determined. This can improve the quality of the synthesized speech signal compared to the speech signal where no codebook is used.
  • the development according to claim 7 allows the restoration of a broadband speech signal expanded in the upper frequency range on the basis of determined broadband filter coefficients.
  • the development according to claim 8 allows the restoration of a broadband speech signal expanded in the upper frequency range on the basis of determined broadband filter coefficients and a broadband prediction error signal time period.
  • the broadband filter coefficients are compared with the entries from a broadband codebook and the entry in the broadband codebook that best matches the broadband filter coefficients is used as a filter coefficient for the synthesis of the broadband extended speech signal based on.
  • the advantage of this method is that by using a codebook, the filter coefficients found on the basis of the above codebook comparison are a good approximation of the real coefficients both below the first cut-off frequency (e.g. 4 kHz) and above the first cut-off frequency (e.g. 4 kHz) , That means the estimate of the coefficients is above the first Cutoff frequency is no longer so rough.
  • the filter coefficients found on the basis of the above codebook comparison are a good approximation of the real coefficients both below the first cut-off frequency (e.g. 4 kHz) and above the first cut-off frequency (e.g. 4 kHz) , That means the estimate of the coefficients is above the first Cutoff frequency is no longer so rough.
  • the broadband extended speech signal time section generated from the expanded spectral structure is high-pass filtered, the high-pass filtered speech signal time section is linked to the corresponding narrow-band speech signal time section and the broadband extended speech signal is generated from the individual linked speech signal time segments.
  • the signal components generated by the nonlinear signal processing for the narrow-band speech signal time segments classified as voiced sounds are generated such that the energy of the respective signal component is negligible in relation to the total energy of the narrow-band voice signal time segment.
  • the signal components generated by the non-linear signal processing for the narrow-band speech signal segments classified as unvoiced sounds are generated in such a way that the energy of the respective signal component is not negligible in relation to the total energy of the narrow-band voice signal time segment.
  • the method for expanding the narrowband filtered speech signal can advantageously be further developed according to claim 16 - in the sense of a simplified calculation and implementation of the method - by selecting the narrowband speech signal time segments to be of equal length.
  • FIGURE 1 shows a first process (a first method) for expanding the bandwidth of a voice signal sent by a telecommunication device in the direction of the upper frequencies above a cutoff frequency - e.g. 4 kHz - the narrowband filtered speech signal in the frequency domain.
  • a cutoff frequency e.g. 4 kHz - the narrowband filtered speech signal in the frequency domain.
  • the voice signal is sent by the telecommunication device. There is thus a narrowband filtered speech signal.
  • this speech signal is subdivided into narrow-band speech signal time segments of preferably the same size.
  • the spectral structure is then calculated for each speech signal time segment in a second process step P1.1 by means of a "Fast Fourier Transformation (FFT)" and a classification is carried out in a third process step P2.1 in such a way that the respective speech signal time segment as a voiced sound - such as " a ",” e “or” i ", whose pronunciation has a spectrum shown in FIGURE 4a - or as an unvoiced sound - such as” s "," sch “or” f ", whose pronunciation has a spectrum shown in FIGURE 4b - is classified or defined.
  • FFT Fast Fourier Transformation
  • a short-term signal energy of a first narrow-band filtered speech signal time segment and a long-term signal energy are determined on the basis of further successive narrow-band filtered speech signal time segments correlating with the first signal, and the detection is then carried out by comparing a ratio of short-term signal energy to long-term signal energy with a threshold value.
  • the distinction can be made by comparing the short-term signal energy - i.e. the signal energy in a short time segment of the narrowband speech signal - and the long-term signal energy - i.e. the signal energy over a longer period of time - and then comparing the ratio of short-term to long-term energy with a fixed threshold value.
  • a fourth process step P3.1 the spectral structure calculated in the second process step P1.1 is expanded by an "inverse fast Fourier transformation (IFFT)" with regard to the classification related to the sound type carried out in the third process step P2.1.
  • IFFT inverse fast Fourier transformation
  • the broadband extended speech signal time period generated in the fourth process step P3.1 in a fifth process step P4.1 by means of a high-pass filter, and then to filter it in a sixth process step P5.1 Link the speech signal time segment with the corresponding narrowband speech signal time segment from the first process step P0.1 before finally, in a seventh process step P6.1, the broadband voice signal which is expanded in the direction of the upper frequencies is generated from the individual linked speech signal time segments by combining these time segments.
  • a speech signal is analyzed by linear prediction.
  • linear prediction coefficients so-called LPC coefficients, which represent the filter coefficients of a speech synthesis filter, and an excitation signal for this synthesis filter are calculated.
  • the so-called prediction error signal is produced by applying the LPC coefficients belonging to a speech signal section to this speech signal section by filtering the section with a non-recursive digital filter defined by these coefficients.
  • This signal describes the difference between the signal value estimated by the linear prediction and the actual signal value. It also simultaneously represents the excitation signal for the purely recursive synthesis filter defined by the LPC coefficients, with which the original speech signal section is recovered by filtering the prediction error or excitation signal.
  • the linear signal is used Prediction from the narrow-band excitation signal calculated from the speech signal determines a broad-band excitation signal.
  • the calculation can also be carried out by adding the narrowband signal with Gaussian (white) or limited (colored) noise.
  • FIGURE 2 uses a flow chart to show the second process (the first method) for expanding the bandwidth of a voice signal sent by a telecommunication device in the direction of the upper frequencies above a cut-off frequency - e.g. 4 kHz - the narrowband filtered speech signal in the frequency domain.
  • a cut-off frequency e.g. 4 kHz - the narrowband filtered speech signal in the frequency domain.
  • the voice signal is sent again by the telecommunication device. It is therefore available against a narrowband filtered speech signal.
  • this voice signal is subdivided into narrow-band voice signal time segments of preferably the same size.
  • LPC coefficients and a narrow-band prediction error signal are then calculated in a known manner for each speech signal period in a second process step P1.2 in a prediction analysis, in a third process step P2.2 the spectral structure of the narrow-band prediction error signal is calculated on the basis of the LPC coefficients
  • Speech signal time segments are calculated and in a fourth process step P3.2 a classification is carried out in such a way that the respective speech signal time segment as a voiced sound - such as "a”, "e” or "i”, the pronunciation of which has a spectrum shown in FIG. 4a - or as an unvoiced sound - such as "s", "sch” or "f”, whose pronunciation has a spectrum shown in FIGURE 4b - classified or defined.
  • a short-term signal energy of a first narrow-band filtered speech signal time segment and a long-term signal energy are determined on the basis of further successive narrow-band filtered speech signal time segments correlating with the first signal, and the detection is then carried out by comparing a ratio of short-term signal energy to long-term signal energy with a threshold value.
  • the distinction can be made by comparing the short-term signal energy - i.e. the signal energy in a short time segment of the narrowband speech signal - and the long-term signal energy - i.e. the signal energy over a longer period of time - and then comparing the ratio of short-term to long-term energy with a fixed threshold value.
  • a fifth process step P4.2 the spectral structure calculated in the third process step P2.2 is expanded in relation to the sound-related classification carried out in the third process step P2.1.
  • This is done in such a way that in addition to the extension of the speech signal, each time, with respect to the sound-related classification made in the fourth process step P3.2 have a spectral structure, whereby in the case of a voiced sound the addition is independent of the respective sound (with determination of the type of speech - voiced / unvoiced - the addition necessary to expand the bandwidth is determined), the spectral structure of the narrowband speech signal time period and the spectral structure of the generated supplement are linked periodically to an expanded spectral structure.
  • the narrowband spectral structure is expanded by an addition such that the expanded broadband spectral structure above 4 kHz is essential has less energy than below 4 kHz. It is e.g. a drop, an exponential drop, an increase, a constant zero level or a constant level of the spectral structure to higher frequencies is conceivable.
  • an extension can also be completely dispensed with, because the signal energy of a voiced sound above the cut-off frequency of the narrowband speech signal (e.g. 4 kHz) is usually negligible (see FIGURE 4a).
  • the broadband frequency response generated in this case corresponds to the narrowband frequency response of the underlying narrowband speech signal.
  • the narrowband frequency response is expanded in such a way that - in contrast to the expansion for voiced sounds - it is in the range above the Cutoff frequency of the narrowband speech signal (eg 4 kHz) has a non-negligible part of its total energy.
  • the expansion can always be carried out by a similar spectral expansion, regardless of the exact knowledge of the sounds (only adapted to the energy of the narrowband speech signal), so that this expansion is also achieved simply, inexpensively and quickly.
  • HMM Hidden Markov Model
  • the narrowband filter coefficients calculated in the second process step P1.2 Associated broadband filter coefficients determined. These filter coefficients are then used to synthesize frequency components above the cut-off frequency of the narrowband speech signal (eg 4 kHz).
  • the code books are only required in the event that the examination of the narrowband spectral envelope determined in the fourth process step P3.2 detects an unvoiced sound. Therefore, they can also be restricted to filter coefficients for unvoiced sounds and can therefore be very small, as a result of which they do not represent a large memory requirement for a telecommunications terminal.
  • the narrowband prediction error signal calculated in the second process step P1.2 is expanded to a broadband prediction error signal, so that with respect to the time period duration, the prediction error signal sections of the broadband prediction error signal corresponding to the narrowband speech signal time periods are generated.
  • the broadband generated in the eighth process step P7.2 filter the extended speech signal time period in a ninth process step P8.2 using a high-pass filter, then in a tenth process step P9.2 to link this filtered speech signal time period with the corresponding narrowband speech signal time period from the first process step P0.2, before finally in an eleventh process step P10.2 the broadband voice signal expanded in the direction of the upper frequencies is generated from the individual linked voice signal time segments by combining these time segments.
  • the broadband filter coefficients describe the spectral structure of a broadband speech signal.
  • broadband filter coefficients are then available for speech synthesis, with which the broadband speech signal time segments and thus the broadband expanded speech signal, whose quality is significantly better than that of the narrowband filtered speech signal, are generated using the broadband excitation signal or prediction signal generated - as already described.
  • the broadband filter coefficients calculated on the basis of the code books and fed to the synthesis filter are used to synthesize the upper frequency band of the speech signal. which leads to an improvement in the quality of the speech signal as a result of the bandwidth expansion.
  • broadband filter coefficients can therefore be determined without the help of code books or with very small code books, with one possible application of the method according to the invention for expanding the voice signal bandwidth in the upper frequency range in telecommunications systems in which voice coders with variable bit rate are used, which are both broadband and can also encode in narrowband, since this may result in the speech encoder switching between narrowband (broadband) and broadband (wide band) during communication.
  • an estimation according to the invention of the broadband voice signal components during the narrowband transmission can therefore advantageously be used in order to ensure constant quality.
  • FIG. 3 shows a third process (a third method) for expanding the bandwidth of a voice signal sent by a telecommunications device in the direction of the upper frequencies above a cut-off frequency - for example 4 kHz - of the narrowband filtered voice signal in the time domain using a flowchart.
  • the voice signal is sent again by the telecommunication device. There is thus again a narrowband filtered speech signal.
  • this voice signal is subdivided into narrow-band voice signal time segments of preferably the same size.
  • a classification is carried out for each speech signal time period in a second process step P1.3 such that the respective speech signal time period as a voiced sound - such as "a”, “e” or “i”, the pronunciation of which has a spectrum shown in FIGURE 6a - or as an unvoiced sound - such as "s", "sch” or "f", the pronunciation of which has a spectrum shown in FIGURE 4b - is classified or defined.
  • a short-term signal energy of a first narrow-band filtered speech signal time segment and a long-term signal energy are determined on the basis of further successive narrow-band filtered speech signal time segments correlating with the first signal, and the detection is then carried out by comparing a ratio of short-term signal energy to long-term signal energy with a threshold value.
  • the distinction can be made by comparing the short-term signal energy - ie the signal energy in a short time segment of the narrowband speech signal - and the long-term signal energy - ie the signal energy viewed over a longer time segment - and then comparing them the ratio of short-term to long-term energy can be carried out with a fixed threshold value.
  • the narrowband speech signal time segments are processed in such a nonlinear manner, preferably by spectral mirroring, that a modified speech signal time segment is generated in each case, which on the one hand the respective essentially unchanged narrowband speech signal time segment and on the other hand signal components generated by the nonlinear signal processing above the limit frequency contains.
  • the modified speech signal time sections are filtered differently with respect to the classification based on the type of speech so that broadband extended speech signal time sections and thus a broadband expanded speech signal result from the modified speech signal time sections, with little energy in the case of a voiced speech signal time section above the cutoff frequency - e.g. 4 kHz - and in the case of an unvoiced speech signal period, more energy above the cutoff frequency - e.g. 4 kHz - is let through.
  • a combination of the method according to the invention for expanding narrowband speech signals in the upper frequency range with a method for expanding narrowband speech signals in the lower frequency range, which can be referred to as a "wideband speech extender”, is particularly advantageous since it ensures the synthesis of a broadband speech signal that comes closest to the underlying speech signal, so that a user of a telecommunications terminal using the "wideband speech extender" hears a speech signal of high quality, comparable to the quality of speech signals in radio and television sets.
  • the "wideband speech extender" can thus be used in telecommunications devices where there is a band-limited transmission of voice signals in order to give the user the impression of a broadband transmission.
  • the "wideband speech extender" can also be used in telecommunications systems where the "WB / NB switching" problem occurs, so that a broadband speech signal and thus a largely constant quality are always present is guaranteed.
  • EP 0 994 464 already discloses spectral restoration of signal components in the lower frequency range of a speech signal limited by a high-pass function to low frequencies, the restoration being carried out by generating frequencies in the lower frequency range by non-linear signal processing, with subharmonic ones for this purpose Frequencies of the signal are generated and added to the high-pass signal.
  • the expansion of band-limited speech signals in the lower frequency range can be achieved for such systems, for example, by estimating filter characteristics, whereby for the estimation of a speech signal, as shown in FIG. 6a, a first residual signal (first residual, as shown in FIG. 6b) signal), also called prediction error signal, is calculated by the linear prediction method known from the literature, it being possible to omit the calculation of the first residual signal if it is already known from other processing steps.
  • first residual signal also called prediction error signal
  • the spectral form of the first residual signal in particular in comparison with the spectrum of the speech signal shown in FIG. 6c, can be seen in FIG. 6d , is almost flat in the transmitted frequency range and only drops on the edges of the filter, which has band-limited the speech signal in the remote communication terminal, an estimate of the filter characteristic is carried out with this knowledge and the calculated residual signal, in particular a measurement of the residual signal energy in different frequency bands about the filter characteristics.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephone Function (AREA)

Description

  • Die vorliegende Erfindung betrifft ein Verfahren zur Erweiterung der Brandbreite eines schmalbandig gefilterten Sprachsignals, insbesondere eines von einem Telekommunikationsgerät gesendeten Sprachsignals gemäß dem Oberbegriff des Patentanspruches 1, dem Oberbegriff des Patentanspruches 3 und dem Oberbegriff des Patentanspruches 12.
  • Sprachcodierverfahren sind durch ihre unterschiedlichen Bandbreiten charakterisiert. So gibt es beispielsweise Schmalband-Codierer (engl.: narrow-band coder), welche Sprachsignale, die im Frequenzbereich bis 4000 Hz liegen, in codierte Sprachsignale umsetzen und Breitband-Codierer (engl.: wideband coder), welche Sprachsignale, die typischerweise zwischen 50 und 7000 Hz liegen, in codierte Sprachsignale umsetzen. Die Sprachsignale, die dem Schmalband-Codierer zugeführt werden, werden dabei in der Regel mit einer geringeren Abtastrate abgetastet als die Sprachsignale, die dem Breitband-Codierer zugeführt werden. Dafür ist die Nettobitrate des Schmalband-Codierers in der Regel niedriger als die Nettobitrate des Breitband-Codierers.
  • Werden die codierten Sprachsignale verschiedener Bandbreite innerhalb des gleichen Kanalmodus übertragen, so ermöglicht dies die Anwendung verschiedener Raten bei der Kanalcodierung, was zu unterschiedlichem Fehlerschutz führt. So ist es bei Anwendung des gleichen Kanalmodus möglich, bei schlechten Übertragungsbedingungen über den Übertragungskanal den schmalbandigen codierten Sprachsignalen im Zuge der Kanalcodierung mehr redundante Fehlerschutzbits hinzuzufügen als den breitbandigen codierten Sprachsignalen. Daher bietet sich bei variierenden Übertragungsbedingungen die Übertragung von Sprachsignalen über einen Übertragungskanal an, bei der abhängig von den Übertragungsbedingungen die Sprachcodierung zwischen einer breitbandigen und einer schmalbandigen Sprachcodierung umgeschaltet ["Wide-Band" to Narrow-Band"-Switching ("WB/NB"-Switching)] und die Kanalcodierung, insbesondere die Rate der Kanalcodierung, daran angepaßt wird. Empfangsseitig erfolgt eine an die Codierung angepaßte Decodierung der codierten Sprachsignale.
  • Bei dem neuen Telekommunikationssystem zur drahtlosen Telekommunikation UMTS (Universal Mobile Telecommunications System") ist beispielsweise eine Breitband-Codierung standardisiert worden, um mit den zukünftigen UMTS-Endgeräten eine sehr gute Sprachqualität zu gewährleisten.
  • Nachteilig bei einem derartigen Ansatz ist, dass ein empfangender Teilnehmer insbesondere das plötzliche Umschalten von Breitband-Codierung auf Schmalband-Codierung und den damit verbundenen Qualitätsverlust als äußerst störend empfindet.
  • Dieses sogenannte "WB/NB-Switching"-Problem kann auch bei der Handover-Situation in Telekommunikationssystemen zur drahtlosen Telekommunikation mit mehreren Basisstationen und Mobilteilen, wobei die Basisstationen unterschiedlichen Telekommunikationsteilsystemen zugeordnet sind und die Mobilteilen innerhalb des Systems für ein teilsystemübergreifendes Roaming als Dual-Mode-Mobilteilen ausgebildet sind, auftreten: Ausgangspunkt der Betrachtungen ist eine bestehende breitbandige Gesprächsverbindung zwischen einer Basisstation und einem Mobilteil. Wenn nun für das Mobilteil bzw. den Gesprächsteilnehmer eine Übergabe (Handover) an eine andere Basisstation durchgeführt wird, kann der Fall eintreten, dass die übernehmende Basisstation zu einem Teilsystem gehört, welches den breitbandigen Sprachservice nicht unterstützt. Aus diesem Grunde wird dann auf die schmalbandige Codierung und Decodierung zurückgeschaltet.
  • Auch in diesem Szenario wird der empfangende Teilnehmer insbesondere das plötzliche Umschalten von Breitband-Codierung auf Schmalband-Codierung und den damit verbundenen Qualitätsverlust als äußerst störend empfinden.
  • Basisstationen, die wie oben beschrieben keine breitbandige Gesprächsverbindung unterstützen, sowie andere Telekommunikationsendgeräte, welche lediglich Schmalband-Codierung oder analoge Sprachsignalübertragung im Bereich von typisch 300 bis 3400 Hz ermöglichen, sind noch weit verbreitet, da die bisher bekannten Telekommunikationssysteme Sprachsignale bisher im Allgemeinen mit einer Bandbreite von etwa 3,1 kHz zwischen 3400 Hz (erste Grenzfrequenz) und 300 Hz (zweite Grenzfrequenz) übertragen, da die Verständlichkeit der Kommunikation trotz der damit gegebenen Bandbegrenzung der Sprache ausreichend ist. Zur Übertragung der Sprachsignale verwenden die bisher bekannten Telekommunikationssysteme dabei verschiedene digitale und analoge Codierverfahren.
  • Um eine Qualitätsverbesserung derart zu erzielen, dass eine Sprachqualität in Telekommunikationssystemen mit der Sprachqualität bei Radio- und Fernsehsignalen vergleichbar ist, wird es erforderlich, Frequenzanteile der Sprache, die über die Bandbreite von 300 Hz bis 3400 Hz hinausgehen, empfängerseitig abzuschätzen und zu synthetisieren.
  • Im Stand der Technik sind verschiedene Verfahren bekannt, die eine Erweiterung der Bandbreite eines schmalbandigen Sprachsignals ermöglichen.
  • Beispielsweise ist für eine Erweiterung der Bandbreite im unteren Frequenzbereich (<300Hz) aus der EP 0 994 464 eine Wiederherstellung von Signalanteilen des unteren Frequenzbereichs eines durch eine Hochpassfunktion zu tiefen Frequenzen hin begrenzten Sprachsignals bekannt, wobei die beschriebene Hochpass-Filterung z.B. bei der Sprachübertragung über ein Telefon beim fernen Teilnehmer durchgeführt wird (Sende- Charakteristik des Fernsprechers).
  • Die Wiederherstellung erfolgt dabei durch Generieren von Frequenzen des unteren Frequenzbereichs durch eine nichtlineare Signalverarbeitung, mittels der subharmonische Frequenzen des Signals erzeugt und zum Hochpasssignal hinzuaddiert werden.
  • Des Weiteren ist in der EP 0 994 464 dazu auch eine Weiterbildung bekannt, bei der die nichtlineare Signalverarbeitung durch die Multiplikation des Signals mit einer Funktion des Signals durchgeführt wird.
  • Nachteilig an den genannten Verfahren ist es, dass in der Regel die Filtercharakteristik (Sende-Charakteristik des Fernsprechers), mit der das Signal am fernen Teilnehmerendgerät gefiltert wurde, unbekannt ist und für verschiedene Gerätetypen sehr unterschiedlich sein kann. Dies ist in FIGUR 7 dargestellt. Eine Wiederherstellung des Sprachsignals ist deshalb nur dann möglich, wenn die Filtercharakteristiken der beteiligten Teilnehmergeräte jeweils bekannt oder diese Geräte aufeinander abgestimmt sind.
  • In vielen Verfahren der digitalen Sprachcodierung werden das digitale Sprachsignal zur Weiterverarbeitung und Übertragung in Koeffizienten, welche die spektrale Grobstruktur eines Signalabschnitts beschreiben, und in ein Anregungs- bzw. Prädiktionsfehlersignal, das sogenannte Restsignal, welches die spektrale Feinstruktur bildet, aufgespalten. Dieses Restsignal enthält nicht mehr die spektrale Einhüllende des Sprachsignals, die durch die Koeffizienten, die die spektrale Grobstruktur beschreiben, repräsentiert wird.
  • Auf der Decodiererseite werden diese beiden - meist quantisiert übertragenen - Teile, welche die spektrale Grob- und Feinstruktur beschreiben, wieder zusammengefügt und bilden das decodierte Sprachsignal.
  • Eine typische Repräsentation für die spektrale Grobstruktur bilden die bei der linearen Prädiktionsanalyse ermittelten LPC-Koeffizienten (Linear Predictive Coding), welche ein rekursives Filter, das sogenannte Synthesefilter, beschreiben, dessen Übertragungsfunktion der spektralen Grobstruktur entspricht. Diese Koeffizienten werden in ihrer eigentlichen oder einer transformierten Form in vielen Sprachcodierern verwendet. Hierbei wird auf Empfängerseite das empfangene Restsignal als Eingangssignal für das Synthesefilter verwendet, so dass am Ausgang des Filters das rekonstruierte Sprachsignal verfügbar ist. Die LPC-Koeffizienten sind folglich eine Repräsentation der spektralen Grobstruktur eines Sprachsignalabschnitts und können unter Verwendung eines passenden Anregungssignals zur Synthese von Sprachsignalen verwendet werden.
  • Für eine Erweiterung der Bandbreite im oberen Frequenzbereich sind Verfahren bekannt, die auf besonderen Sprachdatenbüchern, sogenannten Codebüchern (Codebooks) basieren, die eine Relation zwischen den LPC-Koeffizienten eines schmalbandigen Sprachsignalabschnitts und denen eines breitbandigen Sprachsignalabschnitts bilden. Das hat zur Folge, dass die Codebücher gleichzeitig mit schmalbandiger und breitbandiger Sprache trainiert und im Kommunikationsendgerät abgespeichert werden müssen.
  • Außerdem wird aus dem schmalbandigen Restsignal, das durch die lineare Prädiktionsanalyse des schmalbandigen Sprachsignals erzeugt wurde, ein breitbandiges Anregungssignal erzeugt, welches Frequenzkomponenten oberhalb der Bandbreite des schmalbandigen Sprachsignals enthält.
  • Da die Codebücher im Telekommunikationsgerät gespeichert werden müssen, ist neben dem aufwendigen Training der Codebücher sowohl mit schmalbandiger als auch mit breitbandiger Sprache, auch der hohe Bedarf an Speicher und die Schwierigkeit einer sprecher- und sprachunabhängigen eindeutigen Zuordnung zwischen beiden Codebüchern nachteilig.
  • Um den Speicherplatzbedarf bei der Verwendung von Codebüchern zu verringern, ist es gemäß einem von der Technischen Hochschule Aachen entwickelten Verfahren bekannt, nur noch ein Codebuch in Verbindung mit einem Hidden-Markov-Modell, mit dem die statistischen Spracheigenschaften beschrieben werden können, zu benutzen.
  • In der Praxis haben diese Verfahren zur Erweiterung der Bandbreite im oberen Frequenzbereich keine Anwendung gefunden, da zudem die Qualität der erzeugten breitbandigen Sprachsignale unzureichend und von dem jeweiligen Sprachsignal abhängig ist.
  • Die der Erfindung zugrundeliegende Aufgabe besteht darin, die Bandbreite eines schmalbandig gefilterten Sprachsignals auf einfache und kostengünstige Weise ohne Qualitätseinbußen zu erweitern.
  • Diese Aufgabe wird ausgehend von dem im Oberbegriff des Anspruchs 1 definierten Verfahren durch die im Kennzeichen des Anspruchs 1 angegebenen Merkmale, ausgehend von dem im Oberbegriff des Anspruchs 3 definierten Verfahren durch die im Kennzeichen des Anspruchs 3 angegebenen Merkmale sowie ausgehend von dem im Oberbegriff des Anspruches 12 definierten Verfahren durch die Kennzeichen des Anspruches 12 angegebenen Merkmale gelöst.
  • Zwei Methoden, wie das schmalbandig gefilterte Sprachsignal in bezug auf Frequenzanteile oberhalb einer Grenzfrequenz im Frequenzbereich geschätzt werden kann, sind in den Ansprüchen 1 und 3 angegeben, wonach
    zunächst jeweils das schmalbandige Sprachsignal in eine spektrale Struktur aufweisende Sprachsignalzeitabschnitte unterteilt wird, jeder schmalbandige Sprachsignalzeitabschnitt als ein stimmhafter Laut oder als ein stimmloser Laut klassifiziert wird, eine spektrale Struktur aufweisende Ergänzungen zur Erweiterung des schmalbandigen Sprachsignals in bezug auf die vorgenommene lautartbezogene Klassifizierung erzeugt werden, wobei zumindest für den Fall des stimmhaften Lautes die Ergänzung unabhängig von dem jeweiligen Laut ist, die spektrale Struktur des schmalbandigen Sprachsignalzeitabschnittes, die gemäß Anspruch 2 vorzugsweise durch eine FFT-Analyse (Fast Fourier Transformation) berechnet wird, und die spektrale Struktur der erzeugten Ergänzung zeitabschnittsweise derart verknüpft werden, dass jeweils eine erweiterte spektrale Struktur entsteht und anschließend
    gemäß Anspruch 1 aus der erweiterten spektralen Struktur, insbesondere durch eine IFFT-Analyse (Inverse Fast Fourier Transformation) gemäß Anspruch 2, jeweils ein breitbandiger erweiterter Sprachsignalzeitabschnitt erzeugt wird oder gemäß Anspruch 3 bezüglich der Zeitabschnittdauer den schmalbandigen Sprachsignalzeitabschnitten entsprechende Prädiktionsfehlersignalzeitabschnitte eines breitbandigen Prädiktionsfehlersignals erzeugt werden und aus der erweiterten spektralen Struktur und dem jeweiligen breitbandigen Prädiktionsfehlersignalzeitabschnitt jeweils ein breitbandiger erweiterter Sprachsignalzeitabschnitt erzeugt wird,
    bevor abschließend aus den einzelnen breitbandigen erweiterten Sprachsignalzeitabschnitten ein breitbandiges erweitertes Sprachsignal erzeugt wird.
  • Eine alternative Methode, wie das schmalbandig gefilterte Sprachsignal in bezug auf Frequenzanteile oberhalb der Grenzfrequenz im Zeitbereich geschätzt werden kann, ist im Anspruch 12 angegeben, wonach
    zunächst das schmalbandige Sprachsignal in Sprachsignalzeitabschnitte unterteilt wird und jeder schmalbandige Sprachsignalzeitabschnitt als ein stimmhafter Laut oder als ein stimmloser Laut klassifiziert wird und anschließend
    die schmalbandigen Sprachsignalzeitabschnitte derart nichtlinear verarbeitet werden, dass jeweils ein modifizierter Sprachsignalzeitabschnitt erzeugt wird, der einerseits den jeweiligen im wesentlichen unveränderten schmalbandige Sprachsignalzeitabschnitt und andererseits oberhalb der ersten Grenzfrequenz durch die nichtlineare Signalverarbeitung erzeugte Signalanteile enthält und die modifizierten Sprachsignalzeitabschnitte in bezug auf die vorgenommene lautartbezogene Klassifizierung derart unterschiedlich gefiltert werden, dass aus den modifizierten Sprachsignalzeitabschnitten breitbandige erweiterte Sprachsignalzeitabschnitte und damit ein breitbandiges erweitertes Sprachsignal entsteht.
  • Das Schätzen der Frequenzanteile oberhalb der Grenzfrequenz des schmalbandig gefilterten Sprachsignals im Zeitbereich ist von Vorteil, weil keine Begutachtung des Spektrums und daher keine rechenintensive Transformation in den Spektralbereich notwendig ist. Im Übrigen werden die modifizierten Sprachsignalzeitabschnitte derart gefiltert, dass im Fall eines stimmhaften Sprachsignalzeitabschnittes wenig Energie oberhalb von der ersten Grenzfrequenz - z.B.4 kHz - und im Fall eines stimmlosen Sprachsignalzeitabschnittes mehr Energie oberhalb von der ersten Grenzfrequenz - z.B. 4 kHz -durchgelassen wird.
  • Ein wesentlicher Vorteil der vorgestellten erfindungsgemäßen Verfahren zur Erweiterung eines schmalbandig gefilterten Sprachsignals im oberen Frequenzbereich gemäß der Ansprüche 1, 3 und 12 gegenüber den bekannten Verfahren besteht in der Einsparung von Speicherplatz, weil im Wesentlichen auf speicherplatzaufwendige Codebücher verzichtet werden kann. Außerdem erlauben sie die Erweiterung des schmalbandigen Sprachsignals ohne genaue Kenntnis des ursprünglichen breitbandigen Anregungssignals. Zudem zeichnen sich die Verfahren gemäß Anspruch 3 und 12 durch sehr geringen Rechenaufwand aus. Schließlich entfällt bei sämtlichen Verfahren das Training der speicheraufwendigen Codebücher, welches üblicherweise in der Entwicklungsphase von zur Sprachübertragung benutzten Telekommunikationsgeräten durchgeführt werden muss.
  • Bei der Weiterbildung gemäß Anspruch 4 wird die für die als stimmhafte Laute klassifizierten schmalbandigen Sprachsignalzeitabschnitte jeweils erzeugte Ergänzung derart erzeugt, dass die Energie dieser Ergänzung in bezug auf die Gesamtenergie des schmalbandigen Sprachsignalabschnittes vernachlässigbar ist.
  • Diese Ergänzung kann stets die gleiche sein, unabhängig davon, um welchen stimmhaften Laut - z.B.: "a", "e" oder "i" - es sich handelt, so dass eine Bestimmung des Lautes sowie die Anwendung eines Codebuchs für stimmhafte Laute entfällt.
  • Durch die Weiterbildung gemäß Anspruch 4 ist eine Qualitätsverbesserung des breitbandigen erweiterten Sprachsignals gewährleistet, da durch diese Art der Weiterbildung berücksichtigt wird, dass bei stimmlosen Lauten im oberen Frequenzbereich ein wesentlicher Teil der Signalenergie fortgesetzt wird, so dass eine Vernachlässigung des genauen Verlaufs dieses Teils verhindert wird, die dadurch erfolgt, daß stets die gleiche Ergänzung vorgenommen wird und somit das synthetisierte Sprachsignals verfälscht würde.
  • Bei der Weiterbildung gemäß Anspruch 5 wird die für die als stimmlose Laute klassifizierten schmalbandigen Sprachsignalabschnitte jeweils erzeugte Ergänzung derart erzeugt, daß die Energie dieser Ergänzung in bezug auf die Gesamtenergie des schmalbandigen Sprachsignalabschnittes nicht vernachlässigbar ist. Auf diese Weise kann einfach ohne genaue Kenntnis des stimmlosen Lautes ein Erweiterung des schmalbandig gefilterten Sprachsignals durchgeführt werden.
  • Bei der Weiterbildung gemäß Anspruch 6 wird die für die als stimmlose Laute klassifizierten schmalbandigen Sprachsignalzeitabschnitte jeweils erzeugte Ergänzung derart erzeugt, dass auf Basis von zumindest einem Breitband-Codebuch aus ersten Filterkoeffizienten des schmalbandigen Sprachsignalzeitabschnittes zweite Filterkoeffizienten eines breitbandigen Sprachsignalzeitabschnittes ermittelt werden. Dadurch kann die Qualität des synthetisierten Sprachsignals gegenüber dem Sprachsignal, wo kein Codebuch verwendet wird, verbessert werden.
  • Die Weiterbildung gemäß Anspruch 7 erlaubt die Wiederherstellung eines im oberen Frequenzbereich erweiterten breitbandigen Sprachsignals anhand von ermittelten breitbandigen Filterkoeffizienten.
  • Die Weiterbildung gemäß Anspruch 8 erlaubt die Wiederherstellung eines im oberen Frequenzbereich erweiterten breitbandigen Sprachsignals anhand von ermittelten breitbandigen Filterkoeffizienten und eines breitbandigen Prädiktionsfehlersignalzeitabschnittes.
  • Bei dem Verfahren gemäß Anspruch 3 werden für die Schätzung der Filterkoeffizienten für das Synthesefilter keine Codebücher benötigt, wodurch der Speicherplatzbedarf in vorteilhafter Weise verringert werden konnte. Allerdings ist die Schätzung der Frequenzeinhüllenden oberhalb der Grenzfrequenz, z.B. 4 kHz, sehr grob, was manchmal bei gewissen stimmlosen Lauten dazu führt, das unerwünschte Artefakte entstehen. Um dies zu vermeiden, werden bei der Weiterbildung gemäß Anspruch 9 die breitbandigen Filterkoeffizienten mit den Einträgen aus einem Breitband-Codebuch verglichen und der Eintrag in dem Breitband-Codebuch, der am besten zu den breitbandigen Filterkoeffizienten passt, als Filterkoeffizient der Synthese des breitbandigen erweiterten Sprachsignals zugrundegelegt. Der Vorteil dieses Verfahrens liegt darin, dass durch die Benutzung eines Codebuches die auf der Basis des vorstehenden Codebuchvergleiches gefundenen Filterkoeffizienten eine gute Annäherung der echten Koeffizienten sowohl unterhalb der ersten Grenzfrequenz (z.B. 4 kHz) als auch oberhalb der ersten Grenzfrequenz (z.B. 4 kHz) sind. Das bedeutet, dass die Schätzung der Koeffizienten oberhalb der ersten Grenzfrequenz nicht mehr so grob ist. Darüber hinaus ist es vorteilhaft, dass einerseits nur noch das breitbandige Codebuch und nicht mehr zusätzlich das schmalbandige Codebuch benötigt wird und andererseits auch wie beim Stand der Technik (entwickeltes Verfahren an der TH-Aachen) kein Hidden-Markov-Modell mehr notwendig ist.
  • Um die Qualität des breitbandigen erweiterten Sprachsignals gemäß der Ansprüche 1 bis 3 zu verbessern, ist es von Vorteil, wenn gemäß Anspruch 11 der aus der erweiterten spektralen Struktur jeweils erzeugte breitbandige erweiterte Sprachsignalzeitabschnitt hochpassgefiltert wird, der hochpassgefilterte Sprachsignalzeitabschnitt mit dem entsprechenden schmalbandigen Sprachsignalzeitabschnitt verknüpft wird und aus den einzelnen verknüpften Sprachsignalzeitabschnitten das breitbandige erweiterte Sprachsignal erzeugt wird.
  • Bei der Weiterbildung gemäß Anspruch 13 werden die für die als stimmhafte Laute klassifizierten schmalbandigen Sprachsignalzeitabschnitte jeweils durch die nichtlineare Signalverarbeitung erzeugten Signalanteile derart erzeugt, dass die Energie des jeweiligen Signalanteils in bezug auf die Gesamtenergie des schmalbandigen Sprachsignalzeitabschnittes vernachlässigbar ist.
  • Bei der Weiterbildung gemäß Anspruch 14 werden die für die als stimmlose Laute klassifizierten schmalbandigen Sprachsignalabschnitte jeweils durch die nichtlineare Signalverarbeitung erzeugten Signalanteile derart erzeugt, dass die Energie des jeweiligen Signalanteils in bezug auf die Gesamtenergie des schmalbandigen Sprachsignalzeitabschnittes nicht vernachlässigbar ist.
  • Gemäß Anspruch 15 ist es von Vorteil - weil einfach zu realisieren, wenn die Signalanteile durch spektrale Spiegelung erzeugt werden.
  • Das Verfahren zur Erweiterung des schmalbandig gefilterten Sprachsignals kann gemäß Anspruch 16 vorteilhaft - im Sinne einer vereinfachten Berechnung und Durchführung des Verfahrens - weitergebildet werden, indem die schmalbandigen Sprachsignalzeitabschnitte gleich lang gewählt werden.
  • Weitere vorteilhafte Ausgestaltungen sind in den übrigen Unteransprüchen angegeben.
  • Weitere Einzelheiten, Merkmale und Vorteile der Erfindung werden nachfolgend anhand der in den Figuren dargestellten Ausführungsbeispiele näher erläutert. Dabei zeigen:
  • FIGUR 1
    als ein erstes Ausführungsbeispiel ein Ablaufdiagramm zur Erweiterung der Brandbreite eines von einem Telekommunikationsgerät gesendeten Sprachsignals in Richtung der oberen Frequenzen oberhalb einer Grenzfrequenz des schmalbandig gefilterten Sprachsignals im Frequenzbereich,
    FIGUR 2
    als ein zweites Ausführungsbeispiel ein Ablaufdiagramm zur Erweiterung der Brandbreite eines von einem Telekommunikationsgerät gesendeten Sprachsignals in Richtung der oberen Frequenzen oberhalb einer Grenzfrequenz des schmalbandig gefilterten Sprachsignals im Frequenzbereich,
    FIGUR 3
    als ein drittes Ausführungsbeispiel ein Ablaufdiagramm zur Erweiterung der Brandbreite eines von einem Telekommunikationsgerät gesendeten Sprachsignals in Richtung der oberen Frequenzen oberhalb einer Grenzfrequenz des schmalbandig gefilterten Sprachsignals im Zeitbereich,
    FIGUR 4a
    das Spektrum eines stimmhaften Lautes (Vokals),
    FIGUR 4b
    das Spektrum eines stimmlosen Lautes (Frikativs),
    FIGUR 5a
    eine mögliche Erweiterung des Spektrums eines Vokals,
    FIGUR 5b
    eine mögliche Erweiterung des Spektrums eines Frikativs,
    FIGUR 6a
    Verlauf eines ersten Sprachsignals,
    FIGUR 6b
    Verlauf eines ersten sich aus dem Sprachsignal ergebenden Restsignals (first residual signal),
    FIGUR 6c
    Kurzzeitspektralanalyse des Sprachsignals,
    FIGUR 6d
    Kurzzeitspektralanalyse des Restsignals.
  • FIGUR 1 zeigt anhand eines Ablaufdiagramms einen ersten Prozess (eine erste Methode) zur Erweiterung der Brandbreite eines von einem Telekommunikationsgerät gesendeten Sprachsignals in Richtung der oberen Frequenzen oberhalb einer Grenzfrequenz - z.B. 4 kHz - des schmalbandig gefilterten Sprachsignals im Frequenzbereich. Gemäß einem Ausgangszustand AZ des dargestellten Prozesses wird von dem Telekommunikationsgerät das Sprachsignal gesendet. Es liegt somit ein schmalbandig gefiltertes Sprachsignal vor.
  • In einem ersten Prozessschritt P0.1 wird dieses Sprachsignal in vorzugsweise gleich große schmalbandige Sprachsignalzeitabschnitte unterteilt. Anschließend werden für jeden Sprachsignalzeitabschnitt in einem zweiten Prozessschritt P1.1 die Spektralstruktur durch eine "Fast Fourier Transformation (FFT)" berechnet und in einem dritten Prozessschritt P2.1 eine Klassifizierung derart durchgeführt, dass der jeweilige Sprachsignalzeitabschnitt als ein stimmhafter Laut - wie beispielsweise "a", "e" oder "i", deren Aussprache ein in FIGUR 4a dargestelltes Spektrum aufweist - oder als ein stimmloser Laut - wie beispielsweise "s", "sch" oder "f", deren Aussprache ein in FIGUR 4b dargestelltes Spektrum aufweist - eingestuft bzw. definiert wird.
  • Diese Unterscheidung wird beispielsweise anhand der Position der ersten Formanten oder anhand des Verhältnisses von Spektralanteilen oberhalb und unterhalb einer bestimmten Frequenz - beispielsweise 2 kHz - geschehen. Eine Unterscheidung anhand des schmalbandigen Spektrums ist einfach durchzuführen, da wie ein Vergleich des in FIGUR 4a dargestellten Spektrum eines stimmhaften Lautes mit dem in FIGUR 4b dargestellten Spektrum eines stimmlosen Lautes zeigt, stimmhafte und stimmlose Laute in der Regel sehr unterschiedliche Spektren haben.
  • Alternativ dazu wird eine Kurzzeitsignalenergie eines ersten schmalbandig gefilterten Sprachsignalzeitabschnittes sowie eine Langzeitsignalenergie anhand weiterer aufeinanderfolgender zum ersten Signal korrelierender schmalbandig gefilterter Sprachsignalzeitabschnitte ermittelt und anschließend das Detektieren durch Vergleich eines Verhältnisses von Kurzeitsignalenergie zu Langzeitsignalenergie mit einem Schwellwert realisiert.
  • Alternativ dazu kann die Unterscheidung durch Vergleich der Kurzzeitsignalenergie - d.h. der Signalenergie in einem kurzen Zeitausschnitt des Schmalband-Sprachsignals - und der Langzeitsignalenergie - d.h. der Signalenergie über einen längeren Zeitausschnitt betrachtet - und anschließendem Vergleich des Verhältnis Kurzzeit- zu Langzeitenergie mit einem festen Schwellwert durchgeführt werden.
  • Im Anschluss daran wird in einem vierten Prozessschritt P3.1 in bezug auf die im dritten Prozessschritt P2.1 vorgenommene lautartbezogene Klassifizierung die im zweiten Prozessschritt P1.1 berechnete Spektralstruktur durch eine "Inverse Fast Fourier Transformation (IFFT)" erweitert. Dies geschieht derart, dass zeitabschnittsweise in bezug auf die im dritten Prozessschritt P2.1 vorgenommene lautartbezogene Klassifizierung Ergänzungen zur Erweiterung des Sprachsignals, die jeweils eine spektrale Struktur aufweisen, erzeugt werden, wobei beispielsweise (insbesondere) für den Fall des stimmhaften Lautes die Ergänzung unabhängig von dem jeweiligen Laut ist (mit Feststellung der Art des Sprachlautes - stimmhaft/stimmlos - wird auch die zur Erweiterung der Bandbreite notwendige Ergänzung bestimmt), die spektrale Struktur des schmalbandigen Sprachsignalzeitabschnittes und die spektrale Struktur der erzeugten Ergänzung zeitabschnittsweise zu einer erweiterten spektralen Struktur verknüpft werden und aus dieser erweiterten spektralen Struktur jeweils ein breitbandiger erweiterter Sprachsignalzeitabschnitt erzeugt wird.
  • Daran anschließend gibt es zwei Möglichkeiten, das breitbandige in Richtung der oberen Frequenzen erweiterte Sprachsignal zu erhalten.
  • Um eine gewisse Qualitätsverbesserung des breitbandigen erweiterten Sprachsignals zu erzielen, ist es möglich, den jeweiligen im vierten Prozessschritt P3.1 erzeugten breitbandigen erweiterten Sprachsignalzeitabschnitt in einem fünften Prozessschritt P4.1 mittels eines Hochpassfilters zu filtern, danach in einem sechsten Prozessschritt P5.1 diesen gefilterten Sprachsignalzeitabschnitt mit dem entsprechenden schmalbandigen Sprachsignalzeitabschnitt aus dem ersten Prozessschritt P0.1 zu verknüpfen, bevor abschließend in einem siebten Prozessschritt P6.1 aus den einzelnen verknüpften Sprachsignalzeitabschnitten durch Zusammenfügen dieser Zeitabschnitte das breitbandige in Richtung der oberen Frequenzen erweiterte Sprachsignal erzeugt wird.
  • Kann auf eine derartige Qualitätsverbesserung des breitbandigen erweiterten Sprachsignals verzichtet werden, so ist es stattdessen auch möglich, unmittelbar nach dem vierten Prozessschritt P3.1 aus den in diesem Prozessschritt jeweils erzeugten breitbandigen erweiterten Sprachsignalzeitabschnitten in dem siebten Prozessschritt P6.1 durch Zusammenfügen dieser Zeitabschnitte das breitbandige in Richtung der oberen Frequenzen erweiterte Sprachsignal zu erzeugen.
  • Anhand der FIGUR 2 soll zunächst die erfindungsgemäße Erweiterung eines schmalbandig gefilterten Sprachsignals in die Richtung der oberen Frequenzen gemäß eines zweiten Prozesses (einer zweiten Methode) erläutert werden.
  • Im Allgemeinen wird ein Sprachsignal durch lineare Prädiktion analysiert. Dabei werden unter der Annahme, dass ein Sprachabtastwert durch die lineare Kombination von vorherigen Sprachabtastwerten angenähert werden kann, lineare Prädiktionskoeffizienten, sogenannte LPC-Koeffizienten, die die Filterkoeffizienten eines Sprachsynthesefilters darstellen, sowie ein Anregungssignal für dieses Synthesefilter berechnet. Durch Anwenden der zu einem Sprachsignalabschnitt gehörenden LPC-Koeffizienten auf diesen Sprachsignalabschnitt mittels Filterung des Abschnitts mit einem durch diese Koeffizienten definierten nichtrekursiven Digitalfilter entsteht das sogenannte Prädiktionsfehlersignal. Dieses Signal beschreibt die Differenz zwischen dem durch die lineare Prädiktion geschätztem Signalwert und dem tatsächlichem Signalwert. Es stellt auch gleichzeitig das Anregungssignal für das durch die LPC-Koeffizienten definierte rein rekursive Synthesefilter dar, mit dem der Original-Sprachsignalabschnitt durch Filtern des Prädiktionsfehler- bzw. Anregungssignals wiedergewonnen wird.
  • Um ein Sprachsignal in die Richtung der oberen Frequenzen zu erweitern, ist die Kenntnis eines breitbandigen Anregungssignals und der Filterkoeffizienten, die das (breitbandige) Sprachsignal im Sinne der linearen Prädiktion beschreiben erforderlich.
  • Da beispielsweise in Telekommunikationssystemen in denen schmalbandig übertragen wird, das Sprachsignal schmalbandig vorliegt, wird erfindungsgemäß anhand des mittels linearer Prädiktion aus dem Sprachsignal berechneten schmalbandigen Anregungssignal ein breitbandiges Anregungssignal ermittelt.
  • Dies erfolgt beispielweise durch Frequenzspiegelung des schmalbandigen Anregungssignals, bei dem die Frequenzanteile zwischen 0 kHz und 4 kHz an der 4 kHz - Spektrallinie in einen Bereich von 4 kHz bis 8 kHz gespiegelt werden.
  • Alternativ kann die Berechnung auch durch Addition des schmalbandigen Signals mit Gauß'schem (weißen) oder begrenzten (gefärbtem) Rauschen realisiert werden.
  • FIGUR 2 zeigt anhand eines Ablaufdiagramms den zweiten Prozess (die erste Methode) zur Erweiterung der Brandbreite eines von einem Telekommunikationsgerät gesendeten Sprachsignals in Richtung der oberen Frequenzen oberhalb einer Grenzfrequenz - z.B. 4 kHz - des schmalbandig gefilterten Sprachsignals im Frequenzbereich. Gemäß dem Ausgangszustand AZ des dargestellten Prozesses wird wieder von dem Telekommunikationsgerät das Sprachsignal gesendet. Es liegt somit wider ein schmalbandig gefiltertes Sprachsignal vor.
  • In einem ersten Prozessschritt P0.2 wird dieses Sprachsignal in vorzugsweise gleich große schmalbandige Sprachsignalzeitabschnitte unterteilt. Anschließend werden für jeden Sprachsignalzeitabschnitt in einem zweiten Prozessschritt P1.2 in bekannter Weise im Rahmen einer Prädiktionsanalyse LPC-Koeffizienten und ein schmalbandiges Prädiktionsfehlersignal berechnet, in einem dritten Prozessschritt P2.2 auf der Basis der LPC-Koeffizienten und des schmalbandigen Prädiktionsfehlersignals die Spektralstruktur der schmalbandigen Sprachsignalzeitabschnitte berechnet und in einem vierten Prozessschritt P3.2 eine Klassifizierung derart durchgeführt, dass der jeweilige Sprachsignalzeitabschnitt als ein stimmhafter Laut - wie beispielsweise "a", "e" oder "i", deren Aussprache ein in FIGUR 4a dargestelltes Spektrum aufweist - oder als ein stimmloser Laut - wie beispielsweise "s", "sch" oder "f", deren Aussprache ein in FIGUR 4b dargestelltes Spektrum aufweist - eingestuft bzw. definiert wird.
  • Diese Unterscheidung wird beispielsweise anhand der Position der ersten Formanten oder anhand des Verhältnisses von Spektralanteilen oberhalb und unterhalb einer bestimmten Frequenz - beispielsweise 2 kHz - geschehen. Eine Unterscheidung anhand des schmalbandigen Spektrums ist einfach durchzuführen, da wie ein Vergleich des in FIGUR 4a dargestellten Spektrum eines stimmhaften Lautes mit dem in FIGUR 4b dargestellten Spektrum eines stimmlosen Lautes zeigt, stimmhafte und stimmlose Laute in der Regel sehr unterschiedliche Spektren haben.
  • Alternativ dazu wird eine Kurzzeitsignalenergie eines ersten schmalbandig gefilterten Sprachsignalzeitabschnittes sowie eine Langzeitsignalenergie anhand weiterer aufeinanderfolgender zum ersten Signal korrelierender schmalbandig gefilterter Sprachsignalzeitabschnitte ermittelt und anschließend das Detektieren durch Vergleich eines Verhältnisses von Kurzeitsignalenergie zu Langzeitsignalenergie mit einem Schwellwert realisiert.
  • Alternativ dazu kann die Unterscheidung durch Vergleich der Kurzzeitsignalenergie - d.h. der Signalenergie in einem kurzen Zeitausschnitt des Schmalband-Sprachsignals - und der Langzeitsignalenergie - d.h. der Signalenergie über einen längeren Zeitausschnitt betrachtet - und anschließendem Vergleich des Verhältnis Kurzzeit- zu Langzeitenergie mit einem festen Schwellwert durchgeführt werden.
  • Im Anschluss daran wird in einem fünften Prozessschritt P4.2 in bezug auf die im dritten Prozessschritt P2.1 vorgenommene lautartbezogene Klassifizierung die im dritten Prozessschritt P2.2 berechnete Spektralstruktur erweitert. Dies geschieht derart, dass zeitabschnittsweise in bezug auf die im vierten Prozessschritt P3.2 vorgenommene lautartbezogene Klassifizierung Ergänzungen zur Erweiterung des Sprachsignals, die jeweils eine spektrale Struktur aufweisen, erzeugt werden, wobei für den Fall des stimmhaften Lautes die Ergänzung unabhängig von dem jeweiligen Laut ist (mit Feststellung der Art des Sprachlautes - stimmhaft/stimmlos - wird auch die zur Erweiterung der Bandbreite notwendige Ergänzung bestimmt), die spektrale Struktur des schmalbandigen Sprachsignalzeitabschnittes und die spektrale Struktur der erzeugten Ergänzung zeitabschnittsweise zu einer erweiterten spektralen Struktur verknüpft werden.
  • Handelt es sich in dem fünften Prozessschritt P4.2 bei dem untersuchten schmalbandigen Sprachsignal um einen stimmhaften Laut, so wird die schmalbandige spektrale Struktur, wie in FIGUR 5a dargestellt, derart durch eine Ergänzung erweitert, dass die erweiterte breitbandige spektrale Struktur oberhalb von 4 kHz wesentlich weniger Energie als unterhalb von 4 kHz besitzt. Es ist z.B. ein Abfall, ein exponentieller Abfall, ein Anstieg, ein gleichbleibendes Nullniveau oder ein gleichbleibendes Niveau der spektralen Struktur zu höheren Frequenzen hin denkbar.
  • Alternativ kann auch ganz von einer Erweiterung abgesehen werden, weil in der Regel die Signalenergie eines stimmhaften Lautes oberhalb der Grenzfrequenz des Schmalband-Sprachsignals (z.B. 4 kHz) vernachlässigbar ist (vgl. FIGUR 4a). Der erzeugte breitbandige Frequenzgang entspricht für diesen Fall dem schmalbandigen Frequenzgang des zugrundeliegenden schmalbandigen Sprachsignals.
  • Es ist auch möglich, dass die Erweiterung, die nach Detektion eines stimmhaften Lautes vorgenommen wird, unabhängig von der genauen Kenntnis der Laute stets die gleiche ist (angepasst lediglich an die Energie des Schmalband-Sprachsignals), so dass eine einfache, kostengünstige und schnelle Umsetzung dieser Erweiterung erzielt wird.
  • Handelt es sich in dem fünften Prozessschritt P4.2 bei dem untersuchten schmalbandigen Sprachsignal um einen stimmlosen Laut, so wird der schmalbandige Frequenzgang, wie in FIGUR 5b dargestellt, derart erweitert, dass er - im Gegensatz zur Erweiterung bei stimmhaften Lauten - im Bereich oberhalb der Grenzfrequenz des Schmalband-Sprachsignals (z.B. 4 kHz) einen nicht vernachlässigbaren Teil seiner Gesamtenergie besitzt.
  • Auch hierbei kann die Erweiterung stets, unabhängig von der genauen Kenntnis der Laute, durch eine gleichartige spektrale Erweiterung erfolgen (angepasst lediglich an die Energie des Schmalband-Sprachsignals), so dass hierdurch ebenso eine einfache, kostengünstige und schnelle Umsetzung dieser Erweiterung erzielt wird.
  • Als Ergebnis der ersten bis fünften Prozessschritte P0.2...P4.2 in FIGUR 2 wird also eine neue erweiterte breitbandige spektrale Struktur in Abhängigkeit von dem Laut, der der vorhandenen schmalbandigen spektralen Struktur zugrundeliegt, generiert.
  • Als alternativen Ansatz zur Durchführung der Erweiterung im fünften Prozessschritt P4.2 kann man auch auf Codebücher zurückgreifen. Voraussetzung hierfür ist, dass mindestens ein Codebuch vorhanden ist, das den Zusammenhang, beispielsweise unter Zuhilfenahme der statistischen Eigenschaften der Sprache, die z.B. in einem Hidden Markov Model (HMM) abgespeichert werden können, zwischen schmalbandigen und breitbandigen Filterkoeffizienten darstellt und aufgrund der statistischen Beziehung zu den im zweiten Prozessschritt P1.2 berechneten schmalbandigen Filterkoeffizienten, breitbandige Filterkoeffizienten liefert.
  • Bei einer alternativen Zuordnung von schmalbandigen zu breitbandigen Filterkoeffizienten, die durch ein oder mehrere Codebücher wiedergegeben wird, werden aus den im zweiten Prozessschritt P1.2 berechneten schmalbandigen Filterkoeffizienten zugehörige breitbandige Filterkoeffizienten ermittelt. Diese Filterkoeffizienten werden dann zur Synthese von Frequenzanteilen oberhalb der Grenzfrequenz des schmalbandigen Sprachsignals (z.B. 4 kHz) verwendet.
  • Die Codebücher werden jedoch nur für den Fall benötigt, dass die Untersuchung der im vierten Prozessschritt P3.2 ermittelten schmalbandigen Spektraleinhüllende einen stimmlosen Laut detektiert. Daher können sie auch auf Filterkoeffizienten für stimmlose Laute eingeschränkt und damit sehr klein sein, wodurch sie keine große Speicheranforderung an ein Telekommunikationsendgerät darstellen.
  • Außerdem wird in einem sechsten Prozessschritt P5.2 das in dem zweiten Prozessschritt P1.2 berechnete schmalbandige Prädiktionsfehlersignal zum einem breitbandigen Prädiktionsfehlersignal erweitert, so dass bezüglich der Zeitabschnittdauer den schmalbandigen Sprachsignalzeitabschnitten entsprechende Pürädiktionsfehlersignalabschnitte des breitbandigen Prädiktionsfehlersignales erzeugt werden.
  • Daran anschließend wird aus der im fünften Prozessschritt P4.2 erzeugten erweiterten spektralen Struktur durch die Berechnung von breitbandigen Filterkoeffizienten in einem siebten Prozessschritt P6.2 und dem im sechsten Prozessschritt P5.2 jeweils erzeugten breitbandigen Prädiktionsfehlersignalabschnitt in einem achten Prozessschritt P7.2 mittels eines sogenannten Synthesefilters jeweils ein breitbandiger erweiterter Sprachsignalzeitabschnitt erzeugt.
  • Daran anschließend gibt es zwei Möglichkeiten, das breitbandige in Richtung der oberen Frequenzen erweiterte Sprachsignal zu erhalten.
  • Um eine gewisse Qualitätsverbesserung des breitbandigen erweiterten Sprachsignals zu erzielen, ist es möglich, den jeweiligen im achten Prozessschritt P7.2 erzeugten breitbandigen erweiterten Sprachsignalzeitabschnitt in einem neunten Prozessschritt P8.2 mittels eines Hochpassfilters zu filtern, danach in einem zehnten Prozessschritt P9.2 diesen gefilterten Sprachsignalzeitabschnitt mit dem entsprechenden schmalbandigen Sprachsignalzeitabschnitt aus dem ersten Prozessschritt P0.2 zu verknüpfen, bevor abschließend in einem elften Prozessschritt P10.2 aus den einzelnen verknüpften Sprachsignalzeitabschnitten durch Zusammenfügen dieser Zeitabschnitte das breitbandige in Richtung der oberen Frequenzen erweiterte Sprachsignal erzeugt wird.
  • Kann auf eine derartige Qualitätsverbesserung des breitbandigen erweiterten Sprachsignals verzichtet werden, so ist es stattdessen auch möglich, unmittelbar nach dem achten Prozessschritt P7.2 aus den in diesem Prozessschritt jeweils erzeugten breitbandigen erweiterten Sprachsignalzeitabschnitten in dem elften Prozessschritt P10.2 durch Zusammenfügen dieser Zeitabschnitte das breitbandige in Richtung der oberen Frequenzen erweiterte Sprachsignal zu erzeugen.
  • Die breitbandigen Filterkoeffizienten beschreiben auf Grund dessen, dass sie aus der Abschätzung der breitbandigen spektralen Struktur berechnet wurden, die spektrale Struktur eines breitbandigen Sprachsignals.
  • Diese breitbandigen Filterkoeffizienten stehen dann für die Sprachsynthese zur Verfügung, mit der unter Verwendung des - wie bereits beschrieben - erzeugten breitbandigen Anregungssignals oder Prädiktionssignals die breitbandigen Sprachsignalzeitabschnitte und damit das breitbandige erweiterte Sprachsignal erzeugt wird, dessen Qualität deutlich besser ist als die des schmalbandig gefilterten Sprachsignals.
  • Die auf Basis der Codebücher berechneten und dem Synthesefilter zugeführten breitbandigen Filterkoeffizienten werden zur Synthese des oberen Frequenzbands des Sprachsignals verwendet, was zu einer Qualitätsverbesserung des Sprachsignals durch die Bandbreitenerweiterung führt.
  • Erfindungsgemäß können daher breitbandige Filterkoeffizienten ohne die Hilfe von Codebüchern bzw. mit sehr kleinen Codebüchern bestimmt werden, wobei eine mögliche Anwendung des erfindungsgemäßen Verfahrens zur Erweiterung der Sprachsignalbandbreite im oberen Frequenzbereich in Telekommunikationssystemen besteht, in denen Sprachcoder mit variabler Bitrate eingesetzt werden, die sowohl breitbandig als auch schmalbandig codieren können, da dort der Fall eintreten kann, dass der Sprachcoder während der Kommunikation zwischen Schmalband (narrow band) und Breitband (wide band) wechselt.
  • Die dadurch verursachte deutliche Verschlechterung in der Kommunikationsqualität wird dabei durch die Anwendung des in dieser Erfindung beschriebenen Verfahrens in Kommunikationsendgeräten verhindert.
  • In Telekommunikationssystemen, die beispielsweise gemäß dem UMTS-Standard funktionieren, und bei denen die oben beschriebene Problematik auftaucht, ist daher ein erfindungsgemäßes Schätzen der breitbandigen Sprachsignalanteile während der schmalbandigen Übertragung, um eine konstante Qualität zu gewährleisten, vorteilhaft einsetzbar.
  • FIGUR 3 zeigt anhand eines Ablaufdiagramms einen dritten Prozess (eine dritte Methode) zur Erweiterung der Brandbreite eines von einem Telekommunikationsgerät gesendeten Sprachsignals in Richtung der oberen Frequenzen oberhalb einer Grenzfrequenz - z.B. 4 kHz - des schmalbandig gefilterten Sprachsignals im Zeitbereich. Gemäß dem Ausgangszustand AZ des dargestellten Prozesses wird wieder von dem Telekommunikationsgerät das Sprachsignal gesendet. Es liegt somit wieder ein schmalbandig gefiltertes Sprachsignal vor.
  • In einem ersten Prozessschritt P0.3 wird dieses Sprachsignal in vorzugsweise gleich große schmalbandige Sprachsignalzeitabschnitte unterteilt. Anschließend werden für jeden Sprachsignalzeitabschnitt in einem zweiten Prozessschritt P1.3 eine Klassifizierung derart durchgeführt, dass der jeweilige Sprachsignalzeitabschnitt als ein stimmhafter Laut - wie beispielsweise "a", "e" oder "i", deren Aussprache ein in FIGUR 6a dargestelltes Spektrum aufweist - oder als ein stimmloser Laut - wie beispielsweise "s", "sch" oder "f", deren Aussprache ein in FIGUR 4b dargestelltes Spektrum aufweist - eingestuft bzw. definiert wird.
  • Diese Unterscheidung wird beispielsweise anhand der Position der ersten Formanten oder anhand des Verhältnisses von Spektralanteilen oberhalb und unterhalb einer bestimmten Frequenz - beispielsweise 2 kHz - geschehen. Eine Unterscheidung anhand des schmalbandigen Spektrums ist einfach durchzuführen, da wie ein Vergleich des in FIGUR 4a dargestellten Spektrum eines stimmhaften Lautes mit dem in FIGUR 4b dargestellten Spektrum eines stimmlosen Lautes zeigt, stimmhafte und stimmlose Laute in der Regel sehr unterschiedliche Spektren haben.
  • Alternativ dazu wird eine Kurzzeitsignalenergie eines ersten schmalbandig gefilterten Sprachsignalzeitabschnittes sowie eine Langzeitsignalenergie anhand weiterer aufeinanderfolgender zum ersten Signal korrelierender schmalbandig gefilterter Sprachsignalzeitabschnitte ermittelt und anschließend das Detektieren durch Vergleich eines Verhältnisses von Kurzeitsignalenergie zu Langzeitsignalenergie mit einem Schwellwert realisiert.
  • Alternativ dazu kann die Unterscheidung durch Vergleich der Kurzzeitsignalenergie - d.h. der Signalenergie in einem kurzen Zeitausschnitt des Schmalband-Sprachsignals - und der Langzeitsignalenergie - d.h. der Signalenergie über einen längeren Zeitausschnitt betrachtet - und anschließendem Vergleich des Verhältnis Kurzzeit- zu Langzeitenergie mit einem festen Schwellwert durchgeführt werden.
  • Außerdem werden in einem dritten Prozessschritt P2.3 die schmalbandigen Sprachsignalzeitabschnitte derart nichtlinear, vorzugsweise durch spektrale Spiegelung, verarbeitet, dass jeweils ein modifizierter Sprachsignalzeitabschnitt erzeugt wird, der einerseits den jeweiligen im wesentlichen unveränderten schmalbandige Sprachsignalzeitabschnitt und andererseits oberhalb der Grenzfrequenz durch die nichtlineare Signalverarbeitung erzeugte Signalanteile enthält.
  • Im Anschluss daran werden in einem vierten Prozessschritt P3.3 die modifizierten Sprachsignalzeitabschnitte in bezug auf die vorgenommene lautartbezogene Klassifizierung derart unterschiedlich gefiltert werden, dass aus den modifizierten Sprachsignalzeitabschnitten breitbandige erweiterte Sprachsignalzeitabschnitte und damit ein breitbandiges erweitertes Sprachsignal entsteht, wobei im Fall eines stimmhaften Sprachsignalzeitabschnittes wenig Energie oberhalb von der Grenzfrequenz - z.B.4 kHz - und im Fall eines stimmlosen Sprachsignalzeitabschnittes mehr Energie oberhalb von der Grenzfrequenz - z.B. 4 kHz - durchgelassen wird.
  • Darüber hinaus ist eine Kombination des erfindungsgemäßen Verfahrens zur Erweiterung schmalbandiger Sprachsignale im oberen Frequenzbereich mit einem Verfahren zur Erweiterung schmalbandiger Sprachsignale im unteren Frequenzbereich, die man als "Wideband Speech Extender" bezeichnen kann, besonders vorteilhaft, da sie die Synthese eines breitbandigen Sprachsignals gewährleistet, das dem zugrundeliegenden Sprachsignal am nächsten kommt, so dass ein Nutzer eines Telekommunikationsendgerätes, welches den "Wideband Speech Extender" einsetzt, ein Sprachsignal hoher Qualität, vergleichbar mit der Qualität bei Sprachsignalen in Radio- und Fernsehgeräten, hört.
  • Damit kann der "Wideband Speech Extender" in Telekommunikationsgeräten, wo eine bandbegrenzte Übertragung von Sprachsignalen stattfindet, eingesetzt werden, um beim Benutzer den Eindruck einer breitbandige Übertragung zu erzeugen.
  • Neben dem erfindungsgemäßen Verfahren zur Erweiterung eines schmalbandigen Sprachsignales im oberen Frequenzbereich kann auch der "Wideband Speech Extender" in Telekommunikationssystemen eingesetzt werden, wo das "WB/NB-Switching"-Problem auftritt, so dass stets ein breitbandiges Sprachsignal und damit eine weitgehend konstante Qualität gewährleistet ist.
  • Die Erweiterung eines bandbegrenzten Sprachsignals in die Richtung der unteren Frequenzen bzw. die Wiederherstellung der unteren Frequenzanteile soll ausgehend von der FIGUR 7 anhand der FIGUREN 6a bis 6d angedeutet werden.
  • Wie eingangs diskutiert ist aus der EP 0 994 464 bereits eine spektrale Wiederherstellung von Signalanteilen des unteren Frequenzbereichs eines durch eine Hochpassfunktion zu tiefen Frequenzen hin begrenzten Sprachsignals bekannt, wobei die Wiederherstellung durch Generieren von Frequenzen des unteren Frequenzbereichs durch eine nichtlineare Signalverarbeitung erfolgt, wobei dazu subharmonische Frequenzen des Signals erzeugt und zum Hochpasssignal hinzu addiert werden.
  • Bei bestehenden, insbesondere dem aus der EP 0 994 464 bekannten, Verfahren zur Erweiterung der unteren Frequenzen ist es erforderlich, die Filtercharakteristik, mit der ein Signal an einem fernen Telekommunikationsendgerät gefiltert wurde, zu kennen. Im Allgemeinen sind derartige Verfahren nur unter Verwendung von Telekommunikationseinrichtungen mit gleicher Charakteristik, d.h. Telekommunikationsendgeräte gleichen Typs, optimal einsetzbar, da deren Filtercharakteristik gleich bzw. angepasst ist.
  • In heterogenen Systemen, wo eine Vielzahl unterschiedlicher Telekommunikationsgeräte sowie unterschiedliche Typen von Telekommunikationsgeräten Verwendung finden, sind diese Verfahren nicht einsetzbar, da unterschiedliche Typen von Telekommunikationsgeräten, z.B. Siemens-Telekommunikationsgeräten wie in FIGUR 7 gezeigt, unterschiedliche Filtercharakteristiken aufweisen.
  • Die Erweiterung bandbegrenzter Sprachsignale im unteren Frequenzbereich kann für solche Systeme beispielsweise durch das Schätzen von Filtercharakteristiken erreicht werden, wobei für die Schätzung zunächst von einem, wie in der FIGUR 6a dargestellten, Sprachsignal ein erstes, wie in der FIGUR 6b dargestelltes, Restsignal (first residual signal), auch Prädiktionsfehlersignal genannt, durch die aus der Literatur bekannte Lineare Prädiktionsmethode berechnet wird, wobei die Berechnung des ersten Restsignals entfallen kann, wenn es schon durch andere Verarbeitungsschritte bekannt ist.
  • Da, wie aus der Fachliteratur (Vary, Heute, Hess: "Digitale Sprachsignalverarbeitung", Teubner Stuttgart 1998) bekannt ist, die spektrale Form des ersten Restsignals, insbesondere im Vergleich mit dem in FIGUR 6c dargestellten Spektrum des Sprachsignals, wie in FIGUR 6d entnehmbar, im übertragenen Frequenzbereich nahezu eben ist und lediglich an den Flanken des Filters, der das Sprachsignal im entfernten Kommunikationsendgerät bandbegrenzt hat, abfällt, wird mit dieser Kenntnis und dem berechneten Restsignal eine Schätzung der Filtercharakteristik durchgeführt, wobei insbesondere eine Messung der Restsignalenergie in unterschiedlichen Frequenzbändern Informationen über die Filtercharakteristik liefert.

Claims (16)

  1. Verfahren zur Erweiterung der Brandbreite eines schmalbandig gefilterten Sprachsignals, insbesondere eines von einem Telekommunikationsgerät gesendeten Sprachsignals, oberhalb einer Grenzfrequenz des schmalbandigen Sprachsignals, bei dem
    a) das schmalbandige Sprachsignal in Sprachsignalzeitabschnitte unterteilt wird (P0.1) und jeweils eine spektrale Struktur der Sprachsignalzeitabschnitte berechnet wird (P1.1),
    b) jeder schmalbandige Sprachsignalzeitabschnitt als ein stimmhafter Laut oder als ein stimmloser Laut klassifiziert wird (P2.1),
    dadurch gekennzeichnet, dass
    c) eine spektrale Struktur aufweisende Ergänzungen zur Erweiterung des schmalbandigen Sprachsignals in bezug auf die in b) vorgenommene lautartbezogene Klassifizierung erzeugt werden (P3.1), wobei zumindest für den Fall des stimmhaften Lautes die Ergänzung unabhängig von dem jeweiligen Laut ist,
    d) die spektrale Struktur des schmalbandigen Sprachsignalzeitabschnittes und die spektrale Struktur der erzeugten Ergänzung zeitabschnittsweise derart verknüpft werden (P3.1), dass jeweils eine erweiterte spektrale Struktur entsteht,
    e) aus der erweiterten spektralen Struktur jeweils ein breitbandiger erweiterter Sprachsignalzeitabschnitt erzeugt wird (P3.1),
    f) aus den einzelnen breitbandigen erweiterten Sprachsignalzeitabschnitten ein breitbandiges erweitertes Sprachsignal erzeugt wird (P6.1).
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass
    die spektrale Struktur des schmalbandigen Sprachsignalzeitabschnittes durch eine FFT-Analyse berechnet wird und aus der erweiterten spektralen Struktur durch eine IFFT-Analyse der breitbandige erweiterte Sprachsignalzeitabschnitt erzeugt wird.
  3. Verfahren zur Erweiterung der Brandbreite eines schmalbandig gefilterten Sprachsignals, insbesondere eines von einem Telekommunikationsgerät gesendeten Sprachsignals, oberhalb einer Grenzfrequenz des schmalbandigen Sprachsignals, bei dem
    a) das schmalbandige Sprachsignal in Sprachsignalzeitabschnitte unterteilt wird (P0.2) und jeweils eine spektrale Struktur der schmalbandigen Sprachsignalzeitabschnitte sowie Prädiktionsfehlersignalzeitabschnitte eines schmalbandigen Prädiktionsfehlersignals berechnet werden (P1.2, P2.2),
    b) jeder schmalbandige Sprachsignalzeitabschnitt als ein stimmhafter Laut oder als ein stimmloser Laut klassifiziert wird (P3.2),
    dadurch gekennzeichnet, dass
    c) eine spektrale Struktur aufweisende Ergänzungen zur Erweiterung des schmalbandigen Sprachsignals in bezug auf die in b) vorgenommene lautartbezogene Klassifizierung erzeugt werden (P4.2), wobei zumindest für den Fall des stimmhaften Lautes die Ergänzung unabhängig von dem jeweiligen Laut ist,
    d) die spektrale Struktur des schmalbandigen Sprachsignalzeitabschnittes und die spektrale Struktur der erzeugten Ergänzung zeitabschnittsweise derart verknüpft werden (P4.2), dass jeweils eine erweiterte spektrale Struktur entsteht,
    e) aus den schmalbandigen Prädiktionsfehlersignalzeitabschnitten bezüglich der Zeitabschnittdauer den schmalbandigen Sprachsignalzeitabschnitten entsprechende Prädiktionsfehlersignalzeitabschnitte eines breitbandigen Prädiktionsfehlersignals erzeugt werden (P5.2) und aus der erweiterten spektralen Struktur und dem jeweiligen breitbandigen Prädiktionsfehlersignalzeitabschnitt jeweils ein breitbandiger erweiterter Sprachsignalzeitabschnitt erzeugt wird (P6.2, P7.2),
    f) aus den einzelnen breitbandigen erweiterten Sprachsignalzeitabschnitten ein breitbandiges erweitertes Sprachsignal erzeugt wird (P10.2).
  4. Verfahren nach Anspruch 1 oder 3, dadurch gekennzeichnet, dass
    die für die als stimmhafte Laute klassifizierten schmalbandigen Sprachsignalzeitabschnitte jeweils erzeugte Ergänzung derart erzeugt wird (P4.2), dass die Energie dieser Ergänzung in bezug auf die Gesamtenergie des schmalbandigen Sprachsignalabschnittes vernachlässigbar ist.
  5. Verfahren nach einem der Ansprüche 1, 3 oder 4, dadurch gekennzeichnet, dass
    die für die als stimmlose Laute klassifizierten schmalbandigen Sprachsignalabschnitte jeweils erzeugte Ergänzung derart erzeugt wird (P4.2), dass die Energie dieser Ergänzung in bezug auf die Gesamtenergie des schmalbandigen Sprachsignalabschnittes nicht vernachlässigbar ist.
  6. Verfahren nach einem der Ansprüche 1, 3 oder 4, dadurch gekennzeichnet, dass
    die für die als stimmlose Laute klassifizierten schmalbandigen Sprachsignalzeitabschnitte jeweils erzeugte Ergänzung derart erzeugt wird (P4.2), dass auf Basis von zumindest einem Breitband-Codebuch aus ersten Filterkoeffizienten des schmalbandigen Sprachsignalzeitabschnittes zweite Filterkoeffizienten eines breitbandigen Sprachsignalzeitabschnittes ermittelt werden.
  7. Verfahren nach einem der Ansprüche 3 bis 6, dadurch gekennzeichnet, dass
    aus der erweiterten spektralen Struktur jeweils dritte Filterkoeffizienten berechnet werden (P6.2).
  8. Verfahren nach Anspruch 6 oder 7, dadurch gekennzeichnet, dass
    mit den zweiten oder dritten Filterkoeffizienten und dem breitbandigen Prädiktionsfehlersignalzeitabschnitt breitbandige erweiterte Sprachsignalzeitabschnitte und damit das breitbandige erweiterte Sprachsignal synthetisiert werden (P7.2).
  9. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass
    a) die dritten Filterkoeffizienten mit den Einträgen aus einem Breitband-Codebuch verglichen werden und
    b) der Eintrag in dem Breitband-Codebuch, der am besten zu den dritten Filterkoeffizienten passt, als Filterkoeffizient der Synthese des breitbandigen erweiterten Sprachsignals zugrundegelegt wird.
  10. Verfahren nach Anspruch 1, 3, 4 oder 5, dadurch gekennzeichnet, dass
    die erzeugte Ergänzung abfällt, exponentiell abfällt, ansteigt, gleichbleibendes Nullniveau aufweist oder gleichbleibendes Niveau aufweist.
  11. Verfahren nach Anspruch 1 oder 3, dadurch gekennzeichnet, dass
    der aus der erweiterten spektralen Struktur jeweils erzeugte breitbandige erweiterte Sprachsignalzeitabschnitt hochpassgefiltert wird (P4.1, P8.2), der hochpassgefilterte Sprachsignalzeitabschnitt mit dem entsprechenden schmalbandigen Sprachsignalzeitabschnitt verknüpft wird (P5.1, P9.2) und aus den einzelnen verknüpften Sprachsignalzeitabschnitten das breitbandige erweiterte Sprachsignal erzeugt wird (P6.1, P10.2).
  12. Verfahren zur Erweiterung der Brandbreite eines schmalbandig gefilterten Sprachsignals, insbesondere eines von einem Telekommunikationsgerät gesendeten Sprachsignals, oberhalb einer Grenzfrequenz des schmalbandigen Sprachsignals, bei dem
    a) das schmalbandige Sprachsignal in Sprachsignalzeitabschnitte unterteilt wird (P0.3),
    b) jeder schmalbandige Sprachsignalzeitabschnitt als ein stimmhafter Laut oder als ein stimmloser Laut klassifiziert wird (P1.3),
    dadurch gekennzeichnet, dass
    c) die schmalbandigen Sprachsignalzeitabschnitte derart nichtlinear verarbeitet werden (P2.3), dass jeweils ein modifizierter Sprachsignalzeitabschnitt erzeugt wird, der einerseits den jeweiligen im wesentlichen unveränderten schmalbandige Sprachsignalzeitabschnitt und andererseits oberhalb der Grenzfrequenz durch die nichtlineare Signalverarbeitung erzeugte Signalanteile enthält,
    d) die modifizierten Sprachsignalzeitabschnitte in bezug auf die in b) vorgenommene lautartbezogene Klassifizierung derart unterschiedlich gefiltert werden (P3.3), dass im Fall eines stimmhaften Lautes wenig Energie oberhalb von der Grenzfrequenz und im Fall eines stimmlosen Lautes viel Energie oberhalb von der Grenzfrequenz durchgelassen wird und dass aus den modifizierten Sprachsignalzeitabschnitten breitbandige erweiterte Sprachsignalzeitabschnitte und damit ein breitbandiges erweitertes Sprachsignal entsteht.
  13. Verfahren nach Anspruch 12, dadurch gekennzeichnet, dass
    die für die als stimmhafte Laute klassifizierten schmalbandigen Sprachsignalzeitabschnitte jeweils durch die nichtlineare Signalverarbeitung erzeugten Signalanteile derart erzeugt werden (P2.3), dass die Energie des jeweiligen Signalanteils in bezug auf die Gesamtenergie des schmalbandigen Sprachsignalzeitabschnittes vernachlässigbar ist.
  14. Verfahren nach einem der Ansprüche 12 oder 13, dadurch gekennzeichnet, dass
    die für die als stimmlose Laute klassifizierten schmalbandigen Sprachsignalabschnitte jeweils durch die nichtlineare Signalverarbeitung erzeugten Signalanteile derart erzeugt werden (P2.3), dass die Energie des jeweiligen Signalanteils in bezug auf die Gesamtenergie des schmalbandigen Sprachsignalzeitabschnittes nicht vernachlässigbar ist.
  15. Verfahren nach einem der Ansprüche 12 bis 14, dadurch gekennzeichnet, dass
    die Signalanteile durch spektrale Spiegelung erzeugt werden.
  16. Verfahren nach einem der Ansprüche 1 bis 15, dadurch gekennzeichnet, dass
    die schmalbandigen Sprachsignalzeitabschnitte gleich lang gewählt werden.
EP01943072A 2001-05-11 2001-05-11 Verfahren zur erweiterung der bandbreite eines schmalbandig gefilterten sprachsignals, insbesondere eines von einem telekommunikationsgerät gesendeten sprachsignals Expired - Lifetime EP1388147B1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/DE2001/001826 WO2002093561A1 (de) 2001-05-11 2001-05-11 Verfahren zur erweiterung der bandbreite eines schmalbandig gefilterten sprachsignals, insbesondere eines von einem telekommunikationsgerät gesendeten sprachsignals

Publications (2)

Publication Number Publication Date
EP1388147A1 EP1388147A1 (de) 2004-02-11
EP1388147B1 true EP1388147B1 (de) 2004-12-29

Family

ID=5648243

Family Applications (1)

Application Number Title Priority Date Filing Date
EP01943072A Expired - Lifetime EP1388147B1 (de) 2001-05-11 2001-05-11 Verfahren zur erweiterung der bandbreite eines schmalbandig gefilterten sprachsignals, insbesondere eines von einem telekommunikationsgerät gesendeten sprachsignals

Country Status (5)

Country Link
US (1) US20040153313A1 (de)
EP (1) EP1388147B1 (de)
CN (1) CN1529882A (de)
DE (1) DE50104998D1 (de)
WO (1) WO2002093561A1 (de)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7987095B2 (en) * 2002-09-27 2011-07-26 Broadcom Corporation Method and system for dual mode subband acoustic echo canceller with integrated noise suppression
DE10252070B4 (de) * 2002-11-08 2010-07-15 Palm, Inc. (n.d.Ges. d. Staates Delaware), Sunnyvale Kommunikationsendgerät mit parametrierter Bandbreitenerweiterung und Verfahren zur Bandbreitenerweiterung dafür
DE10252327A1 (de) * 2002-11-11 2004-05-27 Siemens Ag Verfahren zur Erweiterung der Bandbreite eines schmalbandig gefilterten Sprachsignals, insbesondere eines von einem Telekommunikationsgerät gesendeten Sprachsignals
SG163555A1 (en) * 2005-04-01 2010-08-30 Qualcomm Inc Systems, methods, and apparatus for highband burst suppression
DK1875463T3 (en) 2005-04-22 2019-01-28 Qualcomm Inc SYSTEMS, PROCEDURES AND APPARATUS FOR AMPLIFIER FACTOR GLOSSARY
US20070055519A1 (en) * 2005-09-02 2007-03-08 Microsoft Corporation Robust bandwith extension of narrowband signals
US20080300866A1 (en) * 2006-05-31 2008-12-04 Motorola, Inc. Method and system for creation and use of a wideband vocoder database for bandwidth extension of voice
US9159333B2 (en) 2006-06-21 2015-10-13 Samsung Electronics Co., Ltd. Method and apparatus for adaptively encoding and decoding high frequency band
KR101390188B1 (ko) 2006-06-21 2014-04-30 삼성전자주식회사 적응적 고주파수영역 부호화 및 복호화 방법 및 장치
US8010352B2 (en) * 2006-06-21 2011-08-30 Samsung Electronics Co., Ltd. Method and apparatus for adaptively encoding and decoding high frequency band
GB2444757B (en) * 2006-12-13 2009-04-22 Motorola Inc Code excited linear prediction speech coding
EP1970900A1 (de) * 2007-03-14 2008-09-17 Harman Becker Automotive Systems GmbH Verfahren und Vorrichtung zum Bereitstellen eines Codebuchs für die Bandbreitenerweiterung eines akustischen Signals
GB0705324D0 (en) * 2007-03-20 2007-04-25 Skype Ltd Method of transmitting data in a communication system
US8015002B2 (en) 2007-10-24 2011-09-06 Qnx Software Systems Co. Dynamic noise reduction using linear model fitting
US8606566B2 (en) * 2007-10-24 2013-12-10 Qnx Software Systems Limited Speech enhancement through partial speech reconstruction
US8326617B2 (en) 2007-10-24 2012-12-04 Qnx Software Systems Limited Speech enhancement with minimum gating
US9947340B2 (en) * 2008-12-10 2018-04-17 Skype Regeneration of wideband speech
CN101996640B (zh) * 2009-08-31 2012-04-04 华为技术有限公司 频带扩展方法及装置
US8538035B2 (en) 2010-04-29 2013-09-17 Audience, Inc. Multi-microphone robust noise suppression
US8473287B2 (en) 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
US8798290B1 (en) 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
US8781137B1 (en) 2010-04-27 2014-07-15 Audience, Inc. Wind noise detection and suppression
US9245538B1 (en) * 2010-05-20 2016-01-26 Audience, Inc. Bandwidth enhancement of speech signals assisted by noise reduction
US8447596B2 (en) 2010-07-12 2013-05-21 Audience, Inc. Monaural noise suppression based on computational auditory scene analysis
PT2951814T (pt) * 2013-01-29 2017-07-25 Fraunhofer Ges Forschung Ênfase de baixa frequência para codificação com base em lpc em domínio de frequência
US10043534B2 (en) * 2013-12-23 2018-08-07 Staton Techiya, Llc Method and device for spectral expansion for an audio signal
CN108198571B (zh) * 2017-12-21 2021-07-30 中国科学院声学研究所 一种基于自适应带宽判断的带宽扩展方法及系统
CN113287167B (zh) * 2019-01-03 2024-09-24 杜比国际公司 用于混合语音合成的方法、设备及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4700390A (en) * 1983-03-17 1987-10-13 Kenji Machida Signal synthesizer
US5455888A (en) * 1992-12-04 1995-10-03 Northern Telecom Limited Speech bandwidth extension method and apparatus
JPH10509256A (ja) * 1994-11-25 1998-09-08 ケイ. フインク,フレミング ピッチ操作器を使用する音声信号の変換方法
EP0945852A1 (de) * 1998-03-25 1999-09-29 BRITISH TELECOMMUNICATIONS public limited company Sprachsynthese
EP0994464A1 (de) * 1998-10-13 2000-04-19 Koninklijke Philips Electronics N.V. Verfahren und Vorrichtung zur Vergrösserung der Bandbreite von einem schmalbandigen Signal und solch eine Vorrichtung aufweisende Telefoneinrichtung
US6889182B2 (en) * 2001-01-12 2005-05-03 Telefonaktiebolaget L M Ericsson (Publ) Speech bandwidth extension

Also Published As

Publication number Publication date
US20040153313A1 (en) 2004-08-05
CN1529882A (zh) 2004-09-15
EP1388147A1 (de) 2004-02-11
DE50104998D1 (de) 2005-02-03
WO2002093561A1 (de) 2002-11-21

Similar Documents

Publication Publication Date Title
EP1388147B1 (de) Verfahren zur erweiterung der bandbreite eines schmalbandig gefilterten sprachsignals, insbesondere eines von einem telekommunikationsgerät gesendeten sprachsignals
DE60117471T2 (de) Breitband-signalübertragungssystem
DE60029990T2 (de) Glättung des verstärkungsfaktors in breitbandsprach- und audio-signal dekodierer
DE69910240T2 (de) Vorrichtung und verfahren zur wiederherstellung des hochfrequenzanteils eines überabgetasteten synthetisierten breitbandsignals
DE4320990B4 (de) Verfahren zur Redundanzreduktion
DE69123500T2 (de) 32 Kb/s codeangeregte prädiktive Codierung mit niedrigen Verzögerung für Breitband-Sprachsignal
DE69915830T2 (de) Verbesserte verfahren zur rückgewinnung verlorener datenrahmen für ein lpc-basiertes, parametrisches sprachkodierungsystem.
DE10041512B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE19747132C2 (de) Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms
DE60303214T2 (de) Verfahren zur reduzierung von aliasing-störungen, die durch die anpassung der spektralen hüllkurve in realwertfilterbanken verursacht werden
DE69614752T2 (de) Vorrichtung und Verfahren zur Sprachkodierung unter Verwendung eines Filters zur Verbesserung der Signalqualität
DE69911169T2 (de) Verfahren zur dekodierung eines audiosignals mit korrektur von übertragungsfehlern
DE69317958T2 (de) Kodierer von Audiosignalen mit niedriger Verzögerung, unter Verwendung von Analyse-durch-Synthese-Techniken
EP0978172B1 (de) Verfahren zum verschleiern von fehlern in einem audiodatenstrom
WO2007073949A1 (de) Verfahren und vorrichtung zur künstlichen erweiterung der bandbreite von sprachsignalen
EP1697930A1 (de) Vorrichtung und verfahren zum verarbeiten eines multikanalsignals
DE69820362T2 (de) Nichtlinearer Filter zur Geräuschunterdrückung in linearen Prädiktions-Sprachkodierungs-Vorrichtungen
DE69807806T2 (de) Verfahren und vorrichtung zur kodierung eines audiosignals mittels &#34;vorwärts&#34;- und &#34;rückwärts&#34;-lpc-analyse
DE60124079T2 (de) Sprachverarbeitung
DD292791A5 (de) Verfahren zur uebertragung eines signals
EP1016319A1 (de) Verfahren und vorrichtung zum codieren eines zeitdiskreten stereosignals
DE68913691T2 (de) System zur Sprachcodierung und -decodierung.
EP1023777B1 (de) Verfahren und vorrichtung zur erzeugung eines bitratenskalierbaren audio-datenstroms
EP3544003B1 (de) Vorrichtung und verfahren zum ermitteln eines schätzwerts
EP1561205A1 (de) Verfahren zur erweiterung der bandbreite eines schmalbandig gefilterten sprachsignals

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20031107

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

RIN1 Information on inventor provided before grant (corrected)

Inventor name: LORENZ, FRANNK

Inventor name: KLINKE, STEFANO, AMBROSIUS

Inventor name: AUBAUER, ROLAND

RIN1 Information on inventor provided before grant (corrected)

Inventor name: LORENZ, FRANNK

Inventor name: KLINKE, STEFANO, AMBROSIUS

Inventor name: AUBAUER, ROLAND

RBV Designated contracting states (corrected)

Designated state(s): DE FR GB

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): DE FR GB

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

GBT Gb: translation of ep patent filed (gb section 77(6)(a)/1977)

Effective date: 20041230

REF Corresponds to:

Ref document number: 50104998

Country of ref document: DE

Date of ref document: 20050203

Kind code of ref document: P

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20050505

Year of fee payment: 5

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20050520

Year of fee payment: 5

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 20050721

Year of fee payment: 5

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

ET Fr: translation filed
26N No opposition filed

Effective date: 20050930

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GB

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20060511

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20061201

GBPC Gb: european patent ceased through non-payment of renewal fee

Effective date: 20060511

REG Reference to a national code

Ref country code: FR

Ref legal event code: ST

Effective date: 20070131

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FR

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20060531