WO2014058138A1 - Audio encoding/decoding device using reverberation signal of object audio signal - Google Patents
Audio encoding/decoding device using reverberation signal of object audio signal Download PDFInfo
- Publication number
- WO2014058138A1 WO2014058138A1 PCT/KR2013/006471 KR2013006471W WO2014058138A1 WO 2014058138 A1 WO2014058138 A1 WO 2014058138A1 KR 2013006471 W KR2013006471 W KR 2013006471W WO 2014058138 A1 WO2014058138 A1 WO 2014058138A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- audio signal
- signal
- audio
- bitstream
- reverberation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/305—Electronic adaptation of stereophonic audio signals to reverberation of the listening space
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
Definitions
- the following description relates to an audio encoding / decoding apparatus using a reverberation signal of an object audio signal, and more particularly to an audio encoding / decoding apparatus using an audio signal including a reverberation signal of an object audio signal. will be.
- MPEG SOC Spatial Audio Object Coding
- Dolby Atmos respectively construct a sound scene using an input signal or an object.
- MPEG SAOC regards the input audio signal as an object and receives the corresponding input audio signal.
- the MPEG SAOC constitutes an audio scene with respect to input rendering information.
- MPEG SAOC can be transmitted at a low bit rate and uses spatial audio coding as a high compression method.
- Dolby Atmos is a multi-channel audio format for theater, and transmits or stores a channel signal called Beds and an object signal called object, and composes a sound scene using metadata.
- an audio encoding / decoding device capable of reproducing a more effective and realistic audio signal by using a reverberation signal of a channel audio signal, an object audio signal, and an object audio signal is provided.
- an encoding / decoding apparatus capable of reconstructing a realistic sound scene according to the reverberation signal of the object audio signal.
- An audio encoding apparatus includes an audio signal encoder for encoding an audio signal; And a bitstream transmitter for converting the encoded audio signal into a bitstream and transmitting the bitstream.
- the audio signal may include a channel audio signal, an object audio signal, and a reverberation signal of the object audio signal.
- An audio decoding apparatus includes a bitstream receiver configured to receive a bitstream including an encoded audio signal; And an audio signal decoder which decodes an audio signal included in the bitstream to extract a channel audio signal, an object audio signal, and a reverberation signal of the object audio signal from the bitstream.
- the audio decoding apparatus may further include an audio renderer that renders the extracted channel audio signal, the object audio signal, and a reverberation signal of the object audio signal based on the rendering information included in the bitstream.
- An audio encoding method includes encoding an audio signal; And converting the encoded audio signal into a bitstream and transmitting the bitstream, wherein the audio signal may include a channel audio signal, an object audio signal, and a reverberation signal of the object audio signal.
- an audio decoding method includes: receiving a bitstream including an encoded audio signal; Decoding the audio signal included in the bitstream to extract a channel audio signal, an object audio signal, and a reverberation signal of the object audio signal from the bitstream; And rendering the extracted channel audio signal, the object audio signal, and a reverberation signal of the object audio signal based on the rendering information included in the bitstream.
- a reverberation signal of a channel audio signal, an object audio signal, and an object audio signal may be used to reproduce a multichannel audio signal, thereby reproducing a more effective and realistic audio signal.
- the audio encoding / decoding apparatus may reconstruct a realistic sound scene according to the reverberation signal of the object audio signal by rendering the reverberation signal of the object audio signal and the object audio signal corresponding to the object audio signal.
- FIG. 1 is a diagram illustrating an audio encoding / decoding apparatus according to an embodiment.
- FIG. 2 is a diagram illustrating an audio encoding apparatus, according to an embodiment.
- FIG. 3 is a diagram illustrating an audio decoding apparatus, according to an exemplary embodiment.
- FIG. 4 is a diagram illustrating an example of an audio encoding apparatus of FIG. 2, according to an embodiment.
- FIG. 5 is a diagram illustrating an example of an audio decoding apparatus of FIG. 3, according to an exemplary embodiment.
- FIG. 6 is a diagram illustrating a configuration of rendering information, according to an exemplary embodiment.
- FIG. 7 is a diagram illustrating an audio encoding method, according to an exemplary embodiment.
- FIG. 8 is a diagram illustrating an audio decoding method, according to an exemplary embodiment.
- FIG. 1 is a diagram illustrating an audio encoding / decoding apparatus according to an embodiment.
- the audio encoding apparatus 101 may receive an audio signal including a reverberation signal of a channel audio signal, an object audio signal, and an object audio signal.
- the audio encoding apparatus 101 may receive an audio signal by considering a reverberation signal of the object audio signal as an object including a channel audio signal and an object audio signal.
- the audio encoding apparatus 101 must receive an audio signal including the above-mentioned three types of audio signals.
- the audio encoding apparatus 101 may receive rendering information.
- the rendering information is additional data and may include gain information-based rendering information and rendering information related to a time delay.
- the rendering information may include scene information corresponding to the audio signal when the audio signal is output.
- the audio encoding apparatus 101 may encode the received audio signal.
- the audio encoding apparatus 101 may convert the rendering information into a bit string.
- the audio encoding apparatus 101 may convert the rendering information into a bit string by performing binary conversion.
- the audio encoding apparatus 101 may simultaneously encode the audio signal and the rendering information.
- the audio encoding apparatus 101 may include a block capable of converting rendering information into a bit string.
- the audio encoding apparatus 101 may convert the encoded audio signal into a bitstream.
- the audio encoding apparatus 101 may include a block capable of converting rendering information into a bit string.
- the audio encoding apparatus 101 may convert the rendering information and the encoded audio signal into a bitstream.
- the bitstream may include rendering information and an encoded audio signal.
- the audio encoding apparatus 101 may transmit the converted bitstream to the audio decoding apparatus 102.
- the audio decoding apparatus 102 may receive the converted bitstream from the audio encoding apparatus 101.
- the audio decoding apparatus 102 may decode the audio signal included in the received bitstream to extract a channel audio signal, an object audio signal, and a reverberation signal of the object audio signal from the bitstream.
- the audio decoding apparatus 102 may render the extracted channel audio signal, the object audio signal, and the reverberation signal of the object audio signal based on the rendering information included in the bitstream.
- the audio decoding apparatus 102 may output the rendered multi-channel audio signal.
- FIG. 2 is a diagram illustrating an audio encoding apparatus, according to an embodiment.
- the audio encoding apparatus 201 may include an audio signal encoder 202 and a bitstream transmitter 203.
- the audio signal encoder 202 may encode an audio signal.
- the audio signal may include a channel audio signal, an object audio signal, and a reverberation signal of the object audio signal.
- the channel audio signal may be a signal that is allocated to a channel of any playback device during reproduction as a channel audio signal that is generally used.
- the channel audio signal may be a signal which is not changed by the rendering information.
- the channel audio signal may be arranged into a vector column for N channel audio signals by using Equation 1 below.
- the object audio signal may be used as a subject that performs rendering by defining a specific audio signal among a plurality of audio signals as the object audio signal.
- the object audio signal may be a signal that can be defined at any point through the geometric position analysis of the playback device.
- the object audio signal may be expressed as a matrix composed of vertor columns for M object audio signals using Equation 2 below.
- Equation 2 may be used when independently rendering the positional information of the object audio signal and the delay information of the object audio signal.
- the object audio signal can be represented by a matrix because each object audio signal can be composed of multiple channel audio signals.
- the object audio signal is the first object audio signal If is composed of a stereo, it can be expressed as Equation 3.
- the reverberation signal of the object audio signal is a reverberation signal applied to the object audio signal and may express a sound field of the object audio signal.
- the reverberation signal of the object audio signal may correspond to the object audio signal and may include reverberation signals for the M object audio signals.
- the reverberation signal of the object audio signal may be expressed as shown in Equation 4.
- the reverberation signal of the object audio signal may be composed of a plurality of channel audio signals in the same manner as the object audio signal.
- the reverberation signal of the object audio signal may be expressed as shown in Equation 5 when configured as five channels of 5.1.
- the audio signal encoder 202 may encode an audio signal by including a reverberation signal having various layouts with respect to the object audio signal.
- the bitstream transmitter 203 may convert the encoded audio signal into a bitstream.
- the bitstream transmitter 203 may generate the encoded audio signal and rendering information for outputting the audio signal into a bitstream.
- the rendering information may be additional data for the audio signal.
- the rendering information may be information that is applied to an audio signal to reproduce scene information related to sound.
- the rendering information may include at least one of position information of the audio object, sound pressure information of the audio object, and delay information of the audio object.
- the rendering information may be expressed as in Equation 6.
- R (t) is position information of the object audio signal
- G i (t) may be sound pressure of the object audio signal
- D (t) may represent a delay of the object audio signal
- G 1 (t) and G 2 (t) may be scale matrices for adjusting sound pressure on the received object audio signal.
- t may be an index over time.
- the bitstream transmitter 203 may transmit the converted bitstream to the audio decoding apparatus.
- FIG. 3 is a diagram illustrating an audio decoding apparatus according to an embodiment.
- the audio decoding apparatus 301 may include a bitstream receiver 302, an audio signal decoder 303, and an audio renderer 304.
- the bitstream receiver 302 may receive a bitstream including an encoded audio signal from an audio encoding apparatus.
- the audio signal decoder 303 may decode the audio signal included in the bitstream.
- the audio signal decoder 303 may extract the reverberation signal of the channel audio signal, the object audio signal, and the object audio signal from the bitstream.
- the audio signal decoder 303 may be expressed as Equation 8, Equation 9, or Equation 10 corresponding to the extracted channel audio signal, the object audio signal, and the reverberation signal of the object audio signal.
- the audio renderer 304 may render a reverberation signal of the extracted channel audio signal, the object audio signal, and the object audio signal based on the rendering information included in the bitstream. In addition, the audio renderer 304 may configure an acoustic scene based on scene information related to the sound of the rendering information.
- the audio rendering unit 304 may express an operation principle of rendering an audio signal as shown in Equation 11 below.
- Equation 12 the sound pressure of the object audio signal may be adjusted.
- Equation 12 The process of adjusting the sound pressure of the object audio signal may be expressed by Equation 12.
- Sound pressure May be assigned to the speaker position of the reproduction device which is actually output by the image positioning matrix P (t).
- the elements of the negative positioning matrix P (t) may be expressed as gain values of sound pressure.
- the gain value may include a real value between 0 and 1. If the number of channels that can be output is N, A negative stereotactic matrix as shown in Equation 13 may be applied.
- Equation 13 the object audio signal is an object audio signal. When composed of J layouts, it may be expressed as in Equation 14.
- the calculation process may be confirmed for each element of the negative stereographic matrix using Equation 15.
- Equation 10 the second term may perform matrix operation having the same dimension.
- matrix operation of the dimension may be expressed as in Equation 17.
- Equation 17 the object audio signal is an object audio signal. When composed of J layouts, it may be expressed as in Equation 18.
- the delay operation process of the object audio signal can not be expressed by matrix multiplication, as is the operation of the application of the stereotactic matrix. Can be expressed using.
- the signal output by the delay arithmetic matrix D (t) can be expressed by Equation 19.
- the audio renderer 304 may apply the stereotactic matrix and the delay calculation matrix independently to the rendering process.
- the audio renderer 304 may express the PD (t) matrix by using Equation 20 when the audio stereotactic matrix and the delayed operation matrix are simultaneously applied.
- the audio rendering unit 304 may extract a result as shown in Equation 21 through a calculation process as shown in Equation 20.
- the audio renderer 304 may allocate a channel signal capable of outputting the object audio signal using the above-described equation.
- the audio renderer 304 may collect the allocated object audio signal with the decoded channel audio signal.
- the audio renderer 304 may generate an output signal that can be finally output.
- the audio rendering unit 304 may render the reverberation signal of the object audio signal through a process such as Equation 22 or Equation 23.
- the rendering process on the reverberation signal of the object audio signal using Equation 22 and Equation 23 may render the object audio signal and render a reverberation signal of the object audio signal corresponding to the object audio signal, thereby producing a more realistic sound scene. I can produce it.
- the audio renderer 304 may control a reverberation signal of the object audio signal corresponding to the object audio signal.
- the audio rendering unit 304 is an object audio signal In the process of rendering the equation, the gain value You can assign a solution of values as And, the audio rendering unit 304 is Similarly, the reverberation signal of the object audio signal may be controlled corresponding to the index of the object audio signal.
- the audio rendering unit 304 at the gain value of Equation 22 Assign a solution of the value, or It can control the object audio signal as shown.
- the output signal that can be finally output may be a signal in which the rendered object audio signal, the reverberation signal of the rendered object audio signal, and the decoded channel audio signal are integrated.
- the output signal may be expressed as in Equation (24).
- the output signal may transmit information of the rendered object audio signal and information of the reverberation signal of the rendered object audio signal through different methods. Therefore, in Equation 23, as each rendering information Wow It should be sent to.
- the channel audio signal decoded in Equation 23 is obtained.
- Decoded channel audio signal indicates that the number of final output channels is different from the decoded channel audio signal. Because it is expressed as a downmixed signal. In one example, there were N decoded channel audio signals, Wow If you set the number of output signals and channels to be K, Degree Can be converted to In other words. Wow The number of dimensions of the column matrix of may be K.
- Equation 25 the downmix matrix
- Equation 26 The downmix process when N channel audio signals and K output signals are decoded based on Equation 25 may be expressed as Equation 26.
- the decoded channel audio signal Wow
- the output signal may be expressed by Equation 27 by reflecting Equation 24 in Equation 23.
- the output signal may perform rendering on N channel audio signals and then perform downmixing by applying DMX (t).
- the time index t may change with time of the information of the DMX (t).
- the audio encoding apparatus 101 and the audio decoding apparatus 102 can sufficiently reflect the original sound engineer's intention of creating content by using the reverberation signal of the object audio signal corresponding to the object audio signal.
- the audio encoding apparatus 101 and the audio decoding apparatus 102 may control the reverberation signal of the object audio signal.
- the audio encoding apparatus 101 and the audio decoding apparatus 102 may include rendering information corresponding to the reverberation signal of the object audio signal in order to further control the reverberation signal of the object audio signal.
- FIG. 4 is a diagram illustrating an example of an audio encoding apparatus of FIG. 2, according to an embodiment.
- the audio encoding apparatus may include an audio signal encoder 401 and a bitstream transmitter 402.
- the audio signal encoder 401 may receive a reverberation signal of a channel audio signal, an object audio signal, and an object audio signal. In this case, the audio signal encoder 401 may produce a higher sound scene by receiving a reverberation signal of the object audio signal. The audio signal encoder 401 may encode the received reverberation signal of the channel audio signal, the object audio signal, and the object audio signal into an audio signal.
- the audio encoding apparatus may receive rendering information 403.
- the audio encoding apparatus may include a block capable of converting the rendering information 403 into binary.
- the audio signal encoder 401 when the audio signal encoder 401 includes a block capable of converting the rendering information 403, the audio signal encoder 401 may include a channel audio signal, an object audio signal, and a reverberation signal of the object audio signal. It may be encoded into an audio signal including the rendering information 403.
- the bitstream transmitter 402 may convert the encoded audio signal into a bitstream.
- the bitstream transmitter 402 may transmit the converted bitstream to the audio decoding apparatus.
- the bitstream may include a channel audio signal, an object audio signal, an audio signal including a reverberation signal of the object audio signal, and rendering information 403.
- the bitstream transmitter 402 may transmit a bitstream to generate multi-channel scene information.
- the multi-channel scene information may be generated based on the rendering information 403.
- the rendering information 403 may be used as additional data for the reverberation signal of the object audio signal.
- FIG. 5 is a diagram illustrating an example of an audio decoding apparatus of FIG. 3, according to an exemplary embodiment.
- the audio decoding apparatus may include a bitstream receiver 501, an audio signal decoder 502, and an audio renderer 503.
- the bitstream receiver 501 may receive a bitstream from an audio encoding apparatus.
- the received bitstream may include an audio signal and rendering information.
- the audio signal decoder 502 may decode the audio signal. In other words, the audio signal decoder 502 may extract a reverberation signal of a channel audio signal, an object audio signal, and an object audio signal included in the audio signal.
- the audio rendering unit 503 may render the decoded channel audio signal, the object audio signal, and the reverberation signal of the object audio signal.
- the object audio signal may be rendered based on the rendering process of FIG. 3.
- the reverberation signal of the object audio signal may be rendered according to the index of the object audio signal when the object audio signal is rendered.
- the reverberation signal of the object audio signal may be controlled in the same manner as the object audio signal is controlled, thereby providing a more realistic sound image.
- the audio rendering unit 503 may generate an output signal by rendering the decoded channel audio signal, the object audio signal, and the reverberation signal of the object audio signal.
- the output signal may include a rendered object audio signal, a reverberation signal of the rendered object audio signal, and a decoded channel audio signal.
- the output signal may be output to each channel as a multi-channel audio signal.
- FIG. 6 is a diagram illustrating a configuration of rendering information, according to an exemplary embodiment.
- the rendering information 600 may be represented in a matrix form.
- each matrix of the rendering information 600 may be represented by a substitute value to represent the rendering information.
- the location information of the object may be represented by the angle between the horizontal plane and the vertical plane.
- the matrix value and the gain value related to the delay information may be replaced with a value indicating a sense of distance.
- the rendering information 600 may be applied to the rendered object audio signal and the reverberation signal of the rendered object audio signal corresponding to various types of rendering information 600 input to be used as additional data of the reverberation signal of the object audio signal. So that it can be converted into a matrix value and represented.
- FIG. 7 is a diagram illustrating an audio encoding method, according to an exemplary embodiment.
- the audio encoding apparatus may receive a reverberation signal of a channel audio signal, an object audio signal, and an object audio signal.
- the channel audio signal may be a signal that is allocated to a channel of any playback device during reproduction as a channel audio signal that is generally used.
- the object audio signal may be used as a subject that performs rendering by defining a specific audio signal among a plurality of audio signals as the object audio signal.
- the reverberation signal of the object audio signal is a reverberation signal applied to the object audio signal, and may represent a sound field of the object audio signal.
- the audio encoding apparatus may encode the audio signal including the reverberation signal of the channel audio signal, the object audio signal, and the object audio signal.
- the audio encoding apparatus may convert the encoded audio signal into a bitstream.
- the bitstream may include a channel audio signal, an object audio signal, an audio signal including a reverberation signal of the object audio signal, and rendering information 403.
- the audio encoding apparatus may transmit a bitstream to generate multichannel scene information.
- FIG. 8 is a diagram illustrating an audio decoding method, according to an exemplary embodiment.
- the audio decoding apparatus may receive a bitstream from the audio encoding apparatus.
- the received bitstream may include an audio signal and rendering information.
- the audio decoding apparatus may decode the audio signal to extract a reverberation signal of the channel audio signal, the object audio signal, and the object audio signal included in the audio signal.
- the audio decoding apparatus may render the extracted channel audio signal, the object audio signal, and a reverberation signal of the object audio signal based on the rendering information included in the bitstream.
- the audio decoding apparatus may render the reverberation signal of the object audio signal according to the index of the object audio signal when the object audio signal is rendered.
- the reverberation signal of the object audio signal may be controlled in the same manner as the object audio signal is controlled, thereby providing a more realistic sound image.
- the audio decoding apparatus may generate an output signal by rendering the decoded channel audio signal, the object audio signal, and the reverberation signal of the object audio signal.
- Methods according to an embodiment of the present invention can be implemented in the form of program instructions that can be executed by various computer means and recorded in a computer readable medium.
- the computer readable medium may include program instructions, data files, data structures, etc. alone or in combination.
- Program instructions recorded on the media may be those specially designed and constructed for the purposes of the present invention, or they may be of the kind well-known and available to those having skill in the computer software arts.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
Description
아래의 설명은 객체 오디오 신호의 잔향 신호를 이용한 오디오 부/복호화 장치에 관한 것으로 보다 구체적으로 객체 오디오 신호의 잔향 신호를 포함하는 오디오 신호를 이용하여 오디오 부호화 또는 오디오 복호화하는 오디오 부/복호화 장치에 관한 것이다.The following description relates to an audio encoding / decoding apparatus using a reverberation signal of an object audio signal, and more particularly to an audio encoding / decoding apparatus using an audio signal including a reverberation signal of an object audio signal. will be.
종래의 음향 장면을 구성하는 방법에 있어서, MPEG SAOC(Spatial Audio Object Coding)와 Dolby Atmos는 각각 입력 받는 입력 신호 또는 객체를 이용하여 음향 장면을 구성한다.In the conventional method of constructing a sound scene, MPEG SOC (Spatial Audio Object Coding) and Dolby Atmos respectively construct a sound scene using an input signal or an object.
MPEG SAOC은 입력 오디오 신호를 객체로 간주하고, 해당 입력 오디오 신호를 입력 받는다. 그리고, MPEG SAOC은 입력되는 렌더링 정보에 대해서 음향장면을 구성한다. 특히, MPEG SAOC은 저비트율로 전송이 가능하며, 고압축 방식으로 spatial audio coding 방식을 이용한다.MPEG SAOC regards the input audio signal as an object and receives the corresponding input audio signal. The MPEG SAOC constitutes an audio scene with respect to input rendering information. In particular, MPEG SAOC can be transmitted at a low bit rate and uses spatial audio coding as a high compression method.
그리고, Dolby Atmos는 극장용 다채널 오디오 포맷으로, Beds라는 채널 신호와 object라는 객체신호를 전송 혹은 저장하며, 메타데이터를 이용하여 음향 장면을 구성한다.In addition, Dolby Atmos is a multi-channel audio format for theater, and transmits or stores a channel signal called Beds and an object signal called object, and composes a sound scene using metadata.
그러나, 이러한 종래의 방식은 입력 오디오 신호 또는 객체 신호를 이용하여 음향장면을 구성하기 때문에, 입력 오디오 신호 또는 객체 신호에 따른 콘텐츠의 의도에 대응하지 않지 않는 음향장면을 포함하는 경우가 발생한다. 이는 음향장면을 구성하기 위한 기본적인 신호만을 포함하고 있기 때문이다.However, since such a conventional method configures a sound scene using an input audio signal or an object signal, a case in which a sound scene that does not correspond to the intention of the content according to the input audio signal or the object signal occurs. This is because it includes only basic signals for constructing an acoustic scene.
따라서, 입력 오디오 신호 또는 객체 신호에 따른 콘텐츠의 의도에 대응하여 정확한 음향장면을 구성할 수 있는 방법이 강구되어야 한다.Therefore, a method for constructing an accurate sound scene in response to the intention of the content according to the input audio signal or the object signal should be devised.
다채널 오디오 신호를 재현하는데 있어서, 채널 오디오 신호, 객체 오디오 신호 및 객체 오디오 신호의 잔향 신호를 이용함으로써, 보다 효과적이며 현실감 있는 오디오 신호를 재현할 수 있는 오디오 부/복호화 장치를 제공하는 것이다.In reproducing a multi-channel audio signal, an audio encoding / decoding device capable of reproducing a more effective and realistic audio signal by using a reverberation signal of a channel audio signal, an object audio signal, and an object audio signal is provided.
객체 오디오 신호와 해당 객체 오디오 신호에 대응하는 객체 오디오 신호의 잔향 신호를 렌더링함으로써, 객체 오디오 신호의 잔향 신호에 따른 실감나는 음향 장면을 재구성할 수 있는 부/복호화 장치를 제공하는 것이다.By providing a reverberation signal of an object audio signal and an object audio signal corresponding to the object audio signal, an encoding / decoding apparatus capable of reconstructing a realistic sound scene according to the reverberation signal of the object audio signal.
일실시예에 따른 오디오 부호화 장치는 오디오 신호를 부호화하는 오디오 신호 부호화부; 및 상기 부호화된 오디오 신호를 비트스트림으로 변환하여 전송하는 비트스트림 전송부를 포함하고, 상기 오디오 신호는 채널 오디오 신호, 객체 오디오 신호 및 상기 객체 오디오 신호의 잔향 신호를 포함할 수 있다.An audio encoding apparatus according to an embodiment includes an audio signal encoder for encoding an audio signal; And a bitstream transmitter for converting the encoded audio signal into a bitstream and transmitting the bitstream. The audio signal may include a channel audio signal, an object audio signal, and a reverberation signal of the object audio signal.
일실시예에 따른 오디오 복호화 장치는 부호화된 오디오 신호를 포함하는 비트스트림을 수신하는 비트스트림 수신부; 및 상기 비트스트림에 포함된 오디오 신호를 복호화하여 상기 비트스트림으로부터 채널 오디오 신호, 객체 오디오 신호 및 상기 객체 오디오 신호의 잔향 신호를 추출하는 오디오 신호 복호화부를 포함할 수 있다.An audio decoding apparatus according to an embodiment includes a bitstream receiver configured to receive a bitstream including an encoded audio signal; And an audio signal decoder which decodes an audio signal included in the bitstream to extract a channel audio signal, an object audio signal, and a reverberation signal of the object audio signal from the bitstream.
일실시예에 따른 오디오 복호화 장치는 상기 비트스트림에 포함된 렌더링 정보에 기초하여 상기 추출된 채널 오디오 신호, 객체 오디오 신호 및 상기 객체 오디오 신호의 잔향 신호를 렌더링하는 오디오 렌더링부를 더 포함할 수 있다.The audio decoding apparatus may further include an audio renderer that renders the extracted channel audio signal, the object audio signal, and a reverberation signal of the object audio signal based on the rendering information included in the bitstream.
일실시예에 따른 오디오 부호화 방법은 오디오 신호를 부호화하는 단계; 및 상기 부호화된 오디오 신호를 비트스트림으로 변환하여 전송하는 단계를 포함하고, 상기 오디오 신호는 채널 오디오 신호, 객체 오디오 신호 및 상기 객체 오디오 신호의 잔향 신호를 포함할 수 있다.An audio encoding method according to an embodiment includes encoding an audio signal; And converting the encoded audio signal into a bitstream and transmitting the bitstream, wherein the audio signal may include a channel audio signal, an object audio signal, and a reverberation signal of the object audio signal.
일실시예에 따른 오디오 복호화 방법은 부호화된 오디오 신호를 포함하는 비트스트림을 수신하는 단계; 상기 비트스트림에 포함된 오디오 신호를 복호화하여 상기 비트스트림으로부터 채널 오디오 신호, 객체 오디오 신호 및 상기 객체 오디오 신호의 잔향 신호를 추출하는 단계; 및 상기 비트스트림에 포함된 렌더링 정보에 기초하여 상기 추출된 채널 오디오 신호, 객체 오디오 신호 및 상기 객체 오디오 신호의 잔향 신호를 렌더링하는 단계를 포함할 수 있다.According to an embodiment, an audio decoding method includes: receiving a bitstream including an encoded audio signal; Decoding the audio signal included in the bitstream to extract a channel audio signal, an object audio signal, and a reverberation signal of the object audio signal from the bitstream; And rendering the extracted channel audio signal, the object audio signal, and a reverberation signal of the object audio signal based on the rendering information included in the bitstream.
일실시예에 따른 오디오 부/복호화 장치는 다채널 오디오 신호를 재현하는데 있어서, 채널 오디오 신호, 객체 오디오 신호 및 객체 오디오 신호의 잔향 신호를 이용함으로써, 보다 효과적이며 현실감 있는 오디오 신호를 재현할 수 있다.In an audio encoding / decoding apparatus according to an embodiment, a reverberation signal of a channel audio signal, an object audio signal, and an object audio signal may be used to reproduce a multichannel audio signal, thereby reproducing a more effective and realistic audio signal. .
일실시예에 따른 오디오 부/복호화 장치는 객체 오디오 신호와 해당 객체 오디오 신호에 대응하는 객체 오디오 신호의 잔향 신호를 렌더링함으로써, 객체 오디오 신호의 잔향 신호에 따른 실감나는 음향 장면을 재구성할 수 있다.The audio encoding / decoding apparatus according to an embodiment may reconstruct a realistic sound scene according to the reverberation signal of the object audio signal by rendering the reverberation signal of the object audio signal and the object audio signal corresponding to the object audio signal.
도 1은 일실시예에 따른 오디오 부/복호화 장치를 도시한 도면이다.1 is a diagram illustrating an audio encoding / decoding apparatus according to an embodiment.
도 2는 일실시예에 따른 오디오 부호화 장치를 도시한 도면이다.2 is a diagram illustrating an audio encoding apparatus, according to an embodiment.
도 3은 일실시예에 따른 오디오 복호화 장치를 도시한 도면이다.3 is a diagram illustrating an audio decoding apparatus, according to an exemplary embodiment.
도 4는 일실시예에 따른 도2의 오디오 부호화 장치를 구체화한 도면이다.4 is a diagram illustrating an example of an audio encoding apparatus of FIG. 2, according to an embodiment.
도 5는 일실시예에 따른 도3의 오디오 복호화 장치를 구체화한 도면이다.5 is a diagram illustrating an example of an audio decoding apparatus of FIG. 3, according to an exemplary embodiment.
도 6은 일실시예에 따른 렌더링 정보의 구성을 도시한 도면이다.6 is a diagram illustrating a configuration of rendering information, according to an exemplary embodiment.
도 7은 일실시예에 따른 오디오 부호화 방법을 도시한 도면이다.7 is a diagram illustrating an audio encoding method, according to an exemplary embodiment.
도 8은 일실시예에 따른 오디오 복호화 방법을 도시한 도면이다.8 is a diagram illustrating an audio decoding method, according to an exemplary embodiment.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.
도 1은 일실시예에 따른 오디오 부/복호화 장치를 도시한 도면이다.1 is a diagram illustrating an audio encoding / decoding apparatus according to an embodiment.
도 1을 참고하면, 오디오 부호화 장치(101)는 채널 오디오 신호, 객체 오디오 신호 및 객체 오디오 신호의 잔향 신호를 포함하는 오디오 신호를 수신할 수 있다. 이 때, 오디오 부호화 장치(101)는 채널 오디오 신호, 객체 오디오 신호를 포함하여 객체 오디오 신호의 잔향 신호를 객체로 간주하여 오디오 신호를 수신할 수 있다. 그리고, 오디오 부호화 장치(101)는 위에서 언급한 3가지 형태의 오디오 신호를 포함하는 오디오 신호를 반드시 수신해야 한다.Referring to FIG. 1, the
그리고, 오디오 부호화 장치(101)는 렌더링 정보를 수신할 수 있다. 렌더링 정보는 부가 데이터로써, 이득값 기반의 렌더링 정보 및 시간 지연과 관련된 렌더링 정보를 포함할 수 있다. 또한, 렌더링 정보는 오디오 신호를 출력하는 경우, 오디오 신호에 대응하는 장면 정보를 포함할 수 있다.The
오디오 부호화 장치(101)는 수신한 오디오 신호를 부호화 할 수 있다. 그리고, 오디오 부호화 장치(101)는 렌더링 정보를 비트열로 변환할 수 있다. 일례로, 오디오 부호화 장치(101)는 바이너리(Binary) 변환하여 렌더링 정보를 비트열로 변환할 수 있다. 또한, 오디오 부호화 장치(101)는 오디오 신호와 렌더링 정보를 동시에 부호화 할 수 있다. 이 때, 오디오 부호화 장치(101)는 렌더링 정보를 비트열로 변환할 수 있는 블록을 포함할 수 있다.The
그리고, 오디오 부호화 장치(101)는 부호화 된 오디오 신호를 비트스트림으로 변환할 수 있다. 오디오 부호화 장치(101)는 렌더링 정보를 비트열로 변환할 수 있는 블록을 포함할 수 있다. 오디오 부호화 장치(101)는 렌더링 정보와 부호화 된 오디오 신호를 비트스트림으로 변환할 수 있다. 비트스트림은 렌더링 정보와 부호화 된 오디오 신호를 포함할 수 있다. 그리고, 오디오 부호화 장치(101)는 변환된 비트스트림을 오디오 복호화 장치(102)로 전송할 수 있다.The
오디오 복호화 장치(102)는 오디오 부호화 장치(101)로부터 변환된 비트스트림을 수신할 수 있다. 그리고, 오디오 복호화 장치(102)는 수신한 비트스트림에 포함된 오디오 신호를 복호화하여 비트스트림으로부터 채널 오디오 신호, 객체 오디오 신호 및 상기 객체 오디오 신호의 잔향 신호를 추출할 수 있다. 그리고, 오디오 복호화 장치(102)는 비트스트림에 포함된 렌더링 정보에 기초하여 상기 추출된 채널 오디오 신호, 객체 오디오 신호 및 상기 객체 오디오 신호의 잔향 신호를 렌더링할 수 있다. 오디오 복호화 장치(102)는 렌더링 된 다채널의 오디오 신호를 출력할 수 있다.The
도 2는 일실시예에 따른 오디오 부호화 장치를 도시한 도면이다.2 is a diagram illustrating an audio encoding apparatus, according to an embodiment.
도 2를 참고하면, 오디오 부호화 장치(201)은 오디오 신호 부호화부(202), 비트스트림 전송부(203)을 포함할 수 있다.Referring to FIG. 2, the
오디오 신호 부호화부(202)는 오디오 신호를 부호화할 수 있다. 오디오 신호는 채널 오디오 신호, 객체 오디오 신호 및 상기 객체 오디오 신호의 잔향 신호를 포함할 수 있다.The
채널 오디오 신호는 일반적으로 사용되는 채널 오디오 신호로 재생 시 임의의 재생 장치의 채널로 할당되는 신호일 수 있다. 여기서, 채널 오디오 신호는 렌더링 정보에 의해서 가변되지 않는 신호일 수 있다. 그리고, 채널 오디오 신호는 N개의 채널 오디오 신호에 대해서 다음과 같은 수학식 1을 이용하여 vector 열로 정리할 수 있다.The channel audio signal may be a signal that is allocated to a channel of any playback device during reproduction as a channel audio signal that is generally used. Here, the channel audio signal may be a signal which is not changed by the rendering information. In addition, the channel audio signal may be arranged into a vector column for N channel audio signals by using Equation 1 below.
[수학식 1][Equation 1]
객체 오디오 신호는 복수의 오디오 신호 중 특정 오디오 신호를 객체 오디오 신호로 정의하여 렌더링을 수행하는 주체로 활용할 수 있다. 여기서, 객체 오디오 신호는 재생 장치의 기하학 위치 해석을 거쳐 임의의 지점에 정의될 수 있는 신호일 수 있다. 객체 오디오 신호는 M개의 객체 오디오 신호에 대하여 다음과 같은 수학식 2를 이용하여 vertor열로 구성된 행렬로 표현할 수 있다.The object audio signal may be used as a subject that performs rendering by defining a specific audio signal among a plurality of audio signals as the object audio signal. Here, the object audio signal may be a signal that can be defined at any point through the geometric position analysis of the playback device. The object audio signal may be expressed as a matrix composed of vertor columns for M object audio signals using Equation 2 below.
이 때, 수학식 2는 객체 오디오 신호의 위치 정보와 객체 오디오 신호의 지연 정보에 대하여 독립적으로 렌더링을 수행할 때, 사용할 수 있다.In this case, Equation 2 may be used when independently rendering the positional information of the object audio signal and the delay information of the object audio signal.
객체 오디오 신호가 행렬로 표현될 수 있는 이유는 각각의 객체 오디오 신호는 여러 개의 채널 오디오 신호로 구성될 수 있기 때문이다. 일례로, 객체 오디오 신호는 첫 번째 객체 오디오 신호 가 스테레오로 구성되어 있다면, 수학식 3와 같이 표현할 수 있다.The object audio signal can be represented by a matrix because each object audio signal can be composed of multiple channel audio signals. In one example, the object audio signal is the first object audio signal If is composed of a stereo, it can be expressed as Equation 3.
객체 오디오 신호의 잔향 신호는 객체 오디오 신호에 적용되는 잔향 신호로써, 객체 오디오 신호의 음장감을 표현할 수 있다. 그리고, 객체 오디오 신호의 잔향 신호는 객체 오디오 신호에 대응하는 신호로 M개의 객체 오디오 신호에 대한 잔향 신호를 포함할 수 있다. 객체 오디오 신호의 잔향 신호는 수학식 4와 과 같이 표현할 수 있다.The reverberation signal of the object audio signal is a reverberation signal applied to the object audio signal and may express a sound field of the object audio signal. The reverberation signal of the object audio signal may correspond to the object audio signal and may include reverberation signals for the M object audio signals. The reverberation signal of the object audio signal may be expressed as shown in Equation 4.
또한, 객체 오디오 신호의 잔향 신호는 객체 오디오 신호와 동일하게 여러 개의 채널 오디오 신호로 구성될 수 있다. 일례로, 객체 오디오 신호의 잔향 신호는 5.1의 5채널로 구성될 경우, 수학식 5와 같이 표현할 수 있다.In addition, the reverberation signal of the object audio signal may be composed of a plurality of channel audio signals in the same manner as the object audio signal. For example, the reverberation signal of the object audio signal may be expressed as shown in Equation 5 when configured as five channels of 5.1.
여기서, 오디오 신호 부호화부(202)는 객체 오디오 신호에 대하여 다양한 레이아웃을 갖는 잔향 신호를 포함하여, 오디오 신호를 부호화할 수 있다.Here, the
비트스트림 전송부(203)는 부호화된 오디오 신호를 비트스트림으로 변환할 수 있다. 비트스트림 전송부(203)는 상기 부호화된 오디오 신호 및 상기 오디오 신호의 출력을 위한 렌더링 정보를 비트스트림으로 생성할 수 있다. 렌더링 정보는 오디오 신호에 대한 부가 데이터일 수 있다. 다시 말해, 렌더링 정보는 오디오 신호에 적용되어 음향과 관련된 장면 정보를 재생할 수 있는 정보일 수 있다. 렌더링 정보는 오디오 객체의 위치 정보, 오디오 객체의 음압 정보 및 오디오 객체의 지연 정보 중 적어도 하나를 포함할 수 있다. 렌더링 정보는 수학식 6과 같이 표현할 수 있다.The
R(t)는 객체 오디오 신호의 위치 정보이며, Gi(t)는 객체 오디오 신호의 음압일 수 있다. 그리고, D(t)는 객체 오디오 신호의 지연을 나타낼 수 있다. G1(t)과 G2(t)는 수신한 객체 오디오 신호에 대하여 음압 조절을 위한 스케일 행렬 일 수 있다. 그리고, t는 시간에 대한 인덱스일 수 있다.R (t) is position information of the object audio signal, and G i (t) may be sound pressure of the object audio signal. D (t) may represent a delay of the object audio signal. G 1 (t) and G 2 (t) may be scale matrices for adjusting sound pressure on the received object audio signal. And t may be an index over time.
이 때, 객체 오디오 신호의 위치 정보와 객체 오디오 신호의 지연 정보를 동시에 렌더링을 수행할 경우, 수학식 7과 같이 표현할 수 있다.At this time, when rendering the positional information of the object audio signal and the delay information of the object audio signal at the same time, it can be expressed as Equation (7).
그리고, 비트스트림 전송부(203)는 변환된 비트스트림을 오디오 복호화 장치로 전송할 수 있다.The
3은 일실시예에 따른 오디오 복호화 장치를 도시한 도면이다.3 is a diagram illustrating an audio decoding apparatus according to an embodiment.
도 3을 참고하면, 오디오 복호화 장치(301)는 비트스트림 수신부(302), 오디오 신호 복호화부(303), 오디오 렌더링부(304)를 포함할 수 있다.Referring to FIG. 3, the
비트스트림 수신부(302)는 오디오 부호화 장치로부터 부호화된 오디오 신호를 포함하는 비트스트림을 수신할 수 있다.The
오디오 신호 복호화부(303)는 비트스트림에 포함된 오디오 신호를 복호화 할수 있다. 구체적으로 오디오 신호 복호화부(303)는 비트스트림으로부터 채널 오디오 신호, 객체 오디오 신호 및 객체 오디오 신호의 잔향 신호를 추출할 수 있다. 일례로, 오디오 신호 복호화부(303)는 추출된 채널 오디오 신호, 객체 오디오 신호 및 객체 오디오 신호의 잔향 신호에 대응하여 수학식 8, 수학식 9, 수학식 10와 같이 표현될 수 있다. The
오디오 렌더링부(304)는 비트스트림에 포함된 렌더링 정보에 기초하여 상기 추출된 채널 오디오 신호, 객체 오디오 신호 및 객체 오디오 신호의 잔향 신호를 렌더링할 수 있다. 또한, 오디오 렌더링부(304)는 렌더링 정보의 음향과 관련된 장면정보에 기초하여 음향장면을 구성할 수 있다.The
구체적으로, 오디오 렌더링부(304)는 오디오 신호를 렌더링하는 동작 원리를 수학식 11과 같이 표현할 수 있다.In detail, the
수학식 11에서 첫 번째 항이 적용되는 과정을 살펴보면, 객체 오디오 신호는 음압이 조절될 수 있다. 객체 오디오 신호의 음압이 조절되는 과정은 수학식 12과 같이 표현될 수 있다.Looking at the process of applying the first term in Equation 11, the sound pressure of the object audio signal may be adjusted. The process of adjusting the sound pressure of the object audio signal may be expressed by Equation 12.
음압이 조절된 는 음상 정위 행렬 P(t)에 의하여 실제적으로 출력되는 재생 장치의 스피커 위치에 할당될 수 있다. 그리고, 음상 정위 행렬 P(t)의 요소는 음압의 이득 값으로 표현될 수 있다. 여기서, 이득 값은 0에서 1사이의 실수 값을 포함할 수 있다. 그리고, 출력할 수 있는 채널의 수가 N인 경우, 는 수학식 13와 같은 음상 정위 행렬이 적용될 수 있다.Sound pressure May be assigned to the speaker position of the reproduction device which is actually output by the image positioning matrix P (t). In addition, the elements of the negative positioning matrix P (t) may be expressed as gain values of sound pressure. Here, the gain value may include a real value between 0 and 1. If the number of channels that can be output is N, A negative stereotactic matrix as shown in Equation 13 may be applied.
수학식 13에서 객체 오디오 신호는 객체 오디오 신호 J개의 layout으로 구성되어 있는 경우, 수학식 14과 같이 표현될 수 있다.In Equation 13, the object audio signal is an object audio signal. When composed of J layouts, it may be expressed as in Equation 14.
[수학식 14][Equation 14]
그리고, 음상 정위 행렬은 수학식 15를 이용하여 음상 정위 행렬의 요소 별로 연산 과정을 확인할 수 있다.In addition, in the negative stereotactic matrix, the calculation process may be confirmed for each element of the negative stereographic matrix using Equation 15.
따라서, 음상 정위 행렬 P(t)에 의해 출력되는 신호는 수학식 16와 같이 표현할 수 있다.Therefore, the signal output by the negative stereotactic matrix P (t) can be expressed as in Equation (16).
그리고, 수학식 10에서 두 번째 항은 동일한 dimension의 행렬 연산을 수행할 수 있다. 그리고, dimension의 행렬 연산은 수학식 17과 같이 표현될 수 있다.In addition, in Equation 10, the second term may perform matrix operation having the same dimension. In addition, the matrix operation of the dimension may be expressed as in Equation 17.
[수학식 17][Equation 17]
또한, 수학식 17에서 객체 오디오 신호는 객체 오디오 신호 J개의 layout으로 구성되어 있는 경우, 수학식 18과 같이 표현될 수 있다.Further, in Equation 17, the object audio signal is an object audio signal. When composed of J layouts, it may be expressed as in Equation 18.
여기서, 객체 오디오 신호의 지연 연산 과정은 음상 정위 행렬 적용 연산과 같이 행렬 곱셈으로 표현될 수 없어서 연산자 를 활용하여 표현할 수 있다. 그리고, 지연 연산 행렬 D(t)에 의해서 출력되는 신호는 수학식 19과 같이 표현할 수 있다.In this case, the delay operation process of the object audio signal can not be expressed by matrix multiplication, as is the operation of the application of the stereotactic matrix. Can be expressed using. The signal output by the delay arithmetic matrix D (t) can be expressed by Equation 19.
오디오 렌더링부(304)는 음상 정위 행렬과 지연 연산 행렬이 독립적으로 렌더링 과정에 적용할 수 있다. 그리고, 오디오 렌더링부(304)는 음상 정위 행렬과 지연 연산 행렬을 동시에 적용하는 경우, 수학식 20을 이용하여 PD(t) 행렬을 표현할 수 있다.The
오디오 렌더링부(304)는 수학식 20의 연산 과정을 통해 수학식 21과 같은 결과를 추출할 수 있다.The
오디오 렌더링부(304)는 위에서 언급한 수학식을 이용하여 객체 오디오 신호를 출력할 수 있는 채널 신호로 할당할 수 있다. 그리고, 오디오 렌더링부(304)는 할당된 객체 오디오 신호를 복호화 된 채널 오디오 신호와 취합할 수 있다. 그리고, 오디오 렌더링부(304)는 최종적으로 출력할 수 있는 출력 신호를 생성할 수 있다.The
그리고, 오디오 렌더링부(304)는 객체 오디오 신호의 잔향 신호를 수학식 22 또는 수학식 23와 같은 과정을 통해 렌더링할 수 있다.In addition, the
수학식 22과 수학식 23을 이용한 객체 오디오 신호의 잔향 신호에 렌더링 과정은 객체 오디오 신호를 렌더링할 수 있으며, 객체 오디오 신호에 대응하는 객체 오디오 신호의 잔향 신호를 렌더링함으로써, 보다 현실감 높은 음향 장면을 연출할 수 있다.The rendering process on the reverberation signal of the object audio signal using Equation 22 and Equation 23 may render the object audio signal and render a reverberation signal of the object audio signal corresponding to the object audio signal, thereby producing a more realistic sound scene. I can produce it.
또한, 오디오 렌더링부(304)는 상기 객체 오디오 신호를 제어하는 경우, 해당 객체 오디오 신호에 대응하는 객체 오디오 신호의 잔향 신호를 제어할 수 있다. 일례로, 오디오 렌더링부(304)는 객체 오디오 신호 를 렌더링하는 과정에서 제고하고자 할 때, 수학식 11의 이득 값에서 와 같이 값의 해를 할당할 수 있다. 그리고, 오디오 렌더링부(304)는 수학식 11의 와 동일하게 객체 오디오 신호의 잔향 신호를 객체 오디오 신호의 인덱스에 대응하여 제어할 수 있다. 또한, 오디오 렌더링부(304)는 수학식 22의 이득 값에서 와 같이 값의 해를 할당하거나, 수학식 23에서 와 같이 객체 오디오 신호를 제어할 수 있다.In addition, when controlling the object audio signal, the
그리고, 최종적으로 출력할 수 있는 출력 신호는 렌더링 된 객체 오디오 신호, 렌더링 된 객체 오디오 신호의 잔향 신호 및 복호화 된 채널 오디오 신호가 통합된 신호일 수 있다. 그리고, 출력 신호는 수학식 24과 같이 표현될 수 있다.The output signal that can be finally output may be a signal in which the rendered object audio signal, the reverberation signal of the rendered object audio signal, and the decoded channel audio signal are integrated. The output signal may be expressed as in Equation (24).
수학식 24에서는 와 로 구분할 수 있다. 다시 말해, 출력 신호는 렌더링 된 객체 오디오 신호의 정보와 렌더링 된 객체 오디오 신호의 잔향 신호의 정보를 서로 다른 방식을 통해 전송될 수 있다. 따라서, 수학식 23에서는 각각의 렌더링 정보로써 와 로 전송되어야 한다고 명시하고 있다.In equation (24) Wow Can be divided into In other words, the output signal may transmit information of the rendered object audio signal and information of the reverberation signal of the rendered object audio signal through different methods. Therefore, in Equation 23, as each rendering information Wow It should be sent to.
그리고, 수학식 23에서 복호화 된 채널 오디오 신호를 로 표기한 것은 최종적인 출력할 수 있는 채널의 수와 복호화 된 채널 오디오 신호가 다를 경우, 복호화 된 채널 오디오 신호 가 다운 믹스 된 형태의 신호로 표현했기 때문이다. 일례로, 복호화 된 채널 오디오 신호는 N개였으나, 와 에 의해 출력되는 출력 신호와 채널의 수를 K개로 한다면, 다운 믹스 행렬을 통해 도 로 변환할 수 있다. 다시 말해. 와 의 열 행렬의 차원 수도 K개가 될 수 있다.The channel audio signal decoded in Equation 23 is obtained. Decoded channel audio signal indicates that the number of final output channels is different from the decoded channel audio signal. Because it is expressed as a downmixed signal. In one example, there were N decoded channel audio signals, Wow If you set the number of output signals and channels to be K, Degree Can be converted to In other words. Wow The number of dimensions of the column matrix of may be K.
여기서, 다운 믹스 행렬은 수학식 25와 같이 표현될 수 있다.Here, the downmix matrix may be expressed as in Equation 25.
그리고, 수학식 25를 기초하여 복호화 된 채널 오디오 신호가 N개, 출력 신호가 K개일 때의 다운 믹스 과정은 수학식 26와 같이 표현될 수 있다.The downmix process when N channel audio signals and K output signals are decoded based on Equation 25 may be expressed as Equation 26.
이 때, 복호화 된 채널 오디오 신호가 와 의 열행렬의 차원수도 N인 경우, 출력 신호는 수학식 23에 수학식 24을 반영함으로써, 수학식 27과 같이 표현될 수 있다.At this time, the decoded channel audio signal Wow When the number of dimensions of the column matrix is also N, the output signal may be expressed by Equation 27 by reflecting Equation 24 in Equation 23.
다시 말해, 출력 신호는 N개의 채널 오디오 신호에 대한 렌더링을 수행한 후, DMX(t)를 적용하여 다운 믹스를 수행할 수 있다. 또한, 시간 인덱스 t는 DMX(t)의 정보의 시간에 따라 변화될 수 있다.In other words, the output signal may perform rendering on N channel audio signals and then perform downmixing by applying DMX (t). In addition, the time index t may change with time of the information of the DMX (t).
오디오 부호화 장치(101) 및 오디오 복호화 장치(102)는 객체 오디오 신호에 대응하는 객체 오디오 신호의 잔향 신호를 이용함으로써, 원 음향 엔지니어의 콘텐츠 생성 저작 의도를 충분히 반영할 수 있다. 그리고, 오디오 부호화 장치(101) 및 오디오 복호화 장치(102)는 객체 오디오 신호의 잔향 신호를 제어할 수 있다. 따라서, 오디오 부호화 장치(101) 및 오디오 복호화 장치(102)는 객체 오디오 신호의 잔향 신호를 추가적으로 제어하기 위하여 객체 오디오 신호의 잔향 신호에 해당하는 렌더링 정보를 포함할 수 있다.The
도 4는 일실시예에 따른 도2의 오디오 부호화 장치를 구체화한 도면이다.4 is a diagram illustrating an example of an audio encoding apparatus of FIG. 2, according to an embodiment.
도 4를 참고하면, 오디오 부호화 장치는 오디오 신호 부호화부(401), 비트스트림 전송부(402)를 포함할 수 있다.Referring to FIG. 4, the audio encoding apparatus may include an
오디오 신호 부호화부(401)는 채널 오디오 신호, 객체 오디오 신호, 객체 오디오 신호의 잔향 신호를 수신할 수 있다. 이 때, 오디오 신호 부호화부(401)는 객체 오디오 신호의 잔향 신호를 수신함으로써, 보다 높은 음향 장면을 연출할 수 있다. 그리고, 오디오 신호 부호화부(401)는 수신한 채널 오디오 신호, 객체 오디오 신호, 객체 오디오 신호의 잔향 신호를 오디오 신호로 부호화 할 수 있다.The
그리고, 오디오 부호화 장치는 렌더링 정보(403)를 수신할 수 있다. 그리고, 오디오 부호화 장치는 렌더링 정보(403)를 바이너리로 변환할 수 있는 블록을 포함할 수 있다.The audio encoding apparatus may receive
이 때, 오디오 신호 부호화부(401)가 렌더링 정보(403)를 변환할 수 있는 블록을 포함하는 경우, 오디오 신호 부호화부(401)는 채널 오디오 신호, 객체 오디오 신호, 객체 오디오 신호의 잔향 신호 및 렌더링 정보(403)를 포함하는 오디오 신호로 부호화할 수 있다.In this case, when the
비트스트림 전송부(402)는 부호화 된 오디오 신호를 비트스트림으로 변환할 수 있다. 비트스트림 전송부(402)는 변환된 비트스트림을 오디오 복호화 장치로 전송할 수 있다. 이 때, 비트스트림은 채널 오디오 신호, 객체 오디오 신호, 객체 오디오 신호의 잔향 신호를 포함하는 오디오 신호 및 렌더링 정보(403)를 포함할 수 있다. 그리고, 비트스트림 전송부(402)는 다채널 장면 정보를 생성을 위해 비트스트림을 전송할 수 있다. 다채널 장면 정보은 렌더링 정보(403)를 기초하여 생성할 수 있다. 그리고, 렌더링 정보(403)는 객체 오디오 신호의 잔향 신호에 대한 부가 데이터로 사용될 수 있다.The
도 5는 일실시예에 따른 도3의 오디오 복호화 장치를 구체화한 도면이다.5 is a diagram illustrating an example of an audio decoding apparatus of FIG. 3, according to an exemplary embodiment.
오디오 복호화 장치는 비트스트림 수신부(501), 오디오 신호 복호화부(502), 오디오 렌더링부(503)을 포함할 수 있다.The audio decoding apparatus may include a
비트스트림 수신부(501)는 오디오 부호화 장치로부터 비트스트림을 수신할 수 있다. 수신한 비트스트림은 오디오 신호 및 렌더링 정보를 포함할 수 있다.The
오디오 신호 복호화부(502)는 오디오 신호를 복호화 할 수 있다. 다시 말해, 오디오 신호 복호화부(502)는 오디오 신호에 포함된 채널 오디오 신호, 객체 오디오 신호, 객체 오디오 신호의 잔향 신호를 추출할 수 있다.The
오디오 렌더링부(503)는 복호화 된 채널 오디오 신호, 객체 오디오 신호, 객체 오디오 신호의 잔향 신호를 렌더링할 수 있다. 객체 오디오 신호는 도 3의 렌더링 과정을 기초하여 렌더링 될 수 있다. 그리고, 객체 오디오 신호의 잔향 신호는 객체 오디오 신호가 렌더링 되는 경우, 해당 객체 오디오 신호의 인덱스에 따라 렌더링 될 수 있다. 그리고, 객체 오디오 신호의 잔향 신호는 객체 오디오 신호가 제어됨에 따라 동일하게 제어됨으로써, 보다 현실적인 음향 영상을 제공할 수 있다.The
오디오 렌더링부(503)는 복호화 된 채널 오디오 신호, 객체 오디오 신호, 객체 오디오 신호의 잔향 신호를 렌더링함으로써, 출력 신호를 생성할 수 있다. 이 때, 출력 신호는 렌더링 된 객체 오디오 신호, 렌더링 된 객체 오디오 신호의 잔향 신호 및 복호화 된 채널 오디오 신호를 포함할 수 있다. 그리고, 출력 신호는 다채널의 오디오 신호로 각각의 채널에 출력될 수 있다.The
도 6은 일실시예에 따른 렌더링 정보의 구성을 도시한 도면이다.6 is a diagram illustrating a configuration of rendering information, according to an exemplary embodiment.
도 6을 참고하면, 렌더링 정보(600)는 행렬(Matrix) 형태로 표현될 수 있다. 이 때, 렌더링 정보(600)의 각각의 행렬은 렌더링 정보를 표현하기 위해 대치 값으로 표현될 수 있다. 일례로, 객체의 위치 정보는 수평면과 수직면의 각도로 표현될 수 있다. 그리고, 지연 정보와 관련된 행렬 값과 이득 값은 거리감을 나타내는 값으로 대치될 수 있다. 또한, 렌더링 정보(600)는 객체 오디오 신호의 잔향 신호의 부가 데이터로 사용되기 위해 입력되는 다양한 형태의 렌더링 정보(600)에 대응하여 렌더링 된 객체 오디오 신호와 렌더링 된 객체 오디오 신호의 잔향 신호에 적용될 수 있도록 행렬의 값으로 변환되어 표현되어야 한다.Referring to FIG. 6, the
도 7은 일실시예에 따른 오디오 부호화 방법을 도시한 도면이다.7 is a diagram illustrating an audio encoding method, according to an exemplary embodiment.
단계(701)에서 오디오 부호화 장치는 채널 오디오 신호, 객체 오디오 신호, 객체 오디오 신호의 잔향 신호를 수신할 수 있다. 채널 오디오 신호는 일반적으로 사용되는 채널 오디오 신호로 재생 시 임의의 재생 장치의 채널로 할당되는 신호일 수 있다. 객체 오디오 신호는 복수의 오디오 신호 중 특정 오디오 신호를 객체 오디오 신호로 정의하여 렌더링을 수행하는 주체로 활용할 수 있다. 그리고, 객체 오디오 신호의 잔향 신호는 객체 오디오 신호에 적용되는 잔향 신호로써, 객체 오디오 신호의 음장감을 표현할 수 있다.In
또한, 오디오 부호화 장치는 수시한 채널 오디오 신호, 객체 오디오 신호, 객체 오디오 신호의 잔향 신호를 포함하는 오디오 신호로 부호화 할 수 있다.The audio encoding apparatus may encode the audio signal including the reverberation signal of the channel audio signal, the object audio signal, and the object audio signal.
단계(702)에서 오디오 부호화 장치는 부호화 된 오디오 신호를 비트스트림으로 변환할 수 있다. 이 때, 비트스트림은 채널 오디오 신호, 객체 오디오 신호, 객체 오디오 신호의 잔향 신호를 포함하는 오디오 신호 및 렌더링 정보(403)를 포함할 수 있다. 오디오 부호화 장치는 다채널 장면 정보를 생성을 위해 비트스트림을 전송할 수 있다.In
도 8은 일실시예에 따른 오디오 복호화 방법을 도시한 도면이다.8 is a diagram illustrating an audio decoding method, according to an exemplary embodiment.
단계(801)에서 오디오 복호화 장치는 오디오 부호화 장치로부터 비트스트림을 수신할 수 있다. 수신한 비트스트림은 오디오 신호 및 렌더링 정보를 포함할 수 있다.In
단계(802)에서 오디오 복호화 장치는 오디오 신호를 복호화하여 오디오 신호에 포함된 채널 오디오 신호, 객체 오디오 신호, 객체 오디오 신호의 잔향 신호를 추출할 수 있다.In
단계(803)에서 오디오 복호화 장치는 오디오 복호화 장치는 비트스트림에 포함된 렌더링 정보에 기초하여 상기 추출된 채널 오디오 신호, 객체 오디오 신호 및 상기 객체 오디오 신호의 잔향 신호를 렌더링할 수 있다. 오디오 복호화 장치는 객체 오디오 신호의 잔향 신호는 객체 오디오 신호가 렌더링 되는 경우, 해당 객체 오디오 신호의 인덱스에 따라 렌더링 될 수 있다. 그리고, 객체 오디오 신호의 잔향 신호는 객체 오디오 신호가 제어됨에 따라 동일하게 제어됨으로써, 보다 현실적인 음향 영상을 제공할 수 있다. 또한, 오디오 복호화 장치는 복호화 된 채널 오디오 신호, 객체 오디오 신호, 객체 오디오 신호의 잔향 신호를 렌더링함으로써, 출력 신호를 생성할 수 있다.In
본 발명의 실시 예에 따른 방법들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.Methods according to an embodiment of the present invention can be implemented in the form of program instructions that can be executed by various computer means and recorded in a computer readable medium. The computer readable medium may include program instructions, data files, data structures, etc. alone or in combination. Program instructions recorded on the media may be those specially designed and constructed for the purposes of the present invention, or they may be of the kind well-known and available to those having skill in the computer software arts.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.As described above, the present invention has been described by way of limited embodiments and drawings, but the present invention is not limited to the above embodiments, and those skilled in the art to which the present invention pertains various modifications and variations from such descriptions. This is possible.
그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.Therefore, the scope of the present invention should not be limited to the described embodiments, but should be determined not only by the claims below but also by the equivalents of the claims.
Claims (20)
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US14/435,372 US9595266B2 (en) | 2012-10-12 | 2013-07-19 | Audio encoding/decoding device using reverberation signal of object audio signal |
Applications Claiming Priority (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR10-2012-0113604 | 2012-10-12 | ||
| KR20120113604 | 2012-10-12 | ||
| KR1020130069101A KR20140047509A (en) | 2012-10-12 | 2013-06-17 | Audio coding/decoding apparatus using reverberation signal of object audio signal |
| KR10-2013-0069101 | 2013-06-17 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2014058138A1 true WO2014058138A1 (en) | 2014-04-17 |
Family
ID=50477576
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/KR2013/006471 Ceased WO2014058138A1 (en) | 2012-10-12 | 2013-07-19 | Audio encoding/decoding device using reverberation signal of object audio signal |
Country Status (2)
| Country | Link |
|---|---|
| KR (1) | KR102335911B1 (en) |
| WO (1) | WO2014058138A1 (en) |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20080071549A1 (en) * | 2004-07-02 | 2008-03-20 | Chong Kok S | Audio Signal Decoding Device and Audio Signal Encoding Device |
| US20100145487A1 (en) * | 2007-06-08 | 2010-06-10 | Hyen-O Oh | Method and an apparatus for processing an audio signal |
| US20110040396A1 (en) * | 2009-08-14 | 2011-02-17 | Srs Labs, Inc. | System for adaptively streaming audio objects |
| US20110166681A1 (en) * | 2005-11-01 | 2011-07-07 | Electronics And Telecommunications Research Institute | System and method for transmitting/receiving object-based audio |
| US20120093321A1 (en) * | 2010-10-13 | 2012-04-19 | Samsung Electronics Co., Ltd. | Apparatus and method for encoding and decoding spatial parameter |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP5793675B2 (en) * | 2009-07-31 | 2015-10-14 | パナソニックIpマネジメント株式会社 | Encoding device and decoding device |
-
2013
- 2013-07-19 WO PCT/KR2013/006471 patent/WO2014058138A1/en not_active Ceased
-
2020
- 2020-10-05 KR KR1020200128172A patent/KR102335911B1/en active Active
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20080071549A1 (en) * | 2004-07-02 | 2008-03-20 | Chong Kok S | Audio Signal Decoding Device and Audio Signal Encoding Device |
| US20110166681A1 (en) * | 2005-11-01 | 2011-07-07 | Electronics And Telecommunications Research Institute | System and method for transmitting/receiving object-based audio |
| US20100145487A1 (en) * | 2007-06-08 | 2010-06-10 | Hyen-O Oh | Method and an apparatus for processing an audio signal |
| US20110040396A1 (en) * | 2009-08-14 | 2011-02-17 | Srs Labs, Inc. | System for adaptively streaming audio objects |
| US20120093321A1 (en) * | 2010-10-13 | 2012-04-19 | Samsung Electronics Co., Ltd. | Apparatus and method for encoding and decoding spatial parameter |
Also Published As
| Publication number | Publication date |
|---|---|
| KR20200119225A (en) | 2020-10-19 |
| KR102335911B1 (en) | 2021-12-07 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP2502421A2 (en) | Apparatus and method encoding/decoding with phase information and residual information | |
| WO2010143907A2 (en) | Encoding method and encoding device, decoding method and decoding device and transcoding method and transcoder for multi-object audio signals | |
| CN101981617B (en) | Method and apparatus for generating additional information bit stream of multi-object audio signal | |
| US11924627B2 (en) | Ambience audio representation and associated rendering | |
| WO2018056780A1 (en) | Binaural audio signal processing method and apparatus | |
| WO2010008175A2 (en) | Apparatus for encoding and decoding of integrated speech and audio | |
| WO2019004524A1 (en) | Audio playback method and audio playback apparatus in six degrees of freedom environment | |
| WO2012125855A1 (en) | Encoding and reproduction of three dimensional audio soundtracks | |
| WO2015156654A1 (en) | Method and apparatus for rendering sound signal, and computer-readable recording medium | |
| WO2019054559A1 (en) | Audio encoding method, to which brir/rir parameterization is applied, and method and device for reproducing audio by using parameterized brir/rir information | |
| WO2014175669A1 (en) | Audio signal processing method for sound image localization | |
| JP2011008258A (en) | High quality multi-channel audio encoding apparatus and decoding apparatus | |
| WO2017126895A1 (en) | Device and method for processing audio signal | |
| JP6407155B2 (en) | Audio data generating apparatus and audio data reproducing apparatus | |
| CN105376691A (en) | Direction-aware surround sound playback | |
| WO2019035622A1 (en) | Audio signal processing method and apparatus using ambisonics signal | |
| WO2014021586A1 (en) | Method and device for processing audio signal | |
| WO2011055982A2 (en) | Apparatus and method for encoding/decoding a multi-channel audio signal | |
| KR100636145B1 (en) | Exednded high resolution audio signal encoder and decoder thereof | |
| WO2016190472A1 (en) | Device and method for producing augmented reality image by using chroma key | |
| WO2012087042A2 (en) | Broadcast transmitting apparatus and broadcast transmitting method for providing an object-based audio, and broadcast playback apparatus and broadcast playback method | |
| WO2014058138A1 (en) | Audio encoding/decoding device using reverberation signal of object audio signal | |
| KR20140047509A (en) | Audio coding/decoding apparatus using reverberation signal of object audio signal | |
| WO2015009040A1 (en) | Encoder and encoding method for multichannel signal, and decoder and decoding method for multichannel signal | |
| WO2014058275A1 (en) | Device and method for generating audio data, and device and method for playing audio data |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 13845944 Country of ref document: EP Kind code of ref document: A1 |
|
| NENP | Non-entry into the national phase |
Ref country code: DE |
|
| WWE | Wipo information: entry into national phase |
Ref document number: 14435372 Country of ref document: US |
|
| 122 | Ep: pct application non-entry in european phase |
Ref document number: 13845944 Country of ref document: EP Kind code of ref document: A1 |