[go: up one dir, main page]

EP1652405B1 - Device and method for the generation, storage or processing of an audio representation of an audio scene - Google Patents

Device and method for the generation, storage or processing of an audio representation of an audio scene Download PDF

Info

Publication number
EP1652405B1
EP1652405B1 EP04763715A EP04763715A EP1652405B1 EP 1652405 B1 EP1652405 B1 EP 1652405B1 EP 04763715 A EP04763715 A EP 04763715A EP 04763715 A EP04763715 A EP 04763715A EP 1652405 B1 EP1652405 B1 EP 1652405B1
Authority
EP
European Patent Office
Prior art keywords
audio
user interface
channel
scene
time instant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
EP04763715A
Other languages
German (de)
French (fr)
Other versions
EP1652405A2 (en
Inventor
Sandra Brix
Frank Melchior
Jan Langhammer
Thomas Röder
Kathrin Reichelt
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Priority to EP04763715A priority Critical patent/EP1652405B1/en
Publication of EP1652405A2 publication Critical patent/EP1652405A2/en
Application granted granted Critical
Publication of EP1652405B1 publication Critical patent/EP1652405B1/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/13Application of wave-field synthesis in stereophonic audio systems

Definitions

  • the present invention is in the field of wave field synthesis and more particularly relates to apparatus and methods for generating, storing or manipulating an audio representation of an audio scene.
  • WFS Wave Field Synthesis
  • Applied to the acoustics can be simulated by a large number of speakers, which are arranged side by side (a so-called speaker array), any shape of an incoming wavefront.
  • a so-called speaker array any shape of an incoming wavefront.
  • the audio signals of each speaker must be fed with a time delay and amplitude scaling so that the radiated sound fields of each speaker properly overlap.
  • the contribution to each speaker is calculated separately for each source and the resulting signals added together. If the sources to be reproduced are in a room with reflective walls, reflections must also be reproduced as additional sources via the loudspeaker array. The cost of the calculation therefore depends heavily on the number of sound sources, the reflection characteristics of the recording room and the number of speakers.
  • the advantage of this technique is in particular that a natural spatial sound impression over a large area of the playback room is possible.
  • the direction and distance of sound sources are reproduced very accurately.
  • virtual sound sources can even be positioned between the real speaker array and the listener.
  • wavefield synthesis works well for environments whose characteristics are known, irregularities occur when the texture changes, or when wave field synthesis is performed based on environmental conditions that do not match the actual nature of the environment.
  • the technique of wave field synthesis can also be used advantageously to supplement a visual perception with a corresponding spatial audio perception.
  • production in virtual studios focused on providing an authentic visual impression of the virtual scene.
  • the matching to the image acoustic impression is usually impressed by manual operations in the so-called post-production subsequently the audio signal or classified as too complex and time-consuming in the realization and therefore neglected. This usually leads to a contradiction of the individual sense sensations, which leads to the space being designed, i. H. the designed scene is perceived as less authentic.
  • the audio material is a movie of a plurality of audio objects.
  • An audio object is a sound source in the film setting. For example, when thinking of a movie scene in which two people and are in a dialogue, while z. For example, when approaching a rider and a train, there are a total of four sound sources in this scene over a period of time, namely the two persons, the approaching rider, and the approaching train. If it is assumed that the two persons in dialogue are not talking at the same time, then at least two audio objects are likely to be active at any one time, namely the rider and the train, if at that time both persons are silent.
  • an audio object is such that the audio object describes a sound source in a film setting that is active or "alive" at a particular time. This means that an audio object is still characterized by a start time and an end time. For example, in the previous example, the tab and the train are active throughout the setting. As the two approach, the listener will perceive this by the louder sounds of the rider and the train becoming louder, and possibly - in an optimal wave field synthesis setting - also changing the positions of those sound sources accordingly.
  • the two speakers in dialogue are constantly generating new audio objects, because whenever a speaker stops speaking the current audio object is over and when the other speaker starts to speak, a new audio object is started, which in turn ends is when the other speaker stops talking, and then when the first speaker starts speaking again, a new audio object is started again.
  • the wave-field synthesis renderer is effectively the "heart" of a wave-field synthesis system that computes the loudspeaker signals for the many loudspeakers of the loudspeaker array in amplitude and phase so that the user not only has an optimal visual impression but also an optimal acoustic impression.
  • Rendering systems usually have fixed speaker positions, such as the left channel in the case of 5.1 ("left"), the center channel, the right channel, the surround left channel (“surround left”) and the surround right channel (“surround right”).
  • fixed (few) positions the ideal sound image sought by the sound engineer is limited to a small number of seats, the so-called sweet spot.
  • phantom sources between the above-mentioned 5.1 positions leads in certain cases to improvements, but not always to satisfactory results.
  • the sound of a movie usually consists of dialogues, effects, atmospheres and music. Each of these elements is mixed in consideration of the limitations of 5.1 and 7.1 systems. Typically, the dialog is merged into the center channel (in 7.1 systems also in a half-left and a half-right position). This implies that when the actor moves across the screen, the sound does not follow. Motion sound effects can only be realized if they move quickly, so that the listener is unable to detect when the sound is passing from one speaker to another.
  • Lateral sources also can not be positioned due to the large audible gap between the front and surround speakers, so that objects can not move slowly from back to front and vice versa.
  • surround speakers are placed in a diffuse array of loudspeakers, thus creating a sound image that is a kind of envelope for the listener. Therefore, accurately positioned sound sources behind the listeners are avoided to avoid the unpleasant sonic interference field associated with such accurately positioned sources.
  • Wave field synthesis as a completely new way of building the sound field perceived by the listener overcomes these essential shortcomings.
  • the consequence for cinema applications is that an accurate sound image can be achieved without limitations with regard to a two-dimensional positioning of objects. This opens up a wide variety of possibilities in the design and mixing of sound for cinema use. Due to the complete sound image reproduction, which is achieved by the technique of wave field synthesis, now sound sources can be freely positioned. Further, sound sources may be placed as focused sources within the audience room as well as outside the audience room.
  • stable sound source directions and stable sound source positions can be generated using point-shaped radiating sources or plane waves.
  • sound sources can be moved freely within, outside, or through the audience room.
  • the sound design ie the activity of the sound engineer
  • the coding format or the number of speakers ie 5.1 systems or 7.1 systems
  • a special sound system also requires a special encoding format.
  • the channels do not matter to a viewer / listener. He does not care which sound system produces a sound, whether an original sound description was object-oriented, channel-oriented, etc. The listener also does not care if and how an audio setting has been mixed. All that counts for the listener is the sound impression, so whether he likes a sound setting for a film or a sound setting without a film or not.
  • existing wave-field synthesis rendering units are used to channel-orientate work so that they have a certain number of input channels, from which, when in the input channels the audio signals and associated information are entered, the speaker signals for each speaker or groups of speakers of a wave field synthesis speaker array are generated.
  • the technique of wave field synthesis makes an audio scene much more "transparent" in that, in principle, an unlimited number of audio objects viewed over a movie, that is, viewed over an audio scene, may be present.
  • this can become problematic if the number of audio objects in an audio scene exceeds the typically always predetermined maximum number of input channels of the audio processing device.
  • the object of the present invention is to provide a concept for generating, storing or editing an audio presentation of an audio scene that has a high acceptance on the part of the users for whom corresponding tools are intended.
  • the present invention is based on the finding that for audio objects, as they occur in a typical film setting, only an object-oriented description can be processed clearly and efficiently.
  • the object-oriented description of the audio scene with objects that have an audio signal and to which a defined start and a defined end time are assigned correspond to the typical conditions in the real world, in which it is rare that a noise the whole There is time. Instead, it is customary, for example in a dialogue, for a dialogue partner to start talking and ceasing to speak or for sounds to typically have a beginning and an end.
  • the object-oriented audio scene description which assigns each sound source in real life its own object, adapted to the natural conditions and therefore optimal in terms of transparency, clarity, efficiency and clarity.
  • z. Tonauer for example, who want to create an audio presentation of an audio scene, who want to incorporate their creative potential to "synthesize" an audio presentation of a audio scene in a movie theater possibly taking into account special audio effects, because of the channel paradigm accustomed typically to work with either hardware or software-implemented mixers, which are a consistent implementation of the channel-oriented operation.
  • hardware- or software-implemented mixers each channel has knobs, knobs, etc., which manipulate the audio signal in that channel.
  • a balance is made between the object-oriented audio presentation that is life-affirming, and the channel-oriented presentation provided to the sound engineer is achieved in that an imaging device is used to image the object-oriented description of the audio scene to a plurality of input channels of an audio processing device, such as a wave field synthesis rendering unit.
  • the mapping means is adapted to assign a first audio object to an input channel and to assign a second audio object whose start time is after an end time of the first audio object to the same input channel and a third audio object whose start time is after the start time of the first audio object and before the end time of the first audio object is to assign to another of the plurality of input channels.
  • This timing which assigns concurrent audio objects to different input channels of the wave field synthesis rendering unit, but which assigns sequentially occurring audio objects to the same input channel, has proven to be extremely channel efficient.
  • the user for example the sound engineer, can get a quick overview of the complexity of an audio scene at a specific time without having to search laboriously from a plurality of input channels, which object is currently active or which object is currently not active.
  • the user can easily perform a manipulation of the audio objects as in object-oriented representation by his usual channel controller.
  • inventive concept which is based on the mapping of the object-oriented audio approach into a channel-oriented rendering approach, thus meets all requirements.
  • object-oriented description of an audio scene as it has been done, is best adapted to nature and therefore efficient and clear.
  • the habits and needs of the users are taken into account, in that the technique is directed to the users and not vice versa.
  • Fig. 1 shows a block diagram of a device according to the invention for generating an audio presentation of an audio scene.
  • the inventive apparatus comprises means 10 for providing an object-oriented description of the audio scene, wherein the object-oriented description of the audio scene comprises a plurality of audio objects, wherein an audio object is assigned at least an audio signal, a start time and an end time.
  • the device according to the invention further comprises an audio processing device 12 for generating a plurality of loudspeaker signals LSi 14 which is channel-oriented and which generates the plurality of loudspeaker signals 14 from a plurality of input channels EKi.
  • An imaging device 18 for mapping the object-oriented description of the audio scene onto the plurality of input channels 16 of the channel-oriented audio signal processing device 12 is located between the providing device 10 and the channel-oriented audio signal processing device, which is embodied, for example, as a WFS rendering unit the mapping means 18 is adapted to assign a first audio object to an input channel, such as EK1, and to assign a second audio object whose start time is after an end time of the first audio object to the same input channel, such as the input channel EK1, and a third one Audio object whose start time is after the start time of the first audio object and before the end time of the first audio object to assign another input channel of the plurality of input channels, such as the input channel EK2.
  • the mapping device 18 is thus designed to assign temporally non-overlapping audio objects to the same input channel, and to assign overlapping audio objects to different parallel input channels.
  • the audio objects are further specified to be associated with a virtual position.
  • This virtual position of an object may change during the lifetime of the object, which would correspond to the case where, for example, a rider approaches a scene center, such that the rider's gallop gets louder and louder and closer to the auditorium.
  • an audio object includes not only the audio signal associated with that audio object and a start time and an end time, but additionally a position of the virtual source which may change over time and, optionally, other properties of the audio object such as ob It should have point source characteristics or whether it should emit a plane wave, which would correspond to a virtual position with infinite distance to the viewer.
  • further properties for sound sources, ie for audio objects are known, depending on the features of the channel-oriented audio signal processing device 12 of Fig. 1 can be considered.
  • the structure of the device is hierarchical in that the channel-oriented audio signal processing means for receiving audio objects is not directly combined with the means for providing, but combined with the same via the mapping means.
  • the entire audio scene is to be known and stored only in the means for providing, but the mapping device, and still less the channel-oriented audio signal processing device, must already have knowledge of the overall audio setting. Instead Both the mapping device 18 and the audio signal processing device 12 operate under the direction of the audio scene provided by the providing device 10.
  • the in Fig. 1 shown device further provided with a user interface, as shown in Fig. 2 at 20 is shown.
  • the user interface 20 is configured to have one user interface channel per input channel, and preferably one manipulator for each user interface channel.
  • the user interface 20 is coupled via its user interface input 22 to the mapping device 18 to obtain the mapping information from the mapping device, since the assignment of the input channels EK1 to EKm is to be displayed by the user interface 20.
  • the user interface 20 On the output side, if the user interface 20 has the manipulator feature for each user interface channel, it is coupled to the device 10 for providing.
  • the user interface 20 is configured to provide, via its user interface output 24 with regard to the original version, manipulated audio objects of the device 10 for providing, thus receiving a changed audio scene which is then returned to the mapping device 18 and, correspondingly to the input channels Channel-oriented audio signal processing device 12 is provided.
  • the user interface 20 is designed as a user interface, as shown in FIG Fig. 3a that is, as a user interface that always represents only the current objects.
  • the user interface 20 is configured to operate as in FIG Fig. 3b to be constructed, so that always all objects are displayed in an input channel.
  • a time line 30 is shown, which comprises the objects A, B, C in chronological order, wherein the object A includes a start time 31a and an end time 31b.
  • the object A includes a start time 31a and an end time 31b.
  • the end time 31b of the first object A coincides with a start time of the second object B, which in turn has an end time 32b, which in turn coincides coincidentally with a start time of the third object C, which in turn has an end time 33b.
  • the start times 32a and 33b correspond to the end times 31b and 32b and are in the Fig. 3a, 3b not shown for clarity.
  • a mixer channel icon 34 is shown, which includes a slider 35 and stylized buttons 36, over the properties of the audio signal of the object B or virtual positions, etc. can be changed.
  • the stylized channel representation 34 would not display the object B but the object C.
  • the user interface in FIG Fig. 3a would then, if z. B. an object D would take place simultaneously to the object B, another channel, such as the input channel i + 1, represent.
  • another channel such as the input channel i + 1, represent.
  • FIG. 3a The illustration shown provides the sound engineer with a simple overview of the number of parallel audio objects at a time, ie the number of active channels that are even displayed. Non-active input channels are used at the in Fig. 3a shown embodiment of the user interface 20 of Fig. 2 not displayed at all.
  • the input channel i to which the channels assigned temporally in chronological order belong, is shown in triplicate, once as an object channel A, on another occasion as an object channel B and again as an object channel C according to the invention. It is preferred to use the channel, such as the input channel i for the object B (reference numeral 38 in FIG Fig. 3b ) z. B. highlight color or brightness, on the one hand to give the sound engineer a clear overview of which object is currently being fed to the respective channel i, and which objects z. B.
  • the user interface 20 of Fig. 2 and in particular the expressions thereof in Fig. 3a and Fig. 3b are thus designed to provide a visual representation as desired for the "occupancy" of the input channels of the channel-oriented audio signal processing device generated by the imaging device 18.
  • FIG. 5 a simple example of the functionality of the imaging device 18 of Fig. 1 given.
  • Fig. 5 shows an audio scene with different audio objects A, B, C, D, E, F and G.
  • the objects A, B, C and D overlap in time.
  • these objects A, B, C and D are all active at a particular time 50.
  • the object E does not overlap with the_objects A, B.
  • the object E overlaps only with the objects D and C, as can be seen at a time 52.
  • overlapping the object F and the object D as it is at a time 54 z. B. can be seen.
  • the same applies to the objects F and G, the z. B. overlap at a time 56, while the object G does not overlap with the objects A, B, C, D and E.
  • FIG. 5 shown example assign each audio object to an input channel so that the 1: 1 conversion left in the table in Fig. 6 would be obtained.
  • a disadvantage of this concept is that many input channels are needed or that, when there are many audio objects, which is the case very quickly in a movie, the number of input channels of the wave field synthesis rendering unit is the number of processable virtual sources in one limited in the real film setting, which of course is not desirable because technology limits should not affect the creative potential.
  • this 1: 1 conversion is very confusing, in that at some point each input channel typically receives an audio object, but when a particular audio scene is viewed, typically relatively few input channels are active, but the user can not easily determine this because he always has all the audio channels at a glance.
  • this concept of 1: 1 assignment of audio objects to input channels of the audio processor means that in order to minimize or limit the number of audio objects, audio processing equipment having a very high number of input channels must be provided Immediately increase the computational complexity, the required computing power and the required storage capacity of the audio processing device to calculate the individual loudspeaker signals, which directly results in a higher price of such a system.
  • FIG Fig. 6 The inventive assignment object channel of in Fig. 5 as shown by the imaging device 18 according to the present invention is shown in FIG Fig. 6 shown in the right section of the table.
  • the parallel audio objects A, B, C and D are sequentially assigned to the input channels EK1, EK2, EK3 and EK4.
  • the object E no longer has to, as in the left half of Fig. 6 assigned to the input channel EK5, but can be assigned to a free channel, such as the input channel EK1 or, as indicated by the bracket, the input channel EK2.
  • the same applies to the object G which can also be assigned to all channels except the channel to which the object F was previously allocated (in the example the input channel EK1).
  • the imaging device 18 is designed to always occupy channels with the lowest possible atomic number, and to occupy always adjacent input channels EKi and EKi + 1, so that no holes.
  • this "neighborhood feature" is not essential, as it does not matter to a user of the audio authoring system according to the present invention whether he is currently serving the first, seventh, or any other input channel of the audio processing device, as long as he is through the inventive user interface is enabled to manipulate precisely this channel, for example by a controller 35 or by buttons 36 a mixer channel display 34 of the current channel.
  • the user interface channel i need not necessarily discuss the input channel i, but it can also be so far a channel assignment done, such that the user interface channel i z. B. the input channel EKm corresponds, while the user interface channel i + 1 corresponds to the input channel k etc.
  • the user interface concept of the present invention may also be applied to an existing hardware mixing console that includes actual hardware controls and hardware buttons that a master will manually operate to achieve optimal audio mixing.
  • An advantage of the present invention is that even such a sound mixer typically very familiar and heart-growing hardware mixing console can also be used by z. B. by typically present on the mixing console indicators, such as LEDs are always the current channels for the sound engineer clearly marked.
  • the present invention is further flexible in that cases can also be dealt with where the wave field synthesis loudspeaker setup used for production is covered by the reproduction setup e.g. B. differs in a movie theater. Therefore, according to the invention, the audio content is encoded in a format that can be processed by various systems. This format is the audio scene, i. H. the object-oriented audio presentation and not the speaker signal presentation.
  • the treatment process is understood as an adaptation of the content to the reproduction system.
  • not only a few master channels but an entire object-oriented scene description are processed in the wave field synthesis reproduction process.
  • the scenes are processed for each reproduction. This is typically done in real time to adapt to the current situation.
  • this adaptation takes into account the number of speakers and their positions, the characteristics of the reproduction system, such as the frequency response, the sound pressure level, etc., the room acoustics conditions or other image reproduction conditions.
  • a major difference in the wave field synthesis mix compared to the channel-based approach of current systems consists in the freely available positioning of the sound objects.
  • the position of the sound sources is relatively coded. This is important for blending concepts that pertain to visual content, such as movies, because positioning of the sound sources relative to the image is attempted by a proper system setup.
  • the wave field synthesis system requires absolute positions for the sound objects, which is given as additional information about the audio signal of an audio object to this audio object in addition to the start time and the end time of this audio object.
  • the goal of re-engineering the post-production process is to minimize user training and integrate the integration of the new system of the invention into existing users' knowledge.
  • all tracks or objects to be rendered at different positions will exist within the master file / distribution format, unlike conventional production facilities that are optimized to reduce the number of tracks during the production process.
  • the wave field synthesis authoring tool according to the present invention is implemented as a workstation having the ability to record the audio signals of the final mix and to convert them to the distribution format in another step.
  • two aspects are considered according to the invention. The first is that all audio objects or tracks still exist in the final master. The second aspect is that the positioning is not performed in the mixing console. This means that the so-called authoring, so the Tonmeister post-processing is one of the last steps in the production chain.
  • the wave field synthesis authoring system ie the inventive device for generating an audio presentation, is implemented as a standalone workstation that can be integrated into different production environments by feeding audio outputs from the mixer into the system.
  • the mixer represents the user interface coupled to the device for generating the audio presentation of an audio scene.
  • Fig. 4 The system according to the invention according to a preferred embodiment of the present invention is disclosed in Fig. 4 shown. Same reference numerals as in Fig. 1 or 2 indicate the same elements.
  • the basic system design is based on the goal of modularity and the ability to integrate existing mixing consoles into the inventive wave field synthesis authoring system as user interfaces.
  • a central controller 120 is formed, which communicates with other modules. This allows the use of alternatives for certain modules as long as they all use the same communication protocol. If that is in Fig. 4
  • the system shown is considered a black box, one generally sees a number of inputs (from the provisioning means 10) and a number of outputs (loudspeaker signals 14) and the user interface 20.
  • the actual WFS Renderer 122 Integrated in this black box next to the user interface is the actual WFS Renderer 122, which performs the actual wave field synthesis calculation of the loudspeaker signals using various input information.
  • a space simulation module 124 configured to perform certain room simulations that are used to create room characteristics of a recording room or to manipulate room characteristics of a recording room.
  • an audio recording device 126 and a recording reproduction device are provided.
  • the device 126 is preferably provided with an external input.
  • the entire audio signal is either already object-oriented or channel-oriented provided and fed. Then the audio signals do not come from the scene protocol, which then only perceives control tasks.
  • the input audio data is then converted from the device 126, if necessary, into an object-oriented representation and then supplied internally to the imaging device 18, which then performs the object / channel mapping.
  • All audio connections between the modules are switchable by a matrix module 128 to connect corresponding channels to corresponding channels as required by the central controller 120.
  • the user has the ability to feed 64 input channels of virtual source signals to the audio processor 12, thus having 64 input channels EK1-EKm in this embodiment. This allows existing consoles to be used as user interfaces for premixing the source virtual signals. Spatial mixing is then performed by the wave-field synthesis authoring system and, in particular, by the heart, WFS renderer 122.
  • the complete scene description is stored in the provisioning facility 10, also referred to as a scene log.
  • the main communication or the required data traffic is performed by the central controller 120.
  • Changes in the scene description such as may be achieved by the user interface 20, and in particular by a hardware mixing console 200 or a software GUI, that is, a graphical software user interface 202, are provided via a user interface controller 204 of the providing device 10 as a modified scene protocol fed.
  • the mapping device 18 assigns each switch object to a render channel (input channel) in which the object exists for a certain time.
  • a render channel input channel
  • a number of objects exist in chronological order on a particular channel as determined by the Fig. 3a, 3b and 6 has been shown.
  • the wavefield synthesis renderer must retrieve the objects do not know yourself. It simply receives signals in the audio channels and a description of how these channels need to be processed.
  • the scene protocol providing means that is, the knowledge of the objects and the associated channels, may perform a transformation of the object-related metadata (eg, the source position) to channel-related metadata and transmit them to the WFS renderer 122.
  • the communication between other modules is performed by special protocols in such a way that the other modules contain only necessary information, as indicated schematically by the block function protocols 129 in FIG Fig. 4 is shown.
  • the control module further supports the hard disk storage of the scene description. It preferably distinguishes between two file formats.
  • a file format is an author format where the audio data is stored as uncompressed PCM data.
  • session-related information such as a grouping of audio objects, that is, sources, layer information, etc., is also used to be stored in a special file format based on XML.
  • the other type is the distribution file format.
  • audio data can be stored in a compressed manner and there is no need to additionally store the session-related data.
  • the audio objects still exist in this format and that the MPEG-4 standard can be used for distribution.
  • the one or more wave-field synthesis renderer modules 122 are typically supplied with source virtual signals and a channel-oriented scene description.
  • a wave field synthesis renderer calculates according to the wave field synthesis theory, the driver signal for each speaker, so a speaker signal of the speaker signals 14 of Fig. 4 .
  • the wave field synthesis renderer will also compute signals for Sobwoofer speakers, which are also needed to support the wave field synthesis system at low frequencies.
  • Room simulation signals from the room simulation module 124 are rendered using a number (typically 8 to 12) of static plane waves. Based on this concept, it is possible to integrate different solutions for room simulation. Without using the space simulation module 124, the wave-field synthesis system already produces acceptable sound images with stable perception of the source direction for the listening area.
  • a space simulation model is used that reproduces wall reflections modeled, for example, such that a mirror source model is used to generate the early reflections.
  • These mirror sources may be treated as audio objects of the scene protocol, or may actually be added by the audio processor itself.
  • the record / playback tools 126 are a useful complement. Scaling objects that are ready to be blended in a conventional manner during premixing, so that only spatial mixing needs to be performed, can be converted from the conventional mixer to an audio object reproducing apparatus be fed.
  • an audio recording module which records the output channels of the mixer in a time code controlled manner and stores the audio data on the playback module.
  • the rendering module will receive a start time code to play a particular audio object in conjunction with a respective output channel supplied to the player 126 from the imaging device 18.
  • the recording / playback device can independently start and stop the playback of individual audio objects, depending on the description of the start time and the stop time point associated with an audio object.
  • an audio object is considered as a source that exists as a representation of the individual audio object for a given time.
  • a start time and a stop / end time are typical for a source, ie for an audio object.
  • the source or audio object needs resources of the system during the time that the object or source "lives".
  • each sound source includes metadata in addition to the start time and the stop time.
  • metadata are "type” (a level wave or point source at a given time), "direction,” “volume,” “mute,” and “flags” for directional loudness and directional delay. All of this metadata can be used automatically.
  • the authoring system according to the invention also serves the conventional channel concept in that z. B. objects, who are "alive” throughout the film or generally over the entire scene, also get their own channel. This means that these objects are in principle simple channels in 1: 1 implementation as they are based on Fig. 6 is presented.
  • At least two objects may be grouped. For each group it is possible to choose which parameters should be grouped and how they should be calculated using the master of the group. Groups of sound sources exist for a given time, which is defined by the start time and the end time of the members.
  • groups are to use them for standard virtual surround setups. These could be used for fading out of a scene or zooming in on a scene. Alternatively, the grouping can also be used to integrate surround reverb effects and record into a WFS mix.
  • a layer or layer In order to structure a mixture or a scene, in a preferred embodiment of the present invention groups and sources are arranged in different layers. Using layers, pre-dubs can be simulated in the audio workstation. Layers can also be used to change display attributes during the authoring process, for example to show or hide different parts of the current mix item.
  • a scene consists of all previously discussed components for a given period of time. This period could be a film spool or z. B. be the entire movie, or else only z. B. a movie section of certain duration, such as five minutes.
  • the scene again consists of a number of layers, groups, and sources that belong to the scene.
  • the complete user interface 20 should include both a graphics software part and a hardware part to allow haptic control.
  • the user interface could also be fully implemented as a software module for cost reasons.
  • a design concept for the graphical system is used, which is based on so-called "spaces".
  • spaces There are a small number of different spaces in the user interface.
  • Each space is a special editing environment that presents the project from a different approach, with all the tools needed for a space. Therefore, you no longer have to pay attention to different windows. All tools needed for an environment are in the appropriate space.
  • Fig. 3a and 3b described adaptive mixing space used. It can be compared to a conventional mixer that only displays the active channels.
  • the adaptive mixing space also presents audio object information instead of pure channel information. As has been shown, these objects are represented by the imaging device 18 of FIG Fig. 1 Input channels assigned to the WFS rendering unit.
  • timeline space which provides an overview of all input channels. Each channel is displayed with its corresponding objects. The user has the option of object-to-channel assignment although for simplicity, automatic channel assignment is preferred.
  • Another space is the positioning and editing space, which shows the scene in a three-dimensional view. This space is to enable the user to record or edit movements of the source objects. Movements can be generated using, for example, a joystick or other input / display devices known for graphical user interfaces.
  • each room is described by a particular set of parameters stored in a Room Presets library. Depending on the room model, different types of parameter sets as well as different graphical user interfaces can be used.
  • the inventive method for generating an audio representation in hardware or in software can be implemented.
  • the implementation may be on a digital storage medium, in particular a floppy disk or CD with electronically readable control signals, which may interact with a programmed computer system so as to carry out the inventive method.
  • the invention thus also consists in a computer program product with a program code stored on a machine-readable carrier for carrying out the method according to the invention, when the computer program product runs on a computer.
  • the invention is thus also a computer program with a program code for carrying out the method when the computer program runs on a computer.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • Optical Recording Or Reproduction (AREA)

Abstract

The audio signal processing circuit (12) has a large number of input channels (16) carrying separate signals (Ek1-Ekm). The circuit may be a WFS (Wave Field Synthesis) rendering unit. It has a large number of output channels (14) carrying loudspeaker signals (LS1- LSn). A display device (18) provides the inputs for the audio signal processing circuit. Temporally non- overlapping audio objects are allocated to the same input channel. The input for the display device comes from the device generating the audio scene (10) with separate audio objects.

Description

Die vorliegende Erfindung liegt auf dem Gebiet der Wellenfeldsynthese und bezieht sich insbesondere auf Vorrichtungen und Verfahren zum Erzeugen, Speichern oder Bearbeiten einer Audiodarstellung einer Audioszene.The present invention is in the field of wave field synthesis and more particularly relates to apparatus and methods for generating, storing or manipulating an audio representation of an audio scene.

Es besteht ein steigender Bedarf an neuen Technologien und innovativen Produkten im Bereich der Unterhaltungselektronik. Dabei ist es eine wichtige Voraussetzung für den Erfolg neuer multimedialer Systeme, optimale Funktionalitäten bzw. Fähigkeiten anzubieten. Erreicht wird das durch den Einsatz digitaler Technologien und insbesondere der Computertechnik. Beispiele hierfür sind die Applikationen, die einen verbesserten realitätsnahen audiovisuellen Eindruck bieten. Bei bisherigen Audiosystemen liegt ein wesentlicher Schwachpunkt in der Qualität der räumlichen Schallwiedergabe von natürlichen, aber auch von virtuellen Umgebungen.There is an increasing demand for new technologies and innovative products in the field of consumer electronics. It is an important prerequisite for the success of new multimedia systems to offer optimal functionalities and capabilities. This is achieved through the use of digital technologies and especially computer technology. Examples of these are the applications that offer an improved, realistic audiovisual impression. In previous audio systems, a significant weakness lies in the quality of the spatial sound reproduction of natural, but also of virtual environments.

Verfahren zur mehrkanaligen Lautsprecherwiedergabe von Audiosignalen sind seit vielen Jahren bekannt und standardisiert. Alle üblichen Techniken besitzen den Nachteil, dass sowohl der Aufstellungsort der Lautsprecher als auch die Position des Hörers dem Übertragungsformat bereits eingeprägt sind. Bei falscher Anordnung der Lautsprecher im Bezug auf den Hörer leidet die Audioqualität deutlich. Ein optimaler Klang ist nur in einem kleinen Bereich des Wiedergaberaums, dem so genannten Sweet Spot, möglich.Methods for multi-channel speaker reproduction of audio signals have been known and standardized for many years. All the usual techniques have the disadvantage that both the installation site of the loudspeakers and the position of the listener are already impressed on the transmission format. If the speakers are arranged incorrectly with respect to the listener, the audio quality suffers significantly. An optimal sound is only possible in a small area of the playback room, the so-called sweet spot.

Ein besserer natürlicher Raumeindruck sowie eine stärkere Einhüllung bei der Audiowiedergabe kann mit Hilfe einer neuen Technologie erreicht werden. Die Grundlagen dieser Technologie, die so genannte Wellenfeldsynthese (WFS; WFS = Wave-Field Synthesis), wurden an der TU Delft erforscht und erstmals in den späten 80er-Jahren vorgestellt ( Berkhout, A.J.; de Vries, D.; Vogel, P.: Acoustic control by Wave-field Synthesis. JASA 93, 1993 ).A better natural spatial impression as well as a stronger envelope in the audio reproduction can be achieved with the help of a new technology. The basics of this Technology, the so-called Wave Field Synthesis (WFS), was researched at the TU Delft and first presented in the late 1980s ( Berkhout, AJ; de Vries, D .; Vogel, P .: Acoustic control by wave-field synthesis. JASA 93, 1993 ).

Infolge der enormen Anforderungen dieser Methode an Rechnerleistung und Übertragungsraten wurde die Wellenfeldsynthese bis jetzt nur selten in der Praxis angewendet. Erst die Fortschritte in den Bereichen der Mikroprozessortechnik und der Audiocodierung gestatten heute den Einsatz dieser Technologie in konkreten Anwendungen. Erste Produkte im professionellen Bereich werden nächstes Jahr erwartet. In wenigen Jahren sollen auch erste Wellenfeldsynthese-Anwendungen für den Konsumerbereich auf den Markt kommen.Due to the enormous demands of this method on computer performance and transmission rates, wave field synthesis has rarely been used in practice. Only the advances in the areas of microprocessor technology and audio coding allow today the use of this technology in concrete applications. The first professional products are expected next year. In a few years, the first wave field synthesis applications for the consumer sector will be launched.

Die Grundidee von WFS basiert auf der Anwendung des Huygens'schen Prinzips der Wellentheorie:

  • Jeder Punkt, der von einer Welle erfasst wird, ist Ausgangspunkt einer Elementarwelle, die sich kugelförmig bzw. kreisförmig ausbreitet.
The basic idea of WFS is based on the application of Huygens' principle of wave theory:
  • Every point, which is detected by a wave, is the starting point of an elementary wave, which spreads in a spherical or circular manner.

Angewandt auf die Akustik kann durch eine große Anzahl von Lautsprechern, die nebeneinander angeordnet sind (einem so genannten Lautsprecherarray), jede beliebige Form einer einlaufenden Wellenfront nachgebildet werden. Im einfachsten Fall, einer einzelnen wiederzugebenden Punktquelle und einer linearen Anordnung der Lautsprecher, müssen die Audiosignale eines jeden Lautsprechers mit einer Zeitverzögerung und Amplitudenskalierung so gespeist werden, dass sich die abgestrahlten Klangfelder der einzelnen Lautsprecher richtig überlagern. Bei mehreren Schallquellen wird für jede Quelle der Beitrag zu jedem Lautsprecher getrennt berechnet und die resultierenden Signale addiert. Befinden sich die wiederzugebenden Quellen in einem Raum mit reflektierenden Wänden, dann müssen auch Reflexionen als zusätzliche Quellen über das Lautsprecherarray wiedergegeben werden. Der Aufwand bei der Berechnung hängt daher stark von der Anzahl der Schallquellen, den Reflexionseigenschaften des Aufnahmeraums und der Anzahl der Lautsprecher ab.Applied to the acoustics can be simulated by a large number of speakers, which are arranged side by side (a so-called speaker array), any shape of an incoming wavefront. In the simplest case, a single point source to be reproduced and a linear arrangement of the speakers, the audio signals of each speaker must be fed with a time delay and amplitude scaling so that the radiated sound fields of each speaker properly overlap. With multiple sound sources, the contribution to each speaker is calculated separately for each source and the resulting signals added together. If the sources to be reproduced are in a room with reflective walls, reflections must also be reproduced as additional sources via the loudspeaker array. The cost of the calculation therefore depends heavily on the number of sound sources, the reflection characteristics of the recording room and the number of speakers.

Der Vorteil dieser Technik liegt im Besonderen darin, dass ein natürlicher räumlicher Klangeindruck über einen großen Bereich des Wiedergaberaums möglich ist. Im Gegensatz zu den bekannten Techniken werden Richtung und Entfernung von Schallquellen sehr exakt wiedergegeben. In beschränktem Maße können virtuelle Schallquellen sogar zwischen dem realen Lautsprecherarray und dem Hörer positioniert werden.The advantage of this technique is in particular that a natural spatial sound impression over a large area of the playback room is possible. In contrast to the known techniques, the direction and distance of sound sources are reproduced very accurately. To a limited extent, virtual sound sources can even be positioned between the real speaker array and the listener.

Obgleich die Wellenfeldsynthese für Umgebungen gut funktioniert, deren Beschaffenheiten bekannt sind, treten doch Unregelmäßigkeiten auf, wenn sich die Beschaffenheit ändert bzw. wenn die Wellenfeldsynthese auf der Basis einer Umgebungsbeschaffenheit ausgeführt wird, die nicht mit der tatsächlichen Beschaffenheit der Umgebung übereinstimmt.Although wavefield synthesis works well for environments whose characteristics are known, irregularities occur when the texture changes, or when wave field synthesis is performed based on environmental conditions that do not match the actual nature of the environment.

Die Technik der Wellenfeldsynthese kann jedoch ebenfalls vorteilhaft eingesetzt werden, um eine visuelle Wahrnehmung um eine entsprechende räumliche Audiowahrnehmung zu ergänzen. Bisher stand bei der Produktion in virtuellen Studios die Vermittlung eines authentischen visuellen Eindrucks der virtuellen Szene im Vordergrund. Der zum Bild passende akustische Eindruck wird in der Regel durch manuelle Arbeitsschritte in der sogenannten Postproduktion nachträglich dem Audiosignal aufgeprägt oder als zu aufwendig und zeitintensiv in der Realisierung eingestuft und daher vernachlässigt. Dadurch kommt es üblicherweise zu einem Widerspruch der einzelnen Sinnesempfindungen, der dazu führt, daß der entworfene Raum, d. h. die entworfene Szene, als weniger authentisch empfunden wird.However, the technique of wave field synthesis can also be used advantageously to supplement a visual perception with a corresponding spatial audio perception. Until now, production in virtual studios focused on providing an authentic visual impression of the virtual scene. The matching to the image acoustic impression is usually impressed by manual operations in the so-called post-production subsequently the audio signal or classified as too complex and time-consuming in the realization and therefore neglected. This usually leads to a contradiction of the individual sense sensations, which leads to the space being designed, i. H. the designed scene is perceived as less authentic.

Allgemein gesagt besteht das Audiomaterial beispielsweise zu einem Film aus einer Vielzahl von Audioobjekten. Ein Audioobjekt ist dabei eine Schallquelle im Film-Setting. Wenn beispielsweise an eine Filmszene gedacht wird, bei der sich zwei Personen gegenüber stehen und in einem Dialog befinden, und gleichzeitig sich z. B. ein Reiter und ein Zug nähern, so existieren über eine gewisse Zeit gesehen in dieser Szene insgesamt vier Schallquellen, nämlich die beiden Personen, der sich nähernde Reiter und der heranfahrende Zug. Wenn davon ausgegangen wird, daß die beiden Personen, die in Dialog stehen, nicht gleichzeitig reden, so dürften zu einem Zeitpunkt immer wenigsten zwei Audioobjekte aktiv sein, nämlich der Reiter und der Zug, wenn zu diesem Zeitpunkt beide Personen gerade schweigen. Spricht jedoch zu einem anderen Zeitpunkt eine Person, so sind drei Audioobjekte aktiv, nämlich der Reiter, der Zug und die eine Person. Sollten tatsächlich die beiden Personen gleichzeitig sprechen, so sind zu diesem Zeitpunkt vier Audioobjekte aktiv, nämlich der Reiter, der Zug, die erste Person und die zweite Person.Generally speaking, for example, the audio material is a movie of a plurality of audio objects. An audio object is a sound source in the film setting. For example, when thinking of a movie scene in which two people and are in a dialogue, while z. For example, when approaching a rider and a train, there are a total of four sound sources in this scene over a period of time, namely the two persons, the approaching rider, and the approaching train. If it is assumed that the two persons in dialogue are not talking at the same time, then at least two audio objects are likely to be active at any one time, namely the rider and the train, if at that time both persons are silent. If, however, another person speaks at a different time, three audio objects are active, namely the rider, the train and the one person. If, in fact, the two persons speak at the same time, then four audio objects are active at this time, namely the rider, the train, the first person and the second person.

Allgemein gesagt stellt sich ein Audioobjekt derart dar, daß das Audioobjekt eine Schallquelle in einem Film-Setting beschreibt, die zu einem bestimmten Zeitpunkt aktiv bzw. "lebendig" ist. Dies bedeutet, daß ein Audioobjekt weiterhin gekennzeichnet ist durch einen Anfangszeitpunkt und einen Endzeitpunkt. Am vorherigen Beispiel sind der Reiter und der Zug beispielsweise während des gesamten Settings aktiv. Wenn sich beide nähern, wird der Zuhörer dies dadurch wahrnehmen, daß die Geräusche des Reiters und des Zugs lauter werden und sich gegebenenfalls - in einem optimalen Wellenfeldsynthese-Setting - auch die Positionen dieser Schallquellen entsprechend ändern. Dagegen erzeugen die beiden im Dialog befindlichen Sprecher ständig neue Audioobjekte, da immer dann, wenn ein Sprecher aufhört zu sprechen das aktuelle Audioobjekt zu Ende ist und dann, wenn der andere Sprecher anfängt zu sprechen, ein neues Audioobjekt begonnen wird, das wiederum dann zu Ende ist, wenn der andere Sprecher aufhört zu sprechen, wobei dann, wenn der erste Sprecher wieder beginnt zu sprechen, wiederum ein neues Audioobjekt begonnen wird.Generally speaking, an audio object is such that the audio object describes a sound source in a film setting that is active or "alive" at a particular time. This means that an audio object is still characterized by a start time and an end time. For example, in the previous example, the tab and the train are active throughout the setting. As the two approach, the listener will perceive this by the louder sounds of the rider and the train becoming louder, and possibly - in an optimal wave field synthesis setting - also changing the positions of those sound sources accordingly. On the other hand, the two speakers in dialogue are constantly generating new audio objects, because whenever a speaker stops speaking the current audio object is over and when the other speaker starts to speak, a new audio object is started, which in turn ends is when the other speaker stops talking, and then when the first speaker starts speaking again, a new audio object is started again.

Es existieren bestehende Wellenfeldsynthese-Rendering-Einrichtungen, die in der Lage sind, aus einer bestimmten Anzahl von Eingangskanälen eine bestimmte Anzahl von Lautsprechersignalen zu erzeugen, und zwar unter Kenntnis der einzelnen Positionen der Lautsprecher in einem Wellenfeldsynthese-Lautsprecherarray.There are existing wave field synthesis rendering devices capable of producing a certain number of loudspeaker signals from a certain number of input channels, knowing the individual positions of the loudspeakers in a wave field synthesis loudspeaker array.

Der Wellenfeldsynthese-Renderer ist gewissermaßen das "Herz" eines Wellenfeldsynthese-Systems, das die Lautsprechersignale für die vielen Lautsprecher des Lautsprecherarrays Amplituden- und Phasen-richtig berechnet, so daß der Benutzer nicht nur einen optimalen optischen Eindruck sondern auch einen optimalen akustischen Eindruck hat.The wave-field synthesis renderer is effectively the "heart" of a wave-field synthesis system that computes the loudspeaker signals for the many loudspeakers of the loudspeaker array in amplitude and phase so that the user not only has an optimal visual impression but also an optimal acoustic impression.

Seit der Einführung von Mehrkanalaudio in Filmen in den späten 60er Jahren war es immer das Ziel des Toningenieurs, dem Zuhörer den Eindruck zu vermitteln, daß er in der Szene richtig involviert ist. Das Hinzufügen eines Surround-Kanals zu dem Reproduktionssystem war ein weiterer Meilenstein. Neue digitale Systeme folgten in den 90er Jahren, die dazu führten, daß die Anzahl der Audiokanäle erhöht worden ist. Heutzutage sind 5.1- oder 7.1-Systeme Standardsysteme für eine Filmwiedergabe.Since the introduction of multi-channel audio in movies in the late 1960's, the goal of the sound engineer has always been to give the listener the impression that he is properly involved in the scene. Adding a surround channel to the reproduction system was another milestone. New digital systems followed in the 90s, which resulted in an increase in the number of audio channels. Today, 5.1 or 7.1 systems are standard systems for movie playback.

Diese Systeme haben sich in vielen Fällen als gutes Potential zum kreativen Unterstützen der Wahrnehmung von Filmen herausgestellt und schaffen gute Möglichkeiten für Soundeffekte, Atmosphären oder Surround-gemischte Musik. Auf der anderen Seite ist die Wellenfeldsynthese-Technik derart flexibel, daß sie in dieser Hinsicht maximale Freiheit liefert.These systems, in many cases, have proven to be a great potential for creatively supporting the perception of movies, and provide good opportunities for sound effects, atmospheres, or surround mixed music. On the other hand, the wave field synthesis technique is so flexible that it provides maximum freedom in this regard.

Dennoch hat die Verwendung von 5.1- oder 7.1-Systemen zu mehreren "standardisierten" Arten und Weisen geführt, um die Mischung von Film-Soundtracks handzuhaben.However, the use of 5.1 or 7.1 systems has resulted in several "standardized" ways to handle the mix of movie soundtracks.

Wiedergabesysteme haben üblicherweise feste Lautsprecherpositionen, wie beispielsweise im Falle von 5.1 der linke Kanal ("left"), der mittlere Kanal ("center"), der rechte Kanal ("right"), der Surround-Links-Kanal ("surround left") und der Surround-Rechts-Kanal ("surround right"). Als Ergebnis dieser festen (wenigen) Positionen ist das ideale Tonbild, das der Toningenieur sucht, auf eine kleine Anzahl von Sitzplätzen, den sogenannten Sweet-Spot, begrenzt. Die Verwendung von Phantomquellen zwischen den oben bezeichneten 5.1-Positionen führt zwar in bestimmten Fällen zu Verbesserungen, jedoch nicht immer zu befriedigenden Ergebnissen.Rendering systems usually have fixed speaker positions, such as the left channel in the case of 5.1 ("left"), the center channel, the right channel, the surround left channel ("surround left") and the surround right channel ("surround right"). As a result of these fixed (few) positions, the ideal sound image sought by the sound engineer is limited to a small number of seats, the so-called sweet spot. Although the use of phantom sources between the above-mentioned 5.1 positions leads in certain cases to improvements, but not always to satisfactory results.

Der Ton eines Films besteht üblicherweise aus Dialogen, Effekten, Atmosphären und Musik. Jedes dieser Elemente wird unter Berücksichtigung der Begrenzungen von 5.1- und 7.1-Systemen gemischt. Typischerweise wird der Dialog in den Center-Kanal (in 7.1-Systemen auch auf eine Halb-Links- und eine Halb-Rechts-Position) gemischt. Dies impliziert, daß dann, wenn sich der Schauspieler über die Leinwand bewegt, der Schall nicht folgt. Bewegungsschallobjekteffekte können nur realisiert werden, wenn sie sich schnell bewegen, so daß der Zuhörer nicht in der Lage ist, zu erkennen, wann der Schall von einem Lautsprecher zum anderen übergeht.The sound of a movie usually consists of dialogues, effects, atmospheres and music. Each of these elements is mixed in consideration of the limitations of 5.1 and 7.1 systems. Typically, the dialog is merged into the center channel (in 7.1 systems also in a half-left and a half-right position). This implies that when the actor moves across the screen, the sound does not follow. Motion sound effects can only be realized if they move quickly, so that the listener is unable to detect when the sound is passing from one speaker to another.

Laterale Quellen können ebenfalls nicht positioniert werden, und zwar aufgrund des großen hörbaren Gaps zwischen den vorderen und den Surround-Lautsprechern, so daß sich Objekte nicht langsam von hinten nach vorne und umgekehrt bewegen können.Lateral sources also can not be positioned due to the large audible gap between the front and surround speakers, so that objects can not move slowly from back to front and vice versa.

Ferner werden Surround-Lautsprecher in einem diffusen Array von Lautsprechern plaziert und erzeugen somit ein Schallbild, das eine Art Hülle für den Zuhörer darstellt. Daher werden genau positionierte Schallquellen hinter den Zuhörern vermieden, um das unangenehme Schallinterferenzfeld, das mit solchen genau positionierten Quellen einhergeht, zu vermeiden.Furthermore, surround speakers are placed in a diffuse array of loudspeakers, thus creating a sound image that is a kind of envelope for the listener. Therefore, accurately positioned sound sources behind the listeners are avoided to avoid the unpleasant sonic interference field associated with such accurately positioned sources.

Die Wellenfeldsynthese als vollständig neue Art und Weise zum Aufbauen des Schallfeldes, das von dem Zuhörer wahrgenommen wird, überwindet diese wesentlichen Unzulänglichkeiten. Die Konsequenz für Kinoanwendungen besteht darin, daß ein genaues Schallbild ohne Begrenzungen im Hinblick auf eine zweidimensionale Positionierung von Objekten erreicht werden kann. Dies eröffnet eine große Vielzahl von Möglichkeiten im Entwerfen und Mischen von Schall für Kinozwecke. Aufgrund der vollständigen Schallbildreproduktion, die durch die Technik der Wellenfeldsynthese erreicht wird, können nunmehr Schallquellen frei positioniert werden. Ferner können Schallquellen als fokussierte Quellen innerhalb des Zuhörerraums genauso wie außerhalb des Zuhörerraums plaziert werden.Wave field synthesis as a completely new way of building the sound field perceived by the listener overcomes these essential shortcomings. The consequence for cinema applications is that an accurate sound image can be achieved without limitations with regard to a two-dimensional positioning of objects. This opens up a wide variety of possibilities in the design and mixing of sound for cinema use. Due to the complete sound image reproduction, which is achieved by the technique of wave field synthesis, now sound sources can be freely positioned. Further, sound sources may be placed as focused sources within the audience room as well as outside the audience room.

Darüber hinaus können stabile Schallquellenrichtungen und stabile Schallquellenpositionen unter Verwendung von punktförmige abstrahlenden Quellen oder ebenen Wellen erzeugt werden. Schließlich können Schallquellen frei innerhalb, außerhalb oder durch den Zuhörerraum hindurch bewegt werden.In addition, stable sound source directions and stable sound source positions can be generated using point-shaped radiating sources or plane waves. Finally, sound sources can be moved freely within, outside, or through the audience room.

Dies führt zu einem enormen Potential kreativer Möglichkeiten und ebenfalls zu der Möglichkeit, Schallquellen genau gemäß dem Bild auf der Leinwand beispielsweise für den gesamten Dialog zu plazieren. Damit wird es tatsächlich möglich, den Zuhörer nicht nur visuell, sondern auch akustisch in den Film einzubetten.This leads to an enormous potential of creative possibilities and also to the possibility to place sound sources exactly according to the picture on the screen, for example for the entire dialogue. This actually makes it possible to embed the listener not only visually, but also acoustically in the film.

Aufgrund historischer Gegebenheiten ist der Tonentwurf, also die Tätigkeit des Tonmeisters, auf dem Kanal- oder Spuren- bzw. "Track" Paradigma basiert. Dies bedeutet, daß das Codierformat bzw. die Anzahl der Lautsprecher, also 5.1-Systeme oder 7.1-Systeme, das Reproduktions-Setup bestimmen. Insbesondere benötigt ferner ein spezielles Tonsystem ein spezielles Codierformat. Als Konsequenz ist es unmöglich, irgendwelche Änderungen im Hinblick auf das Master-File durchzuführen, ohne die komplette Mischung wieder durchzuführen. Es ist beispielsweise nicht möglich, einen Dialog-Track in dem abschließenden Master-File selektiv zu ändern, also zu ändern ohne alle anderen Töne in dieser Szene ebenfalls zu ändern.Due to historical circumstances, the sound design, ie the activity of the sound engineer, is based on the channel or track or "track" paradigm. This means that the coding format or the number of speakers, ie 5.1 systems or 7.1 systems, determine the reproduction setup. In particular, a special sound system also requires a special encoding format. As a consequence, it is impossible to make any changes to the master file without the complete mix again perform. For example, it is not possible to selectively change, ie change, a dialog track in the final master file without changing all the other notes in that scene as well.

Andererseits sind die Kanäle einem Zuschauer/Zuhörer egal. Ihn kümmert es nicht, aus welchem Schallsystem ein Ton erzeugt wird, ob eine ursprüngliche Schallbeschreibung objektorientiert vorgelegen hat, kanalorientiert vorgelegen hat, etc. Dem Zuhörer ist es ferner egal, ob und wie ein Audiosetting gemischt worden ist. Alles was für den Zuhörer zählt, ist der Toneindruck, also ob ihm ein Ton-Setting zu einem Film bzw. ein Ton-Setting ohne Film gefällt oder nicht.On the other hand, the channels do not matter to a viewer / listener. He does not care which sound system produces a sound, whether an original sound description was object-oriented, channel-oriented, etc. The listener also does not care if and how an audio setting has been mixed. All that counts for the listener is the sound impression, so whether he likes a sound setting for a film or a sound setting without a film or not.

Andererseits ist es wesentlich, daß neue Konzepte von den Personen angenommen werden, die mit den neuen Konzepten arbeiten sollen. Für die Tonmischung zuständig sind die Tonmeister. Tonmeister sind aufgrund des Kanal-orientierten Paradigmas darauf "geeicht", Kanal-orientiert zu arbeiten. Für sie ist es tatsächlich das Ziel, z. B. für ein Kino mit 5.1-Tonsystem die sechs Kanäle zu mischen. Hierbei verwenden sie z. B. in einem virtuellen Studio aufgezeichnete Audiosignale und mischen die letztendlichen z. B. 5.1- oder 7.1-Lautsprechersignale. Hierbei geht es nicht um Audioobjekte, sondern um Kanalorientierung. So hat in diesem Fall ein Audioobjekt typischerweise keinen Anfangszeitpunkt oder keinen Endzeitpunkt. Statt dessen wird ein Signal für einen Lautsprecher von der ersten Sekunde des Films bis zur letzten Sekunde des Films aktiv sein. Dies liegt daran, daß über einen der (wenigen) Lautsprecher des typischen Kino-Tonsystems immer irgendein Ton erzeugt wird, da es immer eine Schallquelle geben dürfte, die über den speziellen Lautsprecher ausgestrahlt wird, selbst wenn es nur eine Hintergrundmusik ist.On the other hand, it is essential that new concepts be adopted by the persons who are to work with the new concepts. Responsible for the sound mixing are the sound engineers. Sound engineers are "calibrated" to work channel-oriented due to the channel-oriented paradigm. For them, it is actually the goal, for. For example, for a cinema with 5.1 sound system, mix the six channels. Here they use z. B. recorded in a virtual studio audio signals and mix the ultimate z. B. 5.1 or 7.1 speaker signals. This is not about audio objects, but channel orientation. Thus, in this case, an audio object typically has no start time or end time. Instead, a signal will be active for a speaker from the first second of the movie to the last second of the movie. This is because any one of the (few) speakers of the typical cinema sound system will always produce any sound, since there should always be a sound source that is broadcast over the particular speaker, even if it is just background music.

Aus diesem Grund werden bestehende Wellenfeldsynthese-Rendering-Einheiten dahingehend verwendet, daß sie Kanalorientiert arbeiten, daß sie also eine bestimmte Anzahl von Eingangskanälen haben, aus denen dann, wenn in die Eingangskanäle die Audiosignale samt zugeordneter Informationen eingegeben werden, die Lautsprechersignale für die einzelnen Lautsprecher bzw. Lautsprechergruppen eines Wellenfeldsynthese-Lautsprecherarrays erzeugt werden.For this reason, existing wave-field synthesis rendering units are used to channel-orientate work so that they have a certain number of input channels, from which, when in the input channels the audio signals and associated information are entered, the speaker signals for each speaker or groups of speakers of a wave field synthesis speaker array are generated.

Andererseits führt die Technik der Wellenfeldsynthese dazu, daß eine Audioszene wesentlich "transparenter" ist, und zwar dahingehend, daß im Prinzip eine unbegrenzt hohe Anzahl von Audioobjekten über einen Film betrachtet, also über eine Audioszene betrachtet, vorhanden sein kann. Im Hinblick auf Kanal-orientierte Wellenfeldsynthese-Rendering-Einrichtungen kann dies problematisch werden, wenn die Anzahl der Audioobjekte in einer Audioszene die typischerweise immer vorgegebene maximale Anzahl von Eingangskanälen der Audioverarbeitungseinrichtung übersteigt. Darüber hinaus wird für einen Benutzer, also für einen Tonmeister beispielsweise, der eine Audiodarstellung einer Audioszene erzeugt, die Vielzahl von Audioobjekten, die zudem noch zu bestimmten Zeitpunkten existieren und zu anderen Zeitpunkten wieder nicht existieren, die also einen definierten Anfangs- und einen definierten Endzeitpunkt haben, verwirrend sein, was wiederum dazu führen könnte, daß eine psychologische Schwelle zwischen den Tonmeistern und der Wellenfeldsynthese, die Tonmeistern ja gerade ein erhebliches kreatives Potential bringen soll, aufgebaut wird.On the other hand, the technique of wave field synthesis makes an audio scene much more "transparent" in that, in principle, an unlimited number of audio objects viewed over a movie, that is, viewed over an audio scene, may be present. With regard to channel-oriented wave-field synthesis rendering devices, this can become problematic if the number of audio objects in an audio scene exceeds the typically always predetermined maximum number of input channels of the audio processing device. In addition, for a user, ie for a sound engineer, for example, who creates an audio presentation of an audio scene, the plurality of audio objects that also exist at certain times and at other times again do not exist, that is a defined start and a defined end time have confusing, which in turn could lead to a psychological threshold between the sound masters and the wave field synthesis, the Tonmeister is just bring a significant creative potential, is built.

Die Aufgabe der vorliegenden Erfindung besteht darin, ein Konzept zum Erzeugen, Speichern oder Bearbeiten einer Audiodarstellung einer Audioszene zu schaffen, das eine hohe Akzeptanz auf Seiten der Benutzer, für die entsprechende Werkzeuge gedacht sind, hat.The object of the present invention is to provide a concept for generating, storing or editing an audio presentation of an audio scene that has a high acceptance on the part of the users for whom corresponding tools are intended.

Diese Aufgabe wird durch eine Vorrichtung zum Erzeugen, Speichern oder Bearbeiten einer Audiodarstellung einer Audioszene nach Patentanspruch 1, ein Verfahren zum Erzeugen, Speichern oder Bearbeiten einer Audiodarstellung einer Audioszene nach Patentanspruch 15 oder ein Computer-Programm nach Patentanspruch 16 gelöst.This object is achieved by an apparatus for generating, storing or editing an audio presentation of an audio scene according to claim 1, a method for generating, storing or editing an audio presentation of an audio scene solved according to claim 15 or a computer program according to claim 16.

Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, daß sich für Audioobjekte, wie sie in einem typischen Film-Setting auftreten, einzig und allein eine Objektorientierte Beschreibung übersichtlich und effizient verarbeitbar ist. Die Objekt-orientierte Beschreibung der Audioszene mit Objekten, die eine Audiosignal haben und denen ein definierter Anfangs- und ein definierter End-Zeitpunkt zugeordnet sind, entsprechen den typischen Gegebenheiten in der realen Welt, in der es ohnehin selten vorkommt, daß ein Geräusch die ganze Zeit da ist. Statt dessen ist es üblich, beispielsweise in einem Dialog, daß ein Dialogpartner beginnt zu sprechen und aufhört zu sprechen, oder daß Geräusche typischerweise einen Anfang und ein Ende haben. Insofern ist die Objekt-orientierte Audioszenenbeschreibung, die jeder Schallquelle im realen Leben ein eigenes Objekt zuordnet, den natürlichen Gegebenheiten angepaßt und daher im Hinblick auf Transparenz, Übersichtlichkeit, Effizienz und Verständlichkeit optimal.The present invention is based on the finding that for audio objects, as they occur in a typical film setting, only an object-oriented description can be processed clearly and efficiently. The object-oriented description of the audio scene with objects that have an audio signal and to which a defined start and a defined end time are assigned, correspond to the typical conditions in the real world, in which it is rare that a noise the whole There is time. Instead, it is customary, for example in a dialogue, for a dialogue partner to start talking and ceasing to speak or for sounds to typically have a beginning and an end. In this respect, the object-oriented audio scene description, which assigns each sound source in real life its own object, adapted to the natural conditions and therefore optimal in terms of transparency, clarity, efficiency and clarity.

Andererseits sind z. B. Tonmeister, die aus einer Audioszene eine Audiodarstellung erzeugen wollen, die also ihr kreatives Potential einfließen lassen wollen, um eine Audiodarstellung einer Audioszene in einem Kino womöglich noch unter Berücksichtigung spezieller Audioeffekte zu "synthetisieren", aufgrund des Kanal-Paradigmas daran gewöhnt, typischerweise mit entweder Hardware- oder Software-realisierten Mischpulten zu arbeiten, die eine konsequente Umsetzung der Kanal-orientierten Arbeitsweise sind. In Hardware- oder Software-realisierten Mischpulten hat jeder Kanal Regler, Knöpfe etc., mit denen das Audiosignal in diesem Kanal manipuliert, also "gemischt" werden kann.On the other hand, z. Tonmeister, for example, who want to create an audio presentation of an audio scene, who want to incorporate their creative potential to "synthesize" an audio presentation of a audio scene in a movie theater possibly taking into account special audio effects, because of the channel paradigm accustomed typically to work with either hardware or software-implemented mixers, which are a consistent implementation of the channel-oriented operation. In hardware- or software-implemented mixers, each channel has knobs, knobs, etc., which manipulate the audio signal in that channel.

Erfindungsgemäß wird ein Ausgleich zwischen der Objekt-orientierten Audiodarstellung, die dem Leben gerecht wird, und der Kanal-orientierten Darstellung, die dem Tonmeister gerecht wird, dadurch erreicht, daß eine Abbildungseinrichtung eingesetzt wird, um die Objekt-orientierte Beschreibung der Audioszene auf eine Mehrzahl von Eingangskanälen einer Audio-Verarbeitungseinrichtung, wie beispielsweise einer Wellenfeldsynthese-Rendering-Einheit, abzubilden. Erfindungsgemäß ist die Abbildungseinrichtung ausgebildet, um ein erstes Audioobjekt einem Eingangskanal zuzuweisen, und um ein zweites Audioobjekt, dessen Startzeitpunkt nach einem Endzeitpunkt des ersten Audioobjekts liest, dem selben Eingangskanal zuzuweisen, und um ein drittes Audioobjekt, dessen Startzeitpunkt nach dem Startzeitpunkt des ersten Audioobjekts und vor dem Endzeitpunkt des ersten Audioobjekts liegt, einem anderen der Mehrzahl von Eingangskanälen zuzuweisen.According to the invention, a balance is made between the object-oriented audio presentation that is life-affirming, and the channel-oriented presentation provided to the sound engineer is achieved in that an imaging device is used to image the object-oriented description of the audio scene to a plurality of input channels of an audio processing device, such as a wave field synthesis rendering unit. According to the invention, the mapping means is adapted to assign a first audio object to an input channel and to assign a second audio object whose start time is after an end time of the first audio object to the same input channel and a third audio object whose start time is after the start time of the first audio object and before the end time of the first audio object is to assign to another of the plurality of input channels.

Diese zeitliche Zuweisung, die gleichzeitig auftretende Audioobjekte unterschiedlichen Eingangskanälen der Wellenfeldsynthese-Rendering-Einheit zuweist, und die aber sequentiell auftretende Audioobjekte demselben Eingangskanal zuweist, hat sich als äußerst kanaleffizient herausgestellt. Dies bedeutet, daß eine relativ geringe Anzahl von Eingangskanälen der Wellenfeldsynthese-Rendering-Einheit durchschnittlich belegt ist, was zum einen der Übersichtlichkeit dient, und was zum anderen der Recheneffizienz der ohnehin sehr rechenaufwendigen Wellenfeldsynthese-Rendering-Einheit entgegenkommt. Aufgrund der im Mittel relativ kleinen Anzahl von gleichzeitig belegten Kanälen kann der Benutzer, also beispielsweise der Tonmeister, einen schnellen Überblick über die Komplexität einer Audioszene zu einem bestimmten Zeitpunkt bekommen, ohne daß er aus einer Vielzahl von Eingangskanälen mühsam suchen muß, welches Objekt gerade aktiv ist oder welches Objekt gerade nicht aktiv ist. Andererseits kann der Benutzer eine Manipulation der Audioobjekte wie in objektorientierter Darstellung ohne weiteres durch seine ihm gewohnten Kanalregler durchführen.This timing, which assigns concurrent audio objects to different input channels of the wave field synthesis rendering unit, but which assigns sequentially occurring audio objects to the same input channel, has proven to be extremely channel efficient. This means that a relatively small number of input channels of the wave field synthesis rendering unit is occupied on average, which serves for clarity, and on the other hand, the computing efficiency of the already very compute-consuming wave field synthesis rendering unit accommodates. Due to the relatively small number of concurrently occupied channels on average, the user, for example the sound engineer, can get a quick overview of the complexity of an audio scene at a specific time without having to search laboriously from a plurality of input channels, which object is currently active or which object is currently not active. On the other hand, the user can easily perform a manipulation of the audio objects as in object-oriented representation by his usual channel controller.

Dies wird erwartungsgemäß die Akzeptanz des erfindungsgemäßen Konzepts dahingehend steigern, daß den Benutzern mit dem erfindungsgemäßen Konzept eine vertraute Arbeitsumgebung geliefert wird, die dennoch ein ungleich höheres innovatives Potential enthält. Das erfindungsgemäße Konzept, das auf der Abbildung des Objekt-orientierten Audio-Ansatzes in einen Kanal-orientierten Rendering-Ansatz basiert, wird somit allen Anforderungen gerecht. Zum einen ist die objektorientierte Beschreibung einer Audioszene, wie es ausgeführt worden ist, der Natur am besten angepaßt und daher effizient und übersichtlich. Andererseits wird den Gewohnheiten und Bedürfnissen der Benutzer Rechnung getragen, dahingehend, daß sich die Technik nach den Benutzern richtet und nicht umgekehrt.This is expected to increase the acceptance of the inventive concept to the effect that the users with the concept according to the invention a familiar working environment is delivered, which nevertheless contains a much higher innovative potential. The inventive concept, which is based on the mapping of the object-oriented audio approach into a channel-oriented rendering approach, thus meets all requirements. First, the object-oriented description of an audio scene, as it has been done, is best adapted to nature and therefore efficient and clear. On the other hand, the habits and needs of the users are taken into account, in that the technique is directed to the users and not vice versa.

Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend Bezug nehmend auf die beiliegenden Zeichnungen detailliert erläutert. Es zeigen:

Fig. 1
ein Blockschaltbild der erfindungsgemäßen Vorrichtung zum Erzeugen einer Audiodarstellung;
Fig. 2
eine schematische Darstellung einer Benutzerschnittstelle für das in Fig. 1 gezeigte Konzept;
Fig. 3a
eine schematische Darstellung der Benutzerschnittstelle von Fig. 2 gemäß einem Ausführungsbeispiel der vorliegenden Erfindung;
Fig. 3b
eine schematische Darstellung der Benutzerschnittstelle von Fig. 2 gemäß einem anderen Ausführungsbeispiel der vorliegenden Erfindung;
Fig. 4
ein Blockschaltbild einer erfindungsgemäßen Vorrichtung gemäß einem bevorzugten Ausführungsbeispiel;
Fig. 5
eine zeitliche Darstellung der Audioszene mit verschiedenen Audioobjekten; und
Fig. 6
eine Gegenüberstellung einer 1:1-Umsetzung zwischen Objekt und Kanal und einer Objekt-Kanal-Zuweisung gemäß der vorliegenden Erfindung für die in Fig. 5 dargestellte Audioszene.
Preferred embodiments of the present invention will be explained below in detail with reference to the accompanying drawings. Show it:
Fig. 1
a block diagram of the inventive device for generating an audio presentation;
Fig. 2
a schematic representation of a user interface for in Fig. 1 concept shown;
Fig. 3a
a schematic representation of the user interface of Fig. 2 according to an embodiment of the present invention;
Fig. 3b
a schematic representation of the user interface of Fig. 2 according to another embodiment of the present invention;
Fig. 4
a block diagram of a device according to the invention according to a preferred embodiment;
Fig. 5
a temporal representation of the audio scene with various audio objects; and
Fig. 6
a comparison of a 1: 1 conversion between object and channel and an object-channel assignment according to the present invention for the in Fig. 5 illustrated audio scene.

Fig. 1 zeigt ein Blockschaltbild einer erfindungsgemäßen Vorrichtung zum Erzeugen einer Audiodarstellung einer Audioszene. Die erfindungsgemäße Vorrichtung umfaßt eine Einrichtung 10 zum Bereitstellen einer Objekt-orientierten Beschreibung der Audioszene, wobei die Objekt-orientierte Beschreibung der Audioszene eine Mehrzahl von Audioobjekten umfaßt, wobei einem Audioobjekt wenigstens ein Audiosignal, ein Anfangszeitpunkt und ein Endzeitpunkt zugeordnet sind. Die erfindungsgemäße Vorrichtung umfaßt ferner eine Audioverarbeitungseinrichtung 12 zum Erzeugen einer Mehrzahl von Lautsprechersignalen LSi 14, die Kanal-orientiert ist und die die Mehrzahl von Lautsprechersignalen 14 aus einer Mehrzahl von Eingangskanälen EKi erzeugt. Zwischen der Bereitstellungseinrichtung 10 und der Kanal-orientierten Audiosignalverarbeitungseinrichtung, die beispielsweise als WFS-Rendering-Einheit ausgebildet ist, befindet sich eine Abbildungseinrichtung 18 zum Abbilden der Objekt-orientierten Beschreibung der Audioszene auf die Mehrzahl von Eingangskanälen 16 der Kanal-orientierten Audiosignalverarbeitungseinrichtung 12, wobei die Abbildungseinrichtung 18 ausgebildet ist, um ein erstes Audioobjekt einem Eingangskanal, wie beispielsweise EK1, zuzuweisen, und um ein zweites Audioobjekt, dessen Startzeitpunkt nach einem Endzeitpunkt des ersten Audioobjekts liegt, demselben Eingangskanal, wie beispielsweise dem Eingangskanal EK1, zuzuweisen, und um ein drittes Audioobjekt, dessen Startzeitpunkt nach dem Startzeitpunkt des ersten Audioobjekts und vor dem Endzeitpunkt des ersten Audioobjekts liegt, einem anderen Eingangskanal der Mehrzahl von Eingangskanälen, wie beispielsweise dem Eingangskanal EK2, zuzuweisen. Die Abbildungseinrichtung 18 ist somit ausgebildet, um zeitlich nicht überlappende Audioobjekte demselben Eingangskanal zuzuweisen, und um zeitlich überlappende Audioobjekte unterschiedlichen parallelen Eingangskanälen zuzuweisen. Fig. 1 shows a block diagram of a device according to the invention for generating an audio presentation of an audio scene. The inventive apparatus comprises means 10 for providing an object-oriented description of the audio scene, wherein the object-oriented description of the audio scene comprises a plurality of audio objects, wherein an audio object is assigned at least an audio signal, a start time and an end time. The device according to the invention further comprises an audio processing device 12 for generating a plurality of loudspeaker signals LSi 14 which is channel-oriented and which generates the plurality of loudspeaker signals 14 from a plurality of input channels EKi. An imaging device 18 for mapping the object-oriented description of the audio scene onto the plurality of input channels 16 of the channel-oriented audio signal processing device 12 is located between the providing device 10 and the channel-oriented audio signal processing device, which is embodied, for example, as a WFS rendering unit the mapping means 18 is adapted to assign a first audio object to an input channel, such as EK1, and to assign a second audio object whose start time is after an end time of the first audio object to the same input channel, such as the input channel EK1, and a third one Audio object whose start time is after the start time of the first audio object and before the end time of the first audio object to assign another input channel of the plurality of input channels, such as the input channel EK2. The mapping device 18 is thus designed to assign temporally non-overlapping audio objects to the same input channel, and to assign overlapping audio objects to different parallel input channels.

Bei einem bevorzugten Ausführungsbeispiel, bei dem die Kanal-orientierte Audiosignalverarbeitungseinrichtung 12 eine Wellenfeldsynthese-Rendering-Einheit umfaßt, sind die Audioobjekte ferner dahingehend spezifiziert, daß ihnen eine virtuelle Position zugeordnet ist. Diese virtuelle Position eines Objekts kann sich während der Lebenszeit des Objekts verändern, was dem Fall entsprechen würde, bei dem sich beispielsweise ein Reiter einem Szenenmittelpunkt nähert, derart, daß der Galopp des Reiters immer lauter wird und insbesondere immer näher zum Zuschauerraum kommt. In diesem Fall umfaßt ein Audioobjekt nicht nur das Audiosignal, das diesem Audioobjekt zugeordnet ist, und einen Anfangszeitpunkt und einen Endzeitpunkt, sondern zusätzlich noch eine Position der virtuellen Quelle, die sich über der Zeit ändern kann sowie gegebenenfalls weitere Eigenschaften des Audioobjekts, wie beispielsweise ob es Punktquelleneigenschaften haben soll oder ob es eine ebene Welle emittieren soll, was einer virtuellen Position mit unendlicher Entfernung zum Zuschauer entsprechen würde. In der Technik sind weitere Eigenschaften für Schallquellen also für Audioobjekte bekannt, die je nach Ausstattung der Kanal-orientierten Audiosignalverarbeitungseinrichtung 12 von Fig. 1 berücksichtigt werden können.In a preferred embodiment in which the channel oriented audio signal processing device 12 comprises a wave field synthesis rendering unit, the audio objects are further specified to be associated with a virtual position. This virtual position of an object may change during the lifetime of the object, which would correspond to the case where, for example, a rider approaches a scene center, such that the rider's gallop gets louder and louder and closer to the auditorium. In this case, an audio object includes not only the audio signal associated with that audio object and a start time and an end time, but additionally a position of the virtual source which may change over time and, optionally, other properties of the audio object such as ob It should have point source characteristics or whether it should emit a plane wave, which would correspond to a virtual position with infinite distance to the viewer. In the art, further properties for sound sources, ie for audio objects are known, depending on the features of the channel-oriented audio signal processing device 12 of Fig. 1 can be considered.

Erfindungsgemäß ist die Struktur der Vorrichtung hierarchisch aufgebaut, dahingehend, daß die Kanal-orientierte Audiosignalverarbeitungseinrichtung zum Empfangen von Audioobjekten nicht direkt mit der Einrichtung zum Bereitstellen kombiniert ist, sondern mit derselben über die Abbildungseinrichtung kombiniert ist. Dies führt dazu, daß lediglich in der Einrichtung zum Bereitstellen die gesamte Audioszene bekannt und gespeichert werden soll, daß jedoch bereits die Abbildungseinrichtung und noch weniger die Kanal-orientierte Audiosignalverarbeitungseinrichtung Kenntnis des gesamten Audio-Settings haben müssen. Statt dessen arbeiten sowohl die Abbildungseinrichtung 18 als auch die Audiosignalverarbeitungseinrichtung 12 unter der Anweisung der Audioszene, die von der Einrichtung 10 zum Bereitstellen geliefert wird.According to the invention, the structure of the device is hierarchical in that the channel-oriented audio signal processing means for receiving audio objects is not directly combined with the means for providing, but combined with the same via the mapping means. As a result, the entire audio scene is to be known and stored only in the means for providing, but the mapping device, and still less the channel-oriented audio signal processing device, must already have knowledge of the overall audio setting. Instead Both the mapping device 18 and the audio signal processing device 12 operate under the direction of the audio scene provided by the providing device 10.

Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung ist die in Fig. 1 gezeigte Vorrichtung ferner mit einer Benutzerschnittstelle versehen, wie sie in Fig. 2 bei 20 gezeigt ist. Die Benutzerschnittstelle 20 ist ausgebildet, um einen Benutzerschnittstellen-Kanal pro Eingangskanal sowie vorzugsweise einen Manipulator für jeden Benutzerschnittstellen-Kanal zu haben. Die Benutzerschnittstelle 20 ist über ihren Benutzerschnittstellen-Eingang 22 mit der Abbildungseinrichtung 18 gekoppelt, um die Zuweisungsinformationen von der Abbildungseinrichtung zu erhalten, da die Belegung der Eingangskanäle EK1 bis EKm von der Benutzerschnittstelle 20 angezeigt werden soll. Ausgangsseitig ist die Benutzerschnittstelle 20 dann, wenn sie das Manipulator-Feature für jeden Benutzerschnittstellen-Kanal hat, mit der Einrichtung 10 zum Bereitstellen verkoppelt. Insbesondere ist die Benutzerschnittstelle 20 ausgebildet, um über ihren Benutzerschnittstellenausgang 24 im Hinblick auf die ursprüngliche Version manipulierte Audioobjekte der Einrichtung 10 zum Bereitstellen zu liefern, die somit eine veränderte Audioszene erhält, die dann wieder der Abbildungseinrichtung 18 und - entsprechend verteilt auf die Eingangskanäle - der Kanal-orientierten Audiosignalverarbeitungseinrichtung 12 bereitgestellt wird.In a preferred embodiment of the present invention, the in Fig. 1 shown device further provided with a user interface, as shown in Fig. 2 at 20 is shown. The user interface 20 is configured to have one user interface channel per input channel, and preferably one manipulator for each user interface channel. The user interface 20 is coupled via its user interface input 22 to the mapping device 18 to obtain the mapping information from the mapping device, since the assignment of the input channels EK1 to EKm is to be displayed by the user interface 20. On the output side, if the user interface 20 has the manipulator feature for each user interface channel, it is coupled to the device 10 for providing. In particular, the user interface 20 is configured to provide, via its user interface output 24 with regard to the original version, manipulated audio objects of the device 10 for providing, thus receiving a changed audio scene which is then returned to the mapping device 18 and, correspondingly to the input channels Channel-oriented audio signal processing device 12 is provided.

Je nach Implementierung ist die Benutzerschnittstelle 20 als Benutzerschnittstelle ausgebildet, wie es in Fig. 3a dargestellt ist, also als Benutzerschnittstelle, die immer nur die aktuellen Objekte darstellt. Alternativ ist die Benutzerschnittstelle 20 konfiguriert, um wie in Fig. 3b aufgebaut zu sein, also so, daß immer alle Objekte in einem Eingangskanal dargestellt werden. Sowohl in Fig. 3a als auch in Fig. 3b ist eine Zeitlinie 30 dargestellt, die in chronologischer Reihenfolge die Objekte A, B, C umfaßt, wobei das Objekt A einen Startzeitpunkt 31a und einen Endzeitpunkt 31b umfaßt. Zufälligerweise fällt in Fig. 3a der Endzeitpunkt 31b des ersten Objekts A mit einem Startzeitpunkt des zweiten Objekts B zusammen, das wiederum einen Endzeitpunkt 32b hat, der wiederum zufällig mit einem Startzeitpunkt des dritten Objekts C zusammenfällt, das wiederum einen Endzeitpunkt 33b hat. Die Startzeitpunkte 32a und 33b entsprechen den Endzeitpunkten 31b und 32b und sind in den Fig. 3a, 3b aus Übersichtlichkeitsgründen nicht dargestellt.Depending on the implementation, the user interface 20 is designed as a user interface, as shown in FIG Fig. 3a that is, as a user interface that always represents only the current objects. Alternatively, the user interface 20 is configured to operate as in FIG Fig. 3b to be constructed, so that always all objects are displayed in an input channel. As well in Fig. 3a as well as in Fig. 3b a time line 30 is shown, which comprises the objects A, B, C in chronological order, wherein the object A includes a start time 31a and an end time 31b. Coincidentally, it falls in Fig. 3a the end time 31b of the first object A coincides with a start time of the second object B, which in turn has an end time 32b, which in turn coincides coincidentally with a start time of the third object C, which in turn has an end time 33b. The start times 32a and 33b correspond to the end times 31b and 32b and are in the Fig. 3a, 3b not shown for clarity.

Bei dem in Fig. 3a gezeigten Modus, bei dem nur aktuelle Objekte als Benutzerschnittstellen-Kanal angezeigt werden, wird rechts in Fig. 3a ein Mischpult-Kanalsymbol 34 dargestellt, das einen Schieber 35 sowie stilisierte Knöpfe 36 umfaßt, über die Eigenschaften des Audiosignals des Objekts B bzw. auch virtuelle Positionen etc. verändert werden können. Sobald die Zeitmarke in Fig. 3a, die mit 37 dargestellt ist, den Endzeitpunkt 32b des Objekts B erreicht, würde die stilisierte Kanaldarstellung 34 nicht das Objekt B anzeigen, sondern das Objekt C. Die Benutzerschnittstelle in Fig. 3a würde dann, wenn z. B. ein Objekt D gleichzeitig zum Objekt B stattfinden würde, einen weiteren Kanal, wie beispielsweise den Eingangskanal i+1, darstellen. Die in Fig. 3a gezeigte Darstellung liefert dem Tonmeister einen einfachen Überblick über die Anzahl von parallelen Audioobjekten zu einem Zeitpunkt also die Anzahl von aktiven Kanälen, die überhaupt angezeigt werden. Nicht-aktive Eingangskanäle werden bei der in Fig. 3a gezeigten Ausführungsform der Benutzerschnittstelle 20 von Fig. 2 überhaupt nicht angezeigt.At the in Fig. 3a shown mode, in which only current objects are displayed as a user interface channel is right in Fig. 3a a mixer channel icon 34 is shown, which includes a slider 35 and stylized buttons 36, over the properties of the audio signal of the object B or virtual positions, etc. can be changed. Once the timestamp in Fig. 3a 37, which reaches the end time 32b of the object B, the stylized channel representation 34 would not display the object B but the object C. The user interface in FIG Fig. 3a would then, if z. B. an object D would take place simultaneously to the object B, another channel, such as the input channel i + 1, represent. In the Fig. 3a The illustration shown provides the sound engineer with a simple overview of the number of parallel audio objects at a time, ie the number of active channels that are even displayed. Non-active input channels are used at the in Fig. 3a shown embodiment of the user interface 20 of Fig. 2 not displayed at all.

Bei dem in Fig. 3b gezeigten Ausführungsbeispiel, bei dem alle Objekte in einem Eingangskanal nebeneinander angezeigt werden, findet ebenfalls keine Anzeige von nicht-belegten Eingangskanälen statt. Dennoch wird der Eingangskanal i, dem die zeitlich in chronologischer Reihenfolge zugewiesenen Kanäle angehören, dreifach dargestellt, und zwar einmal als Objektkanal A, ein andermal als Objektkanal B und wieder ein andermal als Objektkanal C. Erfindungsgemäß wird es bevorzugt, den Kanal, wie beispielsweise den Eingangskanal i für das Objekt B (Bezugszeichen 38 in Fig. 3b) z. B. farblich oder helligkeitsmäßig hervorzuheben, um dem Tonmeister einerseits einen klaren Überblick darüber zu geben, welches Objekt gerade auf dem betreffenden Kanal i eingespeist wird, und welche Objekte z. B. früher oder später auf diesem Kanal laufen, so daß der Tonmeister bereits vorausschauend in die Zukunft über die entsprechenden Software- oder Hardware-Regler das Audiosignal eines Objekts über diesen Kanalregler bzw. Kanalschalter manipulieren kann. Die Benutzerschnittstelle 20 von Fig. 2 und insbesondere die Ausprägungen derselben in Fig. 3a und Fig. 3b sind somit ausgebildet, um eine visuelle Darstellung je nach Wunsch für die "Belegung" der Eingangskanäle der Kanal-orientierten Audiosignalverarbeitungseinrichtung zu schaffen, die durch die Abbildungseinrichtung 18 erzeugt wird.At the in Fig. 3b In the embodiment shown in which all objects in an input channel are displayed side by side, there is likewise no display of unoccupied input channels. Nevertheless, the input channel i, to which the channels assigned temporally in chronological order belong, is shown in triplicate, once as an object channel A, on another occasion as an object channel B and again as an object channel C according to the invention. It is preferred to use the channel, such as the input channel i for the object B (reference numeral 38 in FIG Fig. 3b ) z. B. highlight color or brightness, on the one hand to give the sound engineer a clear overview of which object is currently being fed to the respective channel i, and which objects z. B. sooner or later run on this channel, so that the sound engineer can already predictively in the future via the appropriate software or hardware controller manipulate the audio signal of an object through this channel controller or channel switch. The user interface 20 of Fig. 2 and in particular the expressions thereof in Fig. 3a and Fig. 3b are thus designed to provide a visual representation as desired for the "occupancy" of the input channels of the channel-oriented audio signal processing device generated by the imaging device 18.

Nachfolgend wird Bezug nehmend auf Fig. 5 ein einfaches Beispiel der Funktionalität der Abbildungseinrichtung 18 von Fig. 1 gegeben. Fig. 5 zeigt eine Audioszene mit verschiedenen Audioobjekten A, B, C, D, E, F und G. So ist zu sehen, daß sich die Objekte A, B, C und D zeitlich überlappen. In anderen Worten ausgedrückt sind diese Objekte A, B, C und D zu einem bestimmten Zeitpunkt 50 alle aktiv. Dagegen überlappt das Objekt E nicht mit den_Objekten A, B. Das Objekt E überlappt lediglich mit den Objekten D und C, wie es bei einem Zeitpunkt 52 zu sehen ist. Wiederum überlappend ist das Objekt F und das Objekt D, wie es zu einem Zeitpunkt 54 z. B. zu sehen ist. Dasselbe gilt für die Objekte F und G, die z. B. zu einem Zeitpunkt 56 überlappen, während das Objekt G nicht mit den Objekten A, B, C, D und E überlappt.Subsequently, reference will be made to Fig. 5 a simple example of the functionality of the imaging device 18 of Fig. 1 given. Fig. 5 shows an audio scene with different audio objects A, B, C, D, E, F and G. Thus it can be seen that the objects A, B, C and D overlap in time. In other words, these objects A, B, C and D are all active at a particular time 50. In contrast, the object E does not overlap with the_objects A, B. The object E overlaps only with the objects D and C, as can be seen at a time 52. Again overlapping the object F and the object D, as it is at a time 54 z. B. can be seen. The same applies to the objects F and G, the z. B. overlap at a time 56, while the object G does not overlap with the objects A, B, C, D and E.

Eine einfache und in vielerlei Hinsicht nachteilige Kanalzuordnung würde darin bestehen, bei dem in Fig. 5 gezeigten Beispiel jedes Audioobjekt einem Eingangskanal zuzuweisen, so daß die 1:1-Umsetzung links in der Tabelle in Fig. 6 erhalten werden würde. Nachteilig an diesem Konzept ist, daß viele Eingangskanäle benötigt werden bzw. daß dann, wenn viele Audioobjekte vorhanden sind, was in einem Film sehr schnell der Fall ist, die Anzahl der Eingangskanäle der Wellenfeldsynthese-Rendering-Einheit die Anzahl der verarbeitbaren virtuellen Quellen in einem realen Film-Setting begrenzt, was natürlich nicht erwünscht ist, da Technik-Limits nicht das kreative Potential beeinträchtigen sollen. Andererseits ist diese 1:1-Umsetzung sehr unübersichtlich, dahingehend, daß zwar irgendwann typischerweise jeder Eingangskanal ein Audioobjekt erhält, daß jedoch, wenn eine bestimmte Audioszene betrachtet wird, typischerweise relativ wenig Eingangskanäle aktiv sind, daß der Benutzer dies jedoch nicht ohne weiteres feststellen kann, da er immer alle Audiokanäle im Überblick haben muß.A simple and in many ways detrimental channel assignment would be where in Fig. 5 shown example assign each audio object to an input channel so that the 1: 1 conversion left in the table in Fig. 6 would be obtained. A disadvantage of this concept is that many input channels are needed or that, when there are many audio objects, which is the case very quickly in a movie, the number of input channels of the wave field synthesis rendering unit is the number of processable virtual sources in one limited in the real film setting, which of course is not desirable because technology limits should not affect the creative potential. On the other hand, this 1: 1 conversion is very confusing, in that at some point each input channel typically receives an audio object, but when a particular audio scene is viewed, typically relatively few input channels are active, but the user can not easily determine this because he always has all the audio channels at a glance.

Darüber hinaus führt dieses Konzept der 1:1-Zuweisung von Audioobjekten zu Eingangskanälen der Audioverarbeitungseinrichtung dazu, daß im Interesse einer möglichst geringen oder nicht vorhandenen Begrenzung der Anzahl der Audioobjekte Audioverarbeitungseinrichtungen bereitgestellt werden müssen, die eine sehr hohe Anzahl von Eingangskanälen haben, was zu einer unmittelbaren Erhöhung der Rechenkomplexität, der erforderlichen Rechenleistung und der erforderlichen Speicherkapazität der Audioverarbeitungseinrichtung führt, um die einzelnen Lautsprechersignale zu berechnen, was unmittelbar in einem höheren Preis eines solchen Systems resultiert.Moreover, this concept of 1: 1 assignment of audio objects to input channels of the audio processor means that in order to minimize or limit the number of audio objects, audio processing equipment having a very high number of input channels must be provided Immediately increase the computational complexity, the required computing power and the required storage capacity of the audio processing device to calculate the individual loudspeaker signals, which directly results in a higher price of such a system.

Die erfindungsgemäße Zuweisung Objekt-Kanal des in Fig. 5 gezeigten Beispiels, wie sie durch die Abbildungseinrichtung 18 gemäß der vorliegenden Erfindung erreicht wird, ist in Fig. 6 im rechten Bereich der Tabelle dargestellt. So werden die parallelen Audioobjekte A, B, C und D nacheinander den Eingangskanälen EK1, EK2, EK3 bzw. EK4 zugeordnet. Das Objekt E muß jedoch nicht mehr, wie in der linken Hälfte von Fig. 6 dem Eingangskanal EK5 zugewiesen werden, sondern kann einem freien Kanal zugewiesen werden, wie beispielsweise dem Eingangskanal EK1 oder, wie es durch die Klammer angedeutet ist, dem Eingangskanal EK2. Dasselbe trifft für das Objekt F zu, das im Prinzip allen Kanälen außer dem Eingangskanal EK4 zugewiesen werden kann. Dasselbe trifft für das Objekt G zu, das ebenfalls allen Kanälen außer dem Kanal zugewiesen werden kann, dem vorher das Objekt F zugewiesen wurde (im Beispiel dem Eingangskanal EK1).The inventive assignment object channel of in Fig. 5 as shown by the imaging device 18 according to the present invention is shown in FIG Fig. 6 shown in the right section of the table. Thus, the parallel audio objects A, B, C and D are sequentially assigned to the input channels EK1, EK2, EK3 and EK4. However, the object E no longer has to, as in the left half of Fig. 6 assigned to the input channel EK5, but can be assigned to a free channel, such as the input channel EK1 or, as indicated by the bracket, the input channel EK2. The same applies to the object F, which in principle can be assigned to all channels except the input channel EK4. The same applies to the object G, which can also be assigned to all channels except the channel to which the object F was previously allocated (in the example the input channel EK1).

Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung ist die Abbildungseinrichtung 18 ausgebildet, um immer Kanäle mit einer möglichst niedrigen Ordnungszahl zu belegen, und um möglichst immer benachbarte Eingangskanäle EKi und EKi+1 zu belegen, damit keine Löcher entstehen. Andererseits ist dieses "Nachbarschafts-Feature" nicht wesentlich, da es einem Benutzer des Audio-Autoren-Systems gemäß der vorliegenden Erfindung gleichgültig ist, ob er gerade den ersten bzw. den siebten oder irgendeinen anderen Eingangskanal der Audioverarbeitungseinrichtung bedient, so lange er durch die erfindungsgemäße Benutzerschnittstelle in die Lage versetzt wird, genau diesen Kanal zu manipulieren, beispielsweise durch einen Regler 35 oder durch Knöpfe 36 einer Mischpult-Kanaldarstellung 34 des gerade aktuellen Kanals. Somit muß der Benutzerschnittstellenkanal i nicht unbedingt dem Eingangskanal i besprechen, sondern es kann auch insofern eine Kanal-Zuweisung erfolgen, derart, daß der Benutzerschnittstellenkanal i z. B. dem Eingangskanal EKm entspricht, während der Benutzerschnittstellenkanal i+1 dem Eingangskanal k entspricht etc.In a preferred embodiment of the present invention, the imaging device 18 is designed to always occupy channels with the lowest possible atomic number, and to occupy always adjacent input channels EKi and EKi + 1, so that no holes. On the other hand, this "neighborhood feature" is not essential, as it does not matter to a user of the audio authoring system according to the present invention whether he is currently serving the first, seventh, or any other input channel of the audio processing device, as long as he is through the inventive user interface is enabled to manipulate precisely this channel, for example by a controller 35 or by buttons 36 a mixer channel display 34 of the current channel. Thus, the user interface channel i need not necessarily discuss the input channel i, but it can also be so far a channel assignment done, such that the user interface channel i z. B. the input channel EKm corresponds, while the user interface channel i + 1 corresponds to the input channel k etc.

Damit wird durch die Benutzerschnittstellenkanal-Umabbildung vermieden, daß es Kanallöcher gibt, daß also der Tonmeister immer sofort und übersichtlich die aktuellen Benutzerschnittstellenkanäle nebeneinander dargestellt erblicken kann.This is avoided by the user interface channel re-mapping that there are channel holes, so that the sound engineer can always see immediately and clearly displayed the current user interface channels side by side.

Das erfindungsgemäße Konzept der Benutzerschnittstelle kann selbstverständlich auch auf eine bestehende Hardware-Mischkonsole übertragen werden, die tatsächliche Hardware-Regler und Hardware-Knöpfe umfaßt, die ein Tommeister manuell bedienen wird, um eine optimale Audio-Mischung zu erreichen. Ein Vorteil der vorliegenden Erfindung besteht darin, daß auch eine solche einem Tonmeister typischerweise sehr vertraute und ans Herz gewachsene Hardware-Mischkonsole ebenfalls verwendet werden kann, indem z. B. durch auf der Mischkonsole typischerweise vorhandene Indikatoren, wie beispielsweise LEDs immer die gerade aktuellen Kanäle für den Tonmeister übersichtlich markiert werden.Of course, the user interface concept of the present invention may also be applied to an existing hardware mixing console that includes actual hardware controls and hardware buttons that a master will manually operate to achieve optimal audio mixing. An advantage of the present invention is that even such a sound mixer typically very familiar and heart-growing hardware mixing console can also be used by z. B. by typically present on the mixing console indicators, such as LEDs are always the current channels for the sound engineer clearly marked.

Die vorliegende Erfindung ist ferner dahingehend flexibel, daß auch mit Fällen umgegangen werden kann, bei denen das Wellenfeldsynthese-Lautsprecher-Setup, das zur Produktion verwendet wird, von dem Reproduktions-Setup z. B. in einem Kino abweicht. Daher wird erfindungsgemäß der Audioinhalt in einem Format codiert, das durch verschiedene Systeme aufbereitet werden kann. Dieses Format ist die Audioszene, d. h. die objektorientierte Audiodarstellung und nicht die Lautsprechersignal-Darstellung. Insofern wird das Aufbereitungsverfahren als Adaption des Inhalts an das Reproduktionssystem verstanden. Erfindungsgemäß werden nicht nur ein paar wenige Master-Kanäle sondern eine gesamte Objektorientierte Szenenbeschreibung im Wellenfeldsynthese-Reproduktionsprozeß verarbeitet. Die Szenen werden für jede Reproduktion aufbereitet. Dies wird typischerweise in Echtzeit durchgeführt, um eine Adaption an die aktuelle Situation zu erreichen. Typischerweise berücksichtigt diese Adaption die Anzahl von Lautsprechern und ihre Positionen, die Charakteristika des Reproduktionssystems, wie beispielsweise die Frequenzantwort, den Schalldruckpegel etc., die Raumakustikbedingungen oder weitere Bildreproduktionsbedingungen.The present invention is further flexible in that cases can also be dealt with where the wave field synthesis loudspeaker setup used for production is covered by the reproduction setup e.g. B. differs in a movie theater. Therefore, according to the invention, the audio content is encoded in a format that can be processed by various systems. This format is the audio scene, i. H. the object-oriented audio presentation and not the speaker signal presentation. In this respect, the treatment process is understood as an adaptation of the content to the reproduction system. According to the invention, not only a few master channels but an entire object-oriented scene description are processed in the wave field synthesis reproduction process. The scenes are processed for each reproduction. This is typically done in real time to adapt to the current situation. Typically, this adaptation takes into account the number of speakers and their positions, the characteristics of the reproduction system, such as the frequency response, the sound pressure level, etc., the room acoustics conditions or other image reproduction conditions.

Ein Hauptunterschied der Wellenfeldsynthese-Mischung im Vergleich zum Kanal-basierten Ansatz gegenwärtiger Systeme besteht in der frei verfügbaren Positionierung der Schallobjekte. In üblichen Reproduktionssystemen basierend auf Stereophonie-Prinzipien wird die Position der Schallquellen relativ codiert. Dies ist für Mischkonzepte wichtig, die zu einem visuellen Inhalt, wie beispielsweise Kinofilmen gehören, da eine Positionierung der Schallquellen bezüglich des Bildes durch ein korrektes System-Setup anzunähern versucht wird.A major difference in the wave field synthesis mix compared to the channel-based approach of current systems consists in the freely available positioning of the sound objects. In conventional reproduction systems based on stereophonic principles, the position of the sound sources is relatively coded. This is important for blending concepts that pertain to visual content, such as movies, because positioning of the sound sources relative to the image is attempted by a proper system setup.

Das Wellenfeldsynthesesystem benötigt dagegen Absolutpositionen für die Schallobjekte, welche als Zusatzinformationen zu dem Audiosignal eines Audioobjekts diesem Audioobjekt zusätzlich zu ferner dem Startzeitpunkt und dem Endzeitpunkt dieses Audioobjekts mitgegeben wird.In contrast, the wave field synthesis system requires absolute positions for the sound objects, which is given as additional information about the audio signal of an audio object to this audio object in addition to the start time and the end time of this audio object.

Im herkömmlichen Kanal-orientierten Ansatz bestand die Grundidee darin, die Anzahl von Spuren in mehreren Pre-Mix-Durchläufen zu reduzieren. Diese Pre-Mix-Durchläufe sind in Kategorien organisiert, wie Dialog, Musik, Ton, Effekte, etc. Während des Mischprozesses werden alle benötigten Audiosignale in die Mischkonsole eingespeist und durch unterschiedliche Toningenieure gleichzeitig gemischt. Jeder Vormix reduziert die Anzahl von Spuren, bis nur eine Spur pro Reproduktionslautsprecher existiert. Diese abschließenden Spuren bilden das abschließende Master-File (Final Master).In the traditional channel-oriented approach, the basic idea was to reduce the number of tracks in multiple pre-mix runs. These pre-mix runs are organized into categories such as dialogue, music, sound, effects, etc. During the mixing process, all the required audio signals are fed into the mixing console and mixed simultaneously by different sound engineers. Each pre-mix reduces the number of tracks until only one track per replica speaker exists. These final tracks form the final master file (Final Master).

Alle relevanten Mischaufgaben, beispielsweise Equalization, Dynamics, Positioning, etc. werden am Mischpult oder unter Verwendung einer speziellen Zusatzausrüstung durchgeführt.All relevant mixing tasks, such as Equalization, Dynamics, Positioning, etc., are performed on the mixing console or using special equipment.

Das Ziel des Re-Engineerings des Postproduktionsprozesses besteht darin, das Benutzer-Training zu minimieren und die Integration des neuen erfindungsgemäßen Systems in das bestehende Wissen der Benutzer zu integrieren. Bei der Wellenfeldsynthese-Anwendung der vorliegenden Erfindung werden alle Spuren oder Objekte, die an unterschiedlichen Positionen aufzubereiten sind, innerhalb des Master-Files/Verteilungsformats existieren, was im Gegensatz zu herkömmlichen Produktionsfazilities steht, die dahingehend optimiert sind, daß sie die Anzahl von Spuren während des Produktionsprozesses reduzieren. Andererseits ist es aus praktischen Gründen notwendig, dem Re-Recording-Ingenieur die Möglichkeit zu geben, die existierenden Mischkonsolen für Wellenfeldsynthese-Produktionen zu verwenden.The goal of re-engineering the post-production process is to minimize user training and integrate the integration of the new system of the invention into existing users' knowledge. In the wave field synthesis application of the present invention, all tracks or objects to be rendered at different positions will exist within the master file / distribution format, unlike conventional production facilities that are optimized to reduce the number of tracks during the production process. On the other hand, for practical reasons, it is necessary to give the re-recording engineer the opportunity to use the existing mixing consoles for wave field synthesis productions.

Erfindungsgemäß werden somit gegenwärtige Mischkonsolen für die herkömmlichen Misch-Aufgaben verwendet, wobei die Ausgabe dieser Mischkonsolen dann in das erfindungsgemäße System zum Erzeugen einer Audiodarstellung einer Audioszene eingebracht wird, wo das räumliche Mischen durchgeführt wird. Dies bedeutet, daß das Wellenfeldsynthese-Autoren-Werkzeug gemäß der vorliegenden Erfindung als Workstation implementiert wird, die die Möglichkeit hat, die Audiosignale der abschließenden Mischung aufzuzeichnen und dieselben in einem anderen Schritt in das Verteilungsformat zu konvertieren. Hierzu werden erfindungsgemäß zwei Aspekte berücksichtigt. Der erste ist, daß alle Audioobjekte oder Spuren immer noch in dem Final Master existieren. Der zweite Aspekt ist, daß die Positionierung nicht in der Mischkonsole durchgeführt wird. Dies bedeutet, daß das sogenannten Authoring, also die Tonmeister-Nachbearbeitung einer der letzten Schritte in der Produktionskette ist. Erfindungsgemäß wird das Wellenfeldsynthese-Autorensystem gemäß der vorliegenden Erfindung, also die erfindungsgemäße Vorrichtung zum Erzeugen einer Audiodarstellung als eigenständige Workstation implementiert, die in unterschiedliche Produktionsumgebungen integriert werden kann, indem Audioausgaben von dem Mischpult in das System eingespeist werden. Insofern stellt das Mischpult die Benutzerschnittstelle dar, die mit der Vorrichtung zum Erzeugen der Audiodarstellung einer Audioszene verkoppelt ist.Thus, according to the invention, current mixing consoles are used for the conventional mixing tasks, the output of these mixing consoles then being introduced into the inventive system for producing an audio representation of an audio scene where the spatial mixing is performed. This means that the wave field synthesis authoring tool according to the present invention is implemented as a workstation having the ability to record the audio signals of the final mix and to convert them to the distribution format in another step. For this purpose, two aspects are considered according to the invention. The first is that all audio objects or tracks still exist in the final master. The second aspect is that the positioning is not performed in the mixing console. This means that the so-called authoring, so the Tonmeister post-processing is one of the last steps in the production chain. According to the invention, the wave field synthesis authoring system according to the present invention, ie the inventive device for generating an audio presentation, is implemented as a standalone workstation that can be integrated into different production environments by feeding audio outputs from the mixer into the system. As such, the mixer represents the user interface coupled to the device for generating the audio presentation of an audio scene.

Das erfindungsgemäße System gemäß einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung ist in Fig. 4 dargestellt. Gleiche Bezugszeichen wie in Fig. 1 oder 2 zeigen gleiche Elemente an. Der grundsätzliche Systementwurf basiert auf dem Ziel der Modularität und der Möglichkeit, existierende Mischkonsolen in das erfindungsgemäße Wellenfeldsynthese-Autorensysten als Benutzerschnittstellen zu integrieren.The system according to the invention according to a preferred embodiment of the present invention is disclosed in Fig. 4 shown. Same reference numerals as in Fig. 1 or 2 indicate the same elements. The basic system design is based on the goal of modularity and the ability to integrate existing mixing consoles into the inventive wave field synthesis authoring system as user interfaces.

Aus diesem Grund ist in der Audioverarbeitungseinrichtung 12 eine zentrale Steuerung 120 ausgebildet, die mit anderen Modulen kommuniziert. Dies ermöglicht die Verwendung von Alternativen für bestimmte Module so lange alle dasselbe Kommunikationsprotokoll verwenden. Wenn das in Fig. 4 gezeigte System als Black-Box betrachtet wird, sieht man allgemein eine Anzahl von Eingaben (aus der Bereitstellungseinrichtung 10) und eine Anzahl von Ausgaben (Lautsprechersignale 14) sowie die Benutzerschnittstelle 20. Integriert in dieser Black-Box neben der Benutzerschnittstelle befindet sich der eigentliche WFS-Renderer 122, der die eigentliche Wellenfeldsynthese-Berechnung der Lautsprechersignale unter Verwendung diverser Input-Informationen durchführt. Ferner ist ein Raumsimulationsmodul 124 vorgesehen, das ausgebildet ist, um bestimmte Raumsimulationen durchzuführen, die dazu verwendet werden, um Raumeigenschaften eines Aufnahmeraums zu erzeugen oder Raumeigenschaften eines Aufnahmeraums zu manipulieren.For this reason, in the audio processing device 12, a central controller 120 is formed, which communicates with other modules. This allows the use of alternatives for certain modules as long as they all use the same communication protocol. If that is in Fig. 4 When the system shown is considered a black box, one generally sees a number of inputs (from the provisioning means 10) and a number of outputs (loudspeaker signals 14) and the user interface 20. Integrated in this black box next to the user interface is the actual WFS Renderer 122, which performs the actual wave field synthesis calculation of the loudspeaker signals using various input information. Also provided is a space simulation module 124 configured to perform certain room simulations that are used to create room characteristics of a recording room or to manipulate room characteristics of a recording room.

Ferner sind eine Audioaufnahmeeinrichtung 126 sowie eine Aufnahmewiedergabeeinrichtung (ebenfalls 126) vorgesehen. Die Einrichtung 126 ist vorzugsweise mit einem externen Input versehen. In diesem Fall wird das gesamte Audiosignal entweder bereits objektorientiert oder noch kanalorientiert bereitgestellt und eingespeist. Dann kommen die Audiosignale nicht vom Szeneprotokoll, das dann lediglich Steuerungsaufgaben wahrnimmt. Die eingespeisten Audiodaten werden dann von der Einrichtung 126 aus ggf. in eine objektorientierte Darstellung umgesetzt und dann intern der Abbildungseinrichtung 18 zugeführt, die dann das Objekt/Kanal-Mapping durchführt.Furthermore, an audio recording device 126 and a recording reproduction device (also 126) are provided. The device 126 is preferably provided with an external input. In this case, the entire audio signal is either already object-oriented or channel-oriented provided and fed. Then the audio signals do not come from the scene protocol, which then only perceives control tasks. The input audio data is then converted from the device 126, if necessary, into an object-oriented representation and then supplied internally to the imaging device 18, which then performs the object / channel mapping.

Alle Audioverbindungen zwischen den Modulen sind durch ein Matrixmodul 128 schaltbar, um je nach Anforderung durch die zentrale Steuerung 120 entsprechende Kanäle mit entsprechenden Kanälen zu verbinden. Bei einem bevorzugten Ausführungsbeispiel hat der Benutzer die Möglichkeit, 64 Eingangskanäle mit Signalen für virtuelle Quellen in die Audioverarbeitungseinrichtung 12 einzuspeisen, es existieren somit bei diesem Ausführungsbeispiel 64 Eingangskanäle EK1-EKm. Damit können existierende Konsolen als Benutzerschnittstellen zum Vormischen der virtuellen Quellensignale verwendet werden. Das räumliche Mischen wird dann durch das Wellenfeldsynthese-Autorensystem und insbesondere durch das Herzstück, den WFS-Renderer 122, durchgeführt.All audio connections between the modules are switchable by a matrix module 128 to connect corresponding channels to corresponding channels as required by the central controller 120. In a preferred embodiment, the user has the ability to feed 64 input channels of virtual source signals to the audio processor 12, thus having 64 input channels EK1-EKm in this embodiment. This allows existing consoles to be used as user interfaces for premixing the source virtual signals. Spatial mixing is then performed by the wave-field synthesis authoring system and, in particular, by the heart, WFS renderer 122.

Die komplette Szenenbeschreibung wird in der Bereitstellungseinrichtung 10, die auch als Szenenprotokoll bezeichnet wird, gespeichert. Die Hauptkommunikation bzw. der benötigte Datenverkehr wird dagegen von der zentralen Steuerung 120 durchgeführt. Änderungen in der Szenenbeschreibung, wie sie beispielsweise durch die Benutzerschnittstelle 20 und insbesondere durch eine Hardware-Mischkonsole 200 oder eine Software-GUI, also eine graphische Software-Benutzerschnittstelle 202 erreicht werden können, werden über eine Benutzerschnittstellen-Steuerung 204 der Bereitstellungseinrichtung 10 als geändertes Szenenprotokoll zugeführt. Durch Bereitstellung eines geänderten Szenenprotokolls ist die gesamte logische Struktur einer Szene eindeutig dargestellt.The complete scene description is stored in the provisioning facility 10, also referred to as a scene log. By contrast, the main communication or the required data traffic is performed by the central controller 120. Changes in the scene description, such as may be achieved by the user interface 20, and in particular by a hardware mixing console 200 or a software GUI, that is, a graphical software user interface 202, are provided via a user interface controller 204 of the providing device 10 as a modified scene protocol fed. By providing a modified scene log, the entire logical structure of a scene is clearly represented.

Für die Realisierung der Objekt-orientierten Lösungsansatzes wird durch die Abbildungseinrichtung 18 jedes Schallobjekt einem Aufbereitungskanal (Eingangskanal) zugeordnet, in dem das Objekt für eine bestimmte Zeit existiert. Üblicherweise existiert eine Anzahl von Objekten in chronologischer Reihenfolge auf einem bestimmten Kanal, wie es anhand der Fig. 3a, 3b und 6 dargestellt worden ist. Obwohl das erfindungsgemäße Autorensystem diese Objektorientierung unterstützt, muß der Wellenfeldsynthese-Renderer die Objekte selbst nicht kennen. Er empfängt einfach Signale in den Audiokanälen und eine Beschreibung der Art und Weise, auf die diese Kanäle aufbereitet werden müssen. Die Bereitstellungseinrichtung mit dem Szenenprotokoll, also mit der Kenntnis der Objekte und der zugeordneten Kanäle kann eine Transformation der Objekt-bezogenen Metadaten (beispielsweise der Quellenposition) zu Kanal-bezogenen Metadaten durchführen und dieselben zu dem WFS-Renderer 122 übertragen. Die Kommunikation zwischen anderen Modulen wird durch spezielle Protokolle auf eine Art und Weise durchgeführt, daß die anderen Module nur nötige Informationen enthalten, wie es schematisch durch den Block Funktionsprotokolle 129 in Fig. 4 dargestellt ist.For the realization of the object-oriented approach, the mapping device 18 assigns each switch object to a render channel (input channel) in which the object exists for a certain time. Usually, a number of objects exist in chronological order on a particular channel, as determined by the Fig. 3a, 3b and 6 has been shown. Although the authoring system of the present invention supports this object orientation, the wavefield synthesis renderer must retrieve the objects do not know yourself. It simply receives signals in the audio channels and a description of how these channels need to be processed. The scene protocol providing means, that is, the knowledge of the objects and the associated channels, may perform a transformation of the object-related metadata (eg, the source position) to channel-related metadata and transmit them to the WFS renderer 122. The communication between other modules is performed by special protocols in such a way that the other modules contain only necessary information, as indicated schematically by the block function protocols 129 in FIG Fig. 4 is shown.

Das erfindungsgemäße Steuermodul unterstützt ferner die Festplatten-Speicherung der Szenenbeschreibung. Sie unterscheidet vorzugsweise zwischen zwei Dateiformaten. Ein Dateiformat ist ein Autorenformat, wo die Audiodaten als unkomprimierte PCM-Daten gespeichert werden. Ferner werden Sitzungs-bezogene Informationen, wie beispielsweise eine Gruppierung von Audioobjekten, also von Quellen, Layer-Informationen etc. ebenfalls verwendet, um in einem speziellen Dateiformat, das auf XML basiert, gespeichert zu werden.The control module according to the invention further supports the hard disk storage of the scene description. It preferably distinguishes between two file formats. A file format is an author format where the audio data is stored as uncompressed PCM data. Further, session-related information, such as a grouping of audio objects, that is, sources, layer information, etc., is also used to be stored in a special file format based on XML.

Der andere Typ ist das Distributionsdateiformat. In diesem Format können Audiodaten auf komprimierte Art und Weise gespeichert werden, und es besteht hierbei kein Bedarf, die Sitzungs-bezogenen Daten zusätzlich zu speichern. Es sei darauf hingewiesen, daß die Audioobjekte noch in diesem Format existieren, und daß der MPEG-4-Standard zur Distribution verwendet werden kann. Erfindungsgemäß wird es bevorzugt, die Wellenfeldsynthese-Aufbereitung immer in Echtzeit zu tun. Dies ermöglicht es, daß keine vor-gerenderten Audioinformationen, also bereits fertige Lautsprechersignale in irgendeinem Dateiformat gespeichert werden muß. Dies ist insofern von großem Vorteil, da die Lautsprechersignale ganz erhebliche Datenmengen in Anspruch nehmen können, was nicht zuletzt auf die Vielzahl von verwendeten Lautsprechern in einer Wellenfeldsyntheseumgebung zurückzuführen ist.The other type is the distribution file format. In this format, audio data can be stored in a compressed manner and there is no need to additionally store the session-related data. It should be noted that the audio objects still exist in this format and that the MPEG-4 standard can be used for distribution. According to the invention, it is preferable to always do the wave field synthesis processing in real time. This makes it possible that no pre-rendered audio information, so already finished speaker signals must be stored in any file format. This is a great advantage, since the loudspeaker signals can take up very considerable amounts of data, which not least due to the large number of speakers used in a wave field synthesis environment.

Das eine oder die mehreren Wellenfeldsynthese-Renderer-Module 122 werden üblicherweise mit virtuellen Quellensignalen und einer Kanal-orientierten Szenenbeschreibung versorgt. Ein Wellenfeldsynthese-Renderer berechnet gemäß der Wellenfeldsynthese-Theorie das Treibersignal für jeden Lautsprecher, also ein Lautsprechersignal der Lautsprechersignale 14 von Fig. 4. Der Wellenfeldsynthese-Renderer wird ferner Signale für Sobwoofer-Lautsprecher berechnen, die ebenfalls benötigt werden, um das Wellenfeldsynthese-System bei niederen Frequenzen zu unterstützen. Raumsimulationssignale von dem Raumsimulationsmodul 124 werden unter Verwendung einer Anzahl (üblicherweise 8 bis 12) statischer ebener Wellen gerendert. Basierend auf diesem Konzept ist es möglich, unterschiedliche Lösungsansätze für die Raumsimulation zu integrieren. Ohne Verwendung des Raumsimulationsmoduls 124 erzeugt das Wellenfeldsynthesesystem bereits annehmbare Tonbilder mit stabiler Wahrnehmung der Quellenrichtung für den Hörbereich. Es existieren jedoch bestimmte Mängel hinsichtlich der Wahrnehmung der Tiefe der Quellen, da üblicherweise keine frühen Raumreflexionen oder Nachhallerscheinungen den Quellensignalen zugefügt werden. Erfindungsgemäß wird es bevorzugt, daß ein Raumsimulationsmodell eingesetzt wird, das Wandreflexionen reproduziert, die beispielsweise dahingehend modelliert werden, daß ein Spiegelquellenmodell zur Erzeugung der frühen Reflexionen eingesetzt wird. Diese Spiegelquellen können wiederum als Audioobjekte des Szenenprotokolls behandelt werden oder tatsächlich erst von der Audioverarbeitungseinrichtung selbst hinzugefügt werden. Die Aufnahme/Wiedergabe-Tools 126 stellen eine nützliche Ergänzung dar. Schallobjekte, die zur Mischung auf herkömmliche Art und Weise während des Vormischens fertiggestellt sind, dahingehend, daß also nur noch die räumliche Mischung durchgeführt werden muß, können von dem herkömmlichen Mischpult zu einem Audioobjekt-Wiedergabegerät gespeist werden. Ferner wird es bevorzugt, auch ein Audioaufzeichnungsmodul zu haben, das die Ausgangskanäle des Mischpults auf eine Zeitcode-gesteuerte Art und Weise aufzeichnet und die Audiodaten am WiedergabeModul speichert. Das Wiedergabemodul wird einen Startzeitcode empfangen, um ein bestimmtes Audioobjekt abzuspielen, und zwar in Verbindung mit einem jeweiligen Ausgangskanal, der dem Wiedergabegerät 126 von der Abbildungseinrichtung 18 zugeführt wird. Das Aufnahme/Wiedergabegerät kann das Abspielen von einzelnen Audioobjekten unabhängig voneinander starten und stoppen, je nach Beschreibung des Startzeitpunkts und des Stoppzeitpunkts, der einem Audioobjekt zugeordnet ist. Sobald die Mischprozedur beendet ist, kann der Audioinhalt von dem Wiedergabegerätmodul genommen werden und in das Distributionsdateiformat exportiert werden. Das Distributionsdateiformat enthält somit ein fertiges Szenenprotokoll einer fertig abgemischten Szene. Das Ziel des erfindungsgemäßen Benutzerschnittstellenkonzepts besteht darin, eine hierarchische Struktur zu implementieren, die an die Aufgaben des Kino-Mischprozesses angepaßt ist. Hierbei wird ein Audioobjekt als Quelle aufgefaßt, die als Darstellung des einzelnen Audioobjekts für eine gegebene Zeit existiert. Eine Startzeit und eine Stopp/Ende-Zeit sind typisch für eine Quelle, also für ein Audioobjekt. Die Quelle bzw. das Audioobjekt benötigt Ressourcen des Systems während der Zeit, zu der das Objekt bzw. die Quelle "lebt".The one or more wave-field synthesis renderer modules 122 are typically supplied with source virtual signals and a channel-oriented scene description. A wave field synthesis renderer calculates according to the wave field synthesis theory, the driver signal for each speaker, so a speaker signal of the speaker signals 14 of Fig. 4 , The wave field synthesis renderer will also compute signals for Sobwoofer speakers, which are also needed to support the wave field synthesis system at low frequencies. Room simulation signals from the room simulation module 124 are rendered using a number (typically 8 to 12) of static plane waves. Based on this concept, it is possible to integrate different solutions for room simulation. Without using the space simulation module 124, the wave-field synthesis system already produces acceptable sound images with stable perception of the source direction for the listening area. However, there are certain shortcomings in the perception of the depth of the sources, since usually no early spatial reflections or reverberation phenomena are added to the source signals. According to the invention, it is preferred that a space simulation model is used that reproduces wall reflections modeled, for example, such that a mirror source model is used to generate the early reflections. These mirror sources, in turn, may be treated as audio objects of the scene protocol, or may actually be added by the audio processor itself. The record / playback tools 126 are a useful complement. Scaling objects that are ready to be blended in a conventional manner during premixing, so that only spatial mixing needs to be performed, can be converted from the conventional mixer to an audio object reproducing apparatus be fed. Further, it is preferred to also have an audio recording module which records the output channels of the mixer in a time code controlled manner and stores the audio data on the playback module. The rendering module will receive a start time code to play a particular audio object in conjunction with a respective output channel supplied to the player 126 from the imaging device 18. The recording / playback device can independently start and stop the playback of individual audio objects, depending on the description of the start time and the stop time point associated with an audio object. Once the merge procedure is completed, the audio content may be taken from the player module and exported to the distribution file format. The distribution file format thus contains a finished scene log of a finished mixed scene. The goal of the user interface concept according to the invention is to implement a hierarchical structure which is adapted to the tasks of the cinema mixing process. Here, an audio object is considered as a source that exists as a representation of the individual audio object for a given time. A start time and a stop / end time are typical for a source, ie for an audio object. The source or audio object needs resources of the system during the time that the object or source "lives".

Vorzugsweise umfaßt jede Tonquelle neben der Startzeit und der Stoppzeit auch Metadaten. Diese Metadaten sind "Typ" (zu einem bestimmten Zeitpunkt eine ebene Welle oder eine Punktquelle), "Richtung", "Lautstärke", "Stummschaltung" und "Flags" für eine richtungsabhängige Lautheit und ein richtungsabhängiges Delay. Alle diese Metadaten können automatisiert verwendet werden.Preferably, each sound source includes metadata in addition to the start time and the stop time. These metadata are "type" (a level wave or point source at a given time), "direction," "volume," "mute," and "flags" for directional loudness and directional delay. All of this metadata can be used automatically.

Ferner wird es bevorzugt, daß trotz des Objekt-orientierten Lösungsansatzes das erfindungsgemäße Autorensystem auch dem herkömmlichen Kanalkonzept dahingehend dient, daß z. B. Objekte, die über dem gesamten Film bzw. allgemein über der gesamten Szene "lebendig" sind, auch einen eigenen Kanal bekommen. Dies bedeutet, daß diese Objekte im Prinzip einfache Kanäle in 1:1-Umsetzung, wie sie anhand von Fig. 6 dargelegt wird, darstellen.Furthermore, it is preferred that despite the object-oriented approach, the authoring system according to the invention also serves the conventional channel concept in that z. B. objects, who are "alive" throughout the film or generally over the entire scene, also get their own channel. This means that these objects are in principle simple channels in 1: 1 implementation as they are based on Fig. 6 is presented.

Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung können wenigstens zwei Objekte gruppiert werden. Für jede Gruppe ist es möglich, auszuwählen, welche Parameter gruppiert sein sollen, und auf welche Weise dieselben unter Verwendung des Masters der Gruppe berechnet werden sollen. Gruppen von Schallquellen existieren für eine gegebene Zeit, welche durch die Startzeit und die Endzeit der Mitglieder definiert ist.In a preferred embodiment of the present invention, at least two objects may be grouped. For each group it is possible to choose which parameters should be grouped and how they should be calculated using the master of the group. Groups of sound sources exist for a given time, which is defined by the start time and the end time of the members.

Ein Beispiel für den Nutzen von Gruppen besteht darin, dieselben für virtuelle Standard-Surround-Setups zu verwenden. Diese könnten verwendet werden für das virtuelle Ausblenden aus einer Szene oder das virtuelle Hineinzoomen in eine Szene. Alternativ kann die Gruppierung auch verwendet werden, um Surround-Nachhalleffekte zu integrieren und in ein WFS-Mix aufzuzeichnen.An example of using groups is to use them for standard virtual surround setups. These could be used for fading out of a scene or zooming in on a scene. Alternatively, the grouping can also be used to integrate surround reverb effects and record into a WFS mix.

Ferner wird es bevorzugt, eine weitere logische Entität zu bilden, nämlich die Layer oder Schicht. Um eine Mischung oder eine Szene zu strukturieren, werden bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung Gruppen und Quellen in unterschiedlichen Schichten angeordnet. Unter Verwendung von Schichten können in der Audio-Workstation Pre Dubs simuliert werden. Schichten können auch verwendet werden, um Anzeigeattribute während des Autorenprozesses zu ändern, beispielsweise um unterschiedliche Teile des aktuellen Mischgegenstands anzuzeigen oder zu verstecken.Further, it is preferable to form another logical entity, namely the layer or layer. In order to structure a mixture or a scene, in a preferred embodiment of the present invention groups and sources are arranged in different layers. Using layers, pre-dubs can be simulated in the audio workstation. Layers can also be used to change display attributes during the authoring process, for example to show or hide different parts of the current mix item.

Eine Szene besteht aus allen vorher erörterten Komponenten für eine gegebene Zeitdauer. Diese Zeitdauer könnte eine Filmspule oder auch z. B. der gesamte Film sein, oder aber nur z. B. ein Filmabschnitt bestimmter Dauer, wie beispielsweise fünf Minuten. Die Szene besteht wiederum aus einer Anzahl von Layern, Gruppen und Quellen, die zu der Szene gehören.A scene consists of all previously discussed components for a given period of time. This period could be a film spool or z. B. be the entire movie, or else only z. B. a movie section of certain duration, such as five minutes. The scene again consists of a number of layers, groups, and sources that belong to the scene.

Vorzugsweise sollte die komplette Benutzerschnittstelle 20 sowohl einen Graphiksoftwareteil als auch einen Hardwareteil umfassen, um eine haptische Steuerung zu erlauben. Obgleich dies bevorzugt wird, könnte die Benutzerschnittstelle jedoch auch aus Kostengründen vollständig als Softwaremodul implementiert sein.Preferably, the complete user interface 20 should include both a graphics software part and a hardware part to allow haptic control. However, although this is preferred, the user interface could also be fully implemented as a software module for cost reasons.

Ein Entwurfskonzept für das graphische System wird verwendet, das auf sogenannten "Spaces" basiert. In der Benutzerschnittstelle existiert eine kleine Anzahl von unterschiedlichen Spaces. Jeder Space ist eine spezielle Editierumgebung, die das Projekt aus einem unterschiedlichen Ansatz zeigt, wobei alle Werkzeuge zur Verfügung stehen, die für einen Space benötigt werden. Daher müssen nicht länger verschiedene Fenster beachtet werden. Alle für eine Umgebung benötigten Werkzeuge befinden sich in dem entsprechenden Space.A design concept for the graphical system is used, which is based on so-called "spaces". There are a small number of different spaces in the user interface. Each space is a special editing environment that presents the project from a different approach, with all the tools needed for a space. Therefore, you no longer have to pay attention to different windows. All tools needed for an environment are in the appropriate space.

Um dem Toningenieur einen Überblick über alle Audiosignale zu einem gegebenen Zeitpunkt zu geben, wird der bereits anhand der Fig. 3a und 3b beschriebene adaptive Misch-Space verwendet. Derselbe kann mit einem herkömmlichen Mischpult verglichen werden, das nur die aktiven Kanäle anzeigt. Beim adaptiven Mixing Space werden statt der reinen Kanalinformationen auch Audioobjektinformationen präsentiert. Diese Objekte sind, wie es dargestellt worden ist, durch die Abbildungseinrichtung 18 von Fig. 1 Eingangskanälen der WFS-Rendering-Einheit zugeordnet. Neben dem adaptiven Misch-Space existiert auch der sogenannte Timeline-Space, der einen Überblick über alle Eingangskanäle liefert. Jeder Kanal wird mit seinen entsprechenden Objekten dargestellt. Der Benutzer hat die Möglichkeit, die Objekt-zu-Kanal-Zuordnung zu verwenden, obgleich aus Einfachheitsgründen eine automatische Kanalzuordnung bevorzugt wird.To give the sound engineer an overview of all audio signals at a given time, the already on the basis of Fig. 3a and 3b described adaptive mixing space used. It can be compared to a conventional mixer that only displays the active channels. The adaptive mixing space also presents audio object information instead of pure channel information. As has been shown, these objects are represented by the imaging device 18 of FIG Fig. 1 Input channels assigned to the WFS rendering unit. In addition to the adaptive mixing space there is also the so-called timeline space, which provides an overview of all input channels. Each channel is displayed with its corresponding objects. The user has the option of object-to-channel assignment although for simplicity, automatic channel assignment is preferred.

Ein weiterer Space ist der Positionier-und-Editier-Space, der die Szene in einer dreidimensionalen Ansicht zeigt. Dieser Space soll den Benutzer in die Lage versetzen, Bewegungen der Quellenobjekte aufzuzeichnen bzw. zu editieren. Bewegungen können unter Verwendung beispielsweise eines Joysticks oder unter Verwendung anderer Eingabe/Anzeigegeräte erzeugt werden, wie sie für graphische Benutzerschnittstellen bekannt sind.Another space is the positioning and editing space, which shows the scene in a three-dimensional view. This space is to enable the user to record or edit movements of the source objects. Movements can be generated using, for example, a joystick or other input / display devices known for graphical user interfaces.

Schließlich existiert ein Room-Space, der das Raumsimulationsmodul 124 von Fig. 4 unterstützt, um auch eine Raumeditiermöglichkeit zu liefern. Jeder Raum wird durch einen bestimmten Parametersatz beschrieben, der in einer Raum-Voreinstellungs-Bibliothek gespeichert wird. Abhängig von dem Raummodell können verschiedene Arten von Parametersätzen sowie verschiedene graphische Benutzerschnittstellen eingesetzt werden.Finally, there is a room space that contains the room simulation module 124 of FIG Fig. 4 supports to also provide a room editing option. Each room is described by a particular set of parameters stored in a Room Presets library. Depending on the room model, different types of parameter sets as well as different graphical user interfaces can be used.

Abhängig von den Gegebenheiten kann das erfindungsgemäße Verfahren zum Erzeugen einer Audiodarstellung in Hardware oder in Software implementiert werden. Die Implementierung kann auf einem digitalen Speichermedium, insbesondere einer Diskette oder CD mit elektronisch auslesbaren Steuersignalen erfolgen, die so mit einem programmieren Computersystem zusammenwirken können, daß das erfindungsgemäße Verfahren ausgeführt wird. Die Erfindung besteht somit auch in einem Computer-Programm-Produkt mit einem auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung des erfindungsgemäßen Verfahrens, wenn das Computer-Programm-Produkt auf einem Rechner abläuft. In anderen Worten ausgedrückt ist die Erfindung somit auch ein Computer-Programm mit einem Programmcode zur Durchführung des Verfahrens, wenn das Computer-Programm auf einem Computer abläuft. Depending on the circumstances, the inventive method for generating an audio representation in hardware or in software can be implemented. The implementation may be on a digital storage medium, in particular a floppy disk or CD with electronically readable control signals, which may interact with a programmed computer system so as to carry out the inventive method. The invention thus also consists in a computer program product with a program code stored on a machine-readable carrier for carrying out the method according to the invention, when the computer program product runs on a computer. In other words, the invention is thus also a computer program with a program code for carrying out the method when the computer program runs on a computer.

Claims (16)

  1. Apparatus for generating, storing, or editing an audio representation of an audio scene, comprising:
    audio processing means (12) for generating a plurality of speaker signals from a plurality of input channels (EK1, EK2, ..., Ekm) (16);
    means (10) for providing an object-oriented description of the audio scene, wherein the object-oriented description of the audio scene includes a plurality of audio objects, wherein an audio object is associated with an audio signal, a starting time instant, and an end time instant; and
    mapping means (18) for mapping the object-oriented description of the audio scene to the plurality of input channels of the audio processor, wherein the mapping means is configured to assign a first audio object to an input channel, and to assign a second audio object whose starting time instant lies after the end time instant of the first audio object to the same input channel, and to assign a third audio object whose starting time instant lies after the starting time instant of the first audio object and before the end time instant of the first audio object to another of the plurality of input channels.
  2. Apparatus of claim 1, wherein the audio processing means (12) includes wave-field synthesizing means (122) configured to calculate the plurality of speaker signals for the speakers, knowing positions of a plurality of speakers.
  3. Apparatus of claim 1 or 2, wherein the audio object is further associated with a virtual position, and wherein the audio processing means (12) is configured to take the virtual positions of the audio objects into account in generating the plurality of speaker signals.
  4. Apparatus of any one of the preceding claims, wherein the audio processing means (12) is coupled to the means (10) for providing exclusively via the mapping means (18), to receive audio object data to be processed.
  5. Apparatus of one of the preceding claims, wherein a number of input channels of the audio processing means is predetermined and is smaller than an allowed number of audio objects in the audio scene, wherein at least two audio objects are present that do not overlap temporally.
  6. Apparatus of one of the preceding claims, further comprising a user interface (20), wherein the user interface comprises a number of separate user interface channels, wherein a user interface channel is associated with an input channel of the audio processor, and wherein the user interface (20) is coupled to the mapping means (80) to identify the audio object just assigned to the user interface channel at a time instant.
  7. Apparatus of claim 6, wherein the user interface (20) is configured to identify user interface channels associated with input channels of the audio processing means to which currently one audio object is assigned.
  8. Apparatus of claim 7, wherein the user interface is configured as hardware mixing console having hardware manipulating means for each user interface channel, and wherein each hardware manipulating means is associated with an indicator to identify a currently active user interface channel.
  9. Apparatus of claim 7, wherein the user interface comprises a graphical user interface configured to display, on an electrical display device, only the user interface channels associated with an input channel of the audio processing means to which currently one audio object is assigned.
  10. Apparatus of one of claims 6 to 9, wherein the user interface (20) further comprises a manipulating means for a user interface channel, which is configured to manipulate an audio object assigned to the input channel of the audio processing means (12), which corresponds to the user interface channel, wherein the user interface is coupled to the means (10) for providing to replace an audio object by a manipulated version thereof, and wherein the mapping means (18) is configured to assign, instead of the audio object, the manipulated version thereof to an input channel of the audio processing means (12).
  11. Apparatus of claim 10, wherein the manipulating means is configured to change position, type, or audio signal of an audio object.
  12. Apparatus of one of claims 6 to 9, wherein the user interface is configured to illustrate a temporal occupation for a user interface channel, wherein the temporal occupation represents a temporal sequence of the audio objects assigned to a user interface channel, and wherein the user interface is further configured to mark a current time instant (37) in the temporal occupation.
  13. The apparatus of claim 12, wherein the user interface (20) is configured to illustrate the temporal occupation as time axis, which comprises the assigned audio objects proportional to their length as well as an indicator (37) moving with time proceeding.
  14. Apparatus of one of the preceding claims,
    wherein the means (10) for providing is configured to permit grouping of audio objects such that the audio objects that are grouped are marked by group information with regard to their group membership, and
    wherein the mapping means (18) is configured to preserve the group information so that manipulation of a group property affects all members of the group, independently of the fact which input channel of the audio processing means the audio objects of the group are associated with.
  15. Method of generating, storing, or editing an audio representation of an audio scene, comprising:
    generating (12) a plurality of speaker signals from a plurality of input channels (EK1, EK2, ..., Ekm) (16);
    providing (10) an object-oriented description of the audio scene, wherein the object-oriented description of the audio scene includes a plurality of audio objects, wherein an audio object is associated with an audio signal, a starting time instant, and an end time instant; and
    mapping (18) the object-oriented description of the audio scene to the plurality of input channels of the audio processing means by assigning a first audio object to an input channel, and by assigning a second audio object whose starting time instant lies after the end time instant of the first audio object to the same input channel, and by assigning a third audio object whose starting time instant lies after the starting time instant of the first audio object and before the end time instant of the first audio object to another of the plurality of input channels.
  16. Computer program with a program code for performing the method of claim 15, when the program is executed on a computer.
EP04763715A 2003-08-04 2004-08-02 Device and method for the generation, storage or processing of an audio representation of an audio scene Expired - Lifetime EP1652405B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
EP04763715A EP1652405B1 (en) 2003-08-04 2004-08-02 Device and method for the generation, storage or processing of an audio representation of an audio scene

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP03017785 2003-08-04
DE10344638A DE10344638A1 (en) 2003-08-04 2003-09-25 Generation, storage or processing device and method for representation of audio scene involves use of audio signal processing circuit and display device and may use film soundtrack
PCT/EP2004/008646 WO2005017877A2 (en) 2003-08-04 2004-08-02 Device and method for the generation, storage or processing of an audio representation of an audio scene
EP04763715A EP1652405B1 (en) 2003-08-04 2004-08-02 Device and method for the generation, storage or processing of an audio representation of an audio scene

Publications (2)

Publication Number Publication Date
EP1652405A2 EP1652405A2 (en) 2006-05-03
EP1652405B1 true EP1652405B1 (en) 2008-03-26

Family

ID=34178382

Family Applications (1)

Application Number Title Priority Date Filing Date
EP04763715A Expired - Lifetime EP1652405B1 (en) 2003-08-04 2004-08-02 Device and method for the generation, storage or processing of an audio representation of an audio scene

Country Status (7)

Country Link
US (1) US7680288B2 (en)
EP (1) EP1652405B1 (en)
JP (1) JP4263217B2 (en)
CN (1) CN100508650C (en)
AT (1) ATE390824T1 (en)
DE (1) DE10344638A1 (en)
WO (1) WO2005017877A2 (en)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050058307A1 (en) * 2003-07-12 2005-03-17 Samsung Electronics Co., Ltd. Method and apparatus for constructing audio stream for mixing, and information storage medium
DE102005008333A1 (en) * 2005-02-23 2006-08-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Control device for wave field synthesis rendering device, has audio object manipulation device to vary start/end point of audio object within time period, depending on extent of utilization situation of wave field synthesis system
DE102005008343A1 (en) * 2005-02-23 2006-09-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for providing data in a multi-renderer system
DE102005008342A1 (en) * 2005-02-23 2006-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio-data files storage device especially for driving a wave-field synthesis rendering device, uses control device for controlling audio data files written on storage device
DE102005027978A1 (en) 2005-06-16 2006-12-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a loudspeaker signal due to a randomly occurring audio source
CA2621175C (en) * 2005-09-13 2015-12-22 Srs Labs, Inc. Systems and methods for audio processing
US7720240B2 (en) * 2006-04-03 2010-05-18 Srs Labs, Inc. Audio signal processing
DE602007012730D1 (en) * 2006-09-18 2011-04-07 Koninkl Philips Electronics Nv CODING AND DECODING AUDIO OBJECTS
EP2575129A1 (en) 2006-09-29 2013-04-03 Electronics and Telecommunications Research Institute Apparatus and method for coding and decoding multi-object audio signal with various channel
US9361295B1 (en) 2006-11-16 2016-06-07 Christopher C. Andrews Apparatus, method and graphical user interface for providing a sound link for combining, publishing and accessing websites and audio files on the internet
US10296561B2 (en) 2006-11-16 2019-05-21 James Andrews Apparatus, method and graphical user interface for providing a sound link for combining, publishing and accessing websites and audio files on the internet
KR101724326B1 (en) * 2008-04-23 2017-04-07 한국전자통신연구원 Method for generating and playing object-based audio contents and computer readable recordoing medium for recoding data having file format structure for object-based audio service
KR102149019B1 (en) * 2008-04-23 2020-08-28 한국전자통신연구원 Method for generating and playing object-based audio contents and computer readable recordoing medium for recoding data having file format structure for object-based audio service
EP2353161B1 (en) * 2008-10-29 2017-05-24 Dolby International AB Signal clipping protection using pre-existing audio gain metadata
TWI383383B (en) * 2008-11-07 2013-01-21 Hon Hai Prec Ind Co Ltd Audio processing system
EP2205007B1 (en) * 2008-12-30 2019-01-09 Dolby International AB Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
EP2465259A4 (en) * 2009-08-14 2015-10-28 Dts Llc Object-oriented audio streaming system
WO2011071928A2 (en) * 2009-12-07 2011-06-16 Pixel Instruments Corporation Dialogue detector and correction
DE102010030534A1 (en) * 2010-06-25 2011-12-29 Iosono Gmbh Device for changing an audio scene and device for generating a directional function
WO2012122397A1 (en) 2011-03-09 2012-09-13 Srs Labs, Inc. System for dynamically creating and rendering audio objects
US9380410B2 (en) * 2011-04-04 2016-06-28 Soundlink, Inc. Audio commenting and publishing system
MY181629A (en) * 2011-07-01 2020-12-30 Dolby Laboratories Licensing Corp System and tools for enhanced 3d audio authoring and rendering
US9078091B2 (en) * 2012-05-02 2015-07-07 Nokia Technologies Oy Method and apparatus for generating media based on media elements from multiple locations
WO2013167164A1 (en) * 2012-05-07 2013-11-14 Imm Sound S.A. Method and apparatus for layout and format independent 3d audio reproduction
US9264840B2 (en) * 2012-05-24 2016-02-16 International Business Machines Corporation Multi-dimensional audio transformations and crossfading
CN105264600B (en) 2013-04-05 2019-06-07 Dts有限责任公司 Layered Audio Coding and Transmission
CN105247611B (en) 2013-05-24 2019-02-15 杜比国际公司 Encoding of audio scenes
EP3270375B1 (en) 2013-05-24 2020-01-15 Dolby International AB Reconstruction of audio scenes from a downmix
ES2640815T3 (en) 2013-05-24 2017-11-06 Dolby International Ab Efficient coding of audio scenes comprising audio objects
EP3312835B1 (en) * 2013-05-24 2020-05-13 Dolby International AB Efficient coding of audio scenes comprising audio objects
CN105264914B (en) 2013-06-10 2017-03-22 株式会社索思未来 Audio reproduction device and method
CN104240711B (en) 2013-06-18 2019-10-11 杜比实验室特许公司 Method, system and apparatus for generating adaptive audio content
BR112016004299B1 (en) 2013-08-28 2022-05-17 Dolby Laboratories Licensing Corporation METHOD, DEVICE AND COMPUTER-READABLE STORAGE MEDIA TO IMPROVE PARAMETRIC AND HYBRID WAVEFORM-ENCODIFIED SPEECH
EP3127109B1 (en) * 2014-04-01 2018-03-14 Dolby International AB Efficient coding of audio scenes comprising audio objects
CA2947549C (en) * 2014-05-30 2023-10-03 Sony Corporation Information processing apparatus and information processing method
EP3254477A1 (en) 2015-02-03 2017-12-13 Dolby Laboratories Licensing Corporation Adaptive audio construction
GB201719854D0 (en) * 2017-11-29 2018-01-10 Univ London Queen Mary Sound effect synthesis
GB201800920D0 (en) 2018-01-19 2018-03-07 Nokia Technologies Oy Associated spatial audio playback
EP3683794B1 (en) * 2019-01-15 2021-07-28 Nokia Technologies Oy Audio processing
CN113748459A (en) 2019-04-15 2021-12-03 杜比国际公司 Dialog enhancement in audio codecs
GB2589870A (en) * 2019-12-10 2021-06-16 Nokia Technologies Oy Placing a sound within content

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01279700A (en) * 1988-04-30 1989-11-09 Teremateiiku Kokusai Kenkyusho:Kk Acoustic signal processor
JPH04225700A (en) * 1990-12-27 1992-08-14 Matsushita Electric Ind Co Ltd Audio reproducing device
JPH06246064A (en) * 1993-02-23 1994-09-06 Victor Co Of Japan Ltd Additional equipment for tv game machine
JP3492404B2 (en) * 1993-12-24 2004-02-03 ローランド株式会社 Sound effect device
US7085387B1 (en) * 1996-11-20 2006-08-01 Metcalf Randall B Sound system and method for capturing and reproducing sounds originating from a plurality of sound sources
AU1049899A (en) * 1997-11-29 1999-06-16 Koninklijke Philips Electronics N.V. A method and device for interfacing variable-rate sampled digital audio information to a string of uniform-sized blocks, and a unitary medium so produced by write-interfacing
US6054989A (en) * 1998-09-14 2000-04-25 Microsoft Corporation Methods, apparatus and data structures for providing a user interface, which exploits spatial memory in three-dimensions, to objects and which provides spatialized audio
GB2349762B (en) * 1999-03-05 2003-06-11 Canon Kk Image processing apparatus
US7149313B1 (en) * 1999-05-17 2006-12-12 Bose Corporation Audio signal processing
EP1209949A1 (en) * 2000-11-22 2002-05-29 Technische Universiteit Delft Wave Field Synthesys Sound reproduction system using a Distributed Mode Panel
GB0127778D0 (en) * 2001-11-20 2002-01-09 Hewlett Packard Co Audio user interface with dynamic audio labels
US20030035553A1 (en) * 2001-08-10 2003-02-20 Frank Baumgarte Backwards-compatible perceptual coding of spatial cues

Also Published As

Publication number Publication date
JP4263217B2 (en) 2009-05-13
WO2005017877A2 (en) 2005-02-24
EP1652405A2 (en) 2006-05-03
CN1849845A (en) 2006-10-18
WO2005017877A3 (en) 2005-04-07
US7680288B2 (en) 2010-03-16
US20050105442A1 (en) 2005-05-19
ATE390824T1 (en) 2008-04-15
CN100508650C (en) 2009-07-01
DE10344638A1 (en) 2005-03-10
JP2007501553A (en) 2007-01-25

Similar Documents

Publication Publication Date Title
EP1652405B1 (en) Device and method for the generation, storage or processing of an audio representation of an audio scene
DE10328335B4 (en) Wavefield syntactic device and method for driving an array of loud speakers
DE69130528T2 (en) SOUND MIXER
EP1844628B1 (en) Device and method for activating an electromagnetic field synthesis renderer device with audio objects
DE10254404B4 (en) Audio reproduction system and method for reproducing an audio signal
EP1872620B9 (en) Apparatus and method for controlling a plurality of loudspeakers by means of a graphic user interface
EP3756363A1 (en) Apparatus and method for object-based spatial audio-mastering
EP1844627B1 (en) Device and method for simulating an electromagnetic field synthesis system
EP1782658B1 (en) Device and method for controlling a plurality of loudspeakers by means of a dsp
DE10321980B4 (en) Apparatus and method for calculating a discrete value of a component in a loudspeaker signal
EP1878308B1 (en) Device and method for generation and processing of sound effects in spatial audio reproduction systems using a graphical user interface
EP1851998B1 (en) Device and method for delivering data in a multi-renderer system
DE112021003592T5 (en) Information processing apparatus, output control method and program
DE2850490A1 (en) DEVICE FOR MULTI-DIMENSIONAL SIGNAL DISTRIBUTION
DE102006017791A1 (en) Audio-visual signal reproducer e.g. CD-player, has processing device producing gradient in audio pressure distribution, so that pressure level is increased inversely proportional to angles between tones arrival directions and straight line
DE102005008333A1 (en) Control device for wave field synthesis rendering device, has audio object manipulation device to vary start/end point of audio object within time period, depending on extent of utilization situation of wave field synthesis system
DE102006010212A1 (en) Apparatus and method for the simulation of WFS systems and compensation of sound-influencing WFS properties
WO2006089685A1 (en) Device and method for storing audio files
DE102010009170B4 (en) Method for processing and/or mixing sound tracks
DE2503778B2 (en) SOUND TRANSMISSION SYSTEM WITH AT LEAST FOUR CHANNELS AND WITH A SOUND RECORDING DEVICE
EP1410685A2 (en) Multichannel sound editing system

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20050527

AK Designated contracting states

Kind code of ref document: A2

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LI LU MC NL PL PT RO SE SI SK TR

DAX Request for extension of the european patent (deleted)
RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: FRAUNHOFER-GESELLSCHAFT ZUR FOERDERUNG DER ANGEWAN

RIN1 Information on inventor provided before grant (corrected)

Inventor name: MUENNICH, KATHRIN

Inventor name: ROEDER, THOMAS

Inventor name: LANGHAMMER, JAN

Inventor name: MELCHIOR, FRANK

Inventor name: BRIX, SANDRA

RIN1 Information on inventor provided before grant (corrected)

Inventor name: REICHELT, KATHRIN

Inventor name: ROEDER, THOMAS

Inventor name: LANGHAMMER, JAN

Inventor name: MELCHIOR, FRANK

Inventor name: BRIX, SANDRA

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LI LU MC NL PL PT RO SE SI SK TR

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REG Reference to a national code

Ref country code: IE

Ref legal event code: FG4D

Free format text: LANGUAGE OF EP DOCUMENT: GERMAN

Ref country code: CH

Ref legal event code: EP

REF Corresponds to:

Ref document number: 502004006676

Country of ref document: DE

Date of ref document: 20080508

Kind code of ref document: P

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

Ref country code: PL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

ET Fr: translation filed
REG Reference to a national code

Ref country code: IE

Ref legal event code: FD4D

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

Ref country code: SE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080626

Ref country code: PT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080901

Ref country code: ES

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080707

Ref country code: CZ

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: RO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

Ref country code: DK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

26N No opposition filed

Effective date: 20081230

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MC

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20080831

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: EE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

Ref country code: BG

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080626

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LI

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20080831

Ref country code: CH

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20080831

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: BE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20080831

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: CY

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: AT

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20080802

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LU

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20080802

Ref country code: HU

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080927

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: TR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080326

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20080627

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 13

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 14

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 15

P01 Opt-out of the competence of the unified patent court (upc) registered

Effective date: 20230524

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: NL

Payment date: 20230823

Year of fee payment: 20

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20230824

Year of fee payment: 20

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20230821

Year of fee payment: 20

Ref country code: DE

Payment date: 20230822

Year of fee payment: 20

REG Reference to a national code

Ref country code: DE

Ref legal event code: R071

Ref document number: 502004006676

Country of ref document: DE

REG Reference to a national code

Ref country code: NL

Ref legal event code: MK

Effective date: 20240801

REG Reference to a national code

Ref country code: GB

Ref legal event code: PE20

Expiry date: 20240801

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GB

Free format text: LAPSE BECAUSE OF EXPIRATION OF PROTECTION

Effective date: 20240801

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GB

Free format text: LAPSE BECAUSE OF EXPIRATION OF PROTECTION

Effective date: 20240801