DE102013211283B4 - Playback of audio data using distributed electroacoustic transducers in networked mobile devices - Google Patents
Playback of audio data using distributed electroacoustic transducers in networked mobile devices Download PDFInfo
- Publication number
- DE102013211283B4 DE102013211283B4 DE102013211283.1A DE102013211283A DE102013211283B4 DE 102013211283 B4 DE102013211283 B4 DE 102013211283B4 DE 102013211283 A DE102013211283 A DE 102013211283A DE 102013211283 B4 DE102013211283 B4 DE 102013211283B4
- Authority
- DE
- Germany
- Prior art keywords
- terminals
- sound field
- local
- network
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims abstract description 40
- 230000006870 function Effects 0.000 claims abstract description 13
- 238000004891 communication Methods 0.000 claims description 9
- 230000005236 sound signal Effects 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 claims description 4
- 230000001413 cellular effect Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 description 11
- 230000004807 localization Effects 0.000 description 8
- 238000000926 separation method Methods 0.000 description 6
- 230000003044 adaptive effect Effects 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 241001136792 Alle Species 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 230000001629 suppression Effects 0.000 description 3
- 238000002592 echocardiography Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000012567 pattern recognition method Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/12—Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2460/00—Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
- H04R2460/07—Use of position data from wide-area or local-area positioning systems in hearing devices, e.g. program or information selection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/11—Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
Landscapes
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Verfahren zur Wiedergabe eines von einer virtuellen Quelle ausgehenden Schallfelds unter Verwendung mehrerer mobiler Endgeräte mit jeweils mindestens einem elektroakustischen Wandler in einem lokalen Raum, mit den Schritten Verbinden der Endgeräte durch ein Datennetz, Ermitteln der jeweiligen Positionen der Endgeräte in dem lokalen Raum unter Verwendung eines videobasierten Ortungsverfahrens, Bestimmen von Ansteuerungsfunktionen für die elektroakustischen Wandler zur Wiedergabe des Schallfelds auf der Basis eines über das Datennetz gesendeten Signals in Abhängigkeit der Position der virtuellen Quelle und der ermittelten Positionen der Endgeräte in dem lokalen Raum und Wiedergeben des Schallfelds durch die elektroakustischen Wandler in den Endgeräten.A method of reproducing a sound field emanating from a virtual source using a plurality of mobile terminals each having at least one electroacoustic transducer in a local space, comprising the steps of connecting the terminals through a data network, determining the respective positions of the terminals in the local space using a video-based one A locating method, determining driving functions for the electroacoustic transducers to reproduce the sound field based on a signal transmitted over the data network in dependence on the position of the virtual source and the detected positions of the terminals in the local space and reproducing the sound field by the electroacoustic transducers in the terminals ,
Description
Die vorliegende Erfindung betrifft die Synthese eines Schallfeldes für die räumliche Audiowiedergabe mittels mehrerer vernetzter Endgeräte, die mit Lautsprechern und vorzugsweise auch Mikrofonen ausgestattet sind, und insbesondere deren Einsatz in der räumlichen Vollduplex-Freisprechkommunikation.The present invention relates to the synthesis of a sound field for spatial audio reproduction by means of several networked terminals, which are equipped with speakers and preferably microphones, and in particular their use in the full-duplex, hands-free communication.
Allgemein werden bei mehrkanaliger Audiowiedergabe die Lautsprecher derart angesteuert, dass ein räumlicher Höreindruck in einem vordefinierten Bereich erzeugt wird. Hierbei sind zahlreiche Verfahren zur Audiowiedergabe oder zur physikalischen Synthese eines Schallfeldes bekannt. Beispielhaft sollen hier die Stereophonie, die Wellenfeldsynthese (siehe z. B. A. J. Berkhout, D. de Vries, und P. Vogel. Acoustic control by wave field synthesis. Journal of the Acoustical Society of America, Band 93(5): 2764–2778, Mai 1993) oder Higher-order-Ambisonics (J. Daniel, Representation de champs acoustiques, application à la transmission et à la reproduction de scènes sonores complexes dans un contexte multimedia, PhD thesis, Université Paris 6, 2001) genannt werden. Diese Verfahren der mehrkanaligen Wiedergabeverfahren gehen von festen vordefinierten Lautsprecherpositionen aus.In general, in multichannel audio playback, the loudspeakers are controlled such that a spatial hearing impression is generated in a predefined range. Here, numerous methods for audio playback or for the physical synthesis of a sound field are known. By way of example, stereophony, wavefield synthesis (see, for example, BAJ Berkhout, D. de Vries, and P. Vogel, Acoustic Control by wave field synthesis, Journal of the Acoustical Society of America, vol. 93 (5): 2764-2778), May 1993) or Higher-order-Ambisonics (J. Daniel, Representation of champs acoustics, application à la transmission de la reproduction de scènes sonores complexes dans un contexte multimedia, PhD thesis, Université Paris 6, 2001). These methods of multi-channel playback methods assume fixed predefined speaker positions.
Verfahren zur Echounterdrückung bzw. Echokompensation und zur Signalverbesserung insbesondere in der Vollduplexkommunikation unter Verwendung von Freisprecheinrichtungen sind beispielsweise in E. Hänsler, G. Schmidt, Topics in acoustic echo and noise control: selected methods for the cancellation of acoustical echoes, the reduction of background noise, and speech processing, Springer-Verlag, Berlin 2006 beschrieben.Methods for echo cancellation and for signal enhancement, in particular in full-duplex communication using hands-free equipment, are described, for example, in E. Hänsler, G. Schmidt, Topics in acoustic echo and noise control, the reduction of background noise , and speech processing, Springer-Verlag, Berlin 2006 described.
Die
Die
Die
Die
Mit der vorliegenden Erfindung werden ein verbessertes Verfahren und eine Vorrichtung zur Wiedergabe eines Schallfelds bereitgestellt, die vorteilhaft insbesondere in der Vollduplexkommunikation eingesetzt werden können. Gemäß der Erfindung werden zur Schallfeldsynthese mehrere mobile, miteinander vernetzte Endgeräte, insbesondere Smartphones, verwendet.The present invention provides an improved method and a device for reproducing a sound field, which can advantageously be used in particular in full-duplex communication. According to the invention, a plurality of mobile, networked terminals, in particular smartphones, are used for sound field synthesis.
Die vorliegende Erfindung wird durch die unabhängigen Ansprüche definiert. Die abhängigen Ansprüche definieren Ausführungsformen der Erfindung.The present invention is defined by the independent claims. The dependent claims define embodiments of the invention.
Mit der vorliegenden Erfindung wird ein Verfahren zur Wiedergabe eines von einer virtuellen Quelle ausgehenden Schallfelds unter Verwendung mehrerer mobiler Endgeräte mit jeweils einem elektroakustischen Wandler in einem lokalen Raum bereitgestellt, wobei die Endgeräte durch ein Datennetz verbunden werden. Zunächst werden die jeweiligen Positionen der Endgeräte in dem lokalen Raum bestimmt. Auf der Basis eines über das Datennetz gesendeten Signals werden Ansteuerungsfunktionen für die elektroakustischen Wandler zur Wiedergabe des Schallfelds in Abhängigkeit der Position der virtuellen Quelle und der ermittelten Positionen der Endgeräte in dem lokalen Raum bestimmt. Unter Verwendung der so ermittelten Ansteuerungsfunktionen wird das Schallfelds durch die elektroakustischen Wandler in den Endgeräten wiedergegeben.The present invention provides a method of reproducing a sound field emanating from a virtual source using a plurality of mobile terminals each having an electroacoustic transducer in a local space, the terminals being connected by a data network. First, the respective positions of the terminals in the local space are determined. On the basis of a signal transmitted over the data network, driving functions for the electroacoustic transducers for reproducing the sound field are determined as a function of the position of the virtual source and the determined positions of the terminals in the local space. Using the thus determined driving functions, the sound field is reproduced by the electro-acoustic transducers in the terminals.
Zur Bestimmung der Position der Endgeräte wird ein videobasiertes Ortungsverfahren verwendet. Zusätzlich oder alternativ kann die Position der Endgeräte auch durch manuelle Eingabe durch den Benutzer bestimmt werden.To determine the position of the terminals, a video-based location method is used. Additionally or alternatively, the position of the terminals may also be determined by manual input by the user.
Die Endgeräte können durch ein sternförmiges Netzwerk mit einem externen oder einem lokalen Server, oder durch ein vollvermaschtes Netzwerk untereinander verbunden sein. Vorzugsweise ist das Netzwerk ein Funknetzwerk, insbesondere ein Mobilfunknetz wie GSM, GPRS, UMTS oder LTE, WLAN oder Bluetooth.The terminals may be interconnected by a star-shaped network with an external or a local server, or by a fully meshed network. The network is preferably a radio network, in particular a mobile radio network such as GSM, GPRS, UMTS or LTE, WLAN or Bluetooth.
Zur Kompensierung der durch die Übertragung des Signals verursachte Verzögerung wird vorzugsweise die Wiedergabe durch die einzelnen Endgeräte synchronisiert.To compensate for the delay caused by the transmission of the signal, playback is preferably synchronized by the individual terminals.
Der Inhalt des wiederzugebenden Schallfeld kann durch eines der Endgeräte ausgewählt werden. Dieser Inhalt kann insbesondere durch das über das Datennetz gesendete Signal dargestellt sein. Dies ist insbesondere der Fall, wenn der Inhalt des wiederzugebenden Schallfelds der Inhalt eines Audiosignals aus einem fernen Raum ist, beispielsweise des Audiosignals bei einem Telefonat (z. B. mittels GSM oder VoIP). Andererseits kann auch ein Inhalt wiedergegeben werden, der in allen Endgeräten vorhanden ist, beispielsweise in Form einer gespeicherten Audiodatei. Dann kann ein Zeitzeiger auf die Audiodatei über das Datennetz gesendet werden.The content of the sound field to be reproduced can be selected by one of the terminals. This content can be represented in particular by the signal transmitted via the data network. This is particularly the case when the content of the sound field to be reproduced is the content of an audio signal from a distant room, for example the audio signal during a telephone call (eg by means of GSM or VoIP). On the other hand, a content that is present in all terminals, for example in the form of a stored audio file, can also be reproduced. Then a time hand can be sent to the audio file over the data network.
Für das erfindungsgemäße Verfahren zur Vollduplex-Kommunikation zwischen einem fernen Raum und einem lokalen Raum wird zur Wiedergabe des Audiosignals in Form eines von einer virtuellen Quelle ausgehenden Schallfelds das oben beschriebene Verfahren verwendet. Weiterhin wird durch die mehreren mobiler Endgeräte das aus dem lokalen Raum in den fernen Raum zu übertragende akustischen Signals aufgenommen. Vorzugsweise weisen der lokale Server, der externe Server und/oder die einzelnen mobilen Endgeräte eine Vorrichtung zur Echokompensation auf.For the inventive method for full-duplex communication between a remote room and a local room, the method described above is used to reproduce the audio signal in the form of a sound field emanating from a virtual source. Furthermore, the plurality of mobile terminals record the acoustic signal to be transmitted from the local room to the distant room. The local server, the external server and / or the individual mobile terminals preferably have a device for echo compensation.
Durch die Erfindung wird weiterhin ein System zum Durchführen des erfindungsgemäßen Verfahrens bereit gestellt, wobei das System mehrere mobile Endgeräte, beispielsweise Smartphones, mit jeweils einem elektroakustischen Wandler aufweist, die über ein Datennetz verbunden sind.The invention further provides a system for carrying out the method according to the invention, wherein the system has a plurality of mobile terminals, for example smartphones, each having an electro-acoustic converter, which are connected via a data network.
Die Erfindung wird im Folgenden anhand von Ausführungsbeispielen unter Verweis auf die beigefügten Figuren näher beschrieben.The invention will be described in more detail below with reference to embodiments with reference to the accompanying figures.
Die Audiowiedergabe gemäß einer Ausführungsform der vorliegenden Erfindung wird im Folgenden ausführlich anhand des Ablaufs einer typischen Sitzung beschrieben, wobei eine Sitzung beispielsweise eine Telefonkonferenz oder die Wiedergabe einer vorbestimmten, über das Netzwerk übertragenen oder auf allen verwendeten Endgeräten (Smartphones) gespeicherten Audiodatei sein kann.The audio playback according to an embodiment of the present invention will be described below in detail with reference to the flow of a typical session, where a session may be, for example, a telephone conference or the playback of a predetermined audio file transmitted over the network or stored on all the terminals (smartphones) used.
Beim Starten einer solchen Sitzung geht das Verfahren prinzipiell von zwei Netzwerktopologien aus, wobei sich eine Topologie je nach Serverort in zwei Arten unterteilen lässt:
- 1A. Ein sternförmiges Netzwerk, worin alle lokalen Teilnehmer über Ihre Smartphones über einen zentralen Hauptknoten verbunden sind. Der Verbindungsaufbau zum Server erfolgt über Einwählen in einen zentralen Dienst (siehe
1a ). - 1B. Ein sternförmiges Netzwerk, worin alle lokalen Teilnehmer über Ihre Smartphones über einen lokalen Hauptknoten verbunden sind. Hier dient beispielsweise eines der Smartphone als Hotspot (siehe
1b ). - 2. Ein vollvermaschtes Netzwerk, in dem alle lokalen Teilnehmer miteinander über ein lokales bidirektionales Netzwerk, beispielsweise über ein Bluetooth-Netzwerk verbunden sind (siehe
1c ).
- 1A. A star-shaped network where all local subscribers are connected via their smartphones via a central hub. The connection to the server is made by dialing into a central service (see
1a ). - 1B. A star-shaped network where all local subscribers are connected via their smartphones via a local master node. For example, one of the smartphones serves as a hotspot here (see
1b ). - 2. A fully meshed network in which all local participants are connected to each other via a local bi-directional network, for example via a Bluetooth network (see
1c ).
Eine Sitzung kann von jedem Endgerät aus gestartet werden. Zur Anmeldung an einer Sitzung wird jedem Teilnehmer eine erkennbare Identifikationsnummer (ID) zugeordnet. Nach der Anmeldung übermitteln die Teilnehmer ihre aktuellen Positionen, die sie über übliche Lokalisierungsperipherie (z. B. GPS) berechnen können. Die Positionierung kann auch manuell erfolgen bzw. korrigiert werden, indem die Nutzer sequentiell ihre relativen Positionen annähernd eingeben. Zur manuellen Positionierung kann beispielsweise den Nutzern auf dem Display eine leere Karte von benachbarten Zellen gezeigt werden, worin die Nutzer ihre Zelle wählen, in der sie sich befinden.A session can be started from any terminal. To register at a meeting, each participant is assigned a recognizable identification number (ID). After logging in, the participants submit their current positions, which they can calculate using common localization peripherals (eg GPS). The positioning can also be done manually or corrected by the users sequentially entering their relative positions. For manual positioning, for example, the users on the display may be shown a blank map of neighboring cells in which the users select their cell in which they are located.
Eine andere Art der Lokalisierung kann erfolgen, indem alle Nutzer ihre Smartphones mit dem Display nach oben auf einer Oberfläche (beispielweise einem Besprechungsraumtisch) legen bis auf einen Nutzer, der dann die Kalibrierungsfunktion aufruft. In der Kalibrierungsfunktion werden auf den Displays der Smartphones der Teilnehmer verschiedene Muster und/oder Farben ausgegeben, die von der Kamera des Nutzers, der die Kalibrierungsfunktion gestartet hat, erfasst und ausgewertet werden. Mittels Standardverfahren der Mustererkennung werden somit die Positionen der teilnehmenden Smartphones ermittelt und zentral an alle Teilnehmer gesendet.Another type of localization can be done by all users placing their smartphones with the display facing up on a surface (for example, a meeting room table), except for a user who then calls the calibration function. In the calibration function, the subscribers' displays display various patterns and / or colors that are captured and evaluated by the user's camera that started the calibration function. By means of standard pattern recognition methods, the positions of the participating smartphones are thus determined and sent centrally to all subscribers.
Neben dieser Möglichkeit der videobasierten Lokalisierung kann auch eine auf Audiodaten basierte Lokalisierung durchgeführt werden. Dazu werden die Endgeräte der Teilnehmer aufgefordert, vordefinierte unterschiedliche Tonsequenzen abzuspielen. Diese werden mit den Mikrofonen des Endgeräts, worauf die Kalibrierfunktion durchgeführt wird, aufgenommen und mittels Standardverfahren der Audiolokalisierung lokal oder auf einem externen Server verarbeitet. Ein hierfür geeignetes Verfahren ist beispielsweise in H. Buchner, R. Aichner, und W. Kellermann, „TRINICON-based Blind System Identification with Application to Multiple-Source Localization and Separation”, in Blind Speech Separation, S. Makino, H. Sawada, und T.-W. Lee, Hrsg. Springer Netherlands, 2007, S. 101–147 beschrieben.In addition to this possibility of video-based localization, localization based on audio data can also be performed. For this purpose, the participants' devices are requested to play predefined different sound sequences. These are recorded with the microphones of the terminal on which the calibration function is performed and processed by means of standard methods of audio localization locally or on an external server. A suitable method for this purpose is described, for example, in H. Buchner, R. Aichner, and W. Kellermann, "TRINICON-based Blind System Identification with Application to Multiple-Source Localization and Separation", in Blind Speech Separation, S. Makino, H. Sawada, and T.-W. Lee, ed. Springer Netherlands, 2007, pp. 101-147.
Zur Verbesserung der Positionsbestimmung kann auch eine Kombination der vorgestellten Lokalisierungsverfahren angewendet werden.To improve the position determination, a combination of the presented localization methods can also be used.
Während einer Sitzung wird eine aktive Karte mit den Teilnehmern angezeigt, wie es schematisch in
Zur Wiedergabe durch Synthese des gewünschten Schallfeldes werden folgende Schritte durchgeführt:
- – Bestimmung der Ansteuerungsfunktion der Lautsprecher in Abhängigkeit von der gewünschten Position der virtuellen Quelle und der ermittelten geometrischen Anordnung. Es wird vorzugsweise zu jeder Quelle ein Satz von Lautsprechen (Smartphones) selektiert, die bei der Wiedergabe dieser virtuellen Quelle aktiv werden sollen.
- – Für die oben genannten zwei Fälle der Wiedergabe ist Folgendes zu beachten:
- – Inhalt nur an einem Gerät gespeichert: In diesem Fall wird jedem Teilnehmer, der entsprechend der Selektion bei der Wiedergabe einer bestimmten Quelle aktiv sein soll, der Inhalt zugesandt.
- – Alle Teilnehmer verfügen über den gesamten (musikalischen) wiederzugebenden Inhalt: Hier wird lediglich der Zeitzeiger auf die aktive Datei ermittelt.
- – Synchronisierung der Endgeräte. Es muss sichergestellt werden, dass die durch die Funkübertragung verursachte Verzögerung der Daten kompensiert wird.
- – Schnelle Faltung des wiederzugebenden Inhalts mit den eigenen Ansteuerungsfunktionen.
- - Determining the driving function of the speakers depending on the desired position of the virtual source and the determined geometric arrangement. Preferably, a set of voices (smartphones) are selected for each source to be active when playing this virtual source.
- - Please note the following for the above two cases of playback:
- - Contents stored on one device only: In this case, each participant who is to be active according to the selection when playing a particular source, the content is sent.
- - All participants have the entire (musical) content to be played back: here only the time hand is determined on the active file.
- - Synchronization of the terminals. It must be ensured that the data delay caused by the radio transmission is compensated.
- - Fast convolution of the content to be played with its own control functions.
Für eine Konferenzschaltung zur Vollduplexkommunikation wird im Folgenden zwischen der Wiedergabe- und Aufnahmetechnik unterschieden:
Für die Wiedergabe wird – wieder in Abhängigkeit von der Netzwerktopologie – zwischen drei Fällen unterschieden:
- 1A. Die lokalen Teilnehmer können einen Teilnehmer in einem fernen Ende über den externen Hauptknoten anwählen. In diesem Fall wird vorzugsweise auf dem Server ein Echokompensator (engl. Acoustic Echo Canceler, AEC – siehe beispielsweise E. Hänsler, G. Schmidt, Topics in acoustic echo and noise control: selected methods for the cancellation of acoustical echoes, the reduction of background noise, and speech processing, Springer-Verlag, Berlin 2006 oder H. Buchner, J. Benesty, und W. Kellermann, Generalized multichannel frequency-domain adaptive filtering: efficient realization and application to hands-free speech communication, Signal Processing, Bd. 85, Nr. 3, S. 549–570, 2005) oder Echounterdrücker (engl. Acoustic Echo Suppressor, AES – siehe beispielsweise C. Faller and C. Tournery, Stereo acoustic echo control using a simplified echo path model, in Proc. IWAENC, 2006 oder
EP 1 715 669 A1 - 1B. Nur der Teilnehmer, dessen Smartphone oder Endgerät als Server dient, kann einen Teilnehmer im fernen Ende anrufen. Dann wird der Echounterdrücker (bzw. -kompensator) vorzugsweise auf diesem Gerät implementiert sein.
- 2. Jeder Teilnehmer kann selbst über den eigenen Mobilfunkanbieter einen Teilnehmer in einem fernen Ende anrufen und das Sprachsignal dieses im nahen Ende je nach gewünschter Position der virtuellen Quelle über dem lokalen Netzwerk weiterreichen (ausstrahlen). In diesem Szenario sollte der Echounterdrücker (bzw. -kompensator) auf jedem der beteiligten Endgeräte implementiert sein.
Again, depending on the network topology, a distinction is made between three cases:
- 1A. The local subscribers can dial a subscriber in a far end via the external main node. In this case, preferably an echo canceller (Acoustic Echo Canceler, AEC - see, for example, E. Hänsler, G. Schmidt, Topics in acoustic echo and noise control: selected methods for the cancellation of acoustical echoes, the reduction of background Noise and speech processing, Springer-Verlag, Berlin 2006 or H. Buchner, J. Benesty, and W. Kellermann, Generalized multichannel frequency-domain adaptive filtering: efficient realization and application to hands-free speech communication, Signal Processing, Vol. 85, No. 3, pp. 549-570, 2005) or acoustic echo suppressors, AES - see, for example, C. Faller and C. Tournery, Stereo acoustic echo control using a simplified echo path model, in Proc. IWAENC , 2006 or
EP 1 715 669 A1 - 1B. Only the subscriber whose smartphone or terminal serves as a server can call a subscriber in the far end. Then, the echo canceller (or compensator) will preferably be implemented on this device.
- 2. Each subscriber can even call a subscriber in a far end via their own mobile service provider and pass on the voice signal in the near end depending on the desired position of the virtual source on the local network (broadcast). In this scenario, the echo suppressor (or compensator) should be implemented on each of the participating terminals.
Genau wie auf der Wiedergabeseite stehen auch auf der Aufnahmeseite mehrere elektroakustische Wandler aufgrund der im lokalen Raum verteilten Endgeräte zur Verfügung. Grundsätzlich kann die mehrkanalige Aufnahme ebenfalls für eine räumliche Verarbeitung genutzt werden, insbesondere für die Unterdrückung von Störsignalen. Bei der Aufnahme sieht die Erfindung deshalb die Anwendung von bereits bekannten mehrkanaligen adaptiven Verfahren zur blinden Quellentrennung (siehe z. B. H. Buchner, R. Aichner, und W. Kellermann, „TRINICON-based Blind System Identification with Application to Multiple-Source Localization and Separation”, in Blind Speech Separation, S. Makino, H. Sawada, und T.-W. Lee, Hrsg. Springer Netherlands, 2007, S. 101–147) und Interferenzunterdrückung (Beamforming, beschrieben beispielsweise in Brandstein und D. Ward, Microphone arrays: signal processing techniques and applications, Birkhäuser 2001), ein- und mehrkanalige Rauschunterdrückung, wie ebenfalls in den oben genannten Veröffentlichungen von Brandstein und D. Ward bzw. von E. Hänsler und G. Schmidt beschrieben) vor, wobei die bereits ermittelten Positionen der Endgeräte (siehe oben) als Vorinformation über die Position der Mikrofone dienen kann. Des Weiteren ist eine einfache Selektion der zu verwendenden Mikrofone bei der Aufnahme möglich, z. B. basierend auf Schätzungen von Signal-zu-Rauschleistungsverhältnissen.Just as on the playback side, several electroacoustic transducers are also available on the recording side due to the terminals distributed in the local area. In principle, the multi-channel recording can also be used for spatial processing, in particular for the suppression of interference signals. When recording, the invention therefore sees the application of already known multi-channel adaptive methods for blind source separation (see, for example, BH Buchner, R. Aichner, and W. Kellermann, "TRINICON-based Blind System Identification with Application to Multiple-Source Localization and Separation In Blind Speech Separation, S. Makino, H. Sawada, and T.-W. Lee, Ed. Springer Netherlands, 2007, pp. 101-147) and interference suppression (beamforming, described, for example, in Brandstein and D. Ward. Microphone arrays: signal processing techniques and applications, Birkhäuser 2001), single- and multi-channel noise suppression, as also described in the above-mentioned publications by Brandstein and D. Ward or by E. Hänsler and G. Schmidt), wherein the already determined Positions of the terminals (see above) can serve as a pre-information about the position of the microphones. Furthermore, a simple selection of the microphones to be used during recording is possible, for. Based on estimates of signal-to-noise power ratios.
Die Erfindung sieht auch eine eventuelle Kombination der genannten Verfahren zur Signalverbesserung vor. So kann beispielsweise ein hierarchischer Ansatz verfolgt werden, in dem zunächst ein Cluster von Teilnehmern durch einfache Selektion gebildet werden kann und dann eine blinde Quellentrennung in diesem Cluster durchgeführt wird.The invention also provides for a possible combination of said signal enhancement methods. Thus, for example, a hierarchical approach can be followed, in which initially a cluster of participants can be formed by simple selection and then a blind source separation is performed in this cluster.
Bei der Verarbeitung der Audiodaten wird wegen der möglichen Vielzahl von Kanälen aus Komplexitätsgründen vorzugsweise eine Parallelisierungsstrategie auf der als Server dienendem Rechner oder Endgerät verfolgt. So kann beispielsweist eine Verarbeitung im Transformationsbereich (siehe H. Buchner und S. Spors, A General Derivation of Wave-Domain Adaptive Filtering and Application to Acoustic Echo Cancellation, Proc. Asilomar Conference on Signals, Systems, and Computers, Pacific Grove, CA, USA, Okt. 2008 oder K. Helwani, H. Buchner, und S. Spors, Source-domain adaptive filtering for MIMO systems with application to acoustic echo cancellation, in IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2010), MapReduce (siehe J. Dean und S. Ghemawat, „MapReduce: simplified data processing on large clusters”, 6th Symposium on Operating Systems Design and Implementation, S. 107–113, 2004), oder eine Kombination dieser zum Einsatz kommen.In the processing of the audio data, a parallelization strategy is preferably pursued on the server or terminal serving as server because of the possible multiplicity of channels for complexity reasons. For example, processing in the Transform domain (see H. Buchner and S. Spors, A General Derivation of Wave Domain Adaptive Filtering and Application to Acoustic Echo Cancellation, Proc. Asilomar Conference on Signals, Systems, and Computers, Pacific Grove, CA, USA, Oct. 2008 or K. Helwani, H. Buchner, and S. Spors, Source-Domain Adaptive Filtering for MIMO Systems with Application to Acoustic Echo Cancellation, IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2010), MapReduce (see J. Dean and S. Ghemawat, "MapReduce: simplified data processing on large clusters", 6th Symposium on Operating Systems Design and Implementation, pp. 107-113, 2004), or a combination thereof ,
Obwohl die Erfindung mittels der Figuren und der zugehörigen Beschreibung dargestellt und detailliert beschrieben ist, sind diese Darstellung und diese detaillierte Beschreibung illustrativ und beispielhaft zu verstehen und nicht als die Erfindung einschränkend. Es versteht sich, dass Fachleute Änderungen und Abwandlungen machen können, ohne den Umfang der folgenden Ansprüche zu verlassen. Insbesondere umfasst die Erfindung ebenfalls Ausführungsformen mit jeglicher Kombination von Merkmalen, die vorstehend zu verschiedenen Aspekten und/oder Ausführungsformen genannt oder gezeigt sind.While the invention has been illustrated and described in detail by the figures and the accompanying description, this description and detailed description are to be considered illustrative and exemplary and not limiting as to the invention. It is understood that those skilled in the art can make changes and modifications without departing from the scope of the following claims. In particular, the invention also includes embodiments with any combination of features that are mentioned or shown above in various aspects and / or embodiments.
Die Erfindung umfasst ebenfalls einzelne Merkmale in den Figuren auch wenn sie dort im Zusammenhang mit anderen Merkmalen gezeigt sind und/oder vorstehend nicht genannt sind.The invention also includes individual features in the figures, even if they are shown there in connection with other features and / or not mentioned above.
Weiterhin schließt der Ausdruck „umfassen” und Ableitungen davon andere Elemente oder Schritte nicht aus. Ebenfalls schließt der unbestimmte Artikel „ein” bzw. „eine” und Ableitungen davon eine Vielzahl nicht aus. Die Funktionen mehrerer in den Ansprüchen aufgeführter Merkmale können durch eine Einheit erfüllt sein. Die Begriffe „im Wesentlichen”, „etwa”, „ungefähr” und dergleichen in Verbindung mit einer Eigenschaft beziehungsweise einem Wert definieren insbesondere auch genau die Eigenschaft beziehungsweise genau den Wert.Furthermore, the term "comprising" and derivatives thereof does not exclude other elements or steps. Also, the indefinite article "a" and "derivatives" and derivatives thereof do not exclude a variety. The functions of several features listed in the claims may be fulfilled by one unit. The terms "substantially", "approximately", "approximately" and the like in connection with a property or a value in particular also define precisely the property or exactly the value.
Claims (16)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102013211283.1A DE102013211283B4 (en) | 2013-06-17 | 2013-06-17 | Playback of audio data using distributed electroacoustic transducers in networked mobile devices |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102013211283.1A DE102013211283B4 (en) | 2013-06-17 | 2013-06-17 | Playback of audio data using distributed electroacoustic transducers in networked mobile devices |
Publications (2)
Publication Number | Publication Date |
---|---|
DE102013211283A1 DE102013211283A1 (en) | 2014-12-18 |
DE102013211283B4 true DE102013211283B4 (en) | 2018-01-11 |
Family
ID=52009780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102013211283.1A Active DE102013211283B4 (en) | 2013-06-17 | 2013-06-17 | Playback of audio data using distributed electroacoustic transducers in networked mobile devices |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE102013211283B4 (en) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6408327B1 (en) * | 1998-12-22 | 2002-06-18 | Nortel Networks Limited | Synthetic stereo conferencing over LAN/WAN |
US6850496B1 (en) * | 2000-06-09 | 2005-02-01 | Cisco Technology, Inc. | Virtual conference room for voice conferencing |
EP1715669A1 (en) * | 2005-04-19 | 2006-10-25 | Ecole Polytechnique Federale De Lausanne (Epfl) | A method for removing echo in an audio signal |
US20080160976A1 (en) * | 2006-12-27 | 2008-07-03 | Nokia Corporation | Teleconferencing configuration based on proximity information |
US20090116652A1 (en) * | 2007-11-01 | 2009-05-07 | Nokia Corporation | Focusing on a Portion of an Audio Scene for an Audio Signal |
US20090264114A1 (en) * | 2008-04-22 | 2009-10-22 | Jussi Virolainen | Method, apparatus and computer program product for utilizing spatial information for audio signal enhancement in a distributed network environment |
US20120129543A1 (en) * | 2010-11-19 | 2012-05-24 | Patel Biren R | Selectively formatting media during a group communication session |
-
2013
- 2013-06-17 DE DE102013211283.1A patent/DE102013211283B4/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6408327B1 (en) * | 1998-12-22 | 2002-06-18 | Nortel Networks Limited | Synthetic stereo conferencing over LAN/WAN |
US6850496B1 (en) * | 2000-06-09 | 2005-02-01 | Cisco Technology, Inc. | Virtual conference room for voice conferencing |
EP1715669A1 (en) * | 2005-04-19 | 2006-10-25 | Ecole Polytechnique Federale De Lausanne (Epfl) | A method for removing echo in an audio signal |
US20080160976A1 (en) * | 2006-12-27 | 2008-07-03 | Nokia Corporation | Teleconferencing configuration based on proximity information |
US20090116652A1 (en) * | 2007-11-01 | 2009-05-07 | Nokia Corporation | Focusing on a Portion of an Audio Scene for an Audio Signal |
US20090264114A1 (en) * | 2008-04-22 | 2009-10-22 | Jussi Virolainen | Method, apparatus and computer program product for utilizing spatial information for audio signal enhancement in a distributed network environment |
US20120129543A1 (en) * | 2010-11-19 | 2012-05-24 | Patel Biren R | Selectively formatting media during a group communication session |
Also Published As
Publication number | Publication date |
---|---|
DE102013211283A1 (en) | 2014-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101133633B (en) | Audio system and method for acoustic echo cancellation | |
JP4255461B2 (en) | Stereo microphone processing for conference calls | |
DE102014214052A1 (en) | Virtual masking methods | |
EP2084937B1 (en) | Method and apparatus for recording, transmitting, and playing back sound events for communication applications | |
EP3430819A1 (en) | Earphones having separate microphones for binaural recordings and for telephoning | |
DE112016004218T5 (en) | Method for stereophonic recording and binaural earphone unit | |
DE10153188C2 (en) | Device and method for multi-channel acoustic echo cancellation with a variable number of channels | |
AT507622B1 (en) | OHRAUFLIEGENDER HEADPHONES | |
DE10330808B4 (en) | Conference equipment and method for multipoint communication | |
JP5538249B2 (en) | Stereo headset | |
DE102013211283B4 (en) | Playback of audio data using distributed electroacoustic transducers in networked mobile devices | |
DE102011003450A1 (en) | Generation of user-adapted signal processing parameters | |
DE60037298T2 (en) | MANAGING LANGUAGE GROUPS IN A TELECOMMUNICATIONS SYSTEM | |
DE112019005697T5 (en) | Method of providing services using an ear hook | |
DE19926552B4 (en) | Headphones with microphone | |
DE102008032852A1 (en) | Communication device with functionality of a hearing aid | |
JP2004274147A (en) | Sound field localization type multipoint communication system | |
DE102021200553B4 (en) | Device and method for controlling a sound generator with synthetic generation of the differential signal | |
DE102008061844A1 (en) | Handset and headset | |
DE3706540A1 (en) | Device for improving the return loss or loop gain in intercom devices | |
AT8799U1 (en) | INTERNET HEADPHONES | |
DE102022204702A1 (en) | METHOD AND SYSTEM FOR PROCESSING REMOTE ACTIVE SPEECH DURING A CALL | |
DE102014116610A1 (en) | Digital telephone conference system, subscriber access and switching device, working method and computer program product | |
DE102016112609B4 (en) | Method for generating a total room sound to be transmitted to a real endpoint, use of the method and teleconferencing system | |
DE10052992C2 (en) | Process for the spatial reproduction of sound information in video conferences |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R012 | Request for examination validly filed | ||
R016 | Response to examination communication | ||
R016 | Response to examination communication | ||
R018 | Grant decision by examination section/examining division | ||
R081 | Change of applicant/patentee |
Owner name: DEUTSCHE TELEKOM AG, DE Free format text: FORMER OWNERS: DEUTSCHE TELEKOM AG, 53113 BONN, DE; TECHNISCHE UNIVERSITAET BERLIN, 10623 BERLIN, DE |
|
R082 | Change of representative |
Representative=s name: VOSSIUS & PARTNER PATENTANWAELTE RECHTSANWAELT, DE |
|
R020 | Patent grant now final |