DE60108600T2

DE60108600T2 - Activation of a voice-controlled apparatus

Info

Publication number: DE60108600T2
Application number: DE60108600T
Authority: DE
Inventors: Stephen John Redland Hinde; Robert Francis Easter Common Squibbs
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Development Co LP
Priority date: 2000-12-19
Filing date: 2001-11-30
Publication date: 2005-12-22
Anticipated expiration: 2021-12-01
Also published as: EP1217608B1; DE60108600D1; GB0030918D0; EP1217608A3; EP1217608A2; JP2002311990A

Description

Gebiet der ErfindungTerritory of invention

Die vorliegende Erfindung bezieht sich auf die Aktivierung einer sprachgesteuerten Vorrichtung.The The present invention relates to the activation of a voice-controlled Contraption.

Hintergrund der Erfindungbackground the invention

Sprachsteuerung einer Vorrichtung wird üblicher und es gibt nun fortgeschrittene Technologien zur Spracherkennung, insbesondere in Kontexten, die nur ein geringes Vokabular erfordern.voice control a device becomes more common and there are now advanced speech recognition technologies, especially in contexts that require only a small amount of vocabulary.

Ein Problem tritt jedoch auf, wenn mehrere sprachgesteuerte Vorrichtungen in nächster Nähe vorliegen, da es wahrscheinlich ist, dass sich ihre Vokabulare überlappen, woraus sich die Möglichkeit ergibt, dass mehrere unterschiedliche Vorrichtungsstücke auf dem gleichen Sprachbefehl ansprechen.One Problem occurs, however, when multiple voice-controlled devices In the next Close by, because their vocabularies are likely to overlap, from which the possibility arises shows that several different pieces of equipment up to address the same voice command.

Die EP-A-1045586 bestimmt die Zuwendeausrichtung des Sprechers mittels Bildverarbeitung. Es ist aus der US 5,991,726 bekannt, einen Abstandssensor an einem Stück einer sprachgesteuerten industriellen Maschinerie oder Ausrüstung bereitzustellen. Die Aktivierung der Maschinerie oder Ausrüstung durch Sprache kann nur bewirkt werden, wenn eine Person in der Nähe steht. Stücke einer industriellen Maschinerie oder Ausrüstung des betrachteten Typs stehen jedoch im Allgemeinen nicht eng zusammen, sodass, obwohl der Abstandssensor die Wirkung hat, eine Sprachsteuerung in diesem Kontext spezifisch für das betreffende Element zu machen, dies nicht für sprachgesteuerte Küchengeräte gelten würde, da es in dem letzteren Fall wahrscheinlich ist, dass sich die Erfassungszonen der Abstandssensoren überlappen. Außerdem sind bei der Anordnung, die in der US 5,991,726 beschrieben ist, obwohl der Abstandssensor notwendigerweise nur auf die Anwesenheit einer in der Nähe befindlichen Bedienungsperson anspricht, die auf Sprache ansprechenden Schaltungen der Maschinerie nicht konfiguriert, nur auf eine Spracheingabe von dieser Bedienungsperson anzusprechen, woraus sich die Möglichkeit ergibt, dass ein gerufener Befehl von einer anderen Bedienungsperson eine falsche Operation bewirkt.EP-A-1045586 determines the donut orientation of the speaker by image processing. It is from the US 5,991,726 It is known to provide a distance sensor to a piece of voice-controlled industrial machinery or equipment. The activation of the machinery or equipment by speech can only be effected when a person is standing nearby. However, pieces of industrial machinery or equipment of the type under consideration are generally not closely related, so although the proximity sensor has the effect of making speech control specific to the element in question in this context, it would not apply to voice-controlled kitchen appliances since it would apply in US Pat In the latter case, it is likely that the detection zones of the distance sensors overlap. Moreover, in the arrangement that in the US 5,991,726 Although the distance sensor necessarily only responds to the presence of a nearby operator, the speech-responsive circuits of the machinery are not configured to respond only to a voice input from that operator resulting in the possibility of a called command being issued by a user other operator causes a wrong operation.

Hinsichtlich dieses letzten Nachteils sind Verfahren zum akustischen Lokalisieren einer Schallquelle selbst bekannt, sodass es möglich wäre sicherzustellen, dass die Maschinerie nur auf lokal gesprochene Befehle anspricht. Das Erfassen der Position einer Schallquelle wird normalerweise mit einem Array von Mikrofonen vorgenommen; die US 5,465,302 und die US 6,009,396 beschreiben beide Schallquellenpositionserfassungssysteme. Durch ein Bestimmen der Position der Schallquelle ist es dann möglich, die Verarbeitungsparameter des Eingangs von den einzelnen Mikrofonen des Arrays einzustellen, um das Mikrofon wirksam auf die Schallquelle „zu fokussieren", wodurch ermöglicht wird, dass die Schallsignale, die von der Quelle emittiert werden, aus umgebenden Schallsignalen herausgefiltert werden.With regard to this last drawback, methods for acoustically locating a sound source itself are known so that it would be possible to ensure that the machinery responds only to locally spoken commands. The detection of the position of a sound source is normally done with an array of microphones; the US 5,465,302 and the US 6,009,396 Both describe sound source position sensing systems. By determining the position of the sound source, it is then possible to adjust the processing parameters of the input from the individual microphones of the array to effectively "focus" the microphone on the sound source, thereby allowing the sound signals emitted by the source to be , are filtered out from surrounding sound signals.

Natürlich löst allein die Kenntnis der Position eines Sprechers, der einen Befehl für ein sprachgesteuertes Gerät ausgibt, nicht das Problem, dass eine Sprachsteuerung mehrere Vorrichtungsstücke aktiviert. Eine mögliche Lösung für dieses Problem besteht darin, es erforderlich zu machen, dass jedem Sprachbefehl unmittelbar das Aussprechen der Bezeichnung der spezifischen Vorrichtung, die derselbe steuern soll, vorausgeht, sodass nur diese Vorrichtung den folgenden Befehl zur Kenntnis nimmt. Dieser Lösungsansatz ist jedoch nicht benutzerfreundlich und die Benutzer vergessen häufig, ein derartiges Befehlsprotokoll zu befolgen, besonders wenn dieselben in Eile sind.Of course, solves alone the knowledge of the position of a speaker who issued a command for a voice-controlled Device outputs, not the problem that a voice control activates multiple device pieces. A possible solution for this Problem is to make it necessary for every voice command directly pronouncing the name of the specific device, which is to control the same, precedes, so that only this device note the following command. This approach however, it is not user-friendly and users often forget one to follow such a command protocol, especially if the same are in a hurry.

Es ist eine Aufgabe der vorliegenden Erfindung, eine benutzerfreundlichere Möglichkeit der Minimierung des Risikos einer unbeabsichtigten Aktivierung von mehreren sprachgesteuerten Vorrichtungen durch den gleichen verbalen Befehl zu schaffen.It It is an object of the present invention to provide a more user-friendly possibility minimizing the risk of unintentional activation of several voice-controlled devices through the same verbal To create an order.

Zusammenfassung der ErfindungSummary the invention

Gemäß einem Aspekt der vorliegenden Erfindung wird ein Verfahren zum Aktivieren einer sprachgesteuerten Vorrichtung geschaffen, das folgende Schritte aufweist:

(a) Verwenden eines Mikrofonarrays, um zu erfassen, ob ein Benutzer der Vorrichtung zugewandt ist, wenn derselbe einen Schall erzeugt;
(b) zumindest anfängliches Freigeben der Vorrichtung für eine Sprachsteuerung nur, wenn Schritt (a) anzeigt, dass der Benutzer der Vorrichtung zugewandt ist.

According to one aspect of the present invention, there is provided a method of activating a voice controlled device, comprising the steps of:

(a) using a microphone array to detect whether a user is facing the device when generating a sound;
(b) at least initially enabling the device for voice control only if step (a) indicates that the user is facing the device.

Eine Bestimmung, ob der Benutzer der sprachgesteuerten Vorrichtung zugewandt ist, umfasst bevorzugt folgende Schritte:

(i) Verwenden des Mikrofonarrays, um die Position des Benutzers zu bestimmen,
(ii) Messen der Stärke des Schallsignals, das an jedem Mikrofon des Arrays empfangen wird, und
(iii) Durchführen einer Verarbeitung, um wirksam eine Relative-Signalstärke-Tabelle für Schall, der durch einen Menschen erzeugt wird, auszurichten, die an der bestimmten Position des Benutzers positioniert ist, um ein Muster von relativen Stärken an den Mikrofonen zu erhalten, die im Wesentlichen denjenigen, die bei Schritt (ii) gemessen wurden, entsprechen, wobei die Tabellenausrichtung dann die Zuwenderichtung des Benutzers angibt.

A determination of whether the user is facing the voice-activated device preferably comprises the following steps:

(i) using the microphone array to determine the position of the user
(ii) measuring the strength of the sound signal received at each microphone of the array, and
(iii) performing processing to effectively align a relative signal strength table for sound generated by a human being positioned at the user's designated position to obtain a pattern of relative magnitudes on the microphones substantially correspond to those measured in step (ii), the table orientation then indicating the user's turn direction.

Vorzugsweise ist das Mikrofonarray aus Mikrofonen gebildet, die jeweiligen Geräten eines Satzes von sprachgesteuerten Geräten, einschließlich der sprachgesteuerten Vorrichtung, zugeordnet sind, wobei die relativen Positionen der Geräte bekannt sind. Die relativen Positionen der Geräte sind zum Beispiel infolge eines automatischen Einstellprozesses bekannt, bei dem jedes Gerät veranlasst wird, einen Schall zu der gleichen Zeit zu emittieren, zu der ein elektrisches oder elektromagnetisches Signal gesendet wird, wobei Letzteres als ein Zeitgebungspunkt dient, der es den anderen Geräten ermöglicht, ihren Abstand von dem emittierenden Gerät zu bestimmen, wobei die Geräte ihre Abstände von anderen Geräten austauschen, wodurch es jedem Gerät ermöglicht wird, die relativen Positionen aller Geräte zu berechnen.Preferably is the microphone array formed of microphones, the respective devices of a Set of voice operated devices, including the voice-controlled device, are assigned, the relative Positions of the devices are known. The relative positions of the devices are due, for example an automatic setting process in which each device causes is to emit a sound at the same time to the one electrical or electromagnetic signal is sent, wherein The latter serves as a timing point that allows the other devices theirs Distance from the emitting device to determine the devices their distances from other devices exchange, which allows each device, the relative Positions of all devices too to calculate.

Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird ein System zum Aktivieren einer sprachgesteuerten Vorrichtung geschaffen, dass folgende Merkmale aufweist

– ein Mikrofonarray, wobei die relativen Positionen der Mikrofone des Arrays und der Vorrichtung bekannt sind;
– eine Zuwenderichtungbestimmungsanordnung, die wirksam ist, um das Mikrofon zu verwenden, um zu bestimmen, ob ein Benutzer der Vorrichtung zugewandt ist, wenn er einen Schall erzeugt;
– eine Steuerungsanordnung zum zumindest anfänglichen Freigeben der Vorrichtung für eine Sprachsteuerung nur, wenn die Zuwenderichtungbestimmungsanordnung anzeigt, dass der Benutzer der Vorrichtung zugewandt ist.

According to another aspect of the present invention, there is provided a system for activating a voice activated device having the following features

A microphone array, the relative positions of the microphones of the array and the device being known;
A turn direction determination arrangement operative to use the microphone to determine whether a user is facing the device when generating a sound;
A control arrangement for at least initially enabling the device for voice control only when the turn direction determination arrangement indicates that the user is facing the device.

Kurze Beschreibung der ZeichnungenShort description the drawings

Ein Verfahren und ein System zum Steuern einer Aktivierung von sprachgesteuerten Geräten, die die Erfindung ausführen, werden nun als ein nicht einschränkendes Beispiel mit Bezugnahme auf die beiliegenden schematischen Zeichnungen beschrieben. Es zeigen:One Method and system for controlling activation of voice-activated Devices that to carry out the invention, are now considered a non-limiting Example with reference to the attached schematic drawings described. Show it:

1 ein Diagramm, das einen Raum veranschaulicht, der mit einem Mikrofonarray zum Steuern einer Aktivierung von sprachgesteuerten Geräten in dem Raum ausgestattet ist; 1 Fig. 3 is a diagram illustrating a room equipped with a microphone array for controlling activation of voice operated devices in the room;

2 ein Diagramm, das die Bestimmung der Position eines Sprechers veranschaulicht; 2 a diagram illustrating the determination of the position of a speaker;

3 ein Diagramm, das die Bestimmung der Zuwenderichtung des Sprechers veranschaulicht; 3 a diagram illustrating the determination of the talk direction of the speaker;

4 ein Diagramm, das einen Raum veranschaulicht, in dem sich mehrere sprachgesteuerte Geräte befinden, die zusammenwirken, um ein Mikrofonarray zu liefern; und 4 a diagram illustrating a space in which there are a plurality of voice-controlled devices that cooperate to provide a microphone array; and

5 ein Diagramm, das die schallbezogenen Hauptfunktionsfähigkeiten der sprachgesteuerten Geräte von 4 veranschaulicht. 5 a diagram showing the main sound-related functionalities of voice-activated devices of 4 illustrated.

Beste Ausführung der ErfindungBest execution of the invention

1 zeigt einen Arbeitsraum 11, in dem ein Benutzer 10 anwesend ist, der in eine Richtung gewandt ist, die durch einen gestrichelten Pfeil 12 angezeigt ist. In dem Raum 11 befinden sich drei sprachgesteuerte Geräte 14 (im Folgenden als Geräte A, B bzw. C bezeichnet), jedes mit einer unterschiedlichen Funktionalität, aber jedes mit einem ähnlichen Sprachschnittstellenuntersystem 15 ausgestattet, das ein Mikrofon 16 umfasst, das eine Sprachsteuerung des Gerätes durch den Benutzer ermöglicht. 1 shows a workspace 11 in which a user 10 present, which faces in a direction indicated by a dashed arrow 12 is displayed. In the room 11 There are three voice-controlled devices 14 (hereinafter referred to as devices A, B and C, respectively), each with a different functionality, but each with a similar speech interface subsystem 15 equipped with a microphone 16 comprising voice control of the device by the user.

Der Arbeitsraum 11 ist mit einem Satz von drei stationären Raummikrofonen 28 (im Folgenden als Mikrofone M1, M2 und M3 bezeichnet) ausgestattet, die Digitalisierer zum Digitalisieren des aufgenommenen Schalls umfassen, wobei die digitalisierten Schalldaten dann über ein LAN 29 zu einer Gerätaktivierungsverwaltungseinrichtung 30 geleitet werden. Die Verwaltungseinrichtung 30 umfasst eine Schallsignalverarbeitungseinheit 33, die auf eine im Folgenden näher beschriebene Weise bestimmt, wann ein Benutzer einem bestimmten Gerät zugewandt ist. Wenn die Einheit 33 bestimmt, dass der Benutzer einem Gerät 14 zugewandt ist, informiert dieselbe einen Steuerungsblock 34; die Einheit 33 informiert den Block 34 auch immer dann, wenn der Benutzer spricht. Unter Verwendung dieser Informationen entscheidet der Steuerungsblock 34, wann die Sprachschnittstelle eines bestimmten Geräts freigegeben werden soll, und sendet über Infrarotverbindungen, die zwischen einem IR-Sender 35 der Verwaltungseinrichtung und IR-Empfängern 36 des Geräts eingerichtet sind, geeignete Steuernachrichten an die Geräte. Der Steuerungsblock 34 stellt sicher, dass immer nur die Sprachschnittstelle von einem Gerät 14 freigegeben ist. Aus praktischen Gründen wird der Steuerungsblock 34 in der folgenden Beschreibung so beschrieben, dass derselbe die Geräte anstatt ihrer Sprachschnittstellen freigibt/sperrt; es jedoch darauf hingewiesen, dass die Geräte andere Schnittstellen (wie zum Beispiel manuelle Schnittstellen) aufweisen können, die nicht der Steuerung durch die Gerätaktivierungsverwaltungseinrichtung unterliegen.The workroom 11 is with a set of three stationary room microphones 28 (hereinafter referred to as microphones M1, M2 and M3) comprising digitizers for digitizing the recorded sound, the digitized sound data then being transmitted via a LAN 29 to a device activation manager 30 be directed. The administrative facility 30 includes a sound signal processing unit 33 which determines when a user faces a particular device in a manner described in greater detail below. If the unit 33 determines that the user is a device 14 the same one informs a control block 34 ; the unit 33 informs the block 34 also whenever the user speaks. Using this information, the control block decides 34 when to release the voice interface of a particular device, and transmits over infrared links between an IR transmitter 35 the administrative body and IR recipients 36 set up appropriate control messages to the devices. The control block 34 Ensures that only ever the voice interface of a device 14 is released. For practical reasons, the control block 34 described in the following description as enabling / disabling the devices rather than their voice interfaces; however, it should be understood that the devices may include other interfaces (such as manual interfaces) that are not under the control of the device activation manager.

Der Steuerungsblock 34 gibt anfänglich ein Gerät 13 frei, wenn der Block 34 aus den Informationen, die demselben durch die Einheit 33 weitergeleitet werden, bestimmt, dass der Benutzer dem Gerät zu der Zeit des ersten Sprechens nach einer Stilleperiode von zumindest einer vorbestimmten Dauer zugewandt ist. Der Steuerblock hält dann die Freigabe des betreffenden Geräts aufrecht, solange der Benutzer fortfährt zu sprechen und für eine Zeit-Aus-Periode danach, selbst wenn der Benutzer von der Vorrichtung abgewandt ist – falls der Benutzer während der Zeit-Aus-Periode erneut zu sprechen beginnt, wird der Zeitablauf dieser Periode rückgesetzt. Diese Zeit-Aus-Periode beträgt zum Beispiel 3 Sekunden und ist kürzer als die bereits erwähnte vorbestimmte Stilleperiode, die einer anfänglichen Freigabe eines Geräts vorausgehen muss. Selbst wenn sich ein Benutzer, während er zu einem Gerät spricht, einem anderen Gerät zuwendet und kurz innehält, bevor er erneut spricht, schaltet der Steuerungsblock somit nicht darauf um, dieses andere Gerät freizugeben, außer die Pause ist sowohl länger als die Zeit-Aus-Periode (was dazu führt, dass das vorhergehend freigegebene Gerät gesperrt wird) als auch zumindest so lang wie die vorbestimmte Stilleperiode (was dazu führt, dass das Gerät, dem derselbe aktuell zugewandt ist, freigegeben wird). Diese Zeit-Aus-Periode kann tatsächlich die gleiche Dauer aufweisen wie die vorbestimmte Stilleperiode.The control block 34 initially gives a device 13 free if the block 34 from the information, the same through the unit 33 determines that the user faces the device at the time of first speaking after a silence period of at least a predetermined duration. The control block then holds the release of the device in question as long as the user continues to speak and for a time-out period de thereafter, even if the user is away from the device - if the user starts to speak again during the time-out period, the timing of that period is reset. This time-out period is 3 seconds, for example, and is shorter than the aforementioned predetermined silence period, which must precede an initial release of a device. Thus, even if a user turns to another device while talking to one device and pauses briefly before speaking again, the control block will not switch to enabling that other device unless the pause is both longer than the timeout Period (which causes the previously released device to be disabled) as well as at least as long as the predetermined silence period (which results in the device to which it is currently facing being released). This time-out period may actually have the same duration as the predetermined silence period.

Der Steuerungsblock 34 kann eingerichtet sein, um den Geräten seine Freigabeentscheidungen unter Verwendung eines geeigneten Protokolls mitzuteilen. Zum Beispiel kann der Steuerungsblock einfach eine Freigabenachricht an ein identifiziertes Gerät senden, um dasselbe freizugeben (wobei die anderen Geräte erkennen, dass die Nachricht nicht für sie bestimmt ist, und dieselbe ignorieren), und dann nachfolgend eine Sperrnachricht senden, um das Gerät zu sperren. Alternativ dazu kann jedes Gerät eingerichtet sein, um eine kontinuierliche Lieferung von Freigabenachrichten (zum Beispiel zumindest eine pro Sekunde) zu erfordern, damit seine Sprachschnittstelle freigegeben bleibt, wobei ein Fehlen von Freigabenachrichten für eine längere als diese Periode dazu führt, dass die Sprachschnittstelle des Geräts gesperrt wird.The control block 34 may be arranged to notify the devices of its release decisions using an appropriate protocol. For example, the control block may simply send a release message to an identified device to release it (the other devices recognize that the message is not intended for it and ignore it), and then subsequently send a lock message to lock the device , Alternatively, each device may be configured to require a continuous delivery of release messages (eg, at least one per second) to keep its voice interface enabled, with a lack of release messages for longer than this period resulting in the device's voice interface is locked.

Bei jedem Gerät weist die Sprachschnittstelle 15 zusätzlich zu einem Mikrofon 16 eine Spracherkennungsvorrichtung 17 (siehe Vorrichtung 14A in 1) und eine Freigabeschaltung 18 auf. Die Freigabeschaltung 18 wird von dem Infrarotempfänger 36 gespeist und hält den aktuellen freigegebenen/gesperrten Zustand der Sprachschnittstelle. Gemäß ihrem gespeicherten Zustand gibt die Schaltung 18 die Spracherkennungsvorrichtung 17 frei oder sperrt dieselbe. Wenn die Spracherkennungsvorrichtung 17 freigegeben ist, interpretiert dieselbe die Spracheingabe, die durch das Mikrofon 16 aufgenommen wird, und erzeugt entsprechende Steuerungsausgaben (siehe Pfeil 19) zum Steuern der Funktionalität des Geräts 14.Each device has the voice interface 15 in addition to a microphone 16 a speech recognition device 17 (see device 14A in 1 ) and a release circuit 18 on. The release circuit 18 is from the infrared receiver 36 powered and holds the current enabled / disabled state of the voice interface. According to their stored state, the circuit gives 18 the speech recognition device 17 free or disable the same. When the speech recognition device 17 is enabled, it interprets the voice input that passes through the microphone 16 is recorded and generates corresponding control outputs (see arrow 19 ) for controlling the functionality of the device 14 ,

Obwohl es möglich wäre, die Spracherkennungsfunktionen der Geräte 14 in der Gerätaktivierungsverwaltungseinrichtung 30 zu zentralisieren, würde dies erfordern, dass die Letztere mit einer Spracherkennungsvorrichtung ausgestattet wäre, die sowohl mit dem Eingabevokabular als auch der Steuersprache aller Geräte, die dieselbe u. U. steuern muss, programmiert ist.Although it would be possible to use the speech recognition features of the devices 14 in the device activation manager 30 centralizing this would require that the latter be equipped with a speech recognition device that communicates with both the input vocabulary and the control language of all the devices that have the same u. U. is controlled, is programmed.

Die 2 und 3 veranschaulichen, wie der Schallsignalverarbeitungsblock 33 bestimmt, wann ein Benutzer 10 einem bestimmten Gerät zugewandt ist. Zu Zwecken der Veranschaulichung ist der Benutzer 10 so gezeigt, dass derselbe in einer Position positioniert ist, die sich in einem Abstand „2Q" von Mikrofon M1, einem Abstand „3Q" von Mikrofon M2 und einem Abstand „4Q" von Mikrofon M3 befindet. Es wird angenommen, dass der Signalverarbeitungsblock 33 die Positionen der Mikrofone M1, M2 und M3 kennt.The 2 and 3 illustrate how the sound signal processing block 33 determines when a user 10 facing a particular device. For purposes of illustration, the user is 10 is shown positioned in a position that is at a distance "2Q" from microphone M1, a distance "3Q" from microphone M2, and a distance "4Q" from microphone M3. It is assumed that the signal processing block 33 knows the positions of the microphones M1, M2 and M3.

Zu einem Zeitpunkt T0 emittiert der Benutzer 10 einen Schall, der sich mit Schallgeschwindigkeit bewegt und die Mikrofone M1, M2 und M3 zu aufeinanderfolgenden Zeitpunkten T1, T2 und T3 erreicht. Die Schallsignale, die durch die Mikrofone aufgenommen werden, werden an den Verarbeitungsblock 33 geleitet, wo dieselben zunächst korreliert und die Werte (T2 – T1) und (T3 – T1) bestimmt werden; bei dem vorliegenden Beispiel: 2(T2 – T1) = (T3 – T1) At a time T0, the user emits 10 a sound that moves at the speed of sound and reaches the microphones M1, M2 and M3 at successive times T1, T2 and T3. The sound signals picked up by the microphones are sent to the processing block 33 where they first correlate and the values (T2-T1) and (T3-T1) are determined; in the present example: 2 (T2 - T1) = (T3 - T1)

Jedes Mikrofon hat seinen eigenen internen Takt, der verwendet wird, um Zeitstempel zu liefern zum Stempeln der Schalldaten, die an den Verarbeitungsblock 33 geleitet werden, um zu ermöglichen, dass die obigen Differenzwerte bestimmt werden, wobei der Versatz zwischen den Zeittakten der Mikrofone vorhergehend durch eine beliebige geeignete Technik gemessen wurde (zum Beispiel dadurch, dass jedes Mikrofon ein vorbestimmtes Intervall nach dem Empfangen einer Auslösernachricht von der Verwaltungseinrichtung 30 mit einer zeitgestempelten Nachricht antwortet, wobei die internen Verarbeitungszeiten an beiden Enden berücksichtigt werden).Each microphone has its own internal clock, which is used to provide timestamps for stamping the sound data sent to the processing block 33 to allow the above difference values to be determined, wherein the offset between the clocks of the microphones has previously been measured by any suitable technique (for example, by having each microphone a predetermined interval after receiving a trigger message from the manager 30 responds with a time-stamped message taking into account the internal processing times at both ends).

Ein Maß der empfangenen Schallsignalstärke an jedem Mikrofon M1, M2, M3 wird ebenfalls an den Verarbeitungsblock geleitet.One Measure of received sound signal strength at each microphone M1, M2, M3 is also sent to the processing block directed.

Natürlich kennt der Verarbeitungsblock nicht den Zeitpunkt T0, zu dem der Schall emittiert wurde. Durch ein Ausführen eines Rückwärtskonstruierung der Schallwellenfront ist es jedoch möglich, die Position des Benutzers zu bestimmen. Insbesondere gilt zu einem Zeitpunkt T1 Folgendes für die Schallwellenfront von dem Benutzer:

– dieselbe hat gerade das Mikrofon M1 erreicht;
– dieselbe befindet sich in einem Minimalabstand V(T2 – T1) von dem Mikrofon M2 irgendwo auf einen Kreis C2 dieses Radius, der seinen Mittelpunkt bei M2 hat, und
– dieselbe befindet sich in einem Minimalabstand V(T3 – T1) von dem Mikrofon M3 irgendwo auf einem Kreis C3 dieses Radius, der seinen Mittelpunkt bei M3 hat,

wobei V die Schallgeschwindigkeit ist. Tatsächlich kann die Schallwellenfront bezüglich des Mikrofons M1 so verallgemeinert werden, dass dieselbe auf einem Kreis C1 des Radius V(T1 – T1) liegt, der seinen Mittelpunkt bei M1 hat.Of course, the processing block does not know the time T0 at which the sound was emitted. However, by performing a backward reconstruction of the acoustic wave front, it is possible to determine the position of the user. In particular, at a time T1, the following applies to the sound wavefront from the user:

- it has just reached the microphone M1;
- It is located at a minimum distance V (T2 - T1) from the microphone M2 anywhere on a circle C2 of this radius, which has its center at M2, and
- It is located at a minimum distance V (T3 - T1) from the microphone M3 somewhere on ei In circle C3 this radius, which has its center at M3,

where V is the speed of sound. In fact, the sound wave front can be generalized with respect to the microphone M1 so that it lies on a circle C1 of radius V (T1-T1), which has its center at M1.

Wenn nun die drei Kreise erweitert werden (tatsächlich durch ein Zurückgehen in der Zeit), ergibt sich schließlich ein Schnittpunkt aller drei Kreise, der der Position des Benutzers entspricht.If now the three circles are expanded (actually by going back in time), finally results in an intersection of all three circles corresponding to the position of the user.

Es sei darauf hingewiesen, dass die vorhergehende Beschreibung, wie die Position des Benutzers bestimmt wird, aus Gründen der Klarheit einfach gehalten wurde. Ist die Umgebung 11 laut oder hallt dieselbe, ist eine kompliziertere Signalverarbeitung erforderlich, um eine angemessene Positionsbestimmung zu liefern, und geeignete Techniken sind in den bereits erwähnten US-Patenten beschrieben.It should be understood that the foregoing description of how the user's location is determined has been kept simple for the sake of clarity. Is the environment 11 loud or echoing, more complex signal processing is required to provide adequate position determination, and suitable techniques are described in the aforementioned US patents.

Wenn die Position des Benutzers bestimmt worden ist, besteht der nächste Schritt darin, die Zuwenderichtung des Benutzers abzuleiten. Zu diesem Zweck hält der Verarbeitungsblock 33 Daten, die eine Relative-Schallsignalstärke-Tabelle 40 (siehe Konturensatz, der den Benutzer 10 als Mittelpunkt hat, in 3) darstellen, die die relativen Schallsignalstärken für Schallsignale, die durch einen Benutzer emittiert werden, relativ zu seiner Zuwenderichtung anzeigt, die hier durch einen gestrichelten Pfeil 41 angezeigt ist. Der Verarbeitungsblock ist eingerichtet, um Berechnungen durchzuführen, die einem Platzieren des Ursprungs der Tabelle 40 an der bestimmten Position des Benutzers und einem Bestimmen der relativen Schallsignalstärken an den Mikrofonen M1, M2 und M3, wenn die Tabelle 44 und das Mikrofonarray relativ zueinander gedreht werden, entspricht. Diese Ablesungen der relativen Signalstärke werden dann mit den Ablesungen der tatsächlichen Signalstärke verglichen, die durch die Mikrofone M1, M2 und M3 geliefert werden, um eine Ausrichtung der „besten Überein stimmung" der Tabelle und somit eine Zuwenderichtung des Benutzers abzuleiten.When the user's location has been determined, the next step is to derive the user's tack direction. For this purpose, the processing block stops 33 Data representing a relative sound signal strength table 40 (see Contour Set, the user 10 as the center has, in 3 ), which indicate the relative sound signal strengths for sound signals emitted by a user relative to its direction of sweep, here indicated by a dashed arrow 41 is displayed. The processing block is set up to perform calculations that place the origin of the table 40 at the user's particular location and determining the relative sound signal strengths at the microphones M1, M2 and M3 when the table 44 and the microphone array are rotated relative to each other. These relative signal strength readings are then compared with the actual signal strength readings provided by the microphones M1, M2 and M3 to derive an alignment of the "best match" of the table and thus a user's turn direction.

Die abgeleitete Zuwenderichtung des Benutzers wird dann zusammen mit der aktuellen Position des Benutzers verwendet, um zu bestimmen, ob der Benutzer zumindest allgemein irgendeinem der Geräte 14 zugewandt ist, deren Positionen dem Verarbeitungsblock bekannt sind. Der Fehlerspielraum bei der Zuwenderichtung, der beim Entscheiden, ob ein Benutzer einem Gerät zugewandt ist, gestattet ist, hängt teilweise von der winkelmäßigen Trennung benachbarter Geräte 14 ab.The user's derived turn direction is then used along with the current position of the user to determine if the user is at least generally one of the devices 14 is facing, whose positions are known to the processing block. The margin of error in the turn direction, which is allowed in deciding whether a user faces a device, depends in part on the angular separation of adjacent devices 14 from.

Der Signalverarbeitungsblock 33 leitet seine Folgerungen an den Steuerungsblock 34 weiter, damit Letzterer die Geräte in der bereits beschriebenen Weise steuert.The signal processing block 33 directs its conclusions to the control block 34 continue, so that the latter controls the devices in the manner already described.

Die Tabelle 40 bezieht sich im Allgemeinen auf Worte, die durch den Benutzer 10 gesprochen werden. Eine Gerätfreigabe kann jedoch davon abhängig gemacht werden, dass der Benutzer einen anderen charakteristischen Schall erzeugt, zum Beispiel in die Hände klatscht, wobei die Tabelle in diesem Fall eine Relative-Schallsignalstärke-Tabelle für ein Händeklatschen sein sollte, das eine Person vor sich erzeugt.The table 40 generally refers to words used by the user 10 to be spoken. However, a device release may be made conditional upon the user generating a different characteristic sound, for example clapping his hands, in which case the table should be a relative sound signal strength table for a hand clapping that a person creates in front of him.

4 zeigt ein zweites Ausführungsbeispiel, das dem ersten Ausführungsbeispiel ähnlich ist, nun ist das Mikrofonarray, das benutzt wird, um zu bestimmen, ob ein Benutzer einem Gerät zugewandt ist, jedoch aus den Mikrofonen 16 der einzelnen Geräte gebildet, wobei die Geräte mit Nahbereich-Sende-Empfangs-Geräten 56 (wie zum Beispiel Bluetooth-Funk-Sende-Empfangs-Geräten) zum Austauschen von Mikrofondaten und damit zum wirksamen Koppeln der Mikrofone 16 in ein Array ausgestattet sind. Die Mikrofondaten werden zeitgestempelt, wie bei dem Ausführungsbeispiel von 1, wobei der relative Versatz der internen Zeitstempeltakte der Geräte 14 in einer beliebigen geeigneten Weise bestimmt wird. 4 Figure 14 shows a second embodiment similar to the first embodiment, now the microphone array used to determine if a user is facing a device but from the microphones 16 the individual devices formed, the devices with short-range transceiver devices 56 (such as Bluetooth radio transceivers) for exchanging microphone data and thus for effectively coupling the microphones 16 are equipped in an array. The microphone data is time-stamped, as in the embodiment of 1 , where the relative offset of the internal timestamps of the devices 14 determined in any suitable manner.

Außerdem wird die Schallsignalverarbeitung nun in jedem Gerät durch einen Schallfunktionssteuerungsblock 57 ausgeführt, der direkt bestimmt, ob das Gerät freigegeben oder gesperrt werden sollte, und die Spracherkennungseinheit 23 dementsprechend steuert. Falls somit ein Benutzer einem Gerät C zugewandt ist und zu sprechen beginnt (nach einer Stilleperiode, die länger als die bereits erwähnte vorbestimmte Stilleperiode ist), nimmt das Mikrofon 16 an jedem der drei Geräte diesen Schall auf, digitalisiert denselben und misst seine Stärke, und der Block 57 des Geräts sendet diese Daten zu den anderen Geräten weiter und empfängt deren entsprechende Daten. Jeder Block 57, der die relativen Positionen der Geräte 14 bereits kennt, führt nun eine Bestimmung der Position und der Zuwenderichtung des Benutzers aus und bestimmt infolgedessen, ob der Benutzer dem betreffenden Gerät zugewandt ist. Falls ein Gerät entscheidet, das dasselbe durch den Benutzer angesprochen wird, teilt dasselbe zunächst den anderen Geräten über das Nahbereich-Sende-Empfangs-Gerät mit, dass dasselbe im Begriff ist, seine Spracherkennungsvorrichtung freizugeben. Wird angenommen, dass innerhalb einer kurzen Fensterperiode keine entgegenstehende Antwort zurückempfangen wird, geht der Block 57 dazu über, seine zugeordnete Spracherkennungsvorrichtung 17 freizugeben. Bevorzugt ist vor Letzterer ein FIFO-Schalldatenspeicher, der kontinuierlich von dem Mikrofon 16 gespeist wird, sodass Sprache, die von dem Benutzer während der Anfangsfreigabebestimmungen, die durch den Block 57 vorgenommen werden, empfangen wird, nicht verloren geht, sondern daraufhin, dass die Spracherkennungseinheit freigegeben wird, für eine Interpretation verfügbar ist.In addition, the sound signal processing is now in each device through a sound function control block 57 which directly determines whether the device should be enabled or disabled, and the speech recognition unit 23 accordingly controls. Thus, if a user is facing a device C and starts speaking (after a silence period longer than the aforementioned predetermined silence period), the microphone picks up 16 on each of the three devices this sound, digitizes it and measures its strength, and the block 57 The device sends this data to the other devices and receives their corresponding data. Every block 57 that the relative positions of the devices 14 already knows, now performs a determination of the user's position and direction of turning and as a result, determines whether the user is facing the device in question. If a device decides that the same is being addressed by the user, it first notifies the other devices via the short range transceiver that it is about to release its voice recognition device. Assuming that no conflicting response is received within a short window period, the block goes 57 about, its associated speech recognition device 17 release. Preference is given to the latter a FIFO sound data storage, which is continuously from the microphone 16 is fed so that language released by the user during the initial release moods by the block 57 is made, is not lost, but that the speech recognition unit is released, is available for interpretation.

Um eine übermäßige Übertragung von Schalldaten zwischen den Geräten zu vermeiden, sind die Blöcke 57 eingerichtet, um den digitalisierten Schall und die damit in Beziehung stehenden Signalstärkemessungen nur zu senden, wenn eine Möglichkeit besteht, dass ein Gerät neu freigegeben wird – d. h. nicht während Perioden, in denen ein Gerät freigegeben ist. Der Einfachheit halber sind die Blöcke 57 einge richtet, um die Mikrofondaten nur nach einer Stilleperiode, die zumindest so lang wie die vorbestimmte Stilleperiode ist, und bevor eines der Geräte den anderen mitteilt, dass dasselbe seine Spracherkennungsvorrichtung freigegeben hat, zu senden.To avoid excessive transmission of sound data between the devices, the blocks are 57 to transmit the digitized sound and related signal strength measurements only when there is a possibility that a device will be re-enabled - ie not during periods when a device is enabled. For the sake of simplicity, the blocks are 57 in order to transmit the microphone data only after a silence period that is at least as long as the predetermined silence period and before one of the devices notifies the other that it has enabled its voice recognition device.

Der Verzicht auf die stationäre Infrastruktur und das Ausstatten der Geräte mit den Mitteln, um beim Ausführen von Schallsteuerfunktionen zusammenzuwirken, ergibt eine sehr flexible Anordnung. Diese Flexibilität wird erheblich dadurch erhöht, dass die Geräte eingerichtet sind, um sich selbst automatisch hinsichtlich ihrer gegenseitigen Existenz und Positionen zu kalibrieren. Dies wird möglich, wenn zumindest drei Geräte in dem gleichen Raum 11 vorliegen.The elimination of the stationary infrastructure and the provision of the equipment with the means to cooperate in carrying out sound control functions results in a very flexible arrangement. This flexibility is greatly enhanced by the fact that the devices are set up to automatically calibrate themselves for their mutual existence and positions. This will be possible if at least three devices in the same room 11 available.

Insbesondere sei angenommen, dass die Geräte von 4 anfänglich nichts voneinander wissen. Jedes ist jedoch mit einem Lautsprecher zum Emittieren eines bevorzugt charakteristischen „Zusammenpassrufs" in zufälligen periodischen Intervallen ausgestattet. Zu der gleichen Zeit, zu der dasselbe seinen Zusammenpassruf emittiert, sendet ein Gerät auch ein Zusammenpasssignal über sein Nahbereich-Sende-Empfangs-Gerät aus. Dieses Zusammenpasssignal wird durch die anderen Geräte erfasst, und falls dieses Signal nachfolgend durch den Empfang des Schallzusammenpassrufs ergänzt wird, der durch das Mikrofon des Geräts empfangen wird, dann antwortet das Gerät dem Ursprungsgerät über das Nahbereich-Sende-Empfangs-Gerät. Auf diese Weise können die Geräte feststellen, welche anderen Geräte sich in Schallreichweite befinden und eine örtliche Gruppe bilden. Ein Verwenden einer Schallnähe, um diese Gruppe zu definieren, führt mit geringerer Wahrscheinlichkeit dazu, dass die Gruppe über unterschiedliche Räume verteilt ist, als wenn die Nahbereich-Sende-Empfangs-Geräte zu diesem Zweck verwendet worden wären. Bevorzugt ist es auch erforderlich, dass jedes Gerät, das den ursprünglichen Schall hört, wiederum seinen eigenen Zusammenpassruf und -signal emittiert, um sicherzustellen, dass alle Geräte, die den Anfangsschall hören, auch einander hören können; Geräte, die nur von einigen, aber nicht von allen anderen Geräten gehört werden können, werden gemäß einer vorbestimmten Richtlinie aus der Gruppe von Geräten ausgeschlossen/in dieselbe eingeschlossen.In particular, it is assumed that the devices of 4 initially know nothing about each other. Each, however, is equipped with a loudspeaker for emitting a preferred characteristic "paging call" at random periodic intervals At the same time that it is issuing its marshalling call, a device also transmits a mating signal over its short range transceiver Matching signal is detected by the other devices, and if this signal is subsequently supplemented by the receipt of the sound call call received by the microphone of the device, then the device responds to the originating device via the short range transceiver the devices determine which other devices are in sound range and form a local group, using a sound proximity to define this group is less likely to result in the group being spread over different spaces than if the near range transmit Receive devices to this purpose would have been used. Preferably, it is also required that each device that hears the original sound, in turn, emits its own mate call and signal to ensure that all devices that hear the initial sound can also hear each other; Devices that can only be heard by some but not all other devices are excluded from the group of devices according to a predetermined policy.

Zu diesem Zeitpunkt kann auch eine Rangordnung der zugehörigen Geräte der Gruppe bestimmt werden, um einen Grad an Ordnung, z. B. bezüglich der Reihenfolge des Übertragens von Nachrichten, zu liefern. In dieser Hinsicht kann es vorteilhaft sein, eine Kollisions- und Zurückhalte-(backoff-)Richtlinie hinsichtlich des Anfangszusammenpassrufs zu verwenden, die in gewisser Hinsicht derjenigen ähnlich ist, die bei CSMA-CD-Datennetzwerken verwendet wird. Das Gerät, das als Erstes seinen Zusammenpassruf erfolgreich gesendet hat, kann zum Gruppenführer gemacht werden, und demselben kann zum Beispiel die Zuständigkeit übertragen werden, die Rangordnung in der Gruppe festzulegen.To This time can also be a ranking of the associated devices of the group determined to give a degree of order, e.g. B. with respect to the Order of transfer of news, deliver. In this regard, it may be beneficial be a collision and backoff policy in terms of the initial call call, which in some Similar to those of others that is used with CSMA CD data networks. The device that as The first one has successfully sent his call, can to group leader responsibility can be delegated, for example, to determine the ranking in the group.

Wenn eine Gruppenzugehörigkeit festgelegt worden ist, machen sich die Vorrichtungen der Reihe nach daran, erneut ihren Zusammenpassruf und ihr Zusammenpasssignal gleichzeitig zu senden. Dieses Mal wird das Zusammenpasssignal als eine Zeitgebungsmarke verwendet, bezüglich derer die anderen Vorrichtungen die Laufzeit des Zusammenpassrufes von der emittierenden Vorrichtung bestimmen können (wobei angenommen wird, dass das Zusammenpasssignal tatsächlich sofort bei allen Vorrichtungen eintrifft). Dies ermöglicht es, dass jede Vorrichtung ihren Abstand von den emittierenden Vorrichtungen bestimmt. Durch ein Wiederholen dieser Übung der Reihe nach für alle Vorrichtungen und indem die Vorrichtungen veranlasst werden, ihre Abstandsdaten auszutauschen, wird es ermöglicht, dass der Block 57 jeder Vorrichtung die relativen Positionen aller Vorrichtungen in der Gruppe berechnet.When group membership has been determined, the devices in turn set to resend their paging and mating signals simultaneously. This time, the mating signal is used as a timing tag against which the other devices can determine the duration of the marshalling call from the emitting device (assuming that the mating signal actually arrives at all devices immediately). This allows each device to determine its distance from the emitting devices. By repeating this exercise in turn for all the devices and by causing the devices to exchange their distance data, it will allow the block 57 Each device calculates the relative positions of all devices in the group.

Diese beiden Operationen des Bestimmens der Gruppenzusammensetzung (und Rangordnung) und der Gerätepositionen sind in 5 durch die Schritte 60 und 61 dargestellt und weisen eine automatische Einstellphase für die Gerätegruppe auf. Da zu jeder Zeit Geräte hinzugefügt oder entfernt werden können, sind die Geräte bevorzugt eingerichtet, um in Intervallen eine neue Einstellphase durch das Emittieren ihrer Zusammenpassrufe und -signale zu einem zufälligen Zeitpunkt nach der vorangehenden Ausführung der Einstellphase einzuleiten.These two operations of determining the group composition (and ranking) and the device positions are in 5 through the steps 60 and 61 and have an automatic adjustment phase for the device group. Since devices can be added or removed at any time, the devices are preferably arranged to initiate at intervals a new adjustment phase by emitting their mingling calls and signals at a random time after the previous execution of the adjustment phase.

Die Schritte 60 und 61 können teilweise kombiniert werden, wobei jedes Gerät seinen Zusammenpassruf und -signal nur ein einziges Mal emittiert.The steps 60 and 61 can be partially combined, with each device emitting its intercom call and signal only once.

Nach der Einstellphase sind die Geräte bereit, ihre schallgeregelte Gerätfreigaberolle auszuführen, wie es bereits mit Bezugnahme auf 4 beschrieben wurde, wobei diese Rolle umfasst, dass jedes Gerät die Aufgaben des Erfassens einer Benutzereingabe (Schritt 62 in 5), der Bestimmung der Benutzerposition und Zuwenderichtung (Schritt 63) und der Selbstaktivierung, wenn dasselbe angesprochen wird (Schritt 64), ausführt.After the adjustment phase, the devices are ready to execute their sound controlled device release roller, as already described with reference to FIG 4 This role involves each device performing the tasks of capturing user input (step 62 in 5 ), the provision of User position and turn direction (step 63 ) and self-activation when addressed (step 64 ).

Eine weitere Rolle, die die Geräte nützlich durchführen können, ist die Meldung ihres Vorhandenseins an einen Benutzer, nachdem eine geeignete Aufforderung erzeugt wurde, zum Beispiel ein Benutzer in die Hände klatscht oder ein Türsensor ein Signal emittiert (zum Beispiel über einen Nahbereichssender), nachdem ein Benutzer den Raum 11 betreten hat. Für diese Rolle sind die Geräte ausgestattet, um das Aufforderungssignal zu erfassen, und für den Fall, dass es sich bei der Aufforderung um einen Schall handelt, umfasst Aufgabe 62 ein Bestimmen, ob es sich bei einem erfassten Schall um eine Aufforderung oder um irgendeinen anderen Schall handelt. Falls die Geräte eine Aufforderung erfassen, melden dieselben jedes seine Anwesenheit durch einen Lautsprecher 55, wobei dies der Reihe nach erledigt wird. Die Reihenfolge der Meldung kann gemäß der vorher festgelegten Rangordnung vorgenommen werden oder kann in einer Reihenfolge im Uhrzeigersinn (oder gegen den Uhrzeigersinn) vorgenommen werden, wobei bei einer bestimmten Vorrichtung begonnen wird und die Position des Benutzers berücksichtigt wird. Die Position des Benutzers wird durch die Geräte in Schritt 65 auf dieselbe Weise bestimmt, wie dies für eine Gerätfreigabe der Fall wäre, wenn es sich bei der Aufforderung um einen Schall handelt; falls es sich bei der Aufforderung um irgendein anderes Signal handelt, das auf ein Eintreten des Benutzers in den Raum hin erzeugt wird, dann kann es eingerichtet sein, dass diese feste Position den Vorrichtungen vorhergehend bekannt gemacht wird (zum Beispiel kann ein spezielles tragbares „Türgerät" in der Türöffnung positioniert und veranlasst werden, eine neue Einstellphase auszulösen, bei der seine Position und Beschaffenheit den anderen Gruppenelementen bekannt gemacht werden, und obwohl das Türgerät selbst eventuell nicht vorhanden ist, wenn die nächste Einstellphase ausgelöst wird, wird die Türposition danach von den Geräten im Speicher behalten).Another role that the devices can usefully perform is to report their presence to a user after an appropriate prompt has been generated, for example, a user is clapping their hands or a door sensor is emitting a signal (for example, via a short range transmitter) after a user the room 11 has entered. For this role, the devices are equipped to detect the prompt signal, and in the event that the request is a sound, includes task 62 determining whether a detected sound is a prompt or any other sound. If the devices detect a prompt, they each announce its presence through a speaker 55 and this is done in order. The order of the message may be made in accordance with the predetermined ranking or may be performed in a clockwise (or counterclockwise) order starting with a particular device and taking into account the position of the user. The user's position is determined by the devices in step 65 in the same way as would be the case for a device release, if the request is a sound; if the request is any other signal generated upon entry of the user into the room, then it may be arranged that this fixed position be previously announced to the devices (for example, a particular portable "door device "Positioned in the doorway and caused to initiate a new adjustment phase, in which its position and nature are made known to the other group elements, and although the door device itself may not be present when the next adjustment phase is triggered, the door position is then determined by the Keep devices in memory).

Der Gruppenführer kann bestimmt sein, immer die Meldungssequenz zu beginnen (Schritt 66), wobei jedes Gerät dann meldet, wenn es an der Reihe ist (um dies zu erfassen, müssen die Geräte den anderen Geräten beim Melden zuhören, wobei jedes Gerät bevorzugt einen deutlichen Abstand lässt, bevor dasselbe seine Meldung beginnt). Falls in Schritt 65 erfasst wird, dass der Benutzer einem spezifischen Gerät zugewandt ist, dann kann es eingerichtet sein, dass dieses Gerät anstelle des Gruppenführers das erstmeldende Gerät ist.The group leader may be determined to always start the message sequence (step 66 ), with each device reporting when it is their turn (in order to detect this, the devices must listen to the other devices when reporting, with each device preferably leaving a clear distance before it begins its message). If in step 65 is detected that the user is facing a specific device, then it may be arranged that this device instead of the group leader is the first-reporting device.

Viele andere Varianten der oben beschriebenen Anordnung sind natürlich möglich. Zum Beispiel kann ein Gerät eingerichtet sein, um nur freigegeben zu werden, solange der Benutzer demselben tatsächlich zugewandet ist. Alternativ dazu kann eine anfängliche Freigabe eines Gerätes das Aussprechen eines Schlüsselworts erfordern, das das Gerät identifiziert, während der Benutzer dem Gerät zugewandt ist; in diesem Fall kann das Gerät eingerichtet sein, um freigegeben zu bleiben, bis ein Schlüsselwort ausgesprochen wird, das einem anderen Gerät zugeordnet ist, während der Benutzer diesem Gerät zugewandt ist. In diesem Fall muss die Spracherkennungsvorrichtung jedes Geräts kontinuierlich freigegeben sein, wobei nur seine Ausgabe 19 einer Steuerung unterliegt.Many other variants of the arrangement described above are of course possible. For example, a device may be configured to be enabled only as long as the user is actually facing it. Alternatively, an initial release of a device may require the pronunciation of a keyword identifying the device while the user is facing the device; in this case, the device may be configured to remain enabled until a keyword associated with another device is spoken while the user is facing that device. In this case, the speech recognition device of each device must be continuously enabled, with only its output 19 subject to a control.

Verschiedene der Prozesse, die durch die Vorrichtungen 14, insbesondere die Vorrichtungen 14 von 4, ausgeführt werden, können unabhängig von der Aufgabe, eine Sprachsteuerung der Geräte freizugeben, ausgeführt werden. Somit kann ein Bestimmen der Zuwenderichtung eines Benutzers aus anderen Gründen vorgenommen werden, zum Beispiel um zu bestimmen, wo ein visueller Alarmindikator zu aktivieren ist, um die Aufmerksamkeit des Benutzers zu erregen. Außerdem kann der automatische Einstellprozess für die Geräte von 4 unabhängig von dem Freigabeverfahren ausgeführt werden, ebenso wie der Prozess zum Festlegen der Elemente der örtlichen Gerätegruppe und der Prozess zum Ordnen der Meldungen, um in einer Sequenz im Uhrzeigersinn oder gegen den Uhrzeigersinn relativ zu dem Benutzer stattzufinden.Various of the processes by the devices 14 , in particular the devices 14 from 4 can be executed regardless of the task of enabling voice control of the devices. Thus, determining a user's tack direction may be made for other reasons, for example, to determine where to activate a visual alarm indicator to attract the user's attention. In addition, the automatic adjustment process for the devices of 4 regardless of the release procedure, as well as the process of setting the elements of the local device group and the process of ordering the messages to take place in a clockwise or counterclockwise sequence relative to the user.

Claims

A method for activating a voice-controlled Device comprising the following steps: (a) Use a microphone array to detect if a user of the device when it generates a sound, the relative Positions of the microphones of the array and the device are known are; (b) at least initial Releasing the device for voice control only if step (a) indicates that the user facing the device.

A method according to claim 1, wherein determining whether the user is facing the voice activated device comprises the steps of (i) using the microphone array to determine the position of the user, (ii) measuring the strength of the sound signal at each Microphone of the array, and (iii) performing processing to effectively align a relative signal strength table for sound generated by a human being positioned at the user's particular location to a pattern of relative magnitudes to get on the microphones that are essentially those that measured at step (ii), where the table orientation then indicates the user's turn direction.

A method according to claim 1 or claim 2, wherein the microphone array is one of the device isolated stationary Array is where the relative positions of the device and the Microphones of the device are known.

A method according to claim 3, in which the recognition of voice commands is performed on the device.

A method according to a of the preceding claims, where the microphone array is formed by microphones, the respective ones devices a group of voice - controlled devices, including the voice-controlled device, are assigned.

A method according to claim 5, in which the relative positions of the devices due to an automatic Setting process are known in which each device causes becomes, a sound in a predetermined temporal relationship too emitting an electromagnetic signal, wherein the latter serves as a timing point allowing the other devices to determine their distance from the emitting device, the devices their distances from other devices exchange, which allows each device, the relative Positions of all devices to calculate.

A method according to a of the preceding claims, in which the device, after being initially enabled for voice control, continues to be released after the user has stopped the device to be facing, but only as long as the user continues to speak, and for a limited time-out period thereafter, with a resumption of speaking while this period continues the voice control, the timing reset the time-out period becomes.

A method according to a the claims 1 to 6, in which the device is released only for voice control remains as long as the user faces the device.

A method according to a of the preceding claims, wherein a speech recognition device of the device is a voice input ignored by the user, except if the user speaks a predetermined keyword as long as the user facing the device.

A method according to any one of the preceding Claims, in which the device is only released at step (b) when at least one predetermined silence period exists, immediately before the user generates a sound as long as the same of the device is facing.

A system for activating a voice-controlled Device having the following features A microphone array, the relative positions of the microphones of the array and the Device are known; - one Zuwenderichtungbestimmungsanordnung that is effective to the microphone array to use to determine if a user is facing the device is when he produces a sound; - a control arrangement for at least initial Releasing the device for a voice control only when the turn direction determination arrangement indicates that the user is facing the device.

A system according to claim 11, in which the tumble direction determination arrangement has the following features having: - one User position determining means for using the microphone array, to determine the position of the user - a measuring device to measure the strength the sound signal received at each microphone in the array, and - one Processing means for performing processing to effectively a Relative Signal Strength table for sound, which is generated by a human being who aligns with the certain position of the user is positioned relative to a pattern Strengthen on the microphones that are essentially the same as those measured by the measuring device, the table orientation then indicates the user's turn direction.

A system according to claim 11 or claim 12, wherein the microphone array is one of the device isolated stationary Array is where the relative positions of the device and the Microphones of the device are known.

A system according to claim 13, in which the device has a voice control arrangement for detecting of voice commands.

A system according to one the claims 11 to 14, in which the microphone array is formed by microphones, the respective devices a group of voice-controlled devices, including the voice-operated ones Device, are assigned.

A system according to claim 15, further comprising a relative position determining means for determining the relative positions of the devices wherein the relative position determining means on each device comprises: - an electromagnetic communication transceiver; A sound emitter and receiver; - control means for causing the apparatus to emit sound from its sound emitter in predetermined temporal relation to a transmission of a timing reference signal from its electromagnetic communication transceiver; A distance determining means for determining the distance of the apparatus from one of the other apparatuses by determining the passage time of sound transmitted from this apparatus based on the reception time of the sound emitted by this apparatus relative to the reception time of the timing reference signal from this device; - means for exchanging inter-device distances with other devices; and means for using the inter-device distances to determine the relative positions of the devices.

A system according to one the claims 11 to 16, in which the control arrangement device has a delayed-deactivation device which is operative after the device is initially for voice control has been released to continue the device for voice control release after the user has stopped facing the device but only as long as the user continues to speak, and for a limited time Thereafter, the time-out period, wherein the Delayed Disable facility respond to a resumption of speech during this period, to continue to release the voice control of the device, wherein the timing of the time-out period is reset.

A system according to one the claims 11 to 16, in which the control arrangement device is effective, around the device only for to release a voice control as long as the user of the device is facing.