HK1177041B - Voice-body identity correlation - Google Patents
Voice-body identity correlation Download PDFInfo
- Publication number
- HK1177041B HK1177041B HK13104182.5A HK13104182A HK1177041B HK 1177041 B HK1177041 B HK 1177041B HK 13104182 A HK13104182 A HK 13104182A HK 1177041 B HK1177041 B HK 1177041B
- Authority
- HK
- Hong Kong
- Prior art keywords
- voice
- users
- user
- samplings
- source
- Prior art date
Links
Claims (15)
- Verfahren zum Identifizieren einer Korrelation zwischen einem Benutzer und einer Benutzerstimme in einer Mehrbenutzeranwendung beginnend mit einer unbekannten Menge von Benutzern, wobei das Verfahren die Schritte umfasst:(a) Empfangen mehrerer Bilder von Objekten (A' - D') innerhalb eines Sichtfeldes einer Videoaufnahmekomponente (20), die über mehrere Zeitdauern aufgenommen wurden;(b) Bestimmen, ob die Bilder, die im Schritt (a) empfangen wurden, einen oder mehrere Benutzer beinhalten;(c) Empfangen von Schall innerhalb der Reichweite einer Mikrofonanordnung (32) für mehrere Zeitdauern;(d) Bestimmen, ob der Schall, der in dem Schritt (c) empfangen wurde, eine oder mehrere menschliche Stimmen beinhaltet; und(e) Korrelieren einer Stimme, die im Schritt (d) identifiziert wurde, mit einem Benutzer des einen oder der mehreren Benutzer (A - D) innerhalb des Sichtfeldes basierend auf mehreren Abtastungen bestimmter Positionen des Benutzers in verschiedenen Bildern und bestimmten Quellorten der Stimme zu verschiedenen Zeiten, dadurch gekennzeichnet, dass der Schritt (e) den Schritt eines Durchführens einer ersten Abtastung der mehreren Abtastungen umfasst, um ein erzieltes Konfidenzniveau einer Assoziierung zwischen der Stimme und einem Benutzer abzuleiten, wobei das erzielte Konfidenzniveau durch Prüfen eines oder mehrerer der folgenden Faktoren erhalten wird:i. wie nahe die geschätzte Position der Stimmquelle zu dem einen oder den mehreren Benutzern ist;ii. die Anzahl von Stimmen, welche gehört werden;iii. die Nähe des einen oder der mehreren Benutzer zu einer geschätzten Quelle der Stimme;iv. ob die Quelle der Stimme geschätzt wird, mittig innerhalb eines Sichtfeldes des Bildes oder näher an Rändern des Sichtfeldes zu sein.
- Verfahren gemäß Anspruch 1, wobei der Schritt (e) den Schritt einer Abtastung der mehreren Abtastungen umfasst, der gebildet ist durch Bestimmen eines Ortes des einen oder der mehreren Benutzer aus einer Prüfung eines Bildes der mehreren Bilder und gebildet ist durch Bestimmen eines Orts der Stimme unter Verwendung einer akustischen Quelllokalisationstechnik.
- Verfahren gemäß Anspruch 1, wobei der Schritt (e) den Schritt eines Durchführens einer ersten Abtastung der mehreren Abtastungen umfasst, um ein Konfidenzniveau in einer Assoziierung zwischen der Stimme und dem Benutzer zu erhalten, wobei ein Konfidenzniveau oberhalb eines vorherbestimmten Schwellenwerts zur Folge hat, dass die Stimme und der Benutzer in einem Speicher zusammen assoziiert werden.
- Verfahren gemäß Anspruch 3, wobei der Schritt (e) den Schritt umfasst, dass das Konfidenzniveau in aufeinanderfolgenden Abtastungen der mehreren Abtastungen ansteigt, falls die nachfolgenden Abtastungen die Anzahl möglicher Benutzer, denen die Stimme gehören kann, verringern.
- Verfahren gemäß Anspruch 4, ferner umfassend den Schritt eines eindeutigen Korrelierens der Stimme mit einem Benutzer bei Eliminieren aller anderer Benutzer, denen die Stimme gehören könnte, in den mehreren Abtastungen.
- Verfahren gemäß Anspruch 5, ferner umfassend den Schritt eines Durchführens zusätzlicher Abtastungen in den mehreren Abtastungen, nachdem die Korrelation zwischen der Stimme und dem Benutzer eindeutig zusammen assoziiert wurde.
- Verfahren gemäß Anspruch 3, ferner umfassend den Schritt eines Entfernens der Korrelation basierend auf einem Nachzählen, wie oft festgestellt wurde, dass eine gegebene Stimme-Körper-Assoziierung mehrdeutig ist, und Bestimmen, ob die Strichliste irgendeinen Mehrdeutigkeitsschwellenwert überschreitet, wenn die zusätzlichen Abtastungen nicht in der Lage sind, eine Mehrdeutigkeit im Hinblick darauf, welchem Benutzer die Stimme gehört, zu entfernen, oder wenn die zusätzlichen Abtastungen zeigen, dass die Stimme einem zweiten Benutzer des einen oder der mehreren Benutzer gehört.
- Verfahren gemäß Anspruch 1, wobei der Schritt (b) des Bestimmens, ob die Bilder, die im Schritt (a) empfangen wurden, einen oder mehrere Benutzer umfassen, den Schritt eines Messens von Orten von wenigstens Teilen der Skelettgelenke der Benutzer umfasst.
- Verfahren gemäß Anspruch 8, wobei der Schritt (e) des Korrelierens einer Stimme, die im Schritt (d) identifiziert wurde, mit einem Benutzer teilweise basierend auf bestimmten Quellorten der Stimme den Schritt eines Bestimmens von Quellorten einer Stimme durch Ankunftszeitdifferenzen umfasst.
- Verfahren gemäß einem der vorhergehenden Ansprüche, ferner umfassend den Schritt eines Prüfens physischer Eigenschaften des Benutzers, um den Benutzer von anderen Benutzern zu unterscheiden, durch Detektieren von Orten von Gelenken des einen oder der mehreren Benutzer und Prüfen akustischer Qualitäten der Stimme, um die Stimme von anderen Stimmen zu unterscheiden.
- Maschinenlesbares Speichermedium (222, 223, 253, 254, 260) umfassend darauf gespeicherte Instruktionen, welche, wenn sie von einer Verarbeitungseinheit (259) ausgeführt werden, bewirken, dass die Verarbeitungseinheit (259) das Verfahren eines der vorhergehenden Ansprüchen durchführt.
- System (10) zum Korrelieren einer Stimme mit einem Benutzer (A - D) in einer Mehrbenutzeranwendung, wobei das System (10) umfasst:eine Bildkamerakomponente (22), die in der Lage ist, ein Tiefenbild eines oder mehrerer Benutzer (A - D) in einem Sichtfeld der Bildkamerakomponente (22) bereitzustellen;eine Mikrofonanordnung (32), die in der Lage ist, einen Ton innerhalb einer Reichweite der Mikrofonanordnung (32) zu empfangen, wobei die Mikrofonanordnung (32) in der Lage ist, eine Quelle einer Stimme bis auf eine erste Toleranz zu lokalisieren; undeine Rechenumgebung (12) in Kommunikation mit sowohl der Bildkamerakomponente (22) als auch der Mikrofonanordnung (32), wobei die Rechenumgebung (12) in der Lage ist, zwischen verschiedenen Benutzern im Sichtfeld mit einer zweiten Toleranz zu unterscheiden, wobei die erste und die zweite Toleranz manchmal eine Korrelation der Stimme mit einem Benutzer des einen oder der mehreren Benutzer nach einer anfänglichen Abtastung von Daten aus der Bildkamerakomponente (22) und Daten aus der Mikrofonanordnung (32) verhindern, wobei die Rechenumgebung (12) ferner zusätzliche Abtastungen von Daten aus der Bildkamerakomponente (22) und Daten aus der Mikrofonanordnung (32) durchführt, wobei die zusätzlichen Abtastungen die Korrelation der Stimme mit dem Benutzer ermöglichen oder die zusätzlichen Abtastungen eine Wahrscheinlichkeit verringern, dass die Stimme mit dem Benutzer korreliert ist, dadurch gekennzeichnet, dass das Durchführen der zusätzlichen Abtastungen ein Durchführen einer ersten Abtastung mehrerer Abtastungen umfasst, um ein erzieltes Konfidenzniveau einer Assoziierung zwischen der Stimme und einem Benutzer abzuleiten, wobei das erzielte Konfidenzniveau durch Prüfen eines oder mehrerer der folgenden Faktoren erhalten wird:i. wie nahe die geschätzte Position der Stimmquelle zu dem einen oder den mehreren Benutzern ist;ii. die Anzahl von Stimmen, welche gehört werden;iii. die Nähe des einen oder der mehreren Benutzer zu einer geschätzten Quelle der Stimme;iv. ob die Quelle der Stimme geschätzt wird, mittig innerhalb eines Sichtfeldes des Bildes oder näher an Rändern des Sichtfeldes zu sein.
- System (10) gemäß Anspruch 12, wobei die Rechenumgebung (12) eine Spieleanwendung unter Einbeziehung des einen oder der mehreren Benutzer ausführt, während sie die anfänglichen und zusätzlichen Abtastungen durchführt.
- System (10) gemäß Anspruch 12 oder 13, wobei die Rechenumgebung (12) zwischen verschiedenen Benutzern im Sichtfeld durch Detektieren von Orten von Gelenken des einen oder der mehreren Benutzer unterscheidet.
- System (10) gemäß Anspruch 14, wobei die Mikrofonanordnung zwei Mikrofone verwendet, um eine Quelle der Stimme durch Ankunftszeitdifferenzen der Stimme an den zwei Mikrofonen zu lokalisieren.
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US12/692,797 US8265341B2 (en) | 2010-01-25 | 2010-01-25 | Voice-body identity correlation |
| US12/692,797 | 2010-01-25 | ||
| PCT/US2011/020396 WO2011090829A2 (en) | 2010-01-25 | 2011-01-06 | Voice-body identity correlation |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| HK1177041A1 HK1177041A1 (en) | 2013-08-09 |
| HK1177041B true HK1177041B (en) | 2016-04-08 |
Family
ID=
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP2529355B1 (de) | Identitätskorrelation stimme-körper | |
| US8660847B2 (en) | Integrated local and cloud based speech recognition | |
| CN112088402B (zh) | 用于说话者识别的联合神经网络 | |
| CN112088315B (zh) | 多模式语音定位 | |
| US8675981B2 (en) | Multi-modal gender recognition including depth data | |
| EP2509070B1 (de) | Vorrichtung und Verfahren zur Bestimmung der Relevanz der Spracheingabe | |
| EP2877254B1 (de) | Verfahren und vorrichtung zur steuerung von erweiterter realität | |
| US8793134B2 (en) | System and method for integrating gesture and sound for controlling device | |
| US20110311144A1 (en) | Rgb/depth camera for improving speech recognition | |
| US20130177296A1 (en) | Generating metadata for user experiences | |
| CN103019373A (zh) | 用于设备激活的音频模式匹配 | |
| Duncan et al. | A survey of multimodal perception methods for human–robot interaction in social environments | |
| Cabañas-Molero et al. | Multimodal speaker diarization for meetings using volume-evaluated SRP-PHAT and video analysis | |
| Karpov et al. | An assistive bi-modal user interface integrating multi-channel speech recognition and computer vision | |
| HK1177041B (en) | Voice-body identity correlation | |
| Ahmed et al. | Biometric-based user authentication and activity level detection in a collaborative environment | |
| CN120996055A (zh) | 一种便携式多语言智能采集与翻译系统 | |
| Korchagin et al. | Multimodal cue detection engine for orchestrated entertainment | |
| HK1179403B (en) | Integrated local and cloud based speech recognition | |
| Minotto | Audiovisual voice activity detection and localization of simultaneous speech sources | |
| Lopes | Audio-coupled video content understanding of unconstrained video sequences |