[go: up one dir, main page]

HK1177041B - Voice-body identity correlation - Google Patents

Voice-body identity correlation Download PDF

Info

Publication number
HK1177041B
HK1177041B HK13104182.5A HK13104182A HK1177041B HK 1177041 B HK1177041 B HK 1177041B HK 13104182 A HK13104182 A HK 13104182A HK 1177041 B HK1177041 B HK 1177041B
Authority
HK
Hong Kong
Prior art keywords
voice
users
user
samplings
source
Prior art date
Application number
HK13104182.5A
Other languages
English (en)
French (fr)
Chinese (zh)
Other versions
HK1177041A1 (en
Inventor
Mitchell Dernis
Tommer Leyvand
Christian Klein
Jinyu Li
Original Assignee
微软技术许可有限责任公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US12/692,797 external-priority patent/US8265341B2/en
Application filed by 微软技术许可有限责任公司 filed Critical 微软技术许可有限责任公司
Publication of HK1177041A1 publication Critical patent/HK1177041A1/xx
Publication of HK1177041B publication Critical patent/HK1177041B/en

Links

Claims (15)

  1. Verfahren zum Identifizieren einer Korrelation zwischen einem Benutzer und einer Benutzerstimme in einer Mehrbenutzeranwendung beginnend mit einer unbekannten Menge von Benutzern, wobei das Verfahren die Schritte umfasst:
    (a) Empfangen mehrerer Bilder von Objekten (A' - D') innerhalb eines Sichtfeldes einer Videoaufnahmekomponente (20), die über mehrere Zeitdauern aufgenommen wurden;
    (b) Bestimmen, ob die Bilder, die im Schritt (a) empfangen wurden, einen oder mehrere Benutzer beinhalten;
    (c) Empfangen von Schall innerhalb der Reichweite einer Mikrofonanordnung (32) für mehrere Zeitdauern;
    (d) Bestimmen, ob der Schall, der in dem Schritt (c) empfangen wurde, eine oder mehrere menschliche Stimmen beinhaltet; und
    (e) Korrelieren einer Stimme, die im Schritt (d) identifiziert wurde, mit einem Benutzer des einen oder der mehreren Benutzer (A - D) innerhalb des Sichtfeldes basierend auf mehreren Abtastungen bestimmter Positionen des Benutzers in verschiedenen Bildern und bestimmten Quellorten der Stimme zu verschiedenen Zeiten, dadurch gekennzeichnet, dass der Schritt (e) den Schritt eines Durchführens einer ersten Abtastung der mehreren Abtastungen umfasst, um ein erzieltes Konfidenzniveau einer Assoziierung zwischen der Stimme und einem Benutzer abzuleiten, wobei das erzielte Konfidenzniveau durch Prüfen eines oder mehrerer der folgenden Faktoren erhalten wird:
    i. wie nahe die geschätzte Position der Stimmquelle zu dem einen oder den mehreren Benutzern ist;
    ii. die Anzahl von Stimmen, welche gehört werden;
    iii. die Nähe des einen oder der mehreren Benutzer zu einer geschätzten Quelle der Stimme;
    iv. ob die Quelle der Stimme geschätzt wird, mittig innerhalb eines Sichtfeldes des Bildes oder näher an Rändern des Sichtfeldes zu sein.
  2. Verfahren gemäß Anspruch 1, wobei der Schritt (e) den Schritt einer Abtastung der mehreren Abtastungen umfasst, der gebildet ist durch Bestimmen eines Ortes des einen oder der mehreren Benutzer aus einer Prüfung eines Bildes der mehreren Bilder und gebildet ist durch Bestimmen eines Orts der Stimme unter Verwendung einer akustischen Quelllokalisationstechnik.
  3. Verfahren gemäß Anspruch 1, wobei der Schritt (e) den Schritt eines Durchführens einer ersten Abtastung der mehreren Abtastungen umfasst, um ein Konfidenzniveau in einer Assoziierung zwischen der Stimme und dem Benutzer zu erhalten, wobei ein Konfidenzniveau oberhalb eines vorherbestimmten Schwellenwerts zur Folge hat, dass die Stimme und der Benutzer in einem Speicher zusammen assoziiert werden.
  4. Verfahren gemäß Anspruch 3, wobei der Schritt (e) den Schritt umfasst, dass das Konfidenzniveau in aufeinanderfolgenden Abtastungen der mehreren Abtastungen ansteigt, falls die nachfolgenden Abtastungen die Anzahl möglicher Benutzer, denen die Stimme gehören kann, verringern.
  5. Verfahren gemäß Anspruch 4, ferner umfassend den Schritt eines eindeutigen Korrelierens der Stimme mit einem Benutzer bei Eliminieren aller anderer Benutzer, denen die Stimme gehören könnte, in den mehreren Abtastungen.
  6. Verfahren gemäß Anspruch 5, ferner umfassend den Schritt eines Durchführens zusätzlicher Abtastungen in den mehreren Abtastungen, nachdem die Korrelation zwischen der Stimme und dem Benutzer eindeutig zusammen assoziiert wurde.
  7. Verfahren gemäß Anspruch 3, ferner umfassend den Schritt eines Entfernens der Korrelation basierend auf einem Nachzählen, wie oft festgestellt wurde, dass eine gegebene Stimme-Körper-Assoziierung mehrdeutig ist, und Bestimmen, ob die Strichliste irgendeinen Mehrdeutigkeitsschwellenwert überschreitet, wenn die zusätzlichen Abtastungen nicht in der Lage sind, eine Mehrdeutigkeit im Hinblick darauf, welchem Benutzer die Stimme gehört, zu entfernen, oder wenn die zusätzlichen Abtastungen zeigen, dass die Stimme einem zweiten Benutzer des einen oder der mehreren Benutzer gehört.
  8. Verfahren gemäß Anspruch 1, wobei der Schritt (b) des Bestimmens, ob die Bilder, die im Schritt (a) empfangen wurden, einen oder mehrere Benutzer umfassen, den Schritt eines Messens von Orten von wenigstens Teilen der Skelettgelenke der Benutzer umfasst.
  9. Verfahren gemäß Anspruch 8, wobei der Schritt (e) des Korrelierens einer Stimme, die im Schritt (d) identifiziert wurde, mit einem Benutzer teilweise basierend auf bestimmten Quellorten der Stimme den Schritt eines Bestimmens von Quellorten einer Stimme durch Ankunftszeitdifferenzen umfasst.
  10. Verfahren gemäß einem der vorhergehenden Ansprüche, ferner umfassend den Schritt eines Prüfens physischer Eigenschaften des Benutzers, um den Benutzer von anderen Benutzern zu unterscheiden, durch Detektieren von Orten von Gelenken des einen oder der mehreren Benutzer und Prüfen akustischer Qualitäten der Stimme, um die Stimme von anderen Stimmen zu unterscheiden.
  11. Maschinenlesbares Speichermedium (222, 223, 253, 254, 260) umfassend darauf gespeicherte Instruktionen, welche, wenn sie von einer Verarbeitungseinheit (259) ausgeführt werden, bewirken, dass die Verarbeitungseinheit (259) das Verfahren eines der vorhergehenden Ansprüchen durchführt.
  12. System (10) zum Korrelieren einer Stimme mit einem Benutzer (A - D) in einer Mehrbenutzeranwendung, wobei das System (10) umfasst:
    eine Bildkamerakomponente (22), die in der Lage ist, ein Tiefenbild eines oder mehrerer Benutzer (A - D) in einem Sichtfeld der Bildkamerakomponente (22) bereitzustellen;
    eine Mikrofonanordnung (32), die in der Lage ist, einen Ton innerhalb einer Reichweite der Mikrofonanordnung (32) zu empfangen, wobei die Mikrofonanordnung (32) in der Lage ist, eine Quelle einer Stimme bis auf eine erste Toleranz zu lokalisieren; und
    eine Rechenumgebung (12) in Kommunikation mit sowohl der Bildkamerakomponente (22) als auch der Mikrofonanordnung (32), wobei die Rechenumgebung (12) in der Lage ist, zwischen verschiedenen Benutzern im Sichtfeld mit einer zweiten Toleranz zu unterscheiden, wobei die erste und die zweite Toleranz manchmal eine Korrelation der Stimme mit einem Benutzer des einen oder der mehreren Benutzer nach einer anfänglichen Abtastung von Daten aus der Bildkamerakomponente (22) und Daten aus der Mikrofonanordnung (32) verhindern, wobei die Rechenumgebung (12) ferner zusätzliche Abtastungen von Daten aus der Bildkamerakomponente (22) und Daten aus der Mikrofonanordnung (32) durchführt, wobei die zusätzlichen Abtastungen die Korrelation der Stimme mit dem Benutzer ermöglichen oder die zusätzlichen Abtastungen eine Wahrscheinlichkeit verringern, dass die Stimme mit dem Benutzer korreliert ist, dadurch gekennzeichnet, dass das Durchführen der zusätzlichen Abtastungen ein Durchführen einer ersten Abtastung mehrerer Abtastungen umfasst, um ein erzieltes Konfidenzniveau einer Assoziierung zwischen der Stimme und einem Benutzer abzuleiten, wobei das erzielte Konfidenzniveau durch Prüfen eines oder mehrerer der folgenden Faktoren erhalten wird:
    i. wie nahe die geschätzte Position der Stimmquelle zu dem einen oder den mehreren Benutzern ist;
    ii. die Anzahl von Stimmen, welche gehört werden;
    iii. die Nähe des einen oder der mehreren Benutzer zu einer geschätzten Quelle der Stimme;
    iv. ob die Quelle der Stimme geschätzt wird, mittig innerhalb eines Sichtfeldes des Bildes oder näher an Rändern des Sichtfeldes zu sein.
  13. System (10) gemäß Anspruch 12, wobei die Rechenumgebung (12) eine Spieleanwendung unter Einbeziehung des einen oder der mehreren Benutzer ausführt, während sie die anfänglichen und zusätzlichen Abtastungen durchführt.
  14. System (10) gemäß Anspruch 12 oder 13, wobei die Rechenumgebung (12) zwischen verschiedenen Benutzern im Sichtfeld durch Detektieren von Orten von Gelenken des einen oder der mehreren Benutzer unterscheidet.
  15. System (10) gemäß Anspruch 14, wobei die Mikrofonanordnung zwei Mikrofone verwendet, um eine Quelle der Stimme durch Ankunftszeitdifferenzen der Stimme an den zwei Mikrofonen zu lokalisieren.
HK13104182.5A 2010-01-25 2011-01-06 Voice-body identity correlation HK1177041B (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/692,797 US8265341B2 (en) 2010-01-25 2010-01-25 Voice-body identity correlation
US12/692,797 2010-01-25
PCT/US2011/020396 WO2011090829A2 (en) 2010-01-25 2011-01-06 Voice-body identity correlation

Publications (2)

Publication Number Publication Date
HK1177041A1 HK1177041A1 (en) 2013-08-09
HK1177041B true HK1177041B (en) 2016-04-08

Family

ID=

Similar Documents

Publication Publication Date Title
EP2529355B1 (de) Identitätskorrelation stimme-körper
US8660847B2 (en) Integrated local and cloud based speech recognition
CN112088402B (zh) 用于说话者识别的联合神经网络
CN112088315B (zh) 多模式语音定位
US8675981B2 (en) Multi-modal gender recognition including depth data
EP2509070B1 (de) Vorrichtung und Verfahren zur Bestimmung der Relevanz der Spracheingabe
EP2877254B1 (de) Verfahren und vorrichtung zur steuerung von erweiterter realität
US8793134B2 (en) System and method for integrating gesture and sound for controlling device
US20110311144A1 (en) Rgb/depth camera for improving speech recognition
US20130177296A1 (en) Generating metadata for user experiences
CN103019373A (zh) 用于设备激活的音频模式匹配
Duncan et al. A survey of multimodal perception methods for human–robot interaction in social environments
Cabañas-Molero et al. Multimodal speaker diarization for meetings using volume-evaluated SRP-PHAT and video analysis
Karpov et al. An assistive bi-modal user interface integrating multi-channel speech recognition and computer vision
HK1177041B (en) Voice-body identity correlation
Ahmed et al. Biometric-based user authentication and activity level detection in a collaborative environment
CN120996055A (zh) 一种便携式多语言智能采集与翻译系统
Korchagin et al. Multimodal cue detection engine for orchestrated entertainment
HK1179403B (en) Integrated local and cloud based speech recognition
Minotto Audiovisual voice activity detection and localization of simultaneous speech sources
Lopes Audio-coupled video content understanding of unconstrained video sequences