FR3000592A1 - Speech recognition module for e.g. automatic translation, has data acquisition device including differential pressure sensor that is adapted to measure pressure gradient and/or temperature between air exhaled by nose and mouth - Google Patents
Speech recognition module for e.g. automatic translation, has data acquisition device including differential pressure sensor that is adapted to measure pressure gradient and/or temperature between air exhaled by nose and mouth Download PDFInfo
- Publication number
- FR3000592A1 FR3000592A1 FR1262835A FR1262835A FR3000592A1 FR 3000592 A1 FR3000592 A1 FR 3000592A1 FR 1262835 A FR1262835 A FR 1262835A FR 1262835 A FR1262835 A FR 1262835A FR 3000592 A1 FR3000592 A1 FR 3000592A1
- Authority
- FR
- France
- Prior art keywords
- speaker
- data
- voice recognition
- unit
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013519 translation Methods 0.000 title claims description 6
- 238000005286 illumination Methods 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims description 30
- 238000003384 imaging method Methods 0.000 claims description 15
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 210000000214 mouth Anatomy 0.000 description 34
- 241000446313 Lamella Species 0.000 description 21
- 230000003287 optical effect Effects 0.000 description 18
- 238000000034 method Methods 0.000 description 13
- 210000004283 incisor Anatomy 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000005259 measurement Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 241000282465 Canis Species 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000009792 diffusion process Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000002955 isolation Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 210000003128 head Anatomy 0.000 description 3
- 210000003254 palate Anatomy 0.000 description 3
- 230000002035 prolonged effect Effects 0.000 description 3
- 238000013518 transcription Methods 0.000 description 3
- 230000035897 transcription Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 210000001847 jaw Anatomy 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000005855 radiation Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 241000252254 Catostomidae Species 0.000 description 1
- 206010011878 Deafness Diseases 0.000 description 1
- 208000004929 Facial Paralysis Diseases 0.000 description 1
- CERQOIWHTDAKMF-UHFFFAOYSA-M Methacrylate Chemical compound CC(=C)C([O-])=O CERQOIWHTDAKMF-UHFFFAOYSA-M 0.000 description 1
- 206010033799 Paralysis Diseases 0.000 description 1
- 206010033892 Paraplegia Diseases 0.000 description 1
- 208000036826 VIIth nerve paralysis Diseases 0.000 description 1
- 210000005180 arcus palatinus Anatomy 0.000 description 1
- 230000002146 bilateral effect Effects 0.000 description 1
- 230000036760 body temperature Effects 0.000 description 1
- 238000009529 body temperature measurement Methods 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000007789 gas Substances 0.000 description 1
- 210000004195 gingiva Anatomy 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000036512 infertility Effects 0.000 description 1
- 230000001795 light effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000012634 optical imaging Methods 0.000 description 1
- 230000003071 parasitic effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 229920001296 polysiloxane Polymers 0.000 description 1
- 230000035484 reaction time Effects 0.000 description 1
- 230000000284 resting effect Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000002630 speech therapy Methods 0.000 description 1
- 230000009747 swallowing Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/103—Measuring devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
- A61B5/11—Measuring movement of the entire body or parts thereof, e.g. head or hand tremor or mobility of a limb
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/48—Other medical applications
- A61B5/4803—Speech analysis specially adapted for diagnostic purposes
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/68—Arrangements of detecting, measuring or recording means, e.g. sensors, in relation to patient
- A61B5/6801—Arrangements of detecting, measuring or recording means, e.g. sensors, in relation to patient specially adapted to be attached to or worn on the body surface
- A61B5/6813—Specially adapted to be attached to a specific body part
- A61B5/6814—Head
- A61B5/682—Mouth, e.g., oral cavity; tongue; Lips; Teeth
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/103—Measuring devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
- A61B5/11—Measuring movement of the entire body or parts thereof, e.g. head or hand tremor or mobility of a limb
- A61B5/1126—Measuring movement of the entire body or parts thereof, e.g. head or hand tremor or mobility of a limb using a particular sensing technique
- A61B5/1128—Measuring movement of the entire body or parts thereof, e.g. head or hand tremor or mobility of a limb using a particular sensing technique using image analysis
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/68—Arrangements of detecting, measuring or recording means, e.g. sensors, in relation to patient
- A61B5/6801—Arrangements of detecting, measuring or recording means, e.g. sensors, in relation to patient specially adapted to be attached to or worn on the body surface
- A61B5/6813—Specially adapted to be attached to a specific body part
- A61B5/6814—Head
- A61B5/6819—Nose
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Veterinary Medicine (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Pathology (AREA)
- Animal Behavior & Ethology (AREA)
- Heart & Thoracic Surgery (AREA)
- Medical Informatics (AREA)
- Surgery (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Dentistry (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Signal Processing (AREA)
- Physiology (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
Description
MODULE DE RECONNAISSANCE VOCALE La présente invention concerne un module de reconnaissance vocale et ses différentes applications.The present invention relates to a voice recognition module and its various applications.
Il est souhaitable de pouvoir déterminer la position dans l'espace de la langue d'un locuteur, notamment pour des applications de reconnaissance vocale. Il est ainsi connu du document US-A-2010/0036657 un système de reconnaissance vocale comprenant un transmetteur transmettant un signal de test, un récepteur pour recevoir le signal de test et une unité de reconnaissance vocale pour reconnaître de la voix à partir du signal reçu. Le transmetteur transmet le signal de test vers les organes vocaux du locuteur. Le récepteur reçoit le signal de test qui a été réfléchi par les organes vocaux. L'unité de reconnaissance vocale reconnaît la voix ou les formes d'onde de la voix sur la base de la forme de l'onde de réflexion du signal de test reçu par le récepteur.It is desirable to be able to determine the position in the language space of a speaker, especially for speech recognition applications. It is thus known from document US-A-2010/0036657 a voice recognition system comprising a transmitter transmitting a test signal, a receiver for receiving the test signal and a voice recognition unit for recognizing the voice from the signal. received. The transmitter transmits the test signal to the voice organs of the speaker. The receiver receives the test signal that has been reflected by the vocal organs. The speech recognition unit recognizes the voice or waveforms of the voice based on the shape of the reflection wave of the test signal received by the receiver.
Mais, le système de reconnaissance vocale proposé dans ce document s'avère peu fiable. Il existe donc un besoin pour un système de détermination de la position dans l'espace de la langue d'un locuteur qui soit plus fiable. Selon l'invention, ce but est atteint par un module de reconnaissance vocale comprenant un dispositif d'acquisition de données d'un locuteur comprenant une unité d'illumination d'au moins une partie de la langue du locuteur et d'au moins une partie supérieure d'une dent inférieure du locuteur, et une unité d'imagerie adaptée à la prise d'image de la partie de langue du locuteur et de la partie supérieure de la dent inférieure du locuteur illuminées par l'unité d'illumination. Le dispositif d'acquisition de données comprend, en outre, un capteur de souffle différentiel adapté à mesurer le gradient de pression et/ou de température entre l'air expiré par le nez du locuteur et l'air expiré par la bouche du locuteur. Suivant des modes de réalisation particuliers, le module comprend une ou plusieurs des caractéristiques suivantes, prise(s) isolément ou suivant toute combinaison techniquement possible : - le dispositif d'acquisition de données comprend, en outre, un organe de maintien sur au moins une dent du locuteur. - le dispositif d'acquisition de données comprend, en outre, un microphone. - le module comprend, en outre, une unité de traitement propre à déterminer des données à retranscrire à partir des données issues du dispositif d'acquisition et une unité de retranscription des données à retranscrire déterminées par l'unité de traitement. - les données à retranscrire font partie d'un groupe constitué de la fréquence, l'intensité, l'attaque et la tombée des sons émis par le locuteur. - les données à retranscrire sont au moins un morphème et/ou au moins un phonème émis par le locuteur. - l'unité de traitement comporte une sous-unité de reconnaissance d'au moins un morphème et/ou au moins un phonème émis par le locuteur, la sous-unité de reconnaissance étant adaptée à reconnaître les morphèmes et phonèmes émis dans une première langue et une sous-unité de conversion des morphèmes et/ou phonèmes dans une deuxième langue, la deuxième langue étant différente de la première langue, les données à retranscrire étant les au moins un morphème et/ou au moins un phonème convertis par la sous-unité de conversion. La présente invention se rapporte également à une utilisation du module de reconnaissance vocale tel que précédemment décrit pour produire de la musique. La présente invention se rapporte aussi à une utilisation du module de reconnaissance vocale tel que précédemment décrit comme prothèse pour un handicapé privé de la parole. La présente invention concerne aussi une utilisation du module de reconnaissance vocale tel que précédemment décrit pour de la traduction automatique. La présente invention se rapporte également à une utilisation du module de reconnaissance vocale tel que précédemment décrit comme interface homme-machine de console de jeu vidéo. Il est également proposé un système de détermination de la position dans l'espace de la langue d'un locuteur comportant un dispositif d'acquisition de données du locuteur. Le dispositif comprend une unité d'illumination d'au moins une partie de la langue du locuteur et d'au moins une partie supérieure d'une dent inférieure, et une unité d'imagerie adaptée à la prise d'image de la partie de langue du locuteur et de la partie supérieure de la dent inférieure du locuteur illuminées par l'unité d'illumination. Le système comprend un support du dispositif d'acquisition de données. Le dispositif d'acquisition d'images comprend en outre un organe de maintien sur au moins du dent du locuteur.But, the voice recognition system proposed in this document is unreliable. There is therefore a need for a system for determining the position in the language space of a speaker that is more reliable. According to the invention, this object is achieved by a voice recognition module comprising a data acquisition device of a speaker comprising an illumination unit of at least a part of the speaker's language and at least one upper part of a lower tooth of the speaker, and an imaging unit adapted to the image of the speaker part of the speaker and the upper part of the lower tooth of the speaker illuminated by the illumination unit. The data acquisition device further comprises a differential breath sensor adapted to measure the pressure and / or temperature gradient between the air exhaled by the speaker's nose and the air exhaled by the mouth of the speaker. According to particular embodiments, the module comprises one or more of the following characteristics, taken in isolation or in any technically possible combination: the data acquisition device further comprises a holding member on at least one the speaker's tooth. the data acquisition device further comprises a microphone. - The module further comprises a processing unit for determining data to be retranscribed from the data from the acquisition device and a retranscription unit of the data to retranscribe determined by the processing unit. the data to be transcribed belong to a group consisting of the frequency, the intensity, the attack and the fall of the sounds emitted by the speaker. the data to be retranscribed are at least one morpheme and / or at least one phoneme emitted by the speaker. the processing unit includes a sub-unit for recognizing at least one morpheme and / or at least one phoneme emitted by the speaker, the recognition sub-unit being adapted to recognize the morphemes and phonemes emitted in a first language and a sub-unit for converting the morphemes and / or phonemes in a second language, the second language being different from the first language, the data to be retranscribed being the at least one morpheme and / or at least one phoneme converted by the sub-unit. conversion unit. The present invention also relates to a use of the voice recognition module as previously described to produce music. The present invention also relates to a use of the voice recognition module as previously described as a prosthesis for a disabled person with speech. The present invention also relates to a use of the voice recognition module as previously described for automatic translation. The present invention also relates to a use of the voice recognition module as previously described as man-machine interface of a video game console. It is also proposed a system for determining the position in the language space of a speaker having a speaker data acquisition device. The device comprises an illumination unit for at least a portion of the speaker's tongue and at least an upper part of a lower tooth, and an imaging unit suitable for taking pictures of the part of language of the speaker and the upper part of the speaker's lower tooth illuminated by the illumination unit. The system includes support for the data acquisition device. The image acquisition device further comprises a holding member on at least the tooth of the speaker.
Suivant des modes de réalisation particuliers, le système comprend une ou plusieurs des caractéristiques suivantes, prise(s) isolément ou suivant toute combinaison techniquement possible : - l'organe de maintien est une lamelle d'appui dental adaptée à prendre appui sur au moins une dent du locuteur. - la lamelle d'appui dental présente une largeur d'au moins 15 millimètres. - la lamelle d'appui dental comprend une face avant destinée à prendre appui sur la moins une dent du locuteur, la face avant ayant une surface d'au moins 5 millimètres carrés. - l'organe de maintien comprend deux ventouses adaptées à être appliquées sur au moins une dent du locuteur. - l'unité d'imagerie comprend une caméra et un système optique d'imagerie, le système optique d'imagerie étant agencé pour que la caméra puisse prendre une image de trois zones distinctes de la langue du locuteur simultanément. - l'unité d'illumination comporte au moins une source laser émettant un faisceau laser présentant une extension longitudinale et une extension transverse, la ou chaque source laser étant munie chacune d'un système optique réduisant le rapport entre l'extension transverse et l'extension longitudinale d'un facteur compris entre 2 et 5. - le système de détermination de la position comprend une unité de traitement déterminant la position dans l'espace de la langue du locuteur à partir d'au moins une image fournie par l'unité d'imagerie. - le support est un casque. La présente invention se rapporte à un procédé de détermination de la position dans l'espace de la langue d'un locuteur à l'aide du système de détermination de la position tel que précédemment décrit, le procédé comprenant les étapes de positionnement de l'organe de maintien sur au moins une dent du locuteur et de prise d'au moins une image par le dispositif d'acquisition de données. Selon un mode de réalisation, la ou chaque dent du locuteur font partie du groupe constitué des canines et des incisives de la mâchoire supérieure du locuteur. Il est également proposé un appareil électronique comprenant au moins un actionneur, une unité de contrôle contrôlant l'au moins un actionneur et un dispositif d'acquisition de données d'un locuteur. Le dispositif comprend une unité d'illumination d'au moins une partie de la langue du locuteur et d'au moins une partie supérieure d'une dent inférieure, et une unité d'imagerie adaptée à la prise d'image de la partie de langue du locuteur et de la partie supérieure de la dent inférieure illuminées par l'unité d'illumination. L'appareil électronique comporte aussi une unité de traitement configurée pour déterminer des données à communiquer à partir des données issues de l'unité d'imagerie et transmettre les données à communiquer à l'unité de contrôle. Le dispositif d'acquisition de données comprend, en outre, un capteur de souffle différentiel adapté à mesurer le gradient de température et/ou de pression entre l'air expiré par le nez du locuteur et l'air expiré par la bouche du locuteur. L'unité de traitement est propre à déterminer des données à communiquer également à partir des données issues du capteur de pression différentielle. Suivant des modes de réalisation particuliers, l'appareil électronique comprend une ou plusieurs des caractéristiques suivantes, prise(s) isolément ou suivant toute combinaison techniquement possible : - le dispositif d'acquisition de données comprend, en outre, un organe de maintien sur au moins une dent du locuteur. - le dispositif d'acquisition de données comprend, en outre, un microphone. - l'unité de traitement est propre à déterminer des données à communiquer également à partir des données issues du microphone. - l'appareil électronique est choisi dans le groupe constitué d'une console de jeux vidéo, d'un téléphone mobile, d'une interface homme-machine, d'un ordinateur, d'un robot, et d'un fauteuil pour handicapé. Il est également proposé un procédé de communication entre un locuteur et un appareil électronique. Le procédé comprend les étapes d'émission de données par le locuteur et d'acquisition d'au moins une image d'une partie de la langue du locuteur simultanément à l'étape d'émission. Le procédé comporte aussi une étape de mesure du gradient de température et/ou de pression entre l'air expiré par le nez du locuteur et l'air expiré par la bouche du locuteur simultanément à l'étape d'émission. Le procédé comprend également une étape de détermination de données à communiquer à partir des données acquises et mesurées. Le procédé comprend aussi une étape de commande de l'appareil électronique à partir des données déterminées. Suivant des modes de réalisation particuliers, le procédé de communication comprend une ou plusieurs des caractéristiques suivantes, prise(s) isolément ou suivant toute combinaison techniquement possible : - l'étape de détermination est une étape de reconnaissance vocale - l'étape de reconnaissance vocale comprend une première étape de reconnaissance vocale sur la base des données acquises seulement, la première étape de reconnaissance vocale permettant d'obtenir des premières données de reconnaissance et un premier taux de probabilité d'erreur entre les premières données et les données émises par le locuteur. - l'étape de reconnaissance vocale comprend une étape de comparaison du premier taux de probabilité d'erreur à une valeur seuil. - lorsque le premier taux de probabilité est inférieur ou égal à la valeur seuil, les données à communiquer sont les premières données à communiquer, - l'étape de reconnaissance vocale comprend lorsque le premier taux de probabilité est supérieur à une valeur seuil, une deuxième étape de reconnaissance vocale sur la base des données acquises et mesurées seulement, la deuxième étape de reconnaissance vocale permettant d'obtenir des deuxièmes données, les données à communiquer étant les deuxièmes données. - le procédé comprend également une étape d'enregistrement de données de son par le microphone. - l'étape de détermination de données à communiquer prend également en compte les données enregistrées. - l'étape de détermination comprend une première étape de reconnaissance vocale sur la base des données enregistrées seulement, la première étape de reconnaissance vocale permettant d'obtenir des premières données de reconnaissance et un premier taux de probabilité d'erreur entre les premières données de reconnaissance et les données émises par le locuteur. - l'étape de détermination comprend une étape de comparaison du premier taux de probabilité d'erreur à une première valeur seuil telle que lorsque le premier taux de probabilité d'erreur est inférieur ou égal à la première valeur seuil, les données à communiquer sont les premières données de reconnaissance. - l'étape de détermination comprend une deuxième étape de reconnaissance vocale sur la base des données acquises et enregistrées lorsque le premier taux de probabilité d'erreur est supérieur à la première valeur seuil, la deuxième étape de reconnaissance vocale permettant d'obtenir des deuxièmes données de reconnaissance et un deuxième taux de probabilité d'erreur entre les deuxième données de reconnaissance et les données émises par le locuteur. - l'étape de détermination comprend une étape de comparaison du deuxième taux de probabilité d'erreur à une deuxième valeur seuil telle que lorsque le deuxième taux de probabilité est inférieur ou égal à la deuxième valeur seuil, les données à communiquer sont les deuxièmes données de reconnaissance. - l'étape de détermination comprend une troisième étape de reconnaissance vocale sur la base des données acquises, mesurées et enregistrées lorsque le deuxième taux de probabilité est supérieur à une deuxième valeur seuil, la troisième étape de reconnaissance vocale permettant d'obtenir des troisièmes données de reconnaissance, les données à communiquer étant les troisièmes données de reconnaissance. - le premier taux de probabilité d'erreur et le deuxième taux de probabilité d'erreur sont égaux.According to particular embodiments, the system comprises one or more of the following characteristics, taken in isolation or in any technically possible combination: the holding member is a dental support lamella adapted to bear on at least one the speaker's tooth. the dental support strip has a width of at least 15 millimeters. - The dental support plate comprises a front face intended to bear on the least one tooth of the speaker, the front face having an area of at least 5 square millimeters. - The holding member comprises two suction cups adapted to be applied to at least one tooth of the speaker. the imaging unit comprises a camera and an optical imaging system, the imaging optical system being arranged so that the camera can take an image of three distinct zones of the speaker's language simultaneously. the illumination unit comprises at least one laser source emitting a laser beam having a longitudinal extension and a transverse extension, the or each laser source being each provided with an optical system reducing the ratio between the transverse extension and the longitudinal extension by a factor between 2 and 5. - the position determining system comprises a processing unit determining the position in the speaker's language space from at least one image provided by the unit imaging. - the support is a helmet. The present invention relates to a method for determining the position in the language space of a speaker using the position determination system as previously described, the method comprising the steps of positioning the speaker. holding member on at least one tooth of the speaker and taking at least one image by the data acquisition device. According to one embodiment, the or each tooth of the speaker is part of the group consisting of the canines and incisors of the upper jaw of the speaker. There is also provided an electronic apparatus comprising at least one actuator, a control unit controlling the at least one actuator and a data acquisition device of a speaker. The device comprises an illumination unit for at least a portion of the speaker's tongue and at least an upper part of a lower tooth, and an imaging unit suitable for taking pictures of the part of tongue of the speaker and the upper part of the lower tooth illuminated by the illumination unit. The electronic apparatus also includes a processing unit configured to determine data to be communicated from the data from the imaging unit and transmit the data to be communicated to the control unit. The data acquisition device further comprises a differential breath sensor adapted to measure the temperature and / or pressure gradient between the air exhaled by the speaker's nose and the air exhaled by the mouth of the speaker. The processing unit is able to determine data to be communicated also from the data from the differential pressure sensor. According to particular embodiments, the electronic apparatus comprises one or more of the following characteristics, taken in isolation or in any technically possible combination: the data acquisition device further comprises a holding member on the least one tooth of the speaker. the data acquisition device further comprises a microphone. the processing unit is able to determine data to be communicated also from the data coming from the microphone. the electronic device is selected from the group consisting of a video game console, a mobile phone, a man-machine interface, a computer, a robot, and a wheelchair for a disabled person . It is also proposed a method of communication between a speaker and an electronic device. The method includes the steps of transmitting data by the speaker and acquiring at least one image of a portion of the speaker's language simultaneously with the transmitting step. The method also comprises a step of measuring the temperature and / or pressure gradient between the air exhaled by the speaker's nose and the air exhaled by the speaker's mouth simultaneously with the emission step. The method also includes a step of determining data to be communicated from the acquired and measured data. The method also comprises a step of controlling the electronic device from the determined data. According to particular embodiments, the communication method comprises one or more of the following characteristics, taken in isolation or in any technically possible combination: the determination step is a voice recognition step - the speech recognition step includes a first voice recognition step based on the acquired data only, the first voice recognition step for obtaining first recognition data and a first error probability ratio between the first data and the speaker-generated data. . the voice recognition step comprises a step of comparing the first error probability ratio with a threshold value. when the first probability ratio is less than or equal to the threshold value, the data to be communicated is the first data to be communicated; the voice recognition step comprises when the first probability rate is greater than a threshold value; voice recognition step on the basis of data acquired and measured only, the second voice recognition step for obtaining second data, the data to be communicated being the second data. the method also comprises a step of recording sound data by the microphone. the step of determining data to be communicated also takes into account the recorded data. the determination step comprises a first voice recognition step on the basis of the recorded data only, the first voice recognition step making it possible to obtain first recognition data and a first error probability rate between the first data of recognition and the data sent by the speaker. the determination step comprises a step of comparing the first error probability ratio with a first threshold value such that, when the first error probability ratio is less than or equal to the first threshold value, the data to be communicated are the first recognition data. the determination step comprises a second voice recognition step on the basis of the data acquired and recorded when the first error probability rate is greater than the first threshold value, the second voice recognition step making it possible to obtain second signals; recognition data and a second error probability ratio between the second recognition data and the speaker-issued data. the determination step comprises a step of comparing the second error probability ratio with a second threshold value such that when the second probability ratio is less than or equal to the second threshold value, the data to be communicated are the second data; of recognition. the determination step comprises a third voice recognition step on the basis of the data acquired, measured and recorded when the second probability rate is greater than a second threshold value, the third voice recognition step making it possible to obtain third data; the data to be communicated being the third recognition data. the first error probability ratio and the second error probability ratio are equal.
D'autres caractéristiques et avantages de l'invention apparaîtront à la lecture de la description qui suit de modes de réalisation de l'invention, donnés uniquement à titre d'exemple et en référence aux dessins qui sont : - figure 1, une vue de côté du système de détermination de la position selon l'invention ; - figure 2, une vue schématique de dessus du dispositif d'acquisition du système de détermination selon l'invention de la figure 1 ; - figure 3, une vue de côté du dispositif d'acquisition du système de détermination selon l'invention de la figure 1 ; - figure 4, une vue schématique d'une partie d'un module de reconnaissance vocale selon l'invention, - figure 5, une vue schématique en section du dispositif d'acquisition du module de reconnaissance selon l'invention de la figure 4 en position sur les dents du locuteur et - figure 6, une vue schématique d'une partie d'un appareil selon l'invention.Other features and advantages of the invention will appear on reading the following description of embodiments of the invention, given solely by way of example and with reference to the drawings which are: FIG. side of the position determination system according to the invention; - Figure 2, a schematic top view of the acquisition device of the determination system according to the invention of Figure 1; - Figure 3, a side view of the acquisition device of the determination system according to the invention of Figure 1; FIG. 4 is a diagrammatic view of part of a voice recognition module according to the invention; FIG. 5 is a schematic sectional view of the acquisition device of the recognition module according to the invention of FIG. position on the teeth of the speaker and - Figure 6, a schematic view of a portion of an apparatus according to the invention.
Pour l'ensemble des figures, il est défini un plan horizontal par rapport à un locuteur, par exemple le plan de Francfort. Dans la suite, il est défini un axe X vertical perpendiculaire à ce plan de Francfort passant par le plan de symétrie bilatérale du locuteur. Cela permet également de définir des termes « haut » et « bas », sachant que la bouche du locuteur est située en bas par rapport au nez du locuteur. Les termes « gauche » et « droit » sont définis de sorte que lorsque l'on regarde le locuteur, la partie gauche est à gauche de l'axe X et la partie droite est à droite de l'axe X. Il est également défini un axe Y transversal qui est parallèle à l'axe reliant les deux yeux du locuteur et perpendiculaire à l'axe X.For all the figures, it is defined a horizontal plane relative to a speaker, for example the plane of Frankfurt. In the following, it is defined a vertical axis X perpendicular to this Frankfurt plane passing through the plane of bilateral symmetry of the speaker. It also allows the definition of "up" and "down" terms, knowing that the mouth of the speaker is located downward from the speaker's nose. The terms "left" and "right" are defined so that when looking at the speaker, the left side is to the left of the X axis and the right side is to the right of the X axis. It is also defined a transverse Y axis that is parallel to the axis connecting the two eyes of the speaker and perpendicular to the X axis.
Il est également défini un axe Z horizontal comme un axe perpendiculaire aux axes transversal Y et vertical X. Cela permet également de définir des termes « arrière » et « avant », sachant que le nez du locuteur est situé en avant par rapport aux tempes du locuteur. Il est, en outre, défini un axe a-a' passant par le milieu (point A) d'une incisive supérieure du locuteur et faisant un angle de 13° par rapport à l'axe horizontal Z. Il est aussi défini l'axe b-b' passant un point B situé 12 mm en bas du point A et faisant un angle de 22° par rapport à l'axe horizontal Z. Un système 10 de détermination de la position dans l'espace de la langue du locuteur suivant l'invention est représenté à la figure 1.It is also defined a horizontal Z axis as an axis perpendicular to the transverse axes Y and vertical X. This also allows to define terms "back" and "before", knowing that the nose of the speaker is located forward with respect to the temples of the speaker. It is further defined an axis aa 'passing through the middle (point A) of an upper incisor of the speaker and making an angle of 13 ° with respect to the horizontal axis Z. It is also defined the axis bb passing a point B located 12 mm down the point A and making an angle of 22 ° with respect to the horizontal axis Z. A system 10 for determining the position in the space of the speaker's tongue according to the invention is shown in Figure 1.
Le système 10 de détermination comprend un dispositif 12 d'acquisition de données du locuteur, un support 14 du dispositif 12 d'acquisition de données et un organe 16 de liaison reliant le support 14 au dispositif 12 et une unité de traitement 17 en communication avec le dispositif 12 d'acquisition de données. Le dispositif 12 d'acquisition de données du locuteur se présente sous la forme d'un corps 38 muni d'éléments internes, éléments qui sont détaillés dans la suite de la description. Le corps 38 permet de supporter et de protéger les différents éléments internes. Dans le cas de la figure 1, le support est une monture 14 adaptée pour être positionnée sur la tête du locuteur. Cette monture 14 comprend deux articulations latérales à hauteur des joues, reliées à deux arceaux passant par le sommet et l'arrière de la tête. L'organe 16 de liaison comprend deux bras télescopiques assurant la liaison avec le dispositif au moyen de deux fixations latérales. Le corps 38 selon l'exemple de la figure 1 a sensiblement une forme de parallélépipède rectangle.The determination system 10 comprises a device 12 for acquiring data from the speaker, a support 14 of the data acquisition device 12 and a link member 16 connecting the support 14 to the device 12 and a processing unit 17 in communication with the device 12. the device 12 for data acquisition. The device 12 for acquiring data from the speaker is in the form of a body 38 provided with internal elements, elements which are detailed in the following description. The body 38 can support and protect the various internal elements. In the case of Figure 1, the support is a mount 14 adapted to be positioned on the speaker's head. This mount 14 comprises two lateral joints at the height of the cheeks, connected to two arches passing through the top and the back of the head. The connecting member 16 comprises two telescopic arms providing the connection with the device by means of two lateral fasteners. The body 38 according to the example of Figure 1 has substantially a rectangular parallelepiped shape.
Le corps 38 est fixé à l'organe 16 de liaison de sorte qu'au moins une face du corps 38 s'étende sensiblement dans un plan contenant l'axe a-a'. Comme visible notamment à la figure 2, le dispositif 12 d'acquisition comprend deux unités 40 d'illumination, une unité 42 d'imagerie, un organe 44 de maintien sur au moins du dent du locuteur sous la forme d'une lamelle 44 d'appui dental et une unité 46 de prétraitement. Chaque unité 40 d'illumination comprend une source 48 d'émission de lumière et un système optique 50. A titre d'exemple, dans le cas de la figure 2, les deux sources 48 d'émission de lumière sont des lasers.The body 38 is fixed to the connecting member 16 so that at least one face of the body 38 extends substantially in a plane containing the axis a-a '. As can be seen in particular in FIG. 2, the acquisition device 12 comprises two illumination units 40, an imaging unit 42, a member 44 for holding on at least one of the speaker's teeth in the form of a lamella 44. dental support and a pretreatment unit 46. Each illumination unit 40 comprises a light emission source 48 and an optical system 50. By way of example, in the case of FIG. 2, the two light emission sources 48 are lasers.
Un laser (acronyme de l'anglais « light amplification by stimulated emission of radiation », ce qui signifie en français « amplification de la lumière par émission stimulée de rayonnement ») est un appareil qui produit une lumière spatialement et temporellement cohérente basée sur l'effet laser. Selon l'exemple de la figure 2, les sources 48 d'émission de lumière sont propres à émettre des faisceaux de lumière dont la longueur d'onde est la même. Par exemple, les sources 48 d'émission de lumière sont propres à émettre des faisceaux de lumière dont la longueur d'onde est comprise entre 500 nanomètres (nm) et 580 nm, ce qui correspond pour l'oail humain à la couleur verte. Une telle longueur permet de réduire la diffusion du faisceau laser par l'élément illuminé par le faisceau.A laser (acronym for "light amplification by stimulated emission of radiation", which in French means "amplification of light by stimulated emission of radiation") is a device that produces a spatially and temporally coherent light based on the laser effect. According to the example of FIG. 2, the light emission sources 48 are able to emit beams of light whose wavelength is the same. For example, light emission sources 48 are capable of emitting beams of light whose wavelength is between 500 nanometers (nm) and 580 nm, which corresponds for human beings to the green color. Such a length makes it possible to reduce the diffusion of the laser beam by the element illuminated by the beam.
En variante, pour augmenter encore cet effet, les sources 48 d'émission de lumière sont propres à émettre des faisceaux de lumière dont la longueur d'onde est comprise dans le bleu (entre 400 nm et 500 nm). Les faisceaux émis par les sources 48 d'émission de lumière sont sensiblement monochromatiques. Dans le cadre de cette invention, un faisceau est considéré comme monochromatique lorsque la dispersion en longueur d'onde du faisceau est inférieure à 1 nm. Chaque source 48 d'émission de lumière émet un faisceau ayant une puissance optique de 0.5 milliWatt (mW). Une telle puissance non focalisée en un point, mais répartie sur une ligne d'au moins 15 millimètres (mm) permet de rendre le dispositif d'acquisition compatible avec les normes de sécurité laser. De préférence, la source 48 d'émission de lumière est une source de classe 1 selon la norme NF EN 60825-1/A2. Selon l'exemple de la figure 1, les lasers utilisés sont des lasers à semi- conducteurs qui présentent l'avantage d'être compacts et peu onéreux. En particulier, selon un mode de réalisation préféré, les lasers sont des diodes laser. Chaque système optique 50 est propre à réduire l'extension transverse du faisceau laser par rapport à l'extension longitudinale du faisceau laser. Par exemple, chaque système optique 50 effectue une anamorphose qui réduit le rapport entre l'extension transverse du faisceau laser et l'extension longitudinale du faisceau laser d'un facteur compris entre 2 et 5 et de préférence d'un facteur 3. Ainsi, il peut être considéré que le faisceau laser en sortie de chaque système optique 50 est un faisceau laser sensiblement plan. Un faisceau laser sensiblement plan permet d'obtenir une image en trois dimensions du profil de la langue ainsi que de l'une des incisives inférieures. A titre d'illustration, chaque système optique 50 comprend deux lentilles 52, 54 : une lentille sphérique 52 et une lentille cylindrique 54. Une lentille cylindrique est un cylindre dont la base est par exemple une demi- ellipse. Dans une telle situation, la lentille cylindrique comprend une face plane et le faisceau laser en sortie du système optique s'étend sensiblement selon un plan normal à la face plane. Les unités 40 d'illumination sont propres à illuminer au moins une partie de la langue du locuteur et au moins une partie supérieure d'une dent inférieure du locuteur. Les deux unités 40 d'illumination sont agencées sur le corps 38 de manière à illuminer respectivement la partie gauche de la cavité buccale et la partie droite de la cavité buccale.In a variant, to further increase this effect, the light emission sources 48 are able to emit beams of light whose wavelength is comprised in blue (between 400 nm and 500 nm). The beams emitted by the light emission sources 48 are substantially monochromatic. In the context of this invention, a beam is considered monochromatic when the wavelength dispersion of the beam is less than 1 nm. Each light emitting source 48 emits a beam having an optical power of 0.5 milliWatt (mW). Such power not focused at a point, but distributed over a line of at least 15 millimeters (mm) makes it possible to make the acquisition device compatible with laser safety standards. Preferably, the source 48 of light emission is a class 1 source according to standard NF EN 60825-1 / A2. According to the example of FIG. 1, the lasers used are semiconductor lasers which have the advantage of being compact and inexpensive. In particular, according to a preferred embodiment, the lasers are laser diodes. Each optical system 50 is able to reduce the transverse extension of the laser beam with respect to the longitudinal extension of the laser beam. For example, each optical system 50 performs anamorphosis which reduces the ratio between the transverse extension of the laser beam and the longitudinal extension of the laser beam by a factor of between 2 and 5 and preferably by a factor of 3. Thus, it can be considered that the laser beam at the output of each optical system 50 is a substantially plane laser beam. A substantially plane laser beam provides a three-dimensional image of the tongue profile as well as one of the lower incisors. By way of illustration, each optical system 50 comprises two lenses 52, 54: a spherical lens 52 and a cylindrical lens 54. A cylindrical lens is a cylinder whose base is for example a half-ellipse. In such a situation, the cylindrical lens comprises a plane face and the laser beam at the output of the optical system extends substantially in a plane normal to the plane face. The illumination units 40 are adapted to illuminate at least a portion of the speaker's tongue and at least an upper portion of a speaker's lower tooth. The two illumination units 40 are arranged on the body 38 so as to illuminate respectively the left part of the oral cavity and the right part of the oral cavity.
Par exemple, les deux unités 40 d'illumination sont positionnées symétriquement par rapport à l'axe vertical X. L'unité 40 d'illumination positionnée sur la droite du corps 38 du dispositif 16 d'acquisition permet d'illuminer la partie gauche de la cavité buccale tandis que l'unité 40 d'illumination positionnée sur la gauche du dispositif permet d'illuminer la partie droite de la cavité buccale. Selon l'exemple de la figure 1, chaque unité 40 d'illumination émet vers le bas d'un angle de 45° par rapport à l'axe horizontal et d'un angle de 30° par rapport à l'axe vertical, l'angle étant orienté vers la gauche pour une des deux unités 40 d'illumination et vers la droite pour l'autre unité 40 d'illumination.For example, the two units 40 of illumination are positioned symmetrically with respect to the vertical axis X. The illumination unit 40 positioned on the right of the body 38 of the acquisition device 16 makes it possible to illuminate the left part of the the oral cavity while the illumination unit 40 positioned on the left of the device illuminates the right part of the oral cavity. According to the example of FIG. 1, each illumination unit 40 emits downwards by an angle of 45.degree. With respect to the horizontal axis and at an angle of 30.degree. With respect to the vertical axis. angle being oriented to the left for one of the two illumination units 40 and to the right for the other illumination unit 40.
Ainsi, dans l'exemple de la figure 1, l'angle entre les faisceaux laser émis par les deux unités 40 d'illumination est de 45°. De manière plus générale, les faisceaux laser émis par les deux unités 40 d'illumination forment entre eux un angle compris entre 40° et 80°. L'unité 42 d'imagerie comprend une caméra 56 et un système optique d'imagerie 58. La caméra 56 comprend une matrice de photodétecteurs, la matrice permettant d'obtenir une résolution de 640 par 480 pixels. Les photodétecteurs sont notamment sensibles aux longueurs d'onde des faisceaux émis par les unités 40 d'illumination.Thus, in the example of FIG. 1, the angle between the laser beams emitted by the two illumination units 40 is 45 °. More generally, the laser beams emitted by the two illumination units 40 form between them an angle of between 40 ° and 80 °. The imaging unit 42 comprises a camera 56 and an imaging optical system 58. The camera 56 comprises a matrix of photodetectors, the matrix making it possible to obtain a resolution of 640 by 480 pixels. The photodetectors are particularly sensitive to the wavelengths of the beams emitted by the illumination units 40.
La caméra 56 est, par exemple, une caméra de type CMOS (acronyme de l'expression anglaise « Complementary Metal Oxide Semiconductor »). Le système optique d'imagerie 58 comprend une lentille de champ 60, un filtre 62, une première lentille 64, une deuxième lentille 66 et un miroir 68 de renvoi ainsi que visible aux figures 2 et 3.The camera 56 is, for example, a CMOS type camera (acronym for the English expression "Complementary Metal Oxide Semiconductor"). The imaging optical system 58 comprises a field lens 60, a filter 62, a first lens 64, a second lens 66 and a mirror 68 as well as visible in Figures 2 and 3.
La lentille de champ 60 est positionnée pour que, dans une partie du champ de la lentille de champ 60, la caméra 56 puisse imager la voûte palatine. Dans le cas particulier présenté, la lentille de champ 60 a un diamètre de 9 millimètres (mm) et une focale de moins 12 mm. Par exemple, la lentille de champ 60 est en méthacrylate.The field lens 60 is positioned so that, in a portion of the field of the field lens 60, the camera 56 can image the palatal arch. In the particular case presented, the field lens 60 has a diameter of 9 millimeters (mm) and a focal length of less than 12 mm. For example, the field lens 60 is in methacrylate.
La caméra 56 avec un axe optique orienté selon l'axe b-b' a un champ s'étendant de 20 mm selon la direction horizontale et de 15 mm selon la direction verticale. Le filtre 62 est un filtre interférentiel centré sur la longueur d'onde d'émission des unités 48 d'illumination. Cela permet de limiter les incidences lumineuses parasites. La détection du signal utile s'en trouve améliorée.The camera 56 with an optical axis oriented along the axis b-b 'has a field extending 20 mm in the horizontal direction and 15 mm in the vertical direction. The filter 62 is an interference filter centered on the emission wavelength of the illumination units 48. This limits the parasitic light effects. The detection of the useful signal is improved.
La première lentille 64 est agencée pour qu'en combinaison avec la lentille de champ 60, la caméra 56 puisse acquérir au moins une image de la langue du locuteur en position relevée du locuteur. La première lentille 64 est donc positionnée plus proche des dents avant de la mâchoire supérieure du locuteur que la lentille de champ 60. La deuxième lentille 66 et le miroir 68 de renvoi sont agencés pour qu'en combinaison avec la lentille de champ 60, la caméra puisse acquérir au moins une image de la langue en position abaissée du locuteur et des dents avant (incisives et/ou canines) de la mâchoire inférieure du locuteur. La lamelle 44 est en saillie par rapport au corps 38 du dispositif d'acquisition 12. De préférence, la lamelle 44 présente une face d'appui destinée à être en contact avec les dents supérieures sur une surface d'appui d'au moins 6 millimètres carrés (mm2) au niveau de la ou des dents du locuteur lorsque la lamelle 44 d'appui dental est en appui sur au moins une dent du locuteur. Cela permet d'assurer que la lamelle 44 réduit les possibilités de mouvement du dispositif d'acquisition 12 en position. Pour améliorer encore cet effet, la surface d'appui est d'au moins 16 mm2.The first lens 64 is arranged so that in combination with the field lens 60, the camera 56 can acquire at least one image of the speaker's tongue in the speaker's raised position. The first lens 64 is therefore positioned closer to the front teeth of the speaker's upper jaw than the field lens 60. The second lens 66 and the reflecting mirror 68 are arranged so that, in combination with the field lens 60, the camera can acquire at least one image of the language in the lowered position of the speaker and the front teeth (incisors and / or canines) of the lower jaw of the speaker. The strip 44 is projecting from the body 38 of the acquisition device 12. Preferably, the strip 44 has a bearing surface intended to be in contact with the upper teeth on a bearing surface of at least 6 square millimeters (mm 2) at the level of the speaker's teeth when the dental support plate 44 bears on at least one tooth of the speaker. This ensures that the blade 44 reduces the possibilities of movement of the acquisition device 12 in position. To further improve this effect, the bearing surface is at least 16 mm 2.
De plus, l'appui se fait sur deux incisives supérieures au milieu des deux dents à équidistance entre la gencive et l'extrémité basse de chaque dent. Selon un mode de réalisation préférée, la surface d'appui est inférieure à 50 mm2. Cela permet d'éviter de trop gêner le locuteur lorsque la lamelle 44 d'appui dental est en appui sur au moins une dent du locuteur.In addition, the support is made on two upper incisors in the middle of the two teeth equidistant between the gingiva and the lower end of each tooth. According to a preferred embodiment, the bearing surface is less than 50 mm 2. This makes it possible to avoid disturbing the speaker too much when the dental support strip 44 bears on at least one tooth of the speaker.
Une telle surface d'appui avec les dents est obtenue en choisissant la forme adéquate de la face d'appui. Notamment, différentes valeurs pour les extensions le long des axes X, Y et Z de la face d'appui sont envisageables tout en permettant d'obtenir une telle surface d'appui. Un exemple est détaillé plus précisément en référence à la figure 2.Such a bearing surface with the teeth is obtained by choosing the appropriate shape of the bearing face. In particular, different values for the extensions along the X, Y and Z axes of the support face can be envisaged while making it possible to obtain such a bearing surface. An example is detailed more specifically with reference to FIG.
Dans ce cas, la lamelle 44 a sensiblement la forme d'un parallélépipède rectangle. La lamelle 44 a ainsi une face rectangulaire dans un plan parallèle aux axes Y et Z (plan de la figure 2). Dans la suite, l'extension selon l'axe Y de la face rectangulaire est appelée la largeur ly de la lamelle 44 et l'extension selon l'axe Z de la face rectangulaire est appelée la longueur Iz de la lamelle 44.In this case, the slat 44 has substantially the shape of a rectangular parallelepiped. The lamella 44 thus has a rectangular face in a plane parallel to the Y and Z axes (plane of FIG. 2). In the following, the extension along the Y axis of the rectangular face is called the width ly of the lamella 44 and the extension along the Z axis of the rectangular face is called the length Iz of the lamella 44.
La largeur ly de la lamelle 44 est comprise entre 15 millimètres et 25 millimètres. De préférence, la largeur ly de la lamelle 44 est de 20 mm. Selon un mode de réalisation préféré, la largueur ly de la lamelle 44 est inférieure à 20 mm. Cela permet d'éviter une gêne lors de la prononciation des consonnes « ch » et « j ».The width ly of the lamella 44 is between 15 millimeters and 25 millimeters. Preferably, the width ly of the lamella 44 is 20 mm. According to a preferred embodiment, the width ly of the lamella 44 is less than 20 mm. This avoids discomfort when pronouncing consonants "ch" and "j".
La longueur Iz de la lamelle 44 est comprise entre 15 millimètres et 50 millimètres. De préférence, la longueur Iz de la lamelle 44 est de 35 mm.The length Iz of the lamella 44 is between 15 millimeters and 50 millimeters. Preferably, the length Iz of the lamella 44 is 35 mm.
L'extension de la lamelle 44 selon l'axe X est appelée épaisseur lx dans la suite. L'épaisseur lx est comprise entre 0,5 mm et 1,5 mm. De préférence, l'épaisseur lx de la lamelle 44 est de 1 mm. La face d'appui a également une forme rectangulaire plane, la forme rectangulaire ayant comme longueur, la largeur ly de la lamelle 44 et comme largeur, l'épaisseur lx de la lamelle 44. Dans cette situation, la surface d'appui correspond à la surface de la face d'appui soit le produit de la largeur ly par l'épaisseur lx de la lamelle. Pour procurer une bonne stabilité, la surface d'appui est d'au moins 5 millimètres carrés au niveau de la ou des dents du locuteur lorsque la lamelle 44 d'appui dental est en appui sur au moins une dent du locuteur. Pour améliorer encore cet effet, la surface d'appui est supérieure à 10 mm2. Pour limiter la gêne produite par la présente de la lamelle 44, la surface d'appui est inférieure à 20 mm2.The extension of the strip 44 along the X axis is called thickness lx in the following. The thickness lx is between 0.5 mm and 1.5 mm. Preferably, the thickness 1x of the lamella 44 is 1 mm. The bearing face also has a flat rectangular shape, the rectangular shape having as length, the width ly of the strip 44 and as width, the thickness lx of the strip 44. In this situation, the bearing surface corresponds to the surface of the bearing face is the product of the width l0 by the thickness lx of the lamella. To provide good stability, the bearing surface is at least 5 millimeters squared at the level of the teeth of the speaker when the lamella 44 of dental support is supported on at least one tooth of the speaker. To further improve this effect, the bearing surface is greater than 10 mm 2. To limit the discomfort produced by the present of the strip 44, the bearing surface is less than 20 mm 2.
L'organe 44 de maintien comprend deux ventouses 71, 72 destinées à être appliquées sur au moins une dent du locuteur. Les deux ventouses 71, 72 prolongent la lamelle 44. Les deux ventouses 71, 72 sont des embouts souples en silicone. Les deux ventouses 71, 72 sont maintenues en position par une dépression générée par une pompe 80. La pompe 80 est une pompe manuelle à soufflet. Selon une variante, la lamelle 44 est séparable du dispositif d'acquisition 12. Cela permet de considérer la lamelle 44 comme un consommable. Il en résulte une amélioration de la stérilité et de l'hygiène de la lamelle 44. L'unité de prétraitement 46 est propre à compresser la taille des données de mesure issues de la caméra 56. De telles compressions rendent possible une transmission sérielle des données à débit réduit depuis le dispositif d'acquisition 16 vers l'unité de traitement 17. L'unité de traitement 17 est en liaison avec l'unité de prétraitement 46 du dispositif d'acquisition 16.The holding member 44 comprises two suction cups 71, 72 intended to be applied to at least one tooth of the speaker. The two suction cups 71, 72 extend the blade 44. The two suction cups 71, 72 are soft silicone tips. The two suckers 71, 72 are held in position by a depression generated by a pump 80. The pump 80 is a manual bellows pump. According to one variant, the lamella 44 is separable from the acquisition device 12. This makes it possible to consider the lamella 44 as a consumable. This results in an improvement in the sterility and hygiene of the slide 44. The pretreatment unit 46 is able to compress the size of the measurement data from the camera 56. Such compressions make possible a serial transmission of the data. at reduced flow rate from the acquisition device 16 to the processing unit 17. The processing unit 17 is connected to the preprocessing unit 46 of the acquisition device 16.
La liaison est une liaison sans fil, par exemple une liaison par voie hertzienne. De préférence, il est fait usage d'une technologie ZigBee. ZigBee est un protocole de haut niveau permettant la communication à débit élevé de petites radios, à consommation réduite, basée sur la norme IEEE 802.15.4 pour les réseaux à dimension personnelle (Wireless Personal Area Networks : VVPANs).The link is a wireless link, for example a link over the air. Preferably, use is made of ZigBee technology. ZigBee is a high-level protocol for high-speed, low-power, small-rate communication based on the IEEE 802.15.4 standard for wireless personal area networks (VVPANs).
En variante, la liaison est de type filaire.In a variant, the link is of wired type.
Selon les cas, la liaison se fait selon un canal half-duplex, également appelé à l'alternat, permettant de transporter des informations dans les deux sens, mais pas simultanément ou selon un canal full-duplex, pour lequel l'information est transportée simultanément dans chaque sens.Depending on the case, the link is a half-duplex channel, also known as a half-duplex channel, which carries information in both directions, but not simultaneously or in a full-duplex channel, for which the information is carried. simultaneously in each direction.
L'unité de traitement 17 est propre à déterminer par analyse d'images ou par reconnaissance de formes la position dans l'espace de la langue du locuteur à partir d'au moins une image fournie par l'unité 42 d'imagerie. Le fonctionnement du système 10 de détermination de la position dans l'espace de la langue du locuteur va maintenant être décrit.The processing unit 17 is able to determine by image analysis or pattern recognition the position in the space of the speaker's language from at least one image provided by the imaging unit 42. The operation of the position determination system 10 in the language space of the speaker will now be described.
Il est proposé d'introduire la lamelle 44 du dispositif 16 en prenant appui sur une dent du locuteur tout en empêchant la fermeture centrale des lèvres. Ainsi, la lamelle 44 est en appui sur une dent incisive supérieure en son milieu A. Ce point A constitue la référence du dispositif 12 dans le référentiel tridimensionnel du locuteur.It is proposed to introduce the blade 44 of the device 16 by resting on a tooth of the speaker while preventing the central closure of the lips. Thus, the lamella 44 bears on an upper incisal tooth in its center A. This point A constitutes the reference of the device 12 in the three-dimensional referential of the speaker.
Le choix de ce point A répond à deux critères : l'obtention d'une bonne stabilité du dispositif 12 par un appui sur une partie osseuse sans interface peaussier et une tolérance à un usage prolongé du dispositif 12. La tolérance à l'usage prolongé se fait sans gêne, les possibilités d'humecter une grande partie des lèvres et de mettre en appui les dents supérieures et inférieures pour déglutir étant conservées.The choice of this point A meets two criteria: obtaining a good stability of the device 12 by a support on a bone part without skin interface and a tolerance for prolonged use of the device 12. Tolerance to prolonged use is done without embarrassment, the possibilities of moistening a large part of the lips and to put in support the upper and lower teeth to swallow being preserved.
Plus précisément, la lamelle 44 est en appui sur toute la largeur lx sur les deux canines supérieures selon l'axe Y. Dans cette position, la lamelle 44 ne pénètre pas à l'intérieur de la cavité buccale du locuteur. En outre, la langue ainsi que les dents inférieures du locuteur n'entrent pas en contact avec la lamelle 44.More specifically, the lamella 44 bears across the width lx on the two upper canines along the Y axis. In this position, the lamella 44 does not penetrate inside the oral cavity of the speaker. In addition, the tongue as well as the lower teeth of the speaker do not come into contact with the lamella 44.
Ainsi, les mouvements de la mâchoire inférieure, de la langue et des incisives inférieures sont permis lorsque la lamelle 44 du dispositif 12 est en position. Il existe en permanence un orifice entre les lèvres du locuteur. Par l'orifice ainsi généré, l'observation permanente des mouvements de la pointe et/ou du dos de la langue à l'intérieur de la cavité buccale du locuteur est possible, et ce pour beaucoup de phonèmes prononcés par le locuteur. Lorsque la lamelle 44 est en position, la caméra 56 est à hauteur du bas de la cavité buccale, ce qui permet d'éviter la formation de buée sur les éléments du système optique 58. Le dispositif 16 permet de faire une image de trois zones distinctes de la cavité buccale du locuteur.Thus, the movements of the lower jaw, tongue and lower incisors are allowed when the blade 44 of the device 12 is in position. There is always an opening between the lips of the speaker. Through the orifice thus generated, the permanent observation of the movements of the tip and / or the back of the tongue inside the oral cavity of the speaker is possible, and this for many phonemes pronounced by the speaker. When the blade 44 is in position, the camera 56 is at the height of the bottom of the oral cavity, which prevents the fogging of the elements of the optical system 58. The device 16 makes it possible to make an image of three zones distinct from the oral cavity of the speaker.
La première zone est la voûte palatine, et le cas échéant une partie de la langue si la langue est proche de la voûte palatine sans la recouvrir. Les photons collectés lors de l'acquisition de l'image ont suivi le trajet optique suivant : émission par au moins une des sources laser dans la cavité buccale, diffusion par la cavité buccale, passage par le filtre 62 et la lentille de champ 60 et détection au niveau des photodétecteurs de la caméra 56. La deuxième zone possible est le dos de la langue lorsque la langue est en position relevée dans la cavité buccale du locuteur et couvre la voûte palatine. Les photons collectés lors de l'acquisition de l'image ont suivi le trajet optique suivant : émission par au moins une des sources laser dans la cavité buccale, diffusion par la cavité buccale, passage par la première lentille 64 puis par le filtre 62 et par la lentille de champ 60 et détection au niveau des photodétecteurs de la caméra 56. La troisième zone comprend la mâchoire inférieure du locuteur et notamment les dents avant (incisives et/ou canines). La troisième zone comprend, le cas échéant, la langue si la langue est en position abaissée dans la cavité buccale du locuteur. La caméra 56 acquiert ainsi une image permettant de déterminer la position de la langue par rapport à la mâchoire inférieure. Les photons collectés lors de l'acquisition de l'image ont suivi le trajet optique suivant : émission par au moins une des sources laser dans la cavité buccale, diffusion par la cavité buccale, réflexion au niveau du miroir 66 de renvoi, passage par la première lentille 66 puis par le filtre 62, par la lentille de champ 60 et détection au niveau des photodétecteurs de la caméra 56. Ainsi, l'ensemble des optiques du dispositif 12 permet d'obtenir des mesures de triangulation optique. Selon une variante, seule une des trois zones est imagée. En outre, en variante, la lèvre inférieure est hors du champ de la caméra 58.The first zone is the palatal vault, and if necessary a part of the tongue if the tongue is close to the palate without covering it. The photons collected during the acquisition of the image followed the following optical path: emission by at least one of the laser sources in the oral cavity, diffusion by the oral cavity, passage through the filter 62 and the field lens 60 and detection at the photo-detectors of the camera 56. The second possible zone is the back of the tongue when the tongue is in the raised position in the oral cavity of the speaker and covers the palatal vault. The photons collected during the acquisition of the image followed the following optical path: emission by at least one of the laser sources into the oral cavity, diffusion through the oral cavity, passage through the first lens 64 and then through the filter 62 and by the field lens 60 and detection at the photodetectors of the camera 56. The third zone comprises the lower jaw of the speaker and in particular the front teeth (incisors and / or canines). The third zone includes, if necessary, the tongue if the tongue is in the lowered position in the oral cavity of the speaker. The camera 56 thus acquires an image for determining the position of the tongue relative to the lower jaw. The photons collected during the acquisition of the image have followed the following optical path: emission by at least one of the laser sources in the oral cavity, diffusion by the oral cavity, reflection at the mirror 66 of return, passage through the first lens 66 and then by the filter 62, by the field lens 60 and detection at the photodetectors of the camera 56. Thus, all the optical device 12 provides optical triangulation measurements. According to one variant, only one of the three zones is imaged. In addition, alternatively, the lower lip is out of the field of the camera 58.
Les ventouses 71, 72 assurent un bon positionnement de la lamelle 44. Le bon positionnement est la position la plus proche possible de la cavité buccale du locuteur sans provoquer de gêne du locuteur. Il peut être observé que la position du dispositif 12 centré sur la phytrium n'est pas critique. Une tolérance de + ou - 3 mm est acceptable.The suction cups 71, 72 ensure proper positioning of the slide 44. The correct positioning is the position as close as possible to the oral cavity of the speaker without causing discomfort to the speaker. It can be observed that the position of the device 12 centered on the phytrium is not critical. A tolerance of + or - 3 mm is acceptable.
L'appui sur le locuteur sans interface directement en appui sur les dents de la mâchoire supérieure assure une bonne stabilité à la lamelle 44. En outre, du fait de cette bonne stabilité, lorsque le support 12 est en position, le support 12 constitue une référence sur la boîte crânienne du locuteur. De manière générale, le support 12 est positionné sur une partie de la tête présentant une souplesse faible pour éviter d'introduire un bougé de référence lors des mouvements du locuteur.The support on the speaker without interface directly bearing on the teeth of the upper jaw ensures good stability to the blade 44. In addition, because of this good stability, when the support 12 is in position, the support 12 constitutes a reference on the cranial box of the speaker. In general, the support 12 is positioned on a portion of the head having a low flexibility to avoid introducing a reference shake during the movements of the speaker.
Dès lors, le support 12' l'organe 16 de liaison ainsi que le dispositif 12 d'acquisition sont immobilisés en position par rapport au locuteur. Cela implique que l'unité 42 d'imagerie est positionnée de manière sensiblement fixe par rapport au locuteur, ce qui permet de générer une image plus aisée à exploiter.Therefore, the support 12 'the connecting member 16 and the acquisition device 12 are immobilized in position relative to the speaker. This implies that the imaging unit 42 is positioned substantially fixed relative to the speaker, which makes it possible to generate an image that is easier to use.
En outre, la langue ainsi que les incisives inférieures n'entrent pas en contact avec la lamelle 44 tout en conservant toute leur liberté de mouvement. De ce fait, la gêne de l'introduction de la lamelle 44 dans la cavité buccale est minimisée. De plus, la lamelle 44 n'empêche pas les dents d'être en contact pour la déglutition.In addition, the tongue and the lower incisors do not come into contact with the slat 44 while maintaining all their freedom of movement. As a result, the discomfort of introducing the lamella 44 into the oral cavity is minimized. In addition, the blade 44 does not prevent the teeth from being in contact for swallowing.
Selon une variante, la lamelle 44 est munie d'un cache dimensionné de sorte que lorsque la lamelle 44 est en position, la bouche du locuteur soit masquée depuis l'extérieur. Cela permet que les émissions vocales du locuteur se fassent en toute discrétion. Les images prises par le système 10 de détermination de la position dans l'espace de la langue du locuteur sont notamment adaptées pour une application dans le domaine de la reconnaissance vocale. Selon un autre aspect de l'invention, il est, de ce fait, proposé à la figure 4 un module 100 de reconnaissance vocale comprenant le système 10 de détermination de la position tel que décrit en référence aux figures 1, 2 et 3. Les différents éléments décrits précédemment sont identiques sauf l'unité de traitement 17 du module 100 qui est différente de l'unité de traitement 17 du système 10 de détermination de la position dans l'espace de la langue du locuteur. Le module 100 est également équipé d'un capteur 102 de souffle différentiel, d'un microphone 104 et d'une unité 106 de retranscription de données.Alternatively, the slat 44 is provided with a cache sized so that when the slat 44 is in position, the mouth of the speaker is hidden from the outside. This allows the speaker's voice broadcasts to be done discreetly. The images taken by the system 10 for determining the position in the space of the speaker's language are particularly suitable for an application in the field of voice recognition. According to another aspect of the invention, it is, therefore, proposed in FIG. 4 a voice recognition module 100 comprising the position determination system 10 as described with reference to FIGS. 1, 2 and 3. various elements described above are identical except the processing unit 17 of the module 100 which is different from the processing unit 17 of the system 10 for determining the position in the space of the speaker's language. The module 100 is also equipped with a differential breath sensor 102, a microphone 104 and a data transcribing unit 106.
Le capteur 102 de souffle différentiel et le microphone 104 font partie du dispositif 12 d'acquisition de données. Le capteur 102 de souffle différentiel est, selon l'exemple de la figure 1, un ensemble de thermistances placées face à la cavité buccale du locuteur et sous les narines. L'air expulsé à la température du corps humain (environ 37°C) produit un gradient de température par rapport à la température de l'environnement. Ce gradient de température est détecté par l'ensemble de thermistances. Cet ensemble de thermistances permet de mesurer l'intensité, l'attaque et la tombée de la voix en fonction du temps. L'ensemble présente une faible inertie thermique, une haute sensibilité, une meilleure compacité que le capteur 102 de pression différentielle. Le capteur 102 de souffle différentiel est solidaire de la lamelle 44.The differential breath sensor 102 and the microphone 104 are part of the data acquisition device 12. The sensor 102 of differential breath is, according to the example of Figure 1, a set of thermistors placed in front of the oral cavity of the speaker and under the nostrils. The air expelled at human body temperature (about 37 ° C) produces a temperature gradient with respect to the temperature of the environment. This temperature gradient is detected by the set of thermistors. This set of thermistors measures the intensity, the attack and the fall of the voice as a function of time. The assembly has a low thermal inertia, high sensitivity, better compactness than the differential pressure sensor 102. The differential breath sensor 102 is integral with the lamella 44.
Dans le cas de la figure 4, le capteur 102 de souffle différentiel est agencé de manière à mesurer la répartition spatiale du souffle et le gradient entre le flux d'air inspiré par le nez du locuteur et le flux d'air expiré par la bouche du locuteur. En variante, le capteur 102 de souffle différentiel est un capteur de pression différentielle propre à mesurer la différence de pression entre deux gaz. En variante au lieu du capteur 102 de souffle différentiel, le dispositif est équipé d'un capteur de pression cinétique de l'air expulsé. Le microphone 104 est propre à enregistrer des ondes sonores, et en particulier la voix du locuteur.In the case of FIG. 4, the differential breath sensor 102 is arranged to measure the spatial distribution of the breath and the gradient between the air flow inspired by the speaker's nose and the flow of air exhaled by the mouth. of the speaker. Alternatively, the differential breath sensor 102 is a differential pressure sensor capable of measuring the pressure difference between two gases. Alternatively instead of the sensor 102 of differential blast, the device is equipped with a kinetic pressure sensor expelled air. The microphone 104 is suitable for recording sound waves, and in particular the voice of the speaker.
L'unité de traitement 17 du module 100 comporte une sous-unité de réception 108 et une sous-unité de reconnaissance 110 de morphème et/ou de phonème. Dans ce mode de réalisation, l'unité de prétraitement 46 du dispositif 12 d'acquisition est propre à compresser la taille des données de mesure issues de la caméra, des données de mesure issues du capteur 102 de souffle différentiel et des données de mesure issues du microphone 104. De telles compressions rendent possible une transmission sérielle des données à débit réduit depuis le dispositif 12 d'acquisition vers la sous-unité de réception 108. La sous-unité de réception 108 est en liaison avec l'unité de prétraitement 46. La liaison est une liaison sans fil, par exemple une liaison par voie hertzienne.The processing unit 17 of the module 100 comprises a reception subunit 108 and a recognition subunit 110 of morpheme and / or phoneme. In this embodiment, the preprocessing unit 46 of the acquisition device 12 is able to compress the size of the measurement data from the camera, measurement data from the differential breath sensor 102 and measurement data from of the microphone 104. Such compressions make possible a serial transmission of the reduced rate data from the acquisition device 12 to the receiving sub-unit 108. The receiving sub-unit 108 is connected with the preprocessing unit 46 The link is a wireless link, for example a link over the air.
En variante, la liaison est de type filaire. Selon les cas, la liaison se fait selon un canal half-duplex, également appelé à l'alternat, permettant de transporter des informations dans les deux sens, mais pas simultanément ou selon un canal full-duplex, pour lequel l'information est transportée simultanément dans chaque sens.In a variant, the link is of wired type. Depending on the case, the link is a half-duplex channel, also known as a half-duplex channel, which carries information in both directions, but not simultaneously or in a full-duplex channel, for which the information is carried. simultaneously in each direction.
La sous-unité de réception 108 est ainsi propre à recevoir les données de mesure compressées par l'unité de prétraitement 46. La sous-unité reconnaissance 110 de morphème et/ou de phonème est également propre à assurer un post-traitement des données de mesures reçues par la sous-unité de réception 108. Ce post-traitement permet d'obtenir des données à retranscrire.The reception subunit 108 is thus able to receive the measurement data compressed by the preprocessing unit 46. The morpheme and / or phoneme recognition subunit 110 is also capable of ensuring a post-processing of the data of measurements received by the reception sub-unit 108. This post-processing makes it possible to obtain data to be transcribed.
L'unité de traitement 17 envoie les données à retranscrire à l'unité 106 de retranscription. L'unité 106 de retranscription de données est propre à retranscrire les données envoyées par l'unité de traitement 17. Par exemple, l'unité 106 de retranscription est un générateur de son.The processing unit 17 sends the data to be retranscribed to the transcription unit 106. The data transcribing unit 106 is able to retranscribe the data sent by the processing unit 17. For example, the transcription unit 106 is a sound generator.
Le fonctionnement du module 100 de reconnaissance vocale va maintenant être décrit.The operation of the voice recognition module 100 will now be described.
Le locuteur émet des sons correspondants, par exemple, à « Bonjour ». Lorsque le locuteur émet ces données, plusieurs données sont mémorisées : au moins une image de la langue du locuteur est acquise, le gradient de pression entre l'air expiré par le nez du locuteur et l'air expiré par la bouche du locuteur est mesuré et le son émis par le locuteur est enregistré par le microphone 104. Les données mémorisées sont compressées par l'unité de prétraitement 46 puis envoyées à la sous-unité de réception 108 de l'unité de traitement 17. Sur la base des données reçues, la sous-unité de reconnaissance 110 reconnaît un ou plusieurs phonèmes et/ou morphèmes, en l'occurrence « bon » et « jour ».The speaker emits corresponding sounds, for example, to "Hello". When the speaker transmits this data, several data are stored: at least one image of the language of the speaker is acquired, the pressure gradient between the air exhaled by the speaker's nose and the air exhaled by the mouth of the speaker is measured and the sound emitted by the speaker is recorded by the microphone 104. The stored data is compressed by the preprocessing unit 46 and then sent to the receiving sub-unit 108 of the processing unit 17. On the basis of the received data the recognition sub-unit 110 recognizes one or more phonemes and / or morphemes, in this case "good" and "day".
L'unité de traitement 17 envoie alors les données « bon » et « jour » à l'unité 106 de retranscription qui émet les sons « Bonjour ». Le module 100 de reconnaissance vocale selon l'invention permet d'obtenir une meilleure distinction des phonèmes qu'un module de reconnaissance vocale basé seulement sur une lecture labiale comme dans l'état de la technique.The processing unit 17 then sends the "good" and "day" data to the transcription unit 106 which emits the "Hello" sounds. The voice recognition module 100 according to the invention makes it possible to obtain a better distinction between phonemes than a speech recognition module based solely on a lip reading as in the state of the art.
Dans la suite, sont illustrés des exemples concrets dans lesquels l'utilisation du module 100 de reconnaissance vocale selon l'invention permet la reconnaissance de phonèmes que ne permet pas l'utilisation d'un module de reconnaissance vocale basé seulement sur une lecture labiale comme dans l'état de la technique. Cela repose sur le fait que, lors de l'émission de voyelle par un locuteur, la demanderesse a constaté que les dents ne sont jamais serrées l'une contre l'autre. Il subsiste toujours un interstice entre les dents, supérieur à deux millimètres dans le plan normal à l'axe b-b'. Dès lors, il est possible d'émettre des sons compréhensibles avec les dents serrées autour d'un crayon. Les dents sont immobiles mais les mouvements de la langue et les expirations permettent la génération de son. Cela confirme que la lecture labiale seule est insuffisante. Il est, en effet, estimé que seulement 30% du message oral émis par ce biais sont perçus par un récepteur humain ainsi que cela est précisé dans la thèse de M. Noureddine ABOUTABIT intitulée « Reconnaissance de la langue française parlée complétée (LPC) : décodage phonétique des gestes main-lèvres » soutenue le 11 décembre 2007 à l'institut national polytechnique de Grenoble. Cela dépend de l'articulation du locuteur mais aussi de sa physionomie. Par exemple, il convient de prendre en compte si le locuteur a une forte barbe, une bouche lippue ou est atteint d'une paralysie faciale. Par exemple, il est alors possible de discriminer entre un son [é] et un son [ai]. En français, les expressions « né » et « naît » sont en effet des homophones que seul le mouvement de la langue permet de distinguer. Les lèvres ont la même position. Ainsi, le module 100 de reconnaissance vocale est capable de distinguer ces deux homophones sur la base de l'observation de la langue du locuteur. Les voyelles « e » et « o » se différencient aussi par la position de la langue. Le « o » se prononce langue relevée tandis que le « e » se prononce avec la langue abaissée. Il est donc aisé de distinguer la prononciation des deux voyelles à l'aide du module 100 de reconnaissance vocale. Comparativement, dans le cas d'une reconnaissance labiale comme dans l'état de la technique, la modification de la position des lèvres est faible. De ce fait, dans l'état de la technique, la reconnaissance des deux voyelles est difficilement obtenue.In the following, concrete examples are illustrated in which the use of the voice recognition module 100 according to the invention allows the recognition of phonemes that does not allow the use of a speech recognition module based only on a lip reading as in the state of the art. This is based on the fact that, during the issuance of vowel by a speaker, the Applicant has found that the teeth are never clamped against each other. There is always a gap between the teeth, greater than two millimeters in the plane normal to the axis b-b '. Therefore, it is possible to make understandable sounds with the teeth clenched around a pencil. The teeth are motionless but the movements of the tongue and the expirations allow the generation of sound. This confirms that lip reading alone is insufficient. In fact, it is estimated that only 30% of the oral message sent by this means is perceived by a human receiver, as is stated in Noureddine ABOUTABIT's thesis entitled "Recognition of the completed spoken French language (LPC): phonetic decoding of hand-lip gestures "supported on December 11, 2007 at the National Polytechnic Institute of Grenoble. It depends on the articulation of the speaker but also on his physiognomy. For example, consider whether the speaker has a strong beard, slurred mouth, or facial paralysis. For example, it is then possible to discriminate between a sound [é] and a sound [ai]. In French, the expressions "born" and "born" are indeed homophones that only the movement of the language makes it possible to distinguish. The lips have the same position. Thus, the voice recognition module 100 is able to distinguish these two homophones on the basis of the observation of the speaker's language. The vowels "e" and "o" are also differentiated by the position of the language. The "o" is pronounced tongue raised while the "e" is pronounced with the tongue lowered. It is therefore easy to distinguish the pronunciation of the two vowels using the voice recognition module 100. Comparatively, in the case of labial recognition as in the state of the art, the change in the position of the lips is weak. As a result, in the state of the art, the recognition of the two vowels is difficult to obtain.
L'emploi du capteur 102 de souffle différentiel permet aussi de différencier les sons [o] et [on]. Cela n'est pas possible avec l'observation du mouvement des lèvres ou de la langue. Les voyelles orales, comme le son « o », se prononcent avec le voile du palais relevé, ce qui ferme le passage nasal. Les voyelles nasales, comme le son « on », se prononcent avec le voile du palais abaissé, ce qui laisse passer l'air par la bouche et par le nez. Ainsi, en mesurant la différence de température sous le nez et à l'entrée de la bouche, il est possible de déterminer quel son a été émis par le locuteur. Comme l'émission du son « o » résulte d'une expulsion de l'air par la bouche alors que l'émission du son « on » est nasale, le capteur 102 de souffle différentiel mesure une différence de température négative si le son « o » est émis par le locuteur alors que le capteur 102 de souffle différentiel mesure une différence de température positive si le son « on » est émis par le locuteur. Lors de la prononciation du son « i », de même, il est possible de déterminer sa prononciation par étude de l'air expulsé par la bouche lors de l'émission du son.The use of the differential breath sensor 102 also makes it possible to differentiate the sounds [o] and [on]. This is not possible with the observation of the movement of the lips or the tongue. The oral vowels, like the "o" sound, are pronounced with the palate veil raised, which closes the nasal passage. Nasal vowels, like the sound "on", are pronounced with the veil of the palate lowered, which lets air through the mouth and through the nose. Thus, by measuring the difference in temperature under the nose and at the entrance of the mouth, it is possible to determine which sound was emitted by the speaker. Since the emission of sound "o" results from an expulsion of air through the mouth while the emission of the "on" sound is nasal, the differential breath sensor 102 measures a negative temperature difference if the sound " o "is emitted by the speaker while the differential breath sensor 102 measures a positive temperature difference if the" on "sound is emitted by the speaker. During the pronunciation of the sound "i", it is also possible to determine its pronunciation by studying the air expelled by the mouth during the emission of sound.
En variante, le microphone 104 du dispositif 16 est utilisé pour enregistrer le son émis par le locuteur. Cela permet de corréler les interprétations des morphèmes et des phonèmes du locuteur avec le son enregistré par le microphone. Selon un mode de réalisation, cette corrélation est faite avec les images de la bouche et/ou les mesures de température différentielle du capteur 102 de souffle différentiel. Dans tous les cas, le module 100 de reconnaissance vocale selon l'invention permet d'obtenir une meilleure distinction des phonèmes qu'un module 100 de reconnaissance vocale basé seulement sur une lecture labiale comme dans l'état de la technique.Alternatively, the microphone 104 of the device 16 is used to record the sound emitted by the speaker. This makes it possible to correlate the speaker's morpheme and phoneme interpretations with the sound recorded by the microphone. According to one embodiment, this correlation is made with the images of the mouth and / or the differential temperature measurements of the differential breath sensor 102. In all cases, the voice recognition module 100 according to the invention makes it possible to obtain a better distinction between phonemes than a voice recognition module 100 based solely on a lip reading as in the state of the art.
En outre, le module 100 de reconnaissance vocale est utilisable pour un pilote d'avion, même soumis à des fortes accélérations. Par comparaison, il est à noter qu'un simple dispositif de lecture labiale ne peut être utilisé avec un pilote d'avion du fait de la déformation des lèvres du pilote d'avion par l'accélération et/ou les vibrations de l'avion. La même remarque s'applique également pour une personne atteinte de paralysie des lèvres ayant encore l'usage de sa langue.In addition, the voice recognition module 100 is usable for an airplane pilot, even subject to strong accelerations. By comparison, it should be noted that a simple lip reading device can not be used with an airplane pilot due to the deformation of the airplane pilot's lips by the acceleration and / or the vibrations of the aircraft . The same applies also to a person with paralysis of the lips still having the use of his tongue.
Le module 100 de reconnaissance vocale est également utilisable dès qu'il est souhaitable de retranscrire des données issues de sons émis par le locuteur. Selon une application, le module 100 de reconnaissance vocale permet de suppléer l'usage de la parole pour une personne qui en serait privée. En ce sens, le module 100 de reconnaissance vocale est une prothèse pour un handicapé privé de l'usage de la parole. Pour un champ d'application similaire, le module 100 de reconnaissance vocale est également employable dans le contexte de l'orthophonie pour corriger la mauvaise prononciation par le patient. Selon une autre application, le module 100 de reconnaissance vocale retranscrit des instructions d'un locuteur qui ne peut pas parler librement ou dont la locution est gênée par un masque. C'est, par exemple, le cas d'un chirurgien dans une salle d'opérations qui a ses deux mains prises pour la manipulation des instruments. La module 100 de reconnaissance vocale lui permet d'étendre directement son champ d'action au pilotage d'instruments connexes, en se passant du concours du personnel l'assistant, par exemple pour la modification du zoom d'une caméra endoscopique ou pour la modulation de l'intensité d'un bistouri électrique. Selon une autre application, le module 100 de reconnaissance vocale sert à produire des sons.The voice recognition module 100 is also usable as soon as it is desirable to retranscribe data from sounds emitted by the speaker. According to one application, the voice recognition module 100 makes it possible to compensate for the use of speech for a person who would be deprived of it. In this sense, the voice recognition module 100 is a prosthesis for a handicapped person deprived of the use of speech. For a similar field of application, the speech recognition module 100 is also employable in the context of speech therapy to correct the bad pronunciation by the patient. According to another application, the voice recognition module 100 retranscribes instructions from a speaker who can not speak freely or whose expression is hindered by a mask. This is, for example, the case of a surgeon in an operating room who has both hands for the manipulation of instruments. The voice recognition module 100 enables it to extend its field of action directly to the piloting of related instruments, without the assistance of the assistant staff, for example for the modification of the zoom of an endoscopic camera or for the modulation of the intensity of an electrocautery. According to another application, the voice recognition module 100 is used to produce sounds.
Dans ce cas, la sous-unité de reconnaissance 110 des phonèmes et morphèmes de l'unité de traitement 17 est remplacée par une sous-unité de reconnaissance de son. La sous-unité de reconnaissance de son est propre à déterminer la fréquence et/ou l'intensité d'un son. La sous-unité de reconnaissance de son est capable de déterminer la fréquence par l'observation du mouvement relatif des deux mâchoires du locuteur. L'amplitude de ce mouvement est de 4 mm à 20 mm dans la direction verticale et de 2 mm en avant dans la direction horizontale et 6 mm en arrière pour la direction horizontale. Un mouvement de 2 mm en avant dans la direction horizontale correspond à un son plus grave tandis qu'un mouvement de 6 mm en arrière pour la direction horizontale correspond à un son plus aigu.In this case, the recognition subunit 110 of the phonemes and morphemes of the processing unit 17 is replaced by a sound recognition subunit. The sound recognition subunit is able to determine the frequency and / or intensity of a sound. The sound recognition subunit is able to determine the frequency by observing the relative movement of the speaker's two jaws. The amplitude of this movement is 4 mm to 20 mm in the vertical direction and 2 mm forward in the horizontal direction and 6 mm back for the horizontal direction. A movement of 2 mm forward in the horizontal direction corresponds to a more serious sound while a movement of 6 mm backwards for the horizontal direction corresponds to a higher pitch.
La sous-unité de reconnaissance de son permet ainsi de quantifier la fréquence d'un son sur la base de la position relative des mâchoires l'une par rapport à l'autre. Le module 100 de reconnaissance vocale est ainsi bien adapté pour produire de la musique.The sound recognition subunit thus makes it possible to quantify the frequency of a sound on the basis of the relative position of the jaws with respect to each other. The voice recognition module 100 is thus well suited for producing music.
Le traitement combiné de la cinématique de la langue et du souffle permet de générer des sons avec des paramètres de fréquence (hauteur de la note), d'intensité, d'attaque et de tombée de la note. Pour une application de traduction, le module 100 de reconnaissance vocale est également bien adapté.The combined kinematics of the language and the breath can generate sounds with parameters of frequency (pitch of the note), intensity, attack and fall of the note. For a translation application, the voice recognition module 100 is also well suited.
Dans ce cas, la sous-unité de reconnaissance 110 des phonèmes et morphèmes de l'unité de traitement 17 est propre à reconnaître les morphèmes et phonèmes émis dans une première langue, par exemple le français. L'unité de traitement 17 du module 100 de reconnaissance vocale comporte également une sous-unité de conversion 112 des morphèmes et/ou phonèmes dans une deuxième langue différente de la première langue, par exemple l'anglais. Dans l'exemple précité du mot « bonjour » pour de la traduction du français vers l'anglais, converti en « hello » par la sous-unité de conversion 112, l'unité 106 de retranscription retranscrit alors le son « hello ». L'emploi du module 100 de reconnaissance vocale selon l'invention permet d'augmenter le pourcentage de mots émis par le locuteur qui sont reconnus, et ce indépendamment de l'environnement puisque la reconnaissance est basée sur les mouvements de la langue et les différences de température entre l'air expiré par le nez et l'air expiré par la bouche. Cela rend le module 100 de reconnaissance vocale particulièrement bien adapté dans les situations de traduction simultanée. Selon une variante, le module de reconnaissance vocale 100 est un moyen alternatif à la souris ou au clavier pour la saisie d'un microordinateur. Selon encore un autre aspect de l'invention, la demanderesse a constaté que des instructions orales de contrôlé d'un appareil électronique sont plus rapidement traitées que par des instructions qui seraient transmises à l'appareil électronique via un clavier. Un traitement plus rapide permet d'obtenir une meilleure précision dans l'usage de l'appareil électronique considéré. Ainsi, il est proposé un appareil électronique 200 comprenant une unité de contrôle 202 et le système 10 de détermination de la position tel que décrit en référence aux figures 1, 2 et 3. Les différents éléments décrits précédemment sont identiques sauf l'unité de traitement 17 de l'appareil électronique 200 qui est différente de l'unité de traitement 17 du système 10 de détermination de la position dans l'espace de la langue du locuteur. L'unité de contrôle 202 est propre à contrôler l'ensemble des actionneurs 204 de l'appareil électronique 200. Dans le cadre de cette invention, il est entendu par « actionneur », tout élément ayant une interaction avec un élément physique. Ainsi, un écran d'affichage sur lequel s'affiche des informations est considéré comme un actionneur 204. L'unité de traitement 17 comporte une sous-unité de détermination des données 210 et une sous-unité de transmission 212.In this case, the recognition subunit 110 of the phonemes and morphemes of the processing unit 17 is suitable for recognizing the morphemes and phonemes emitted in a first language, for example French. The processing unit 17 of the voice recognition module 100 also comprises a conversion subunit 112 of the morphemes and / or phonemes in a second language other than the first language, for example English. In the aforementioned example of the word "hello" for the translation from French to English, converted into "hello" by the conversion subunit 112, the transcript unit 106 then transcribes the sound "hello". The use of the voice recognition module 100 according to the invention makes it possible to increase the percentage of words emitted by the speaker that are recognized, and this independently of the environment since the recognition is based on the movements of the language and the differences temperature between the air exhaled by the nose and the air exhaled by the mouth. This makes the speech recognition module 100 particularly well suited for simultaneous translation situations. According to one variant, the voice recognition module 100 is an alternative means to the mouse or the keyboard for entering a microcomputer. According to yet another aspect of the invention, the Applicant has found that oral instructions for controlling an electronic device are processed more quickly than by instructions which would be transmitted to the electronic device via a keyboard. A faster treatment makes it possible to obtain a better accuracy in the use of the electronic device in question. Thus, there is provided an electronic device 200 comprising a control unit 202 and the position determination system 10 as described with reference to FIGS. 1, 2 and 3. The various elements described above are identical except for the processing unit. 17 of the electronic device 200 which is different from the processing unit 17 of the system 10 for determining the position in the space of the speaker's language. The control unit 202 is capable of controlling all of the actuators 204 of the electronic apparatus 200. In the context of this invention, the term "actuator" is understood to mean any element having an interaction with a physical element. Thus, a display screen on which information is displayed is considered an actuator 204. The processing unit 17 includes a data determination sub-unit 210 and a transmission sub-unit 212.
La sous-unité de détermination des données 210 est propre à déterminer des données à communiquer à l'unité de contrôle 202 à partir des données issues de l'unité 42 d'imagerie, des données issues du capteur 102 de souffle différentiel et des données issues du microphone 104. Les données à communiquer sont notées DC dans la suite de la description.The data determination sub-unit 210 is capable of determining data to be communicated to the control unit 202 from the data from the imaging unit 42, data from the differential breath sensor 102 and data from the microphone 104. The data to be communicated are noted DC in the following description.
La sous-unité de transmission 212 est propre à transmettre les données déterminées par la sous-unité de détermination des données 210 vers l'unité de contrôle. Le fonctionnement de l'appareil électronique 200 va maintenant être illustré dans le cas où l'appareil électronique 200 est un téléphone mobile muni d'un actuateur qui est un terminal 204 et que l'utilisateur du téléphone mobile souhaite envoyer un SMS.The transmission subunit 212 is able to transmit the data determined by the data determination subunit 210 to the control unit. The operation of the electronic device 200 will now be illustrated in the case where the electronic device 200 is a mobile phone provided with an actuator which is a terminal 204 and the user of the mobile phone wishes to send an SMS.
Le service de messagerie SMS, plus connu sous le sigle SMS (acronyme anglais pour « Short Message Service ») ou texto permet de transmettre de courts messages textuels. C'est l'un des services de la téléphonie mobile qui a été introduit par la norme GSM (acronyme anglais pour « Global System for Mobile Communications »). A titre d'illustration, dans la suite, il est supposé que le locuteur veut envoyer un SMS à Alice. Le contenu du SMS est « Où es-tu ? ». Dans cet exemple, le locuteur émet les données « envoi SMS Alice ». Lorsque le locuteur émet les données « envoi SMS Alice », plusieurs données sont mémorisées : au moins une images de langue du locuteur est acquise, le gradient de température entre l'air expiré par le nez du locuteur et l'air expiré par la bouche due locuteur est mesuré et le son émis par le locuteur est enregistré par le microphone 104. La sous-unité de détermination des données 210 de l'unité de traitement 17 détermine alors les données à communiquer DC à partir des données mémorisées. Cette étape de détermination est une étape de reconnaissance vocale similaire à ce qui a été décrit précédemment.The SMS messaging service, better known by the acronym SMS (acronym for "Short Message Service") or text message allows to transmit short text messages. This is one of the mobile services that has been introduced by the GSM standard (acronym for "Global System for Mobile Communications"). As an illustration, in the following, it is assumed that the speaker wants to send an SMS to Alice. The content of the SMS is "Where are you? ". In this example, the speaker sends the data "Alice SMS Send". When the speaker sends the data "Alice SMS sending", several data are stored: at least one language image of the speaker is acquired, the temperature gradient between the air exhaled by the speaker's nose and the air exhaled by the mouth The speaker is measured and the speaker sound is recorded by the microphone 104. The data determination sub-unit 210 of the processing unit 17 then determines the data to be communicated DC from the stored data. This determination step is a voice recognition step similar to that described above.
De préférence, l'étape de détermination est mise en oeuvre avec des ordres de priorité pour diminuer le temps de traitement des données mémorisées par la sous-unité de détermination des données 210. Un exemple d'ordre de priorité est explicité dans la suite.Preferably, the determination step is carried out with priority orders to reduce the processing time of the data stored by the data determination sub-unit 210. An example of a priority order is explained below.
L'étape de détermination comprend alors une première étape de reconnaissance vocale R1 sur la base des données enregistrées par le microphone 104 seulement. En effet, si le locuteur émet un son (par exemple, cela lui est possible si le locuteur est seul), la reconnaissance vocale par le microphone 104 est souvent la plus rapide. La première étape de reconnaissance vocale R1 permet d'obtenir des premières données de reconnaissance D1 et un premier taux T1 de probabilité d'erreur entre les premières données de reconnaissance D1 et les données émises par le locuteur. Le premier taux T1 est représentatif de la probabilité que les premières données de reconnaissance D1 soient différentes des données émises par le locuteur. Le premier taux T1 de probabilité d'erreur est, par exemple, estimé sur la base du rapport signal sur bruit des données enregistrées par le microphone 104. Plus le rapport signal sur bruit est faible, plus le premier taux T1 de probabilité d'erreur est élevé. Le premier taux T1 de probabilité d'erreur est alors comparé à une première valeur seuil V1. La première valeur seuil V1 est choisie pour que l'écart entre les premières données de reconnaissance D1 et les données émises par le locuteur soit suffisamment faible pour que l'unité de contrôle 202 donne à l'appareil électronique 200 les ordres correspondant aux données émises par le locuteur si les premières données de reconnaissance D1 sont transmises à l'unité de contrôle 202. Par exemple la première valeur seuil V1 est égale à 10%, de préférence 5% et de manière préférée égale à 2,5%. Lorsque le premier taux T1 de probabilité d'erreur est inférieur ou égal à la première valeur seuil V1, les données à communiquer DC sont les premières données de reconnaissance D1. Dans ce cas, il a été évité d'étudier les données d'images et de gradient de température pour obtenir les données à communiquer, ce qui permet d'obtenir un gain de temps. Lorsque le premier taux T1 de probabilité d'erreur est supérieur à la première valeur seuil V1, l'étape de détermination comprend une deuxième étape de reconnaissance vocale R2 sur la base des données d'image acquises et des données sonores enregistrées.The determining step then comprises a first voice recognition step R1 based on the data recorded by the microphone 104 only. Indeed, if the speaker emits a sound (for example, it is possible if the speaker is alone), the speech recognition by the microphone 104 is often the fastest. The first voice recognition step R1 makes it possible to obtain first recognition data D1 and a first rate T1 of error probability between the first recognition data D1 and the data transmitted by the speaker. The first rate T1 is representative of the probability that the first recognition data D1 are different from the data transmitted by the speaker. The first rate T1 of probability of error is, for example, estimated on the basis of the signal-to-noise ratio of the data recorded by the microphone 104. The lower the signal-to-noise ratio, the lower the first rate T1 of error probability. is high. The first rate T1 of error probability is then compared to a first threshold value V1. The first threshold value V1 is chosen so that the difference between the first recognition data D1 and the data transmitted by the speaker is sufficiently small for the control unit 202 to give the electronic device 200 the commands corresponding to the data transmitted. by the speaker if the first recognition data D1 is transmitted to the control unit 202. For example the first threshold value V1 is equal to 10%, preferably 5% and preferably equal to 2.5%. When the first rate T1 of error probability is less than or equal to the first threshold value V1, the data to be communicated DC is the first recognition data D1. In this case, it was avoided to study the data of images and temperature gradient to obtain the data to be communicated, which makes it possible to obtain a saving of time. When the first error probability ratio T1 is greater than the first threshold value V1, the determining step comprises a second voice recognition step R2 based on the acquired image data and the recorded sound data.
Selon une variante, ce sont les données de différence de température et les données sonores enregistrées qui sont prises en compte lors de la deuxième étape de reconnaissance vocale R2. La deuxième étape de reconnaissance vocale R2 permet d'obtenir des deuxièmes données de reconnaissance D2 et un deuxième taux T2 de probabilité d'erreur entre les deuxièmes données de reconnaissance D2 et les données émises par le locuteur. Le deuxième taux T2 est représentatif de la probabilité que les deuxièmes données de reconnaissance D2 soient différentes des données émises par le locuteur. Le deuxième taux T2 de probabilité d'erreur est par exemple estimé sur la base du rapport signal sur bruit des données d'images acquises. Plus le rapport signal sur bruit est faible, plus le deuxième taux T2 de probabilité d'erreur est élevé. Le deuxième taux T2 de probabilité d'erreur est alors comparé à une deuxième valeur seuil V2. La deuxième valeur seuil V2 est choisie pour que l'écart entre les deuxièmes données de reconnaissance D2 et les données émises par le locuteur soit suffisamment faible pour que l'unité de contrôle 202 donne à l'appareil électronique 200 les ordres correspondant aux données émises par le locuteur si les deuxièmes données de reconnaissance D2 sont transmises à l'unité de contrôle 202. Par exemple, la deuxième valeur seuil V2 est égale à 10%, de préférence 5% et de manière préférée égale à 2,5%. Selon une variante, la deuxième valeur seuil V2 et la première valeur seuil V1 sont égales. Lorsque le deuxième taux T2 est inférieur ou égal à la deuxième valeur seuil V2, les données à communiquer DC sont les deuxièmes données de reconnaissance D2.According to one variant, it is the temperature difference data and the recorded sound data that are taken into account during the second voice recognition step R2. The second voice recognition step R2 makes it possible to obtain second recognition data D2 and a second rate T2 of error probability between the second recognition data D2 and the data transmitted by the speaker. The second rate T2 is representative of the probability that the second recognition data D2 are different from the data transmitted by the speaker. The second error probability rate T2 is for example estimated on the basis of the signal-to-noise ratio of the acquired image data. The lower the signal-to-noise ratio, the higher the second T2 error probability rate. The second rate T2 of error probability is then compared to a second threshold value V2. The second threshold value V2 is chosen so that the difference between the second recognition data D2 and the data transmitted by the speaker is sufficiently small for the control unit 202 to give the electronic device 200 the commands corresponding to the data transmitted. by the speaker if the second recognition data D2 is transmitted to the control unit 202. For example, the second threshold value V2 is equal to 10%, preferably 5% and preferably equal to 2.5%. According to one variant, the second threshold value V2 and the first threshold value V1 are equal. When the second rate T2 is less than or equal to the second threshold value V2, the data to be communicated DC is the second recognition data D2.
Dans ce cas, il a été évité d'étudier les données de gradient de température pour obtenir les données à communiquer DC, ce qui permet d'obtenir un gain de temps. Lorsque le deuxième taux T2 est supérieur à la deuxième valeur seuil V2, l'étape de détermination comprend une troisième étape de reconnaissance vocale R3 sur la base de toutes les données du dispositif 12 d'acquisition, à savoir les données acquises, mesurées et enregistrées. La troisième étape de reconnaissance vocale R3 permet d'obtenir des troisièmes données de reconnaissance D3, les données à communiquer DC étant les troisièmes données de reconnaissance D3. Les données à communiquer DC sont ensuite transmises à l'unité de contrôle 202 par la sous-unité de transmission 210.In this case, it was avoided to study the temperature gradient data to obtain the data to be communicated DC, which makes it possible to save time. When the second rate T2 is greater than the second threshold value V2, the determining step comprises a third voice recognition step R3 based on all the data of the acquisition device 12, namely the data acquired, measured and recorded. . The third voice recognition step R3 makes it possible to obtain third recognition data D3, the data to be communicated DC being the third recognition data D3. The data to be communicated DC is then transmitted to the control unit 202 by the transmission sub-unit 210.
L'unité de contrôle 202 reçoit ainsi les ordres émanant du locuteur et, en conséquence, le terminal affiche alors une page vide correspondant au contenu du SMS. Le locuteur émet ensuite les données « Où es-tu ? ». Par le même procédé que précédemment décrit pour « envoi SMS Alice », le terminal affiche alors une page dans laquelle est écrite « Où es-tu ? ». Le locuteur émet ensuite les données « Envoyer ». Par le même procédé que précédemment décrit pour « envoi SMS Alice », l'ordre d'envoyer du locuteur est transmis à l'unité de contrôle 202. L'unité de contrôle reçoit cet ordre émanant du locuteur et, en conséquence, le terminal affiche alors une demande de confirmation de l'ordre « Voulez-vous envoyer ce message ? ». Le locuteur émet ensuite les données « Oui ». Par le même procédé que précédemment décrit pour « envoi SMS Alice », la confirmation orale du locuteur à l'unité de contrôle 202.The control unit 202 thus receives the orders from the speaker and, consequently, the terminal then displays a blank page corresponding to the content of the SMS. The speaker then sends the data "Where are you? ". By the same method as previously described for "SMS sending Alice", the terminal then displays a page in which is written "Where are you? ". The speaker then sends the "Send" data. By the same method as previously described for "SMS sending Alice", the order to send the speaker is transmitted to the control unit 202. The control unit receives this order from the speaker and, consequently, the terminal then displays a request to confirm the order "Do you want to send this message? ". The speaker then sends the data "Yes". By the same method as previously described for "sending SMS Alice", the oral confirmation of the speaker to the control unit 202.
Le téléphone mobile envoie alors le message à Alice. Pour comparaison, dans le cas d'un téléphone mobile comprenant un terminal muni d'un clavier, le locuteur clique d'abord sur Alice, puis envoyer SMS. Le terminal affiche alors une page vide correspondant au contenu du SMS. En supposant que le SMS est saisi sur un clavier de type azerty, le locuteur appuie successivement sur les touches « o », « ù », espace, « e », « s », « - », « t » , « u » et «? ». Le terminal affiche alors une page dans laquelle est écrite « Où es-tu ? ». Le locuteur clique alors sur l'option envoyer sur le terminal. Le terminal affiche alors une demande de confirmation de l'ordre « Voulez-vous envoyer ce message ? Oui / Non». Le locuteur clique sur la réponse « Oui ».The mobile phone then sends the message to Alice. For comparison, in the case of a mobile phone including a terminal with a keyboard, the speaker first clicks Alice, then send SMS. The terminal then displays a blank page corresponding to the content of the SMS. Assuming that the SMS is entered on an azerty type keyboard, the speaker successively presses the "o", "ù", space, "e", "s", "-", "t", "u" keys. and "? ". The terminal then displays a page in which is written "Where are you? ". The speaker then clicks on the send option on the terminal. The terminal then displays a request to confirm the order "Do you want to send this message? Yes No". The speaker clicks on the answer "Yes".
Le terminal envoie alors le message à Alice Ainsi, avec le terminal muni du dispositif selon l'invention, le locuteur a prononcé quatre phrases alors qu'avec le terminal muni d'un clavier, le locuteur a treize interactions distinctes avec le clavier (quatre clics et neuf appuis sur une touche alpha-numérique). Il apparaît alors que dicter en utilisant un téléphone mobile 200 muni du dispositif 12 d'acquisition est plus rapide que d'utiliser un téléphone mobile muni d'un clavier. En outre, les mouvements de la langue sont plus aisément répétables que les manipulations d'un clavier par les doigts, notamment pour éviter les erreurs de saisie. Il suffit, en effet, de prononcer correctement le SMS pour que celui-ci apparaisse sur l'écran.The terminal then sends the message to Alice Thus, with the terminal provided with the device according to the invention, the speaker has pronounced four sentences whereas with the terminal equipped with a keyboard, the speaker has thirteen distinct interactions with the keyboard (four clicks and nine presses on an alpha-numeric key). It then appears that dictating using a mobile phone 200 equipped with the acquisition device 12 is faster than using a mobile phone with a keyboard. In addition, the movements of the language are more easily repeatable than manipulations of a keyboard by the fingers, especially to avoid typing errors. In fact, it is sufficient to pronounce correctly the SMS so that it appears on the screen.
De plus, du fait que la dictée peut se faire sans production de son, la dictée ne produit pas de fatigue lors d'un exercice prolongée au contraire de la communication à voix haute. La communication à voix haute sollicite les cordes vocales et peut fatiguer le locuteur. En variante, le téléphone mobile est muni du dispositif 12 d'acquisition selon l'invention et d'un clavier. L'envoi du SMS est alors effectué de manière mixte. Par exemple, seul le contenu textuel du SMS est dicté, le reste des opérations étant effectué par utilisation du clavier. Le procédé proposé s'applique également pour toute situation où un locuteur commande un appareil électronique 200. Ainsi, selon un autre mode de réalisation, l'appareil électronique 200 est une console de jeux vidéo. Dans ce cas, au lieu de taper la combinaison de touches requises par la situation de jeu comme dans l'état de la technique, l'utilisateur de la console de jeux vidéo se contente de donner un ordre comme « course », « saut », « arrêt » ou « tir ». Cela permet d'augmenter la cadence des jeux vidéo puisqu'une manipulation par la langue est plus rapide qu'une manipulation par la main.In addition, because dictation can be done without sound production, dictation does not produce fatigue during prolonged exercise as opposed to communication out loud. The communication aloud solicits the vocal cords and can tire the speaker. Alternatively, the mobile phone is provided with the acquisition device 12 according to the invention and a keyboard. The sending of the SMS is then done in a mixed way. For example, only the textual content of the SMS is dictated, the rest of the operations being performed using the keyboard. The proposed method is also applicable for any situation where a speaker is controlling an electronic apparatus 200. Thus, according to another embodiment, the electronic apparatus 200 is a video game console. In this case, instead of typing the combination of keys required by the game situation as in the state of the art, the user of the video game console is content to give an order such as "race", "jump" , "Stop" or "shot". This allows to increase the rate of video games since handling by the language is faster than manipulation by the hand.
En outre, alors que le nombre limitée de touches pour une console selon l'état de la technique impose des combinaisons complexes pour pouvoir multiplier les possibilités d'actions, la console proposée permet potentiellement d'obtenir plus aisément de multiples possibilités d'action puisque le nombre de mots à disposition du locuteur est beaucoup plus grand que le nombre de touches des consoles selon l'état de la technique.In addition, while the limited number of keys for a console according to the state of the art imposes complex combinations to be able to multiply the possibilities of actions, the proposed console potentially allows to obtain more easily multiple possibilities of action since the number of words available to the speaker is much greater than the number of keys consoles according to the state of the art.
Selon une variante, l'appareil électronique 200 est une interface homme-machine. Par exemple, l'interface homme-machine fait partie d'un casque pour le domaine militaire. Là encore, le contrôle par les mots prononcés par le locuteur est plus rapide qu'une manipulation de commande avec des mains. Cela permet de réduire les temps de réaction, ce qui est crucial, notamment dans les situations de tir. Selon des variantes, l'appareil électronique 200 est un robot, un ordinateur ou un fauteuil pour handicapé. Selon une autre application, l'appareil 200 permet de suppléer l'usage des mains pour un handicap. En ce sens, l'appareil 200 est une prothèse pour un handicapé privé de l'usage de ses mains. En variante, au lieu d'une mise en oeuvre de l'étape de détermination avec des ordres de priorité ainsi que précédemment décrit, il est fait appel à une logique floue pour comparer des profils de sons appris avec des profils incidents pour établir des choix probabilistes.According to one variant, the electronic device 200 is a man-machine interface. For example, the man-machine interface is part of a helmet for the military field. Here again, control by the words spoken by the speaker is faster than control manipulation with hands. This reduces reaction times, which is crucial, especially in shooting situations. According to variants, the electronic device 200 is a robot, a computer or a chair for the disabled. According to another application, the device 200 makes it possible to replace the use of the hands for a handicap. In this sense, the device 200 is a prosthesis for a disabled person deprived of the use of his hands. Alternatively, instead of implementing the priority order determination step as previously described, fuzzy logic is used to compare learned sound profiles with incident profiles to establish choices. probabilistic.
Parallèlement, les signatures des souffles correspondants à des sons appris sont comparées aux souffles incidents mesurés par le capteur 102 de souffle différentiel.At the same time, the breath signatures corresponding to learned sounds are compared to the incident blasts measured by the differential breath sensor 102.
Cela permet une reconnaissance instantanée, c'est-à-dire au rythme de la prononciation de la phrase. Cela impose un traitement informatique dont le temps de mise en oeuvre est suffisamment rapide pour respecter cette contrainte de temps. Selon encore une autre variante, des processeurs neuronaux sont utilisés.This allows instant recognition, that is, the rhythm of the pronunciation of the sentence. This requires a computer processing whose implementation time is fast enough to meet this time constraint. According to yet another variant, neural processors are used.
La langue est le plus petit dénominateur fonctionnel commun de communication entre les êtres humains conscients: handicapés : sourds, muets, aveugles, paraplégiques et valides. L'optimisation de la reconnaissance des signes induit la création d'un nouveau langage basé sur la recherche de l'optimisation des distances morphologiques entre morphèmes, eu égard aux diversités des langues parlées, la recherche de la transmission d'ordres combinés et simultanés aux actuateurs.Language is the lowest common functional denominator of communication between conscious human beings: disabled: deaf, dumb, blind, paraplegic and valid. The optimization of the recognition of the signs induces the creation of a new language based on the search for the optimization of the morphological distances between morphemes, with regard to the diversities of the spoken languages, the search for the transmission of orders combined and simultaneous with the actuators.
Claims (11)
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| FR1262835A FR3000592B1 (en) | 2012-12-27 | 2012-12-27 | VOICE RECOGNITION MODULE |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| FR1262835A FR3000592B1 (en) | 2012-12-27 | 2012-12-27 | VOICE RECOGNITION MODULE |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| FR3000592A1 true FR3000592A1 (en) | 2014-07-04 |
| FR3000592B1 FR3000592B1 (en) | 2016-04-01 |
Family
ID=48224912
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| FR1262835A Expired - Fee Related FR3000592B1 (en) | 2012-12-27 | 2012-12-27 | VOICE RECOGNITION MODULE |
Country Status (1)
| Country | Link |
|---|---|
| FR (1) | FR3000592B1 (en) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| GB2547909A (en) * | 2016-03-01 | 2017-09-06 | Rismanchi Vahid | System for computer-assisted communication and/or computer-assisted human analysis |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20020087103A1 (en) * | 2000-09-19 | 2002-07-04 | Fletcher Samuel G. | Palatometer and nasometer apparatus |
| US20020194005A1 (en) * | 2001-03-27 | 2002-12-19 | Lahr Roy J. | Head-worn, trimodal device to increase transcription accuracy in a voice recognition system and to process unvocalized speech |
| US20040243416A1 (en) * | 2003-06-02 | 2004-12-02 | Gardos Thomas R. | Speech recognition |
| US20090305203A1 (en) * | 2005-09-29 | 2009-12-10 | Machi Okumura | Pronunciation diagnosis device, pronunciation diagnosis method, recording medium, and pronunciation diagnosis program |
| US20120259554A1 (en) * | 2011-04-08 | 2012-10-11 | Sony Computer Entertainment Inc. | Tongue tracking interface apparatus and method for controlling a computer program |
-
2012
- 2012-12-27 FR FR1262835A patent/FR3000592B1/en not_active Expired - Fee Related
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20020087103A1 (en) * | 2000-09-19 | 2002-07-04 | Fletcher Samuel G. | Palatometer and nasometer apparatus |
| US20020194005A1 (en) * | 2001-03-27 | 2002-12-19 | Lahr Roy J. | Head-worn, trimodal device to increase transcription accuracy in a voice recognition system and to process unvocalized speech |
| US20040243416A1 (en) * | 2003-06-02 | 2004-12-02 | Gardos Thomas R. | Speech recognition |
| US20090305203A1 (en) * | 2005-09-29 | 2009-12-10 | Machi Okumura | Pronunciation diagnosis device, pronunciation diagnosis method, recording medium, and pronunciation diagnosis program |
| US20120259554A1 (en) * | 2011-04-08 | 2012-10-11 | Sony Computer Entertainment Inc. | Tongue tracking interface apparatus and method for controlling a computer program |
Non-Patent Citations (1)
| Title |
|---|
| JENNINGS ET AL: "The Effects of Frequency Range, Vowel, Dynamic Loudness Level, and Gender on Nasalance in Amateur and Classically Trained Singers", JOURNAL OF VOICE, ELSEVIER SCIENCE, US, vol. 22, no. 1, 29 December 2007 (2007-12-29), pages 75 - 89, XP022403863, ISSN: 0892-1997, DOI: 10.1016/J.JVOICE.2006.08.017 * |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| GB2547909A (en) * | 2016-03-01 | 2017-09-06 | Rismanchi Vahid | System for computer-assisted communication and/or computer-assisted human analysis |
Also Published As
| Publication number | Publication date |
|---|---|
| FR3000592B1 (en) | 2016-04-01 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US12147521B2 (en) | Threshold facial micromovement intensity triggers interpretation | |
| US12154572B2 (en) | Identifying silent speech using recorded speech | |
| US11917367B2 (en) | System and method for efficiency among devices | |
| Wang et al. | Eardynamic: An ear canal deformation based continuous user authentication using in-ear wearables | |
| US20220279267A1 (en) | Optical Measurement System Integrated into a Hearing Device | |
| US6272466B1 (en) | Speech detection apparatus using specularly reflected light | |
| CN113544768A (en) | Speech recognition using multiple sensors | |
| Zhang et al. | Speechin: A smart necklace for silent speech recognition | |
| CN108702580A (en) | Hearing auxiliary with automatic speech transcription | |
| WO2000049834A1 (en) | Speech converting device and method | |
| JP2012059121A (en) | Eyeglass-type display device | |
| JP2024530886A (en) | Silent Speech Detection | |
| EP3060110B1 (en) | Electrophysiological method for assessing the effectiveness of a hearing aid | |
| US20230020631A1 (en) | Ear canal deformation based continuous user identification system using ear wearables | |
| FR3000592A1 (en) | Speech recognition module for e.g. automatic translation, has data acquisition device including differential pressure sensor that is adapted to measure pressure gradient and/or temperature between air exhaled by nose and mouth | |
| EP4085835A1 (en) | Discreet hands- and eyes-free input by voluntary tensor tympani muscle contraction | |
| FR3000593A1 (en) | Electronic device e.g. video game console, has data acquisition unit including differential pressure sensor, and processing unit arranged to determine data and communicate data output from differential pressure sensor | |
| FR3000375A1 (en) | SPEAKER LANGUAGE SPACE POSITION DETERMINATION SYSTEM AND ASSOCIATED METHOD | |
| Rodríguez-Ferreiro et al. | Design and development of a Spanish hearing test for speech in noise (PAHRE) | |
| GB2547909A (en) | System for computer-assisted communication and/or computer-assisted human analysis | |
| CH711334A2 (en) | A method and apparatus for helping to understand an auditory sensory message by transforming it into a visual message. | |
| WO2024188300A1 (en) | An integrated digit in noise test to evaluate hearing and cognitive function | |
| Hennecke | Audio-visual speech recognition: preprocessing, learning and sensory integration | |
| WO2023165844A1 (en) | Circuitry and method for visual speech processing | |
| Zwolan | The contribution of phonetic and contextual information in speech perception by cochlear implant wearers |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PLFP | Fee payment |
Year of fee payment: 4 |
|
| PLFP | Fee payment |
Year of fee payment: 5 |
|
| ST | Notification of lapse |
Effective date: 20180831 |