[go: up one dir, main page]

FR2735268A1 - Voice recognition apparatus for speech transcription - Google Patents

Voice recognition apparatus for speech transcription Download PDF

Info

Publication number
FR2735268A1
FR2735268A1 FR9607233A FR9607233A FR2735268A1 FR 2735268 A1 FR2735268 A1 FR 2735268A1 FR 9607233 A FR9607233 A FR 9607233A FR 9607233 A FR9607233 A FR 9607233A FR 2735268 A1 FR2735268 A1 FR 2735268A1
Authority
FR
France
Prior art keywords
words
voice recognition
homophone
homophones
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR9607233A
Other languages
French (fr)
Other versions
FR2735268B1 (en
Inventor
Melvyn John Hunt
Adam Harris Weiss
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dragon Systems UK Research and Development Ltd
Original Assignee
Dragon Systems UK Research and Development Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dragon Systems UK Research and Development Ltd filed Critical Dragon Systems UK Research and Development Ltd
Publication of FR2735268A1 publication Critical patent/FR2735268A1/en
Application granted granted Critical
Publication of FR2735268B1 publication Critical patent/FR2735268B1/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

The apparatus includes a microphone (10) and an A/D convertor (12) which passes incoming words to a processor (14). The processor performs data storage using acoustic and language models. When the phonetic words are received, some are homophones for which there are a number of possible spellings. The correct spelling is determined from previous words, whether the word is singular or plural, masculine, feminine or neuter and whether the first, second or third person is used. Other characteristics of words determining the form of the following word or clarifying the following word are not taken into account.

Description

APPAREIL ET PROCÉDÉS DE RECONNAISSANCE VOCALE
La présente invention porte sur un appareil et sur des procédés de reconnaissance vocale et, en particulier, sur un appareil et sur des procédés de reconnaissance vocale destinés à réduire la restitution incorrecte d'homophones ou d'homophones proches.
VOICE RECOGNITION APPARATUS AND METHODS
The present invention relates to a voice recognition apparatus and methods and, in particular, to a voice recognition apparatus and methods for reducing incorrect rendering of homophones or close homophones.

Pour les objectifs de cette description, le terme "homophone" couvre à la fois les homophones exacts (c'est-à-dire les mots qui s'orthographient différemment mais qui sont phonétiquement équivalents) et les mots qui, bien que n'étant pas des homophones exacts, sont phonétiquement semblables dans la mesure où il y a une forte possibilité qu'un appareil de reconnaissance vocale ne sera pas suffisamment apte à les différencier sur la base du signal vocal seul, notamment si le signal vocal est médiocre et/ou les paroles sont prononcées de façon médiocre. For the purposes of this description, the term "homophone" covers both exact homophones (that is, words which are spelled differently but which are phonetically equivalent) and words which, although not not exact homophones, are phonetically similar insofar as there is a strong possibility that a voice recognition device will not be able enough to differentiate them on the basis of the voice signal alone, especially if the voice signal is poor and / or the words are spoken poorly.

De façon générale, dans beaucoup de systèmes de reconnaissance vocale existants, tels que le Système DragonDictateê, la reconnaissance vocale est effectuée à l'aide d'un modèle de langage, et l'appareil de reconnaissance détermine, pour chaque mot prononcé par l'utilisateur, une liste de mots comprenant les correspondances les plus proches à partir de son vocabulaire (une "liste des choix"). Generally speaking, in many existing speech recognition systems, such as the DragonDictate System, speech recognition is carried out using a language model, and the recognition apparatus determines, for each word spoken by the user, a list of words including the closest matches from his vocabulary (a "list of choices").

La liste des choix est établie selon la probabilité, et la correspondance avec la probabilité la plus élevée est présentée à l'écran. Le procédé est interactif de telle sorte que l'utilisateur surveille en continu le texte transcrit sur l'écran et corrige normalement les mots incorrects en indiquant au système le mot correct, lequel se trouve habituellement dans la liste des choix. Le système utilise ceci de façon adaptative pour réviser le modèle de langage. Bien qu'un système exercé de ce type fonctionne bien avec une précision impressionnante dans les langues, telles que l'anglais, qui ne présentent pas une proportion élevée d'homophones, il y a de sérieuses difficultés dans des langues où il y a beaucoup d'homophones, en particulier le français.Ne pas réussir à prévoir l'homophone correct conduit à un nombre élevé d'erreurs par le système de reconnaissance, dont la nécessité de correction ralentit l'utilisateur. I1 y a également le risque que des homophones non corrigés subsisteront dans le document qui est produit.The list of choices is established according to the probability, and the correspondence with the highest probability is presented on the screen. The method is interactive so that the user continuously monitors the text transcribed on the screen and normally corrects incorrect words by indicating to the system the correct word, which is usually found in the list of choices. The system uses this adaptively to revise the language model. Although an experienced system of this type works well with impressive precision in languages, such as English, which do not have a high proportion of homophones, there are serious difficulties in languages where there are many homophones, especially French. Failure to predict the correct homophone leads to a high number of errors by the recognition system, the need for correction of which slows down the user. There is also the risk that uncorrected homophones will remain in the document that is produced.

Si l'on considère la langue française, pour les noms, l'homophone approprié dépend habituellement de savoir si c'est l'homophone au singulier ou au pluriel qui est requis. Pour les adjectifs, ceci dépend largement d'avoir à distinguer parmi quatre possibilités suivant que l'adjectif qualifie un nom au masculin ou au féminin, au singulier ou au pluriel. Pour les verbes à un mode fini, l'homophone correct dépend de la personne (première, deuxième ou troisième) et du nombre (singulier ou pluriel) du sujet. Cependant, il y a certains mots ou l'homophone correct dépend du mode ou du temps du verbe. Considering the French language, for names, the appropriate homophone usually depends on whether it is the singular or plural homophone that is required. For adjectives, this largely depends on having to distinguish among four possibilities depending on whether the adjective qualifies a noun in masculine or feminine, singular or plural. For verbs in a finite mode, the correct homophone depends on the person (first, second or third) and on the number (singular or plural) of the subject. However, there are certain words where the correct homophone depends on the mode or time of the verb.

Finalement, pour les participes passés, l'homophone dépend généralement du nombre et du genre du complément d'objet direct, dont il arrive également qu'il soit le sujet dans le cas des verbes réfléchis. Des considérations analogues s'appliquent dans d'autres langues romanes, ainsi que dans d'autres langues comprenant le malais, le chinois, etc. Finally, for past participles, the homophone generally depends on the number and genre of the direct object complement, which also happens to be the subject in the case of reflexive verbs. Similar considerations apply in other Romance languages, as well as in other languages including Malay, Chinese, etc.

Dans des domaines d'application restreints, toutes les constructions de phrase de la pratique peuvent être connues par l'appareil de reconnaissance, et l'homophone approprié peut être choisi étant donné la structure de la phrase, d'une manière analogue à une analyse grammaticale. In restricted fields of application, all sentence constructions in practice can be known by the recognition device, and the appropriate homophone can be chosen, given the structure of the sentence, in a manner analogous to analysis. grammatical.

Cependant, il n'a pas été possible d'étendre cette approche grammaticale traditionnelle à la production d'un texte grammatical arbitraire.However, it was not possible to extend this traditional grammatical approach to the production of an arbitrary grammatical text.

Avec un texte arbitraire, une approche statistique a en conséquence été adoptée par la plupart des développeurs de systèmes de reconnaissance vocale à vocabulaire étendu. With arbitrary text, a statistical approach has therefore been adopted by most developers of extended vocabulary speech recognition systems.

On fait dépendre la sélection d'un homophone d'un ensemble d'homophones, d'une combinaison de la probabilité absolue de la forme (probabilité unigramme) et de sa probabilité d'occurrence étant donné les identités de ses n voisins immédiats (probabilités bigramme, trigramme .... n-gramme).We make the selection of a homophone depend on a set of homophones, on a combination of the absolute probability of the form (unigram probability) and its probability of occurrence given the identities of its n immediate neighbors (probabilities bigram, trigram .... n-gram).

Les voisins utilisés sont typiquement le mot immédiatement précédent et parfois le mot immédiatement suivant. Des voisins légèrement plus lointains ont parfois été utilisés, mais il y a une dégressivité entre l'information supplémentaire qu'ils procurent et la précision avec laquelle les probabilités d'occurrence de plus longues séquences de mots peuvent être estimées.The neighbors used are typically the immediately preceding word and sometimes the immediately following word. Slightly more distant neighbors have sometimes been used, but there is a gradation between the additional information they provide and the precision with which the probabilities of occurrence of longer word sequences can be estimated.

On peut réduire la difficulté dans l'estimation de telles probabilités à partir d'une quantité finie de données d'apprentissage, en remplaçant les mots par des repères, qui pourraient, par exemple, indiquer la partie d'élocution du mot, le genre et le nombre de noms, etc. Ceci réduit la quantité de matériel nécessaire pour obtenir des estimations fiables de probabilités de collocation. Cependant, l'étendue sur laquelle les probabilités de collocation peuvent être estimées reste limitée à deux ou trois mots. We can reduce the difficulty in estimating such probabilities from a finite quantity of learning data, by replacing the words with marks, which could, for example, indicate the part of speech of the word, the genre and the number of names, etc. This reduces the amount of material required to obtain reliable estimates of collocation probabilities. However, the extent over which the probabilities of collocation can be estimated remains limited to two or three words.

En français, les informations nécessaires pour déterminer quel homophone est approprié peuvent souvent être largement séparées de l'homophone lui-même. Considérons, par exemple, les phrases suivantes
On ne pouvait pas la décrire comme très jolie.
In French, the information necessary to determine which homophone is appropriate can often be widely separated from the homophone itself. Consider, for example, the following sentences
You couldn't describe her as very pretty.

Les pommes sont presque toujours bien mûres. The apples are almost always very ripe.

La table que je n'avais jamais vue, était partie. The table I had never seen was gone.

Dans chacun de ces cas, la forme du mot en caractères gras est déterminée par les mots soulignés précédents. Dans le premier exemple, le choix de jolie (féminin singulier) plutôt que de joli, jolis ou jolies qui se prononcent de façon identique est déterminé par le la précédent. De façon analogue, c'est pommes qui détermine que nous avons besoin de mûres (féminin pluriel) et non de mûr, mûres ou mûrs, et c'est la table qui détermine que les participes passés, vue et partie, prennent la forme du féminin singulier et ne s'écrivent pas respectivement vu, vus ou vues et parti, partis ou parties. In each of these cases, the shape of the word in bold type is determined by the previous underlined words. In the first example, the choice of attractive (singular feminine) rather than attractive, pretty or pretty, which is pronounced identically, is determined by the previous one. Similarly, it is apples that determine that we need blackberries (plural feminine) and not blackberries, blackberries or blackberries, and it is the table that determines that past participles, view and part, take the form of feminine singular and are not written respectively seen, seen or seen and party, parties or parties.

La même interaction à longue distance se produit également avec les verbes. Par exemple,
Les gamins ne se lavent pas.
The same long-distance interaction also occurs with verbs. For example,
Kids don't wash.

Ici, c'est le sujet au pluriel, les gamins, qui détermine que le verbe doit être à la forme de la troisième personne du pluriel, lavent, et non dans les formes de la deuxième ou de la troisième personne du singulier, qui se prononcent de façon identique, respectivement laves ou lave.Here, it is the subject in the plural, the kids, which determines that the verb must be in the form of the third person in the plural, lavent, and not in the forms of the second or third person in the singular, which pronounce identically, respectively lava or lava.

Ces accords à longue distance ne peuvent pas en pratique être manipulés par estimation de probabilités de longues séquences de mots. These long distance chords cannot in practice be manipulated by estimating the probabilities of long sequences of words.

En conséquence, nous avons développé un système pour réduire le nombre de restitutions incorrectes d'homophones, qui est capable de traiter un texte grammatical arbitraire, et qui se déplace de gauche à droite. En d'autres termes, la reconnaissance est capable de faire place à une partie de sélection d'homophones au cours d'une phrase, sur la base du texte déjà transcrit et elle n'a pas à attendre que la phrase soit finie. Notre système est heuristique et n'applique pas une analyse grammaticale rigoureuse pour déterminer l'homophone correct ou la terminaison correcte. As a result, we have developed a system to reduce the number of incorrect homophone renditions, which is capable of processing arbitrary grammatical text, and which moves from left to right. In other words, recognition is capable of making room for a selection of homophones during a sentence, on the basis of the text already transcribed and it does not have to wait for the sentence to be finished. Our system is heuristic and does not apply rigorous grammatical analysis to determine the correct homophone or correct termination.

En conséquence, sous l'un de ses aspects, la présente invention propose un appareil de reconnaissance vocale pour transcrire la parole et apte à réduire la probabilité de restituer un homophone incorrect à partir d'un ensemble d'homophones, caractérisé par le fait qu'à des mots choisis dans le vocabulaire de l'appareil, sont associés des valeurs ou états de repère respectifs caractérisant au moins l'un des paramètres suivants desdits mots (i) Nombre (par exemple singulier ou pluriel) (ii) Genre (par exemple masculin, féminin ou neutre) (iii)Personne (par exemple, première, deuxième ou
troisième), et (iv) n'importe quelle autre caractéristique du mot qui
détermine la forme d'un mot suivant ou qui clarifie la
sélection d'un homophone approprié à partir d'un
ensemble d'homophones, et par le fait que la sélection d'un homophone particulier dans les paroles transcrites est basée sur les valeurs ou états de repère d'un ou plusieurs mots préalablement transcrits.
Consequently, in one of its aspects, the present invention provides a voice recognition apparatus for transcribing speech and capable of reducing the probability of rendering an incorrect homophone from a set of homophones, characterized in that '' to words chosen from the vocabulary of the device, there are associated respective values or benchmarks characterizing at least one of the following parameters of said words (i) Number (for example singular or plural) (ii) Gender (by male, female or neutral example) (iii) Person (e.g. first, second or
third), and (iv) any other characteristic of the word which
determines the form of a next word or one that clarifies the
selection of an appropriate homophone from a
set of homophones, and by the fact that the selection of a particular homophone in the transcribed words is based on the values or reference states of one or more words previously transcribed.

Dans un mode de réalisation préféré, à chaque fois qu'un mot est transcrit qui a un repère associé (par exemple en français les serait marqué en tant que pluriel), un indicateur est établi à la valeur du repère. Dans les mots qui suivent où il y a une ambiguïté sur le nombre, l'indicateur est utilisé pour influencer la décision. Des indicateurs indépendants analogues peuvent être utilisés pour aider à prendre des décisions concernant le genre, la personne ou d'autres caractéristiques. In a preferred embodiment, each time a word is transcribed which has an associated marker (for example in French, it would be marked as plural), an indicator is established at the value of the marker. In the following words where there is an ambiguity in the number, the indicator is used to influence the decision. Similar independent indicators can be used to help make decisions about gender, person or other characteristics.

Lorsqu'il est agencé pour transcrire le français, l'appareil comprend, de préférence, trois indicateurs indépendants correspondant respectivement au nombre, au genre et à la personne. When it is arranged to transcribe French, the device preferably includes three independent indicators corresponding respectively to the number, gender and person.

L'appareil base la sélection d'un homophone particulier d'un ensemble d'homophones sur les valeurs ou états de repère d'un ou plusieurs mots préalablement transcrits. A la différence des arrangements n-gramme, cet appareil est capable de faire face à des interactions à longue distance si le mot homophoniquement ambigu et le mot ou les mots précédents qui déterminent l'homophone correct sont espacés de plusieurs mots. The device bases the selection of a particular homophone from a set of homophones on the values or reference states of one or more words previously transcribed. Unlike n-gram arrangements, this device is capable of dealing with long-distance interactions if the homophonically ambiguous word and the previous word or words which determine the correct homophone are spaced by several words.

Lorsque l'appareil de reconnaissance vocale applique un mot prononcé transcrit à un ensemble d'homophones, la sélection de l'homophone approprié peut être basée exclusivement sur les valeurs courantes de l'indicateur ou des indicateurs. Cependant, on préfère baser la sélection sur les valeurs de l'indicateur ou des indicateurs et une estimation de la probabilité d'un homophone particulier basée sur des données de probabilité unigramme, bigramme, etc., mises en mémoire au préalable pour chaque homophone de l'ensemble d'homophones. When the voice recognition device applies a transcribed spoken word to a set of homophones, the selection of the appropriate homophone can be based exclusively on the current values of the indicator or indicators. However, it is preferable to base the selection on the values of the indicator or indicators and an estimate of the probability of a particular homophone based on probability data unigram, bigram, etc., stored beforehand for each homophone of the set of homophones.

Dans une autre variante, les valeurs d'indicateur et les données de probabilité n-gramme peuvent être combinées avec des scores de correspondance acoustique représentant l'étendue de correspondance acoustique du mot prononcé avec les modèles d'au moins deux mots mis en mémoire au préalable. Ceci permet à l'appareil de choisir entre des homophones phonétiquement inexacts (tels que, par exemple, entrepris et entreprise - les formes au masculin et au féminin du participe passé). In another variant, the indicator values and the n-gram probability data can be combined with acoustic correspondence scores representing the extent of acoustic correspondence of the word spoken with the models of at least two words stored in memory. prior. This allows the device to choose between phonetically inaccurate homophones (such as, for example, business and business - the masculine and feminine forms of the past participle).

Dans un autre mode de réalisation, l'appareil de reconnaissance vocale peut déterminer le sexe de la personne qui parle à partir des caractéristiques phonétiques/de fréquence du signal vocal, à l'aide de techniques connues, puis établir de façon préalable le genre des pronoms à la première personne du singulier, même avant que le texte n'ait fourni des indices à cette propriété. In another embodiment, the voice recognition apparatus can determine the gender of the person speaking from the phonetic / frequency characteristics of the voice signal, using known techniques, and then establish the gender of the speakers in advance. first-person pronouns in the singular, even before the text provided clues to this property.

Certains pronoms personnels sont ambigus : vous est ambigu quant au genre et au nombre, et je, me, tu, te et nous sont ambigus quant au genre. En notant les habitudes de langage de l'utilisateur pendant la création d'un texte, il est possible de marquer les pronoms pour les propriétés par autrement ambiguës. Cette estimation à partir d'un ancien texte peut l'emporter sur des marqueurs provenant de l'analyse des caractéristiques de fréquence/phonétiques. Some personal pronouns are ambiguous: you are ambiguous about gender and number, and I, me, you, you and us are ambiguous about gender. By noting the user's language habits during text creation, it is possible to mark pronouns for otherwise ambiguous properties. This estimate from an old text may prevail over markers from the analysis of frequency / phonetic characteristics.

Les indicateurs peuvent conserver leurs valeurs d'une phrase à la phrase suivante. En variante, ils peuvent revenir à leurs valeurs non renseigné à une rupture de phrase. Indicators can keep their values from one sentence to the next sentence. As a variant, they can return to their unspecified values at the end of a sentence.

Si les valeurs d'indicateur sont utilisées en combinaison avec les données de probabilités unigramme, bigramme, etc., on peut faire varier la pondération de chaque indicateur avec la distance (c'est-à-dire le nombre de mots) entre le mot qui l'a établi et le mot l'utilisant, par exemple par décroissance uniforme avec la distance. If the indicator values are used in combination with the unigram, bigram, etc. probability data, the weighting of each indicator can be varied with the distance (i.e. the number of words) between the word who established it and the word using it, for example by uniform decrease with distance.

En français, les participes passés posent un problème particulier, parce que, dans les verbes qui se conjuguent avec être, l'accord se fait avec le sujet, alors qu'avec les verbes qui se conjuguent avec avoir, l'accord se fait avec le complément d'objet direct placé avant, s'il y en a un. Ainsi, dans un mode de réalisation, des indicateurs séparés peuvent être prévus pour les pronoms respectivement sujet et complément d'objet, et les pronoms correspondants dans le vocabulaire, repérés en conséquence, les valeurs courantes de l'indicateur étant la valeur ou état de repère du pronom le plus récent. L'indicateur peut être remis à l'état initial lors de l'occurrence de la forme finie du verbe avoir. In French, the past participles pose a particular problem, because, in verbs which are conjugated with to be, the agreement is made with the subject, while with verbs which are conjugated with to have, the agreement is made with the direct object complement placed before, if there is one. Thus, in one embodiment, separate indicators can be provided for the subject and object complement pronouns respectively, and the corresponding pronouns in the vocabulary, identified accordingly, the current values of the indicator being the value or state of landmark of the most recent pronoun. The indicator can be reset when the finite form of the verb occurs.

Sous un autre aspect, la présente invention propose un procédé de reconnaissance vocale pour réduire la probabilité de restituer un homophone incorrect à partir d'un ensemble d'homophones dans les paroles transcrites, caractérisé par le fait qu'il comprend le marquage de mots sélectionnés, dans le vocabulaire de l'appareil de reconnaissance vocale, par des valeurs ou états de repère respectifs caractérisant au moins l'un des paramètres suivants desdits mots (i) Nombre (par exemple singulier ou pluriel) (ii) Genre (par exemple masculin, féminin ou neutre) (iii)Personne (par exemple, première, deuxième ou
troisième), et (iv) n'importe quelle autre caractéristique du mot qui
détermine la forme d'un mot suivant ou qui clarifie la
sélection d'un homophone approprié à partir d'un
ensemble d'homophones, et la sélection de l'homophone approprié dans les paroles transcrites conformément aux valeurs ou états de repère d'un ou plusieurs mots préalablement transcrits.
In another aspect, the present invention provides a voice recognition method for reducing the probability of rendering an incorrect homophone from a set of homophones in the transcribed words, characterized in that it comprises the marking of selected words , in the vocabulary of the voice recognition device, by respective values or reference marks characterizing at least one of the following parameters of said words (i) Number (for example singular or plural) (ii) Gender (for example masculine , feminine or neutral) (iii) Person (e.g. first, second or
third), and (iv) any other characteristic of the word which
determines the form of a next word or one that clarifies the
selection of an appropriate homophone from a
set of homophones, and the selection of the appropriate homophone in the transcribed lyrics in accordance with the values or reference states of one or more previously transcribed words.

Alors que l'invention a été décrite ci-dessus, elle s'étend à n'importe quelle caractéristique inventive énoncée ci-dessus ou dans la description suivante ou les revendications suivantes. While the invention has been described above, it extends to any inventive feature set out above or in the following description or the following claims.

L'invention peut être mise en oeuvre de diverses manières, et un mode de réalisation de celle-ci va maintenant être décrit à titre d'exemple seulement, référence étant faite au dessin annexé sur lequel - la Figure 1 est une vue schématique d'un appareil de
reconnaissance vocale conforme à l'invention.
The invention can be implemented in various ways, and an embodiment of it will now be described by way of example only, reference being made to the appended drawing in which - Figure 1 is a schematic view of a device of
voice recognition according to the invention.

Si l'on se réfère à la Figure 1, on peut voir que l'appareil de reconnaissance vocale représenté est agencé pour transcrire du français parlé et pour réduire le nombre d'homophones incorrects dans le texte transcrit. Pour le transcription de base, l'appareil de reconnaissance met en oeuvre un procédé classique dont il existe plusieurs exemples disponibles dans le commerce, mais l'appareil de reconnaissance comprend des caractéristiques supplémentaires pour la sélection des homophones. If we refer to Figure 1, we can see that the voice recognition device shown is arranged to transcribe spoken French and to reduce the number of incorrect homophones in the transcribed text. For the basic transcription, the recognition device implements a conventional method of which there are several examples available on the market, but the recognition device includes additional characteristics for the selection of homophones.

Le système comprend un microphone 10, dont la sortie est convertie en un signal numérique par un convertisseur analogique-numérique 12. Le signal numérique est adressé à un processeur 14, qui traite et analyse le signal pour faire correspondre chaque mot prononcé à un vocabulaire de mots à l'aide de modèles acoustiques et pour fournir une liste des choix des correspondances acoustiques les plus proches, rangés en ordre de probabilité, sur la base de la correspondance acoustique et des probabilités unigramme, bigramme, etc. La probabilité unigramme est la probabilité absolue de la forme, et les probabilités bigramme, ...., n-gramme sont la probabilité de son occurrence étant donné l'identité de ses n-voisins immédiats. Les données représentant les probabilités unigramme, bigramme etc. sont désignées collectivement comme étant le modèle de langage, qui est adapté ou exercé de façon continuelle pendant l'utilisation du système pour étendre le vocabulaire et l"'accorder" aux habitudes de langage de l'utilisateur. De la même façon, les modèles acoustiques sont adaptés et exercés pour s'adapter à la prononciation et à l'élocution de l'utilisateur. The system includes a microphone 10, the output of which is converted into a digital signal by an analog-to-digital converter 12. The digital signal is sent to a processor 14, which processes and analyzes the signal to match each spoken word to a vocabulary of words using acoustic models and to provide a list of choices for the closest acoustic matches, arranged in order of probability, based on acoustic match and probabilities unigram, bigram, etc. The unigram probability is the absolute probability of the form, and the bigram probabilities, ...., n-gram are the probability of its occurrence given the identity of its immediate n-neighbors. The data representing the probabilities unigram, bigram etc. are collectively referred to as the language model, which is continuously adapted or exercised during the use of the system to expand the vocabulary and "match" it to the user's language habits. In the same way, the acoustic models are adapted and trained to adapt to the pronunciation and the speech of the user.

Le mot indiqué en tête, résultant de la correspondance acoustique et de la probabilité unigramme, bigramme, etc. est affiché sur un écran de visualisation 18, dans la ligne de texte transcrite, avec une liste allant jusqu'à huit choix secondaires énumérés ailleurs sur l'écran. The word indicated in the head, resulting from the acoustic correspondence and the probability unigram, bigram, etc. is displayed on a display screen 18, in the transcribed text line, with a list of up to eight secondary choices listed elsewhere on the screen.

Si l'utilisateur voit que le mot indiqué en tête est incorrect, il peut indiquer rapidement un remplacement correct à partir de la liste des choix par instruction parlée ou à l'aide d'une souris etc., ou en tapant au clavier le mot correct s'il n'apparaît pas sur la liste. Les modèles de langage et acoustiques sont mis à jour avec les résultats des corrections, ainsi qu'avec les données statistiques n-gramme provenant du texte transcris pour exercer et adapter le modèle.If the user sees that the word indicated at the head is incorrect, he can quickly indicate a correct replacement from the list of choices by spoken instruction or using a mouse etc., or by typing the word on the keyboard. correct if it does not appear on the list. The language and acoustic models are updated with the results of the corrections, as well as with the n-gram statistical data from the text transcribed to exercise and adapt the model.

Pour mettre en oeuvre le procédé de restitution d'homophones de la présente invention, le vocabulaire de l'appareil de reconnaissance est pré-classifié par le marquage de mots dans le vocabulaire conformément à leur nombre, genre et personne (s'il y a lieu). L'appareil de reconnaissance vocale a également un indicateur indépendant pour chaque propriété. Chaque fois qu'il arrive un mot qui est marqué pour le nombre, le genre et/ou la personne, l'indicateur approprié est établi à la valeur du repère correspondant le plus récent. To implement the homophone rendering method of the present invention, the vocabulary of the recognition device is pre-classified by marking words in the vocabulary according to their number, gender and person (if there is location). The voice recognition device also has an independent indicator for each property. Whenever a word arrives that is marked for number, gender and / or person, the appropriate flag is set to the value of the most recent corresponding benchmark.

Lorsqu'un mot du langage est un homophone d'un ensemble d'homophones, l'homophone approprié est sélectionné sur la base des valeurs courantes des indicateurs. Ainsi, dans la phrase
On ne pouvait pas la décrire comme très iolie les indicateurs de nombre, genre, personne seraient établis par le mot On sur [singulier ; non renseigné ; troisième].
When a language word is a homophone of a set of homophones, the appropriate homophone is selected based on the current values of the indicators. So in the sentence
One could not describe it as very pretty the indicators of number, gender, person would be established by the word On on [singular; not specified ; third].

Les trois mots suivants ne porteraient pas d'indicateurs, étant donné qu'ils ne sont pas définitifs. Le mot la porterait les repères [singulier ; féminin ; non renseigné] et modifierait ainsi les valeurs d'indicateur sur [singulier ; féminin ; troisième]. Les trois mots suivants n'affecteraient pas ces valeurs. Lorsque le mot "jolie" serait prononcé, l'appareil de reconnaissance ne serait habituellement pas capable de déterminer s'il doit être rendu par joli, jolie, jolis ou jolies (bien qu'il soit possible que les données de probabilité n-gramme puissent également favoriser la forme au féminin étant donné que l'adjectif "joli" peut être utilisé plus souvent dans ce contexte).The following three words would not carry indicators, since they are not final. The word would carry it [singular; feminine ; not specified] and would thus modify the indicator values to [singular; feminine ; third]. The following three words would not affect these values. When the word "pretty" is spoken, the recognizer would usually not be able to determine whether it should be rendered as pretty, pretty, pretty or pretty (although it is possible that the n-gram probability data can also favor the feminine form since the adjective "pretty" can be used more often in this context).

Cependant, dans ce mode de réalisation, les valeurs d'indicateur sont examinées, lesquelles, dans cet exemple, confirment que la forme au féminin singulier est requise.However, in this embodiment, the indicator values are examined, which, in this example, confirm that the singular feminine form is required.

Dans ce mode de réalisation, lorsque des homophones se présentent, le choix entre eux dépend entièrement des valeurs courantes des trois indicateurs. In this embodiment, when homophones appear, the choice between them depends entirely on the current values of the three indicators.

Dans un autre mode de réalisation, la probabilité (log) d'un homophone particulier est estimée en tant qu'une somme pondérée des valeurs des indicateurs et des probabilités logarithmiques obtenues à partir de statistiques unigramme et n-gramme classiques. In another embodiment, the probability (log) of a particular homophone is estimated as a weighted sum of the values of the indicators and the logarithmic probabilities obtained from conventional unigram and n-gram statistics.

Dans un autre mode de réalisation, les valeurs d'indicateur et les statistiques classiques sont combinées avec les scores de correspondance acoustique de l'appareil de reconnaissance pour aider à décider entre des mots (tels que, par exemple, entrepris et entreprise - les formes au masculin et au féminin du participe passé) même lorsqu'ils ne sont pas des homophones exacts. In another embodiment, the indicator values and conventional statistics are combined with the acoustic match scores of the recognizer to help decide between words (such as, for example, business and business - forms masculine and feminine of the past participle) even when they are not exact homophones.

Le procédé utilisant des indicateurs ne garantit pas que l'homophone correct sera sélectionné. Cependant, il conduit à une augmentation de la probabilité de la sélection de l'homophone incorrect, et ceci améliore de façon très importante la performance de l'appareil de reconnaissance vocale. The process using flags does not guarantee that the correct homophone will be selected. However, it leads to an increase in the probability of selecting the wrong homophone, and this very significantly improves the performance of the voice recognition device.

Pour réduire l'erreur due à l'ambiguïté de pronoms, en notant les habitudes de langage de l'utilisateur pendant la création d'un texte, il est possible de marquer les pronoms pour des propriétés autrement ambiguës. De plus, le sexe de la personne qui parle peut généralement être identifié à partir de sa voix. Les pronoms à la première personne du singulier peuvent en conséquence être marqués pour le genre même avant que le texte n'ait fourni des indices à cette propriété. To reduce the error due to ambiguity of pronouns, by noting the user's language habits during text creation, it is possible to mark pronouns for otherwise ambiguous properties. In addition, the gender of the speaker can usually be identified from their voice. First-person pronouns in the singular can therefore be marked for gender even before the text provides clues to this property.

Dans un mode de réalisation possible, les indicateurs conservent leur valeur d'une phrase à la suivante. Dans un autre mode de réalisation, ils reviennent à leurs valeurs non renseigné à une rupture de phrase. Dans des modes de réalisation où la valeur d'indicateur est combinée avec des probabilités n-gramme, on peut faire varier la pondération donnée à l'indicateur avec la distance entre le mot qui l'a établi et le mot qui l'utilise, par exemple par décroissance uniforme avec la distance. In one possible embodiment, the indicators retain their value from one sentence to the next. In another embodiment, they return to their unspecified values at the end of a sentence. In embodiments where the indicator value is combined with n-gram probabilities, the weight given to the indicator can be varied with the distance between the word which established it and the word which uses it, for example by uniform decrease with distance.

Pour tenir compte des problèmes posés par les participes passés mentionnés ci-dessus, dans un autre mode de réalisation, des indicateurs séparés peuvent être utilisés pour les pronoms sujets et compléments d'objet, l'occurrence de formes finies d'avoir plaçant sur "non renseigné" l'indicateur du sujet. To account for the problems posed by the past participles mentioned above, in another embodiment, separate indicators can be used for subject pronouns and object complements, the occurrence of finite forms of having placed on " not specified "subject indicator.

Bien que, dans ce mode de réalisation, nous nous soyons référés à la langue française, la technique peut également être utilisée avec de nombreuses autres langues, dans lesquelles des caractéristiques sélectionnées des mots en amont d'un mot donné influencent sa forme. Although, in this embodiment, we have referred to the French language, the technique can also be used with many other languages, in which selected characteristics of the words upstream of a given word influence its form.

La technique est particulièrement efficace dans l'analyse de gauche à droite, si une analyse de construction grammaticale classique sur la base d'une phrase complète n'est pas faisable car chaque mot a besoin d'être vérifié et restitué avant le suivant. Pour certaines langues ou applications, il peut être possible d'inverser le sens de telle sorte que le texte soit balayé de droite à gauche.  The technique is particularly effective in left-to-right analysis, if an analysis of classical grammatical construction on the basis of a complete sentence is not feasible because each word needs to be checked and returned before the next. For some languages or applications, it may be possible to reverse the direction so that the text is scanned from right to left.

Claims (9)

REVENDICATIONS 1 - Appareil de reconnaissance vocale pour transcrire la parole et adapté pour réduire la probabilité de restituer un homophone incorrect à partir d'un ensemble d'homophones, caractérisé par le fait qu'à des mots sélectionnés, dans le vocabulaire de l'appareil, sont associés des valeurs ou états de repère respectifs caractérisant au moins l'un des paramètres suivants desdits mots (i) Nombre (par exemple, singulier ou pluriel) (ii) Genre (par exemple, masculin, féminin ou neutre) (iii)Personne (par exemple, première, deuxième ou 1 - Voice recognition device for transcribing speech and adapted to reduce the probability of restoring an incorrect homophone from a set of homophones, characterized in that at selected words, in the vocabulary of the device, are associated with respective values or benchmarks characterizing at least one of the following parameters of said words (i) Number (for example, singular or plural) (ii) Gender (for example, masculine, feminine or neutral) (iii) Person (for example, first, second or troisième), et (iv) n'importe quelle autre caractéristique du mot qui third), and (iv) any other characteristic of the word which détermine la forme d'un mot suivant ou qui clarifie la determines the form of a next word or one that clarifies the sélection d'un homophone approprié à partir d'un selection of an appropriate homophone from a ensemble d'homophones, et par le fait que la sélection d'un homophone particulier dans les paroles transcrites est basée sur les valeurs ou états de repère d'un ou plusieurs mots préalablement transcrits. set of homophones, and by the fact that the selection of a particular homophone in the transcribed lyrics is based on the values or reference states of one or more words previously transcribed. 2 - Appareil de reconnaissance vocale selon la revendication 1, caractérisé par le fait que ladite sélection est basée sur les valeurs ou états de repère les plus récents. 2 - Voice recognition apparatus according to claim 1, characterized in that said selection is based on the most recent values or benchmark states. 3 - Appareil de reconnaissance vocale selon l'une des revendications 1 et 2, caractérisé par le fait que ledit appareil comprend un moyen de mise en mémoire pour mettre en mémoire lesdites valeurs ou états de repère, et par le fait que le ou chaque moyen de mise en mémoire est remis à l'état initial à la fin de chaque phrase. 3 - Voice recognition device according to one of claims 1 and 2, characterized in that said device comprises a memory means for storing said values or reference states, and by the fact that the or each means memory is reset at the end of each sentence. 4 - Appareil de reconnaissance vocale selon l'une quelconque des revendications 1 à 3, caractérisé par le fait que ladite sélection est également basée sur une estimation de la probabilité d'un homophone particulier à l'aide de données de probabilité unigramme et/ou n-gramme mises en mémoire au préalable. 4 - Voice recognition apparatus according to any one of claims 1 to 3, characterized in that said selection is also based on an estimate of the probability of a particular homophone using unigram probability data and / or n-grams stored in memory beforehand. 5 - Appareil de reconnaissance vocale selon l'une quelconque des revendications 1 à 4, caractérisé par le fait qu il comprend des moyens pour indiquer les scores de correspondance acoustique relatifs pour au moins deux homophones inexacts proches et par le fait que ladite sélection d'homophones est également basée sur lesdits scores de correspondance acoustique. 5 - Voice recognition apparatus according to any one of claims 1 to 4, characterized in that it comprises means for indicating the relative acoustic correspondence scores for at least two inaccurate homophones and by the fact that said selection of homophones is also based on said acoustic correspondence scores. 6 - Appareil de reconnaissance vocale selon l'une quelconque des revendications 1 à 5, caractérisé par le fait que ladite sélection est également basée sur une estimation du sexe de l'utilisateur. 6 - Voice recognition apparatus according to any one of claims 1 to 5, characterized in that said selection is also based on an estimate of the sex of the user. 7 - Appareil de reconnaissance vocale selon l'une quelconque des revendications 1 à 6, caractérisé par le fait que lesdites valeurs ou états de repère sont pondérés avec une pondération qui diminue avec la distance ou le nombre de mots. 7 - Voice recognition apparatus according to any one of claims 1 to 6, characterized in that said values or benchmark states are weighted with a weighting which decreases with distance or the number of words. 8 - Appareil de reconnaissance vocale selon l'une quelconque des revendications 1 à 7, caractérisé par le fait que l'une desdites autres caractéristiques est de savoir si le mot est un pronom sujet ou complément d'objet. 8 - Voice recognition apparatus according to any one of claims 1 to 7, characterized in that one of said other characteristics is to know if the word is a subject pronoun or additional object. 9 - Procédé de reconnaissance vocale pour réduire la probabilité de restituer un homophone incorrect à partir d'un ensemble d'homophones dans les paroles transcrites, caractérisé par le fait qu'il comprend le marquage de mots sélectionnés dans le vocabulaire de l'appareil de reconnaissance vocale par des valeurs ou états de repère respectifs caractérisant au moins l'un des paramètres suivants desdits mots (i) Nombre (par exemple singulier ou pluriel) (ii) Genre (par exemple masculin, féminin ou neutre) (iii)Personne (par exemple, première, deuxième ou 9 - Speech recognition method to reduce the probability of restoring an incorrect homophone from a set of homophones in the transcribed words, characterized in that it includes the marking of selected words in the vocabulary of the voice recognition by respective values or reference states characterizing at least one of the following parameters of said words (i) Number (for example singular or plural) (ii) Gender (for example masculine, feminine or neutral) (iii) Person ( for example, first, second or troisième), et (iv) n'importe quelle autre caractéristique du mot qui third), and (iv) any other characteristic of the word which détermine la forme d'un mot suivant ou qui clarifie la  determines the form of a next word or one that clarifies the sélection d'un homophone approprié à partir d'un selection of an appropriate homophone from a ensemble d'homophones, et par la sélection de l'homophone particulier dans les paroles transcrites conformément aux valeurs ou états de repère d'un ou plusieurs mots préalablement transcrits.  set of homophones, and by selecting the particular homophone in the lyrics transcribed in accordance with the values or reference states of one or more words previously transcribed.
FR9607233A 1995-06-12 1996-06-11 VOICE RECOGNITION APPARATUS AND METHODS Expired - Lifetime FR2735268B1 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
GB9511855A GB9511855D0 (en) 1995-06-12 1995-06-12 Speech recognition apparatus and methods

Publications (2)

Publication Number Publication Date
FR2735268A1 true FR2735268A1 (en) 1996-12-13
FR2735268B1 FR2735268B1 (en) 1999-06-04

Family

ID=10775894

Family Applications (1)

Application Number Title Priority Date Filing Date
FR9607233A Expired - Lifetime FR2735268B1 (en) 1995-06-12 1996-06-11 VOICE RECOGNITION APPARATUS AND METHODS

Country Status (3)

Country Link
CA (1) CA2178696A1 (en)
FR (1) FR2735268B1 (en)
GB (1) GB9511855D0 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999016051A1 (en) * 1997-09-24 1999-04-01 Lernout & Hauspie Speech Products N.V Apparatus and method for distinguishing similar-sounding utterances in speech recognition
EP1189203A3 (en) * 2000-09-18 2002-11-20 L & H Holdings USA, Inc. Homophone selection in speech recognition

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10490187B2 (en) * 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0093249A2 (en) * 1982-04-30 1983-11-09 International Business Machines Corporation System for detecting and correcting contextual errors in a text processing system
EP0385124A2 (en) * 1989-03-02 1990-09-05 International Business Machines Corporation An optimized speech recognition method
EP0602296A1 (en) * 1992-12-17 1994-06-22 International Business Machines Corporation Adaptive method for generating field dependant models for intelligent systems

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0093249A2 (en) * 1982-04-30 1983-11-09 International Business Machines Corporation System for detecting and correcting contextual errors in a text processing system
EP0385124A2 (en) * 1989-03-02 1990-09-05 International Business Machines Corporation An optimized speech recognition method
EP0602296A1 (en) * 1992-12-17 1994-06-22 International Business Machines Corporation Adaptive method for generating field dependant models for intelligent systems

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DASIGI: "An abductive view of high level speech recognitio", PROCEEDINGS OF THE NATIONAL AEROSPACE AND ELECTRONICS CONFERENCE (NAECON), vol. 2, no. -, 24 May 1993 (1993-05-24) - 28 May 1993 (1993-05-28), DAYTON, OH, US, pages 618 - 624, XP000419464 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999016051A1 (en) * 1997-09-24 1999-04-01 Lernout & Hauspie Speech Products N.V Apparatus and method for distinguishing similar-sounding utterances in speech recognition
US6487532B1 (en) 1997-09-24 2002-11-26 Scansoft, Inc. Apparatus and method for distinguishing similar-sounding utterances speech recognition
EP1189203A3 (en) * 2000-09-18 2002-11-20 L & H Holdings USA, Inc. Homophone selection in speech recognition

Also Published As

Publication number Publication date
GB9511855D0 (en) 1995-08-09
FR2735268B1 (en) 1999-06-04
CA2178696A1 (en) 1996-12-13

Similar Documents

Publication Publication Date Title
Le et al. Automatic speech recognition for under-resourced languages: application to Vietnamese language
US7475065B1 (en) Phonetic searching
US7580838B2 (en) Automatic insertion of non-verbalized punctuation
US8024179B2 (en) System and method for improving interaction with a user through a dynamically alterable spoken dialog system
US8909528B2 (en) Method and system for prompt construction for selection from a list of acoustically confusable items in spoken dialog systems
CN109584906B (en) Oral pronunciation evaluation method, device, equipment and storage device
Goronzy Robust adaptation to non-native accents in automatic speech recognition
JP2011186491A (en) Topic specific model for text formatting and speech recognition
FR2735268A1 (en) Voice recognition apparatus for speech transcription
WO2006021623A1 (en) Voice recognition method and system adapted to non-native speakers' characteristics
JP6183988B2 (en) Speech recognition apparatus, error correction model learning method, and program
Pellegrini et al. Automatic word decompounding for asr in a morphologically rich language: Application to amharic
Kirkpatrick Natural language misunderstanding
Wang Mandarin spoken document retrieval based on syllable lattice matching
CA2654961C (en) Corrector, computer program and method for semantic, syntax and lexical correction of an erroneous expression in a numeric text
Van Compernolle et al. Pronunciation variation modeling for ASR: Large improvements are possible but small ones are likely to achieve
Hori et al. Spoken interactive odqa system: Spiqa
Kamm et al. Robustness aspects of active learning for acoustic modeling
JP2003162524A (en) Language processor
Kondrak Alignment of phonetic sequences
EP1981020A1 (en) Method and system for automatic speech recognition adapted for detecting utterances out of context
CN120996038B (en) Intelligent assistance methods and systems applicable to human agents in call centers
Furui et al. Speech-to-speech and speech to text summarization
Van Compernolle Speech recognition by goats, wolves, sheep and non-natives
Cai et al. Transcribing southern min speech corpora with a web-based language learning system

Legal Events

Date Code Title Description
CD Change of name or company name