[go: up one dir, main page]

WO2008116843A2 - Method for word recognition in character sequences - Google Patents

Method for word recognition in character sequences Download PDF

Info

Publication number
WO2008116843A2
WO2008116843A2 PCT/EP2008/053430 EP2008053430W WO2008116843A2 WO 2008116843 A2 WO2008116843 A2 WO 2008116843A2 EP 2008053430 W EP2008053430 W EP 2008053430W WO 2008116843 A2 WO2008116843 A2 WO 2008116843A2
Authority
WO
WIPO (PCT)
Prior art keywords
word
grams
gram
words
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/EP2008/053430
Other languages
German (de)
French (fr)
Other versions
WO2008116843A3 (en
Inventor
Frank Deinzer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to EP08718135A priority Critical patent/EP2132656A2/en
Publication of WO2008116843A2 publication Critical patent/WO2008116843A2/en
Publication of WO2008116843A3 publication Critical patent/WO2008116843A3/en
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/274Converting codes to words; Guess-ahead of partial word inputs

Definitions

  • the invention relates to a method for word recognition in sequences of N characters, one or more of which may be ambiguous.
  • the electronic recording of texts and speech is used, for example, when entering text in keyboards.
  • the most efficient and most common is the normal computer keyboard, which provides a key for each letter key or for each character to be entered, or defines a Tastenkombina ⁇ tion.
  • Other keyboards have fewer keys, such as cell phones for sending text messages or PDAs for appointment input, special keyboards such as QWERTY keyboards, keyboards for the disabled or keyboards from Special equipment.
  • QWERTY keyboards special keyboards
  • keyboards for the disabled or keyboards from Special equipment When entering text into such keyboards, it is necessary to multiple assignments of the keys, so that the keys usually have to be pressed several times to activate the desired letter (Mulitap method).
  • 0 (6) ⁇ m, n, o, ö ⁇
  • 0 (9) ⁇ w, x, y, z ⁇
  • n-grams ie of contiguous character sequences with n characters.
  • n-grams have been used in the analysis of large amounts of data on specific contexts (or phrases), for example, by the intelligence service, such as the search of emails on selected topics etc .. They are also used for sentence recognition due to predetermined word sequences, the n- Gramme in this context.
  • character sequences also: strings
  • n-grams which can have different lengths.
  • n-grams A combination of different lengths of n-grams has proven useful where the shorter n-grams provide alternative predictions and the longer n-grams provide greater unambiguity, but have a high memory requirement, so that n> 6 does not occur in practice. Due to the different length of the n-grams, the frequencies of the individual letters, bigrams, trigrams and also short words are taken into account. The disadvantage of using the n-gram method is that the documents are only very short. Great attention has been given to the publication "Probalistic Character Disambiguation for Reduced Keyboards Using Small Text Samples" published in 1992 by JL Arnott and MY Javed, AAC Augmentative and Alternative Communication, Vol. 8, pages 215 to 223.
  • US 7 129 932 Bl deals with keyboards comprising keys with multiple occupancy, for example for PDAs etc.
  • words and the frequency of occurrence of these words are stored in a language model used.
  • ⁇ N For words that are not yet completely typed ( ⁇ N), the most probable words are proposed using the existing word or the word from the typed characters using the database, see the example "completed", "complexes" (column 4, lines 25 ff.) -
  • the character set of a just been surrounded word with the words is compared in the lexicon and suggested the most likely word in the lexicon, that is the word that most commonly chosen Language model occurs and at the same time derivable from the entered string.
  • the US 2002/0183100 Al discloses a method of Letter B ⁇ benaus inches when entering example of SMS messages.
  • a character which statistically has the highest probability as a secondary character is respectively displayed as a sequence character depending on the preceding input, ie the already entered character sequence.
  • the already entered string is fixed and will not be varied.
  • the following character is calculated using a statistical database. Dictionaries are used for character selection, of which one contains word beginnings and words with up to three characters, the other words with four characters or more. Methods of this type are referred to as prefix-based disambiguation.
  • WO 2004/003953 A1 eZiText method of Zi Corporation of Canada, Inc.
  • the frequencies of bi- and trigrams are used.
  • the prediction is based on a user dictionary, which preferably contains whole words and their frequency.
  • a disambiguation method is known in which a memory with words and also n-gram objects as well as their frequencies is used.
  • the n-gram objects can be words or parts of words and include mono-, bi- and trigrams.
  • the invention has for its object to provide a method for word recognition in character sequences, which is suitable for use in character ambiguities and in which the word recognition is carried out quickly.
  • a memory contains n-grams (strings of length n) and frequency values associated with the strings, the frequency value of an n-gram being the total number of all n-grams in a speech sample used for word recognition.
  • the display displays selected n-grams and / or recognized words, with the processor device connected to the memory and the display. From a considered sequence of characters, a list L of all n-gram combinations with N characters is created, which can be formed from the N-character sequence, taking into account the ambiguities of the individual characters contained therein.
  • a significant advantage of the method according to the invention is that, regardless of the language and key assignment used, it solves assignment problems of character strings and sequences, resulting in meaningful word hypotheses. This is because no words but n-grams are used to perform word recognition in strings.
  • the n-grams which are word parts or fragments, are used to make probable words. For this purpose, the n-grams with word probability zero are eliminated and those due to the remaining n-grams, i. the most likely word components representing possible words are displayed in list L.
  • word recognition is extremely flexible. Suggestions may be made of words that are not included in the lexicon (based on the language sample), e.g. Flowers hedgehog.
  • n 2 to 5 f (V2 to V5).
  • the list of probable Worthypo ⁇ thesen is generated after each keystroke in the input of a word, so that takes place with the tapping step continuous continuous updating of the hypotheses. From this list, if it contains more than one word hypothesis, the user can choose his correct word, if he has already typed the word completely. The way in which the selection is realized is arbitrary. If the word is not completely typed, the user will continue to type new characters.
  • the recognition method according to the invention can be applied to any languages, legal, technical areas, etc., by integrating the respective vocabulary into the statistics. Also the assignment of letters or others Characters for the keys, ie the output alphabets or key assignments, are freely selectable without requiring any changes or adaptations of the method. Already used language samples can be taken over unchanged, ie a language sample once created can be transferred without any effort to devices with other key arrangements or assignments. The adaptation to any languages with their individual characters such as the accent in French, Hebrew, Cyrillic, Greek etc. signs can be easily used. The counting of a complete language sample takes only a few minutes.
  • the method according to the invention is able to isolate, among competing characters (letters due to keystrokes or phonemes due to speech input or digital data sets) and the resulting ambiguities, possible words which may be a valid word. With every new typed or spoken letter, the possible recognized single letters are permuted, and each added letter can then be replaced by other ambiguities, which are resolved.
  • word ambiguities may exist in the word strings, with valid resolutions resulting when all resulting words are either valid whole words or valid words and at the same time have a valid word start or word end. This is illustrated by the following example, which uses the following labels:
  • a keyboard which comprises keys which are assigned to a plurality of characters and which is connected to the processor device.
  • a word ⁇ recognition method is accordingly used, which operates according to the invention.
  • a voice recording device When the process of the invention for the speech input ver ⁇ applies is, a voice recording device is used, and when the voice input phonemes or phoneme sequences is carried out conversion into N-symbol-sequences, in particular of text characters. On the N-character sequences, a word recognition method is used which operates according to the invention.
  • the method according to the invention can also be advantageously used when reading, for example, digitally present text documents with character sequences.
  • a reading unit is used for detecting the N-character sequences
  • a word recognition method is used in reading the N-character sequences.
  • the words from the speech ⁇ sample determined whose length corresponds to the n-gram length, and wherein the display of the remaining n-gram combinations of the list L are first all words sorted by the full-word Probability pG GN / NG is indicated, where GN is the whole word n-gram frequency and NG is the total number of all word n-grams of the speech sample.
  • the whole-word n-grams are mostly short words that act like a lexicon for short words taking into account the frequency of occurrence, and a meaningful sorting of word hypotheses for short words of goodness (such as "the", "marriage”, "oath") support.
  • the words "tree house”, “hello", "you", “der”, the bigram "you”, trigram "the” and the five-gram "hello” and as whole word n-grams result
  • the total numbers NG (n) of all integer n-grams are calculated. These result from the sum of all frequencies of the whole-word n-grams of the respective length.
  • the n-grams which form the beginning of a word, are determined as word-beginning n-grams.
  • A5 (tree) 1
  • A5 (hello) 1
  • Word-end n-grams are also preferably used, the word-n-grams being the n-grams that form the end of a word.
  • the word-end probability pE ⁇ En / NE is determined, where En is the word end n-gram frequency and NE is the total number of all word end n-grams of the speech sample.
  • E5 (mhaus) 1
  • E5 (hello) 1
  • the memory may store a list of characters or character sequences and their associated replacement characters, exchange character sequences, or replacement n-grams.
  • certain characters or words eg "sparrow” and not “rick”
  • certain short forms English: “dont”->"donot", French: “cest" >"c'est”
  • special characters eg smiley
  • the short forms must then also be entered in their short form in the language sample with. It may also be expedient to supplement the n-grams in the memory in order to enable the recognition of new words or special entries. The input of unknown words is not necessary.
  • Word-end n-grams convey the statement that it is a valid complete word, and other features may recognize a word as such in terms of the acquired speech data.
  • Word boundaries in particular word ends, are additionally entered to separate the word string into individual complete words, e.g. "Baumhaus” also in “Baume Haus", to share.
  • the method according to the invention can also be equipped with a word prediction. This may be done so that, based on an input N-character sequence, word recognition is performed for a character sequence having an assumed length of N + (1 to 1) characters, where 1 is the prediction length, ie the number of predicted input steps.
  • a further list L 'containing all the n-gram combinations of the list L is created therefrom, these n-gram combinations being n-grams or n-gram combinations having the length 1 to 1 are supplemented.
  • the sorting then takes place after the start word n-gram and the end word n-gram probability after pA • pW • pE.
  • the language statistics contained in the various n-gram groups is used to to shut one hand word hypotheses from ⁇ that are no words for the current language is most likely, and to the other to bring the remaining hypotheses in an order according to their probable correctness.
  • w wlw2w3.
  • .wN is a word w of length N, composed of the letters wlw2w3.
  • .WN The following occurrence probabilities are determined:
  • Word probability of the word w are calculated for the total of all trained n-gram lengths:
  • p3W (tree) W3 (construction) / NW (3) • W3 (aum) / NW (3) • W3 (umh) / NW (3) • W3 (mha) / NW (3) • W3 (hau) / NW (3) • W3 (off) / NW (3)
  • pW (tree house) ... • p2W (tree house) • p3W (tree house) • ...
  • word end probabilities Another great help in assessing whether there is a word w is, as mentioned, the word end probabilities. If there are no words in the language sample that end in the same string of letters as the word w, then this is probably not a word of the language.
  • the word end probabilities can be calculated directly from the word end n-grams:
  • An unknown end of the word does not necessarily indicate a meaningful word hypothesis, but may as well be an indication that a word is not yet fully entered.
  • FIG. 1 shows a processor device for carrying out the invention method according to the invention when entering text into a keyboard
  • FIG. 2 shows a processor device for carrying out the method according to the invention in voice recording
  • FIG. 3 shows a flow diagram of the method according to the invention for word recognition
  • Fig. 4 is a flowchart for supplementing the n-grams in the memory
  • Fig. 5 is a flow chart for predicting words in already input partial words.
  • Fig. 1 shows a processor device including peripherals, with which the inventive method can be used in the text input.
  • a keyboard 10 with keys 11, a display 13 and a memory 15 are connected to a processor device 12.
  • the keys 11 of the keyboard 10 are associated with several characters, so that in the character input not immediately unique identifiable strings, words, etc. arise.
  • the memory 15 contains n-grams and frequency values assigned to these n-grams, which are symbolized by the reference symbol 16.
  • the screen 14 of the display 13 illustrates the remaining words determined using the stored n-grams and their frequency values as possible words, here the three alternative words "the", “marriage”, "eid".
  • FIG. 2 shows a processor device with peripherals for word recognition during voice recording.
  • a Senauf ⁇ acquisition device such as a microphone 20, a display 13 and a memory 15 are connected to a processor device 21st Voice input not immediately clearly identi fiable ⁇ phonemes or derivable therefrom grapheme, N-character created Sequences of strings or words, etc. Basically, the approach is analogous to that in text input.
  • the memory 15 contains n-grams and frequency values assigned to these n-grams, which are symbolized by the reference symbol 16.
  • the screen 14 of the display 13 illustrates the remaining words determined using the stored n-grams and their frequency values as possible words, here the three alternative words "the", “marriage”, "eid”.
  • FIG. 3 shows that the method for word recognition is essentially characterized by the following method steps.
  • the method has the current status of the input, for example a sequence of N key presses available. From this input, the list L of all possible word hypotheses is generated in step 102 on the basis of the existing input ambiguities by permutation of all possible combinations.
  • the whole-word true ⁇ probabilities p G, the word probabilities pW that Wortend probabilities pE and the word initial probabilities pA are calculated for each word hypothesis list L. Based on these probabilities, in method step 104 all word hypotheses are removed from the list L whose word probabilities pW or word-start probabilities pA are zero and which therefore do not represent a valid word with great certainty.
  • a word ⁇ prediction branches off the query 112 to generate the creation of the predictive list L illustrated and explained in greater detail below in FIG. 5 '. If valid whole words exist in the list L, characterized by hypotheses with non-zero integer probabilities, the query 105 branches to the process step 106, which displays all valid whole words, descending sorted by their whole word probabilities, on the screen 14. Method step 107 removes all the hypotheses displayed in method step 106 from the list L and thus avoids the multiple output of one and the same hypothesis.
  • step 109 sorts all valid complete words, descending by product of their word-end probabilities, word-start probabilities and word probabilities, attached to the previous edition on the screen 14.
  • Method step 110 removes all the hypotheses displayed in method step 109 from the list L and thus avoids the multiple output of one and the same hypothesis. All remaining hypotheses of the list L are added to the previous output on the screen 14 in step 111, sorted in descending order of the product of their word-start probabilities and word probabilities. If a word prediction is to be performed, query 112 branches to output list L ', added to the previous output on screen 14.
  • query 115 branches to step 116 which selects the selected word provides any application and deletes the current character or input sequence, so that in the next input, the method of FIG. 3 in step 101 begins with an empty character sequence, ie a new word.
  • method step 201 the determination of all n-grams Vn (w) of the word w to be integrated into the memory 15 is carried out as the basis of the supplement. If the word w has a length covered by the whole-word n-grams, the query 202 branches to the process step 203 which updates the frequency of the whole-word n-gram associated with the word w.
  • the word w is integrated into the data base of the word-beginning n-grams in the memory 15 by the frequencies of the word-beginning n-grams of all n-grams Vn (w) representing valid word-beginning n-grams of the word w.
  • the word w is integrated into the database of word n-grams in memory 15 by updating the frequencies of the word n-grams of all n-grams Vn (w).
  • the word w is integrated into the database of word-end n-grams in the memory 15 by updating the frequencies of the word-end n-grams of all n-grams Vn (w), the valid word-end n-grams of the word represent w.
  • FIG. 5 describes the steps for generating a word prediction list L ', referenced in FIG. 3, method ⁇ step 114. From a list L in process step 301 a new list L' generated which for each hypothesis from the list L all concatenation this hypothesis with all permutations of the known output alphabet in the lengths of 1 to 1 characters. From the list L ', in the step 302, all hypotheses are removed which have either a word probability of zero or a word start probability of zero or a word end probability of zero.
  • the remaining hypotheses of the list L ' are sorted in step 303 so that all hypotheses that represent a valid whole-word and are decreasing by the whole ⁇ word probability pG, followed by the other Hypo ⁇ theses and these in descending order according to the product of their Word end probabilities, beginning of word probabilities and word probabilities are sorted.
  • the output 304 of the prediction method is thus the sorted list L '.
  • Table 2 shows the result, with the searched or typed word shown in bold. Behind it stands the respective word hypothesis list,
  • Table 2 The differences between the two word recognition methods are essentially not in the processing of simple, common words. Many compound words that can be obtained using the method according to the invention can not be found with the conventional T9 method. The calculation time for creating the above-mentioned word hypothesis list is in the non-measurable range.
  • 0 (0) ⁇ a, b, c, d ⁇
  • 0 (1) ⁇ e, f, g, h ⁇
  • 0 (2) ⁇ i, l, m, n ⁇

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)

Abstract

The method according to the invention for word recognition in sequences of N characters, of which one or more characters may be ambiguous, uses a memory (15), a display (13), and a processor device (12). The memory comprises n-grams (character chains with a length n) and frequency values associated with said character chains, with the total number of all n-grams in a language sample used for word recognition being used as the frequency value of an n-gram. The display (12) shows selected n-grams and/or recognized words, wherein the processor device (12) is connected to the memory (15) and the display (13). A list L of all n-grams with N characters that may be formed from the individual characters in the N-character sequence, taking into account the ambiguity of the characters present in said sequence, is prepared from an examined character sequence. All n-gram combinations with a word probability of zero are removed from the list L of possible n-gram combinations, wherein the word probability p = ∏ pn is determined from the n-grams included in the character sequence with n = 1 to N-1. The words (14) represented by the remaining n-gram combinations from the list L are displayed.

Description

VERFAHREN ZUR WORTERKENNUNG IN ZEICHENSEQUENZEN PROCEDURE FOR WORK RECOGNITION IN CHARACTER SEQUENCES

Die Erfindung betrifft ein Verfahren zur Worterkennung in Sequenzen von N Zeichen, von denen ein oder mehrere Zeichen mehrdeutig sein können.The invention relates to a method for word recognition in sequences of N characters, one or more of which may be ambiguous.

Die elektronische Erfassung von Texten und Sprache ist inzwi¬ schen Routine geworden. Sie ist jedoch nicht fehlerfrei, dauert zu lange, erfordert zu viel Speicher oder ist nicht flexibel genug in bezug auf die verwendeten Geräte oder Sprachen.Electronic recording of texts and language has become inzwi ¬ rule routine. However, it is not error-free, takes too long, requires too much memory or is not flexible enough in terms of the devices or languages used.

Eingesetzt wird die elektronische Erfassung von Texten und Sprache z.B. bei der Texteingabe in Tastaturen. Am effizientesten und gebräuchlichsten ist die normale Computertastatur, die für jeden einzugebenden Buchstaben bzw. für jedes einzugebende Zeichen eine Taste bereitstellt oder eine Tastenkombina¬ tion definiert. Andere Tastaturen haben weniger Tasten, etwa die Tastaturen von Mobiltelefonen für das Versenden von SMS oder von PDAs für die Termineingabe, Spezialtastaturen wie QWERTY- Tastaturen, Tastaturen für Behinderte oder Tastaturen von Spezialgeräten . Bei der Texteingabe in solche Tastaturen kommt es notwendigerweise zu Mehrfachbelegungen der Tasten, so dass die Tasten meist mehrfach gedrückt werden müssen, um den gewünschten Buchstaben zu aktivieren (Mulitap-Methode) . Im Falle eines herkömmlichen Mobiltelefons z.B. gibt es eine gemeinsame Taste für A B C Ä 2 und wenn etwa das Wort "baumhaus" eingegeben wird, muss die Tastenfolge 222886442887777 (in Ziffern angegeben) gedrückt werden, die dann aber ein eindeutiges Wort ergibt. Unter der Annahme eines üblichen deutschen Aus¬ gabealphabets ohne Groß-/KleinschreibungThe electronic recording of texts and speech is used, for example, when entering text in keyboards. The most efficient and most common is the normal computer keyboard, which provides a key for each letter key or for each character to be entered, or defines a Tastenkombina ¬ tion. Other keyboards have fewer keys, such as cell phones for sending text messages or PDAs for appointment input, special keyboards such as QWERTY keyboards, keyboards for the disabled or keyboards from Special equipment. When entering text into such keyboards, it is necessary to multiple assignments of the keys, so that the keys usually have to be pressed several times to activate the desired letter (Mulitap method). In the case of a conventional mobile phone, for example, there is a common ABC A 2 key, and when typing the word "Baumhaus", for example, the key sequence 222886442887777 must be pressed (indicated in numbers), but this will result in a unique word. Assuming a usual German From ¬ reproducing alphabet without upper / lower case

0(2) = {a, ä, b, c}0 (2) = {a, ä, b, c}

0(3) = {d, e, f}0 (3) = {d, e, f}

0(4) = {g, h, i}0 (4) = {g, h, i}

0(5) = {j, k, 1}0 (5) = {j, k, 1}

0(6) = {m, n, o, ö }0 (6) = {m, n, o, ö}

0(7) = {p, q, r, s, ß}0 (7) = {p, q, r, s, ß}

0(8) = {t, u, ü, v}0 (8) = {t, u, ü, v}

0(9) = {w, x, y, z}0 (9) = {w, x, y, z}

ergeben sich für das Wort "baumhaus" (Ziffernfolge 22864287)arise for the word "tree house" (number sequence 22864287)

4 * 4 * 4 * 4 * 3 * 4 * 4 * 5 = 61.4404 * 4 * 4 * 4 * 3 * 4 * 4 * 5 = 61,440

mögliche Buchstabenkombinationen, wenn für jeden Buchstaben des eingegebenen Wortes jede Taste nur einmal gedrückt wird. Diese Buchstabenkombinationen gehen von "aatmgatw" über "baumhaus" bis "ccvöicvß". Unter diesen müssen unmögliche Kombinationen wie "ääüöiäüq" (ebenfalls Ziffernfolge 22864287) ausgeschlossen werden und eine sinnvolle Liste von möglichen Wörtern (Hypothesen) angeboten werden, z.B. für die Ziffernfolge 343 "die", "ehe", "eid", wobei die erstgenannte Möglichkeit am häufigsten vorkommt. Dies ist die Aufgabe von Worterkennungs¬ verfahren .possible letter combinations, if for each letter of the entered word each key is pressed only once. These letter combinations go from "aatmgatw" to "baumhaus" to "ccvöicvß". Among these, impossible combinations such as "ääüöiäüq" (also numbered 22864287) must be excluded and a reasonable list of possible words (hypotheses) offered, eg for the number sequence 343 "the", "marriage", "oath", the former possibility most common. This is the task of word recognition methods .

Bei der Spracheingabe gibt es ebenso Mehrdeutigkeiten, bei- spielsweise bei schwierigen Lauten wie "s" und "f", deren For- mantenfrequenzen größtenteils außerhalb von 3,4 kHz (obere Grenze der Telefonübertragungsfrequenz) liegen. Auch kann es zu ein und demselben Phonem unterschiedliche Schreibweisen geben, d.h. wenn geschrieben wird, wie gesprochen wird, fallen Zuordnungs- und Auswahlentscheidungen an (/f/ -> f, v, ph, /a/ -> a, aa, ah) . Es sind bereits Phonem-Wörterbücher zum Einsatz gekommen .There are also ambiguities in voice input, For example, for difficult sounds such as "s" and "f", whose message frequencies are mostly outside of 3.4 kHz (upper limit of the telephone transmission frequency). Also, there can be different spellings for the same phoneme, ie when writing is made, as is spoken, assignment and selection decisions are made (/ f / -> f, v, ph, / a / -> a, aa, ah) , Phonem dictionaries have already been used.

Auch beispielsweise beim Lesen von elektronischen Textdateien, etwa wenn diese eingegebenen Text oder Sprache enthalten oder es sich um digitale Dokumente handelt, können sich praktisch vergleichbare Probleme beim Erkennen dieser Dateien ergeben, bis die Wörter aufgelöst sind.Also, for example, when reading electronic text files, such as when they contain input text or speech or are digital documents, there may be virtually similar problems in recognizing those files until the words are resolved.

Die nachfolgende Darstellung des Standes der Technik und der Erfindung bezieht sich schwerpunktsmäßig auf die Texterkennung bei der Eingabe in Tastaturen, für die die Erfindung zunächst vorgesehen war. Die Erfindung ist jedoch nicht auf diesen Anwendungsbereich beschränkt, sondern auch auf die oben dargestellten und andere Bereiche der Texterkennung und -analyse bzw. Spracherkennung anwendbar.The following description of the state of the art and of the invention relates primarily to text recognition when entering keyboards for which the invention was initially intended. However, the invention is not limited to this field of application, but also applicable to the above-described and other areas of text recognition and analysis or speech recognition.

Für die Worterkennung sind zur Behebung der Mehrdeutigkeiten verschiedene Zeichen-Disambiguierungsmethoden eingesetzt worden. Einige basieren auf der Verwendung sogenannter n-Gramme, d.h. von zusammenhängenden Zeichen-Sequenzen mit n Zeichen. n-Gramme sind bei der Analyse großer Datenmengen auf bestimmte Kontexte (oder Wortgruppen) beispielsweise durch den Geheimdienst zum Einsatz gekommen, so bei der Durchsuchung von E-Mails auf ausgewählte Themengebiete etc.. Sie dienen auch zur Satzerkennung aufgrund vorgegebener Wortfolgen, der n-Gramme in diesem Kontext. Bei der Worterkennung mittels n-Grammen werden Zeichensequenzen (auch: Strings) mit n-Grammen verglichen, die unterschiedliche Längen haben können. Eine Kombination unterschiedlich langer n-Gramme hat sich als nützlich erwiesen, wobei die kürzeren n-Gramme Alternativprädiktionen liefern und die längeren n-Gramme eine größere Eindeutigkeit herbeiführen, aber einen hohen Speicherbedarf haben, so dass n > 6 in der Praxis nicht vorkommt. Durch die unterschiedliche Länge der n- Gramme werden die Häufigkeiten der einzelnen Buchstaben, von Bigrammen, Trigrammen und auch kurzen Wörtern berücksichtigt. Nachteilig erweist es sich bei der Anwendung der n-Gramm- Methode, wenn die Dokumente nur sehr kurz sind. Große Beachtung hat die bereits 1992 erschienene Veröffentlichung "Probalistic Character Disambiguation for Reduced Keyboards Using Small Text Samples" von J. L. Arnott und M. Y. Javed, AAC Augmentative and Alternative Communication, Vol. 8, Seiten 215 bis 223 gefunden.For word recognition, various character disambiguation methods have been used to correct the ambiguities. Some are based on the use of so-called n-grams, ie of contiguous character sequences with n characters. n-grams have been used in the analysis of large amounts of data on specific contexts (or phrases), for example, by the intelligence service, such as the search of emails on selected topics etc .. They are also used for sentence recognition due to predetermined word sequences, the n- Gramme in this context. In the case of word recognition by means of n-grams, character sequences (also: strings) are compared with n-grams, which can have different lengths. A combination of different lengths of n-grams has proven useful where the shorter n-grams provide alternative predictions and the longer n-grams provide greater unambiguity, but have a high memory requirement, so that n> 6 does not occur in practice. Due to the different length of the n-grams, the frequencies of the individual letters, bigrams, trigrams and also short words are taken into account. The disadvantage of using the n-gram method is that the documents are only very short. Great attention has been given to the publication "Probalistic Character Disambiguation for Reduced Keyboards Using Small Text Samples" published in 1992 by JL Arnott and MY Javed, AAC Augmentative and Alternative Communication, Vol. 8, pages 215 to 223.

Zerlegt man beispielsweise das Wort "baumhaus" in n-Gramme der Längen 2 bis 5, so ergeben sich folgende n-Gramme Vn (baumhaus) :If, for example, the word "tree house" is decomposed into n-grams of lengths 2 to 5, the following n-grams Vn (baumhaus) result:

n = 2 V2 (baumhaus) = {ba, au, um, mh, ha, au, us} n = 3 V3 (baumhaus) = {bau, aum, umh, mha, hau, aus} n = 4 V4 (baumhaus) = {bäum, aumh, umha, mhau, haus} n = 5 V5 (baumhaus) = {baumh, aumha, umhau, mhaus}n = 2 V2 (tree house) = {ba, au, um, mh, ha, au, us} n = 3 V3 (tree house) = {construction, aum, umh, mha, hau, aus} n = 4 V4 (baumhaus ) = {tree, aumh, umha, mhau, house} n = 5 V5 (tree house) = {tree, aumha, umhau, mhaus}

Ausgezählt ergeben sich für einige ausgewählte n-Gramme folgende Häufigkeiten :The following frequencies are counted for some selected n-grams:

W2 (au) = 2W2 (au) = 2

W3 (aum) = 1W3 (aum) = 1

W4 (bäum) = 1W4 (tree) = 1

W5 (baumh) = 1W5 (tree) = 1

n-Gramme, die nicht beobachtet wurden, haben selbstverständlich eine Häufigkeit von 0, z.B. W3 (lqü) = 0.Of course, n-grams that were not observed have a frequency of 0, e.g. W3 (lqü) = 0.

Alle bekannten Wörter einer Sprache lassen sich nun aus n- Grammen zusammensetzen. Insgesamt gibt es z.B. im Deutschen (ohne Berücksichtigung von Groß-/Kleinschreibung) 30 Buchstaben, was die Maximalanzahl möglicher n-Gramme begrenzt: n = 2 900 n = 3 27 .000 n = 4 810 .000 n = 5 24. 300.000All known words of a language can now be composed of n-grams. For example, there are 30 letters in German (excluding upper and lower case), which limits the maximum number of possible n-grams: n = 2,900 n = 3 27,000 n = 4,810,000 n = 5 24,300,000

Bei der Spezialanwendung Mobiltelefon der intelligenten Textsysteme, ohne deren Einsatz die Texteingabe nach der Multitap- Methode erfolgt, gibt es nur wenige auf dem Markt eingeführte Entwicklungen .With the special application mobile phone of the intelligent text systems, without whose input the text input according to the Multitap method takes place, there are only a few developments introduced on the market.

Sehr verbreitet ist das T9-Verfahren der Firma Tegic Communications, Inc. zur Disambiguierung eingegebener Zeichen-Sequenzen, das in der US 6 307 549 Bl beschrieben ist. Eine eingebene Zeichen-Sequenz wird mit gespeicherten Vokabular- bzw. Wortmodulen auf Entsprechung verglichen. Gibt es mehrere Alternativen, werden diese in einer Auswahlliste präsentiert und eine Alternative vom Benutzer ausgewählt. Für die Vokabular¬ bzw. Wortmodule kann eine Baum-Datenstruktur vorgesehen sein. Jeder Knoten dieser Struktur stellt eine bestimmte eingegebene Zeichen-Sequenz dar, von der mehrere Alternativ-Sequenzen bzw. mögliche ASCII-Zeichenfolgen abzweigen, die auf der Grundlage einer festen Tastenbelegung definiert sind. Wo es keinen Pfad zwischen Knoten gibt, gibt es keine gültige Zeichen-Sequenz. Für die Erweiterung des Vokabulars ist ein Extra-Wörterbuch vorgesehen. Das Disambiguierungsprinzip wird daher auch als Wörterbuch-basierte Disambiguierung bezeichnet.Very common is the T9 method of Tegic Communications, Inc. for disambiguation of input character sequences described in US 6,307,549 Bl. A plotted character sequence is compared with stored vocabulary or word modules for correspondence. If there are several alternatives, these are presented in a selection list and an alternative selected by the user. For the vocabulary or word ¬ modules a tree data structure may be provided. Each node of this structure represents a particular input character sequence, from which branch off several alternative sequences or possible ASCII character strings which are defined on the basis of a fixed key assignment. Where there is no path between nodes, there is no valid character sequence. For the expansion of the vocabulary an extra dictionary is provided. The disambiguation principle is therefore also referred to as dictionary-based disambiguation.

Die US 7 129 932 Bl befasst sich mit Tastaturen, die Tasten mit Mehrfachbelegung umfassen, beispielsweise für PDAs etc.. In einer Datenbank sind Wörter und die Häufigkeit des Auftretens dieser Wörter in einem benutzten Sprachmodell abgelegt. Bei noch nicht vollständig eingetippten Wörtern (< N) werden die wahrscheinlichsten Wörter mit dem vorhandenen bzw. aus den eingetippten Zeichen ermittelten Wortanfang unter Benutzung der Datenbank vorgeschlagen, siehe das Beispiel "completed", "complexes" (Spalte 4, Zeilen 25 ff.)- Nach Eingabe einer Wort¬ grenze wird der Zeichensatz eines gerade eingebenen Wortes mit den Wörtern im Lexikon verglichen und das wahrscheinlichste Wort aus dem Lexikon vorgeschlagen, d.h. das Wort, das am häufigsten im gewählten Sprachmodell vorkommt und zugleich aus der eingebenen Zeichenfolge ableitbar ist.US 7 129 932 Bl deals with keyboards comprising keys with multiple occupancy, for example for PDAs etc. In a database, words and the frequency of occurrence of these words are stored in a language model used. For words that are not yet completely typed (<N), the most probable words are proposed using the existing word or the word from the typed characters using the database, see the example "completed", "complexes" (column 4, lines 25 ff.) - After entering a word ¬ limit the character set of a just been surrounded word with the words is compared in the lexicon and suggested the most likely word in the lexicon, that is the word that most commonly chosen Language model occurs and at the same time derivable from the entered string.

Die US 2002/0183100 Al beschreibt ein Verfahren zur Buchsta¬ benauswahl bei der Eingabe beispielsweise von SMS-Nachrichten. Bei der Anzeige wird jeweils als Folgezeichen abhängig von der vorhergehenden Eingabe, d.h. der bereits eingegebenen Zeichen- Sequenz, ein Zeichen angezeigt, das statistisch die höchste Wahrscheinlichkeit als Folgezeichen hat. Die bereits eingegebene Zeichenfolge ist fest und wird nicht variiert. Das Folgezeichen wird anhand einer statistischen Datenbank berechnet. Für die Zeichenauswahl wird dabei auf Wörterbücher zurückgegriffen, von denen eines Wortanfänge und Wörter mit bis zu drei Zeichen, das andere Wörter ab vier Zeichen beispielsweise enthält. Verfahren dieses Typs werden als Präfix-basierte Disambiguierung bezeichnet .The US 2002/0183100 Al discloses a method of Letter B ¬ benauswahl when entering example of SMS messages. In the display, a character which statistically has the highest probability as a secondary character is respectively displayed as a sequence character depending on the preceding input, ie the already entered character sequence. The already entered string is fixed and will not be varied. The following character is calculated using a statistical database. Dictionaries are used for character selection, of which one contains word beginnings and words with up to three characters, the other words with four characters or more. Methods of this type are referred to as prefix-based disambiguation.

Ebenfalls einen statistischen Ansatz für den Folgebuchstaben nutzt ein in der EP 0 924 594 A2 beschriebenes Verfahren, bei dem auf eine zweidimensionale Tabelle auf der Grundlage eines vorhergehenden Buchstabens sowie auf eine dreidimensionale Trigramm-Tabelle auf der Grundlage von zwei vorhergehenden Buchstaben zurückgegriffen wird.Also, a statistical approach to the subsequent letter uses a method described in EP 0 924 594 A2, which makes use of a two-dimensional table on the basis of a preceding letter as well as a three-dimensional trigram table on the basis of two preceding letters.

Auch bei dem Disambiguierungsverfahren gemäß WO 2004/003953 Al (eZiText-Verfahren der Firma Zi Corporation of Canada, Inc.) werden die ersten beiden Buchstaben eines Wortes eindeutig vom Benutzer eingeben und bestätigt. Am Wortanfang werden die Häufigkeiten von Bi- und Trigrammen genutzt. Für die Prädiktion dient ein Benutzerwörterbuch, das bevorzugt ganze Wörter und deren Häufigkeit enthält. Aus der EP 1 710 668 Al ist ein Disambiguierungsverfahren bekannt, bei dem ein Speicher mit Wörtern und ferner n-Gramm- Objekten sowie deren Häufigkeiten verwendet wird. Die n-Gramm- Objekte können Wörter oder Wortteile sein und umfassen Mono-, Bi- und Trigramme.Also in the disambiguation method according to WO 2004/003953 A1 (eZiText method of Zi Corporation of Canada, Inc.) the first two letters of a word are clearly entered and confirmed by the user. At the beginning of the word, the frequencies of bi- and trigrams are used. The prediction is based on a user dictionary, which preferably contains whole words and their frequency. From EP 1 710 668 A1 a disambiguation method is known in which a memory with words and also n-gram objects as well as their frequencies is used. The n-gram objects can be words or parts of words and include mono-, bi- and trigrams.

Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren zur Worterkennung in Zeichen-Sequenzen zu schaffen, das sich für den Einsatz bei Zeichenmehrdeutigkeiten eignet und bei dem die Worterkennung rasch erfolgt.The invention has for its object to provide a method for word recognition in character sequences, which is suitable for use in character ambiguities and in which the word recognition is carried out quickly.

Diese Aufgabe ist erfindungsgemäß bei einem Verfahren mit den Merkmalen des Anspruchs 1 gelöst. Vorteilhafte Weiterbildungen des erfindungsgemäßen Verfahrens sind Gegenstand der Unteransprüche .This object is achieved in a method with the features of claim 1. Advantageous developments of the method according to the invention are the subject of the dependent claims.

Bei dem erfindungsgemäßen Verfahren zur Worterkennung in Sequenzen von N Zeichen, von denen ein oder mehrere Zeichen mehrdeutig sein können, werden somit ein Speicher, eine Anzeige und eine Prozessoreinrichtung verwendet. Der Speicher enthält n- Gramme (Zeichenketten mit der Länge n) und den Zeichenketten zugeordnete Häufigkeitswerte, wobei als Häufigkeitswert eines n- Gramms die Gesamtzahl aller n-Gramme in einer für die Worterkennung verwendeten Sprachstichprobe verwendet wird. Die Anzeige zeigt ausgewählte n-Gramme und/oder erkannte Wörter an, wobei die Prozessoreinrichtung mit dem Speicher und der Anzeige verbunden ist. Aus einer betrachteten Zeichensequenz wird eine Liste L von aller n-Gramm-Kombinationen mit N Zeichen erstellt, die aus der N-Zeichen-Sequenz unter Berücksichtigung der Mehrdeutigkeiten der in dieser enthaltenen einzelnen Zeichen gebildet werden können. Aus der Liste L der möglichen n-Gramm- Kombinationen werden alle n-Gramm-Kombinationen entfernt, deren Wort-Wahrscheinlichkeit Null ist, wobei die Wort-Wahr¬ scheinlichkeit p = π pn aus den in der Zeichensequenz enthaltenen n-Grammen mit n = 1 bis N-I bestimmt wird. Von der Anzeige werden die durch die verbliebenen n-Gramm-Kombinationen repräsentierten Wörter der Liste L angezeigt.In the method according to the invention for word recognition in sequences of N characters, of which one or more characters can be ambiguous, a memory, a display and a processor device are thus used. The memory contains n-grams (strings of length n) and frequency values associated with the strings, the frequency value of an n-gram being the total number of all n-grams in a speech sample used for word recognition. The display displays selected n-grams and / or recognized words, with the processor device connected to the memory and the display. From a considered sequence of characters, a list L of all n-gram combinations with N characters is created, which can be formed from the N-character sequence, taking into account the ambiguities of the individual characters contained therein. From the list L of the possible n-gram combinations, all n-gram combinations whose word probability is zero are removed, the word probability ¬ p = π pn from the n-grams contained in the character sequence with n = 1 to NI is determined. From the display, those through the remaining n-gram combinations displayed words of the list L displayed.

Ein wesentlicher Vorteil des erfindungsgemäßen Verfahrens besteht darin, dass es unabhängig von der verwendeten Sprache und Tastenbelegung Zuordnungsprobleme von Zeichenketten und -Sequenzen löst, wobei sich sinnvolle Worthypothesen ergeben. Dies liegt daran, dass keine Wörter, sondern n-Gramme verwendet werden, um die Worterkennung in Zeichenfolgen durchzuführen. Die n-Gramme, die Wortteile oder -bruchstücke sind, werden benutzt, um wahrscheinliche Wörter zu bilden. Zu diesem Zweck werden die n-Gramme mit Wortwahrscheinlichkeit Null eliminiert und die durch die verbliebenen n-Gramme, d.h. die wahrscheinlichsten Wortkomponenten, repräsentierten möglichen Wörter werden in der Liste L angezeigt. Durch die Verwendung von n-Grammen statt Wörtern ist die Worterkennung außerordentlich flexibel. Es kann zu Vorschlägen von Wörtern kommen, die nicht im Lexikon (auf der Basis der Sprachstichprobe) enthalten sind, z.B. Blumenigel.A significant advantage of the method according to the invention is that, regardless of the language and key assignment used, it solves assignment problems of character strings and sequences, resulting in meaningful word hypotheses. This is because no words but n-grams are used to perform word recognition in strings. The n-grams, which are word parts or fragments, are used to make probable words. For this purpose, the n-grams with word probability zero are eliminated and those due to the remaining n-grams, i. the most likely word components representing possible words are displayed in list L. By using n-grams instead of words, word recognition is extremely flexible. Suggestions may be made of words that are not included in the lexicon (based on the language sample), e.g. Flowers hedgehog.

Für ein mögliches Wort bzw. einen Wortvorschlag gibt es jeweils eine Anzahl zugehöriger n-Gramm-Kombinationen, wie dies obenstehend im Fall des Wortes "baumhaus" für n= 2 bis 5 f (V2 bis V5) angegeben wurde. Die Liste wahrscheinlicher Worthypo¬ thesen wird nach jedem Tastendruck bei der Eingabe eines Wortes neu erzeugt, so dass eine mit dem Tippen Schritt haltende kontinuierliche Aktualisierung der Hypothesen erfolgt. Aus dieser Liste, falls sie mehr als eine Worthypothese enthält, kann der Benutzer sein korrektes Wort aussuchen, falls er das Wort bereits komplett getippt hat. Die Art und Weise, wie die Auswahl realisiert wird, ist beliebig. Ist das Wort noch nicht komplett getippt, wird der Benutzer weiterhin neue Zeichen eingeben .For a possible word or word suggestion, there are a number of associated n-gram combinations, as indicated above in the case of the word "baumhaus" for n = 2 to 5 f (V2 to V5). The list of probable Worthypo ¬ thesen is generated after each keystroke in the input of a word, so that takes place with the tapping step continuous continuous updating of the hypotheses. From this list, if it contains more than one word hypothesis, the user can choose his correct word, if he has already typed the word completely. The way in which the selection is realized is arbitrary. If the word is not completely typed, the user will continue to type new characters.

Das erfindungsgemäße Erkennungsverfahren kann auf beliebige Sprachen, juristische, technische Bereiche etc. angewendet werden, indem der jeweilige Wortschatz in die Statistik integriert wird. Auch die Zuordnung von Buchstaben oder anderen Zeichen zu den Tasten, d.h. die Ausgabealphabete, bzw. Tastenbelegungen sind frei wählbar, ohne dass irgendwelche Änderungen oder Anpassungen des Verfahrens notwendig werden. Bereits verwendete Sprachstichproben können unverändert übernommen werden, d.h. eine einmal erstellte Sprachstichprobe kann ohne Aufwand auf Geräte mit anderen Tastenanordnungen bzw. -Zuordnungen übertragen werden. Die Anpassung an beliebige Sprachen mit ihren individuellen Zeichen wie der Akzent im Französischen, hebräische, kyrillische, griechische etc. Zeichen können einfach eingesetzt werden. Die Auszählung einer kompletten Sprachstichprobe dauert nur einige Minuten.The recognition method according to the invention can be applied to any languages, legal, technical areas, etc., by integrating the respective vocabulary into the statistics. Also the assignment of letters or others Characters for the keys, ie the output alphabets or key assignments, are freely selectable without requiring any changes or adaptations of the method. Already used language samples can be taken over unchanged, ie a language sample once created can be transferred without any effort to devices with other key arrangements or assignments. The adaptation to any languages with their individual characters such as the accent in French, Hebrew, Cyrillic, Greek etc. signs can be easily used. The counting of a complete language sample takes only a few minutes.

Das Verfahren gemäß der Erfindung ist in der Lage, unter konkurrierenden Zeichen (Buchstaben aufgrund Tastendruck oder Phoneme aufgrund Spracheingabe oder digitalen Datensätzen) und den sich ergebenden Mehrdeutigkeiten mögliche Wörter zu isolieren, die ein gültiges bzw. sinnvolles Wort sein können. Dabei werden bei jedem neuen getippten oder gesprochenen Buchstaben die möglichen erkannten Einzelbuchstaben permutiert, und bei jedem hinzugekommenen Buchstaben können sich dann wieder andere Mehrdeutigkeiten ergeben, die aufgelöst werden.The method according to the invention is able to isolate, among competing characters (letters due to keystrokes or phonemes due to speech input or digital data sets) and the resulting ambiguities, possible words which may be a valid word. With every new typed or spoken letter, the possible recognized single letters are permuted, and each added letter can then be replaced by other ambiguities, which are resolved.

Für Wortketten ohne Zwischenräume kann es bei Anwendung des erfindungsgemäßen Verfahrens auf die Wortketten Mehrdeutigkeiten geben, wobei sich gültige Auflösungen dann ergeben, wenn alle entstehenden Wörter entweder gültige Ganzwörter sind oder gültige Wörter sind und zugleich einen gültigen Wortanfang oder ein gültiges Wortende besitzen. Dies soll das folgende Beispiel veranschaulichen, bei dem folgende Bezeichnungen verwendet werden :For word strings without spaces, when using the method according to the invention word ambiguities may exist in the word strings, with valid resolutions resulting when all resulting words are either valid whole words or valid words and at the same time have a valid word start or word end. This is illustrated by the following example, which uses the following labels:

(G) gültiges Ganzwort(G) valid whole word

(W) gültiger Wortanfang, gültiges Wortende, gültige Wörter im Sinne von pA, pE, pW (später erläutert)(W) valid word beginning, valid word end, valid words in the sense of pA, pE, pW (explained later)

(X)weder (G), noch (W), d.h. ungültiges Wort(X) neither (G) nor (W), i. invalid word

Beispiel : daswetteristhervorragend Auflösungsversuche : das wetter ist hervorragendExample: the weather is excellent Dissolution attempts: the weather is excellent

(G) (W) (G) (W) -> gültige Auflösung das wette rist hervorragend(G) (W) (G) (W) -> valid resolution the bet is excellent

(G) (W) (X) (W) -> keine gültige Auflösung da swetterist hervorragend(G) (W) (X) (W) -> no valid resolution because swetter is excellent

(G) (X) (W) -> keine gültige Auflösung das we tt er ist her vor ragend(G) (X) (W) -> no valid resolution that does not stand out

(G) (X) (X) (G) (G) (G) (G) (W) -> keine gültige Auflösung das wetter ist her vor ragend(G) (X) (X) (G) (G) (G) (G) (W) -> no valid resolution the weather is prominent

(G) (G) (G) (G) (G) (W) -> gültige Auflösung(G) (G) (G) (G) (G) (W) -> valid resolution

Bei der Anwendung des erfindungsgemäßen Verfahrens auf die Texteingabe wird üblicherweise eine Tastatur verwendet, die Tasten umfasst, welchen mehreren Zeichen zugeordnet sind, und die mit der Prozessoreinrichtung verbunden ist. Bei der Texteingabe der N-Zeichen-Sequenzen wird dementsprechend ein Wort¬ erkennungsverfahren angewendet, das nach der Erfindung arbeitet.In the application of the method according to the invention to the text input, a keyboard is usually used which comprises keys which are assigned to a plurality of characters and which is connected to the processor device. In the text input of the N-character sequences, a word ¬ recognition method is accordingly used, which operates according to the invention.

Wenn das erfindungsgemäße Verfahren für die Spracheingabe ver¬ wendet wird, wird eine Sprachaufnahmeinrichtung verwendet und bei der Spracheingabe der Phoneme oder Phonem-Sequenzen erfolgt eine Umwandlung in N-Zeichen-Sequenzen, insbesondere von Textzeichen. Auf die N-Zeichen-Sequenzen wird ein Worterkennungsverfahren angewendet, das nach der Erfindung arbeitet.When the process of the invention for the speech input ver ¬ applies is, a voice recording device is used, and when the voice input phonemes or phoneme sequences is carried out conversion into N-symbol-sequences, in particular of text characters. On the N-character sequences, a word recognition method is used which operates according to the invention.

Das erfindungsgemäße Verfahren lässt sich auch vorteilhaft beim Lesen beispielsweise digital vorliegender Textdokumente mit Zeichensequenzen anwenden. Hierzu wird eine Leseeinheit für das Erfassen der N-Zeichen-Sequenzen benutzt und bei dem Lesen der N-Zeichen-Sequenzen ein Worterkennungsverfahren angewendet. Durch die Erfindung können Wörter in den gespeicherten Zeichensequenzen sehr rasch und zuverlässig aufgefunden und identifiziert werden.The method according to the invention can also be advantageously used when reading, for example, digitally present text documents with character sequences. For this purpose, a reading unit is used for detecting the N-character sequences, and a word recognition method is used in reading the N-character sequences. By means of the invention, words in the stored character sequences can be found and identified very quickly and reliably.

Bei einer vorteilhaften Variante des erfindungsgemäßen Verfah- rens werden als Ganzwort-n-Gramme die Wörter aus der Sprach¬ stichprobe bestimmt, deren Länge der n-Gramm-Länge entspricht, und bei der Anzeige der verbliebenen n-Gramm-Kombinationen der Liste L werden zuerst alle Wörter sortiert nach der Ganzwort- Wahrscheinlichkeit pG = GN/NG angezeigt, wobei GN die Ganzwort- n-Gramm-Häufigkeit und NG die Gesamtzahl aller Ganzwort-n-Gramme der Sprachstichprobe ist. Somit sind die Ganzwort-n-Gramme meist kurze Wörter, die wie ein Lexikon für kurze Wörter unter Berücksichtigung der Auftretenshäufigkeiten fungieren und eine sinnvolle Sortierung von Worthypothesen für kurze Wörter nach der Güte (wie "die", "ehe", "eid") unterstützen. Im Falle einer Sprachstichprobe mit den Wörtern "baumhaus", "hallo", "du", "der" ergeben sich das Bigram "du", Trigramm "der" und das 5- Gramm "hallo" und als Ganzwort n-GrammeIn an advantageous variant of the method according to the invention are proceedings as whole-word n-grams, the words from the speech ¬ sample determined whose length corresponds to the n-gram length, and wherein the display of the remaining n-gram combinations of the list L are first all words sorted by the full-word Probability pG = GN / NG is indicated, where GN is the whole word n-gram frequency and NG is the total number of all word n-grams of the speech sample. Thus, the whole-word n-grams are mostly short words that act like a lexicon for short words taking into account the frequency of occurrence, and a meaningful sorting of word hypotheses for short words of goodness (such as "the", "marriage", "oath") support. In the case of a language sample with the words "tree house", "hello", "you", "der", the bigram "you", trigram "the" and the five-gram "hello" and as whole word n-grams result

G2(du)=l, G3(der)=l, G5(hallo)=lG2 (du) = 1, G3 (der) = 1, G5 (hello) = 1

Nicht beobachtete n-Gramme haben die Häufigkeit 0, z.B. G3 (IqU)=O. In der Sprachstichprobe werden die Gesamtzahlen NG (n) aller Ganzwort-n-Gramme berechnet. Diese ergeben sich aus der Summe aller Häufigkeiten der Ganzwort-n-Gramme der jeweiligen Länge .Unobserved n-grams have the frequency 0, e.g. G3 (IqU) = O. In the speech sample, the total numbers NG (n) of all integer n-grams are calculated. These result from the sum of all frequencies of the whole-word n-grams of the respective length.

Bei einer vorteilhaften Ausführung des erfindungsgemäßen Verfahrens werden als Wortanfangs-n-Gramme die n-Gramme bestimmt, die den Anfang eines Wortes bilden. Die Wortanfangs-Wahr- scheinlichkeit pA = π An/NA wird bestimmt, wobei An die Wort¬ anfangs-n-Gramm-Häufigkeit und NA die Gesamtzahl aller Wort¬ anfangs-n-Gramme der Sprachstichprobe ist. Bei der Anzeige der verbliebenen möglichen Wörter werden zuerst alle Wörter sortiert nach der Ganzwort-Wahrscheinlichkeit pG = GN/NG angezeigt, wobei GN die Ganzwort-n-Gramm-Häufigkeit und NG die Gesamtzahl aller Ganzwort-n-Gramme der Sprachstichprobe ist und die Sortierung nach pA pW erfolgt.In an advantageous embodiment of the method according to the invention, the n-grams, which form the beginning of a word, are determined as word-beginning n-grams. The word initial probability pA = π on / NA is determined, to the word ¬ initially-n-gram frequency and NA is the total number of all the word ¬ initially-n-grams of the speech sample. In displaying the remaining possible words, all words are first sorted by the whole-word probability pG = GN / NG, where GN is the whole-word n-gram frequency and NG is the total number of all-word n-grams of the speech sample and the sort after pA pW.

Im Falle der erwähnten Sprachstichprobe mit den Wörtern "bäum- haus", "hallo", "du", "der" ergeben sich die Bigramme "ba", "ha", "du", de", die Trigramme "bau", "hal", "der", die 4-Gramme "bäum", "hall" und die 5-Gramme "baumh" sowie "hallo". Ausgezählt ergeben sich die folgenden Häufigkeiten der Wort- anfangs-n-Gramme :In the case of the mentioned language sample with the words "tree- house "," hello "," you "," der "result in the bigrams" ba "," ha "," you ", de", the trigrams "build", "hal", "the", the 4- Gramme "bäum", "hall" and the 5-Gramme "baumh" as well as "hello". The following frequencies of the beginning of the word n-grams result in the following quantities:

A2 (ba) = 1 A2 (ha) = 1 A2 (du) = 1 A2 (de) = 1A2 (ba) = 1 A2 (ha) = 1 A2 (du) = 1 A2 (de) = 1

A3 (bau) = 1 A3 (hal) = 1 A3 (der) = 1A3 (build) = 1 A3 (hal) = 1 A3 (der) = 1

A4 (bäum) = 1 A4 (hall) = 1A4 (tree) = 1 A4 (hall) = 1

A5 (baumh) = 1 A5 (hallo) = 1A5 (tree) = 1 A5 (hello) = 1

Bevorzugt werden auch Wortend-n-Gramme verwendet, wobei als Wortend-n-Gramme die n-Gramme bestimmt werden, die das Ende eines Wortes bilden. Die Wortend-Wahrscheinlichkeit pE = π En/NE wird bestimmt, wobei En die Wortend-n-Gramm-Häufigkeit und NE die Gesamtzahl aller Wortend-n-Gramme der Sprachstichprobe ist. Bei der Anzeige der verbleibenden möglichen Wörter werden zuerst alle Wörter sortiert nach der Ganzwort-Wahrscheinlichkeit pG = GN/NG und der Wortanfangs-n-Gramm-Wahrscheinlichkeit pA= π An/NA angezeigt, wobei GN die Ganzwort-n-Gramm-Häufigkeit , NG die Gesamtzahl aller Ganzwort-n-Gramme der Sprachstichprobe ist, An die Wortanfangs-n-Gramm-Häufigkeit und NA die Gesamtzahl aller Wortanfangs-n-Gramme der Sprachstichprobe ist und die Sortierung nach pA pW pE erfolgt.Word-end n-grams are also preferably used, the word-n-grams being the n-grams that form the end of a word. The word-end probability pE = π En / NE is determined, where En is the word end n-gram frequency and NE is the total number of all word end n-grams of the speech sample. In displaying the remaining possible words, all words are first sorted by the whole word probability pG = GN / NG and the word start n gram probability pA = π An / NA, where GN is the whole word n gram frequency, NG is the total number of all word n-grams of the speech sample, the word-start n-gram frequency and NA is the total number of all word-first n-grams of the speech sample and sorting is done according to pA pW pE.

Im Falle der erwähnten Sprachstichprobe mit den Wörtern "baum- haus", "hallo", "du", "der" ergeben sich als Wortend-n-Gramme die Bigramme "us", "lo", "du", "er", Trigramme "aus", "Ho", "der", 4-Gramme "haus", "allo" und die 5-Gramme "mhaus", "hal¬ lo". Ausgezählt ergeben sich damit folgende Häufigkeiten:In the case of the mentioned language sample with the words "baumhaus", "hello", "you", "der", the bigrams "us", "lo", "you", "he" result as the word end n-grams. , Trigrams "out", "ho", "the", 4-gramme "house", "allo" and the 5-gramme "mhaus", "hal ¬ lo". Counted the following frequencies result:

E2(us) = 1 E2(lo) = 1 E2 (du) = 1 E2 (er) = 1E2 (us) = 1 E2 (lo) = 1 E2 (du) = 1 E2 (er) = 1

E3(aus) = 1 E3(llo) = 1 E3 (der) = 1E3 (off) = 1 E3 (llo) = 1 E3 (der) = 1

E4(haus) = 1 E4 (allo) = 1E4 (house) = 1 E4 (allo) = 1

E5 (mhaus) = 1 E5 (hallo) = 1 Vorteilhaft wird bei dem erfindungsgemäßen Verfahren für eine N- Zeichen-Sequenz mit jedem weiteren eingegebenen Zeichen die Wörter-Liste L neu erstellt, d.h. es erfolgt eine kontinuier¬ liche Aktualisierung der Hypothesen. Aus der Liste L, falls sie mehr als eine n-Gramm-Kombination enthält, kann der Benutzer die korrekte Wortrepräsentation aussuchen, falls er das Wort bereits komplett getippt hat. Wie die Auswahl aus einem Vorschlagsangebot realisiert wird, ist beliebig.E5 (mhaus) = 1 E5 (hello) = 1 Re-creates the words list L in the novel process for an N-character sequence with each additional character entered advantageous ie there is a kontinuier ¬ Liche updating the hypotheses. From the list L, if it contains more than one n-gram combination, the user can choose the correct word representation if he has already typed the word completely. How the selection from a proposal offer is realized is arbitrary.

In den bisherigen Erläuterungen wurden für die n-Gramme Werte von n = 2, n = 3, n = 4, n = 5 verwendet. Diese Werte sind nicht starr festgelegt, sondern können nach den Gegebenheiten angepasst werden. Vorzugsweise werden bei Anwendung des erfindungsgemäßen Verfahrens für die n-Gramme Werte von n = 2, n = 3 verwendet, für die der Speicherbedarf deutlich geringer als im Falle längerer n-Gramme ist. Es können je nach Anwendungsfall auch n-Gramme mit n = 1 (d.h. einzelne Buchstaben) eingesetzt werden .In the previous explanations, values of n = 2, n = 3, n = 4, n = 5 were used for the n-grams. These values are not rigidly fixed, but can be adapted according to the circumstances. When using the method according to the invention, values of n = 2, n = 3 are preferably used for the n-grams, for which the memory requirement is significantly lower than in the case of longer n-grams. Depending on the application, it is also possible to use n-grams with n = 1 (that is, individual letters).

Bevorzugt werden für die n-Gramme auch Werte von n = 4 und/oder n = 5 verwendet. Je länger die maximalen n-Gramme gewählt werden (d.h. größere maximale Werte für n) , desto besser werden die vorgeschlagenen Worthypothesen. Es werden aber auch umfangreichere Sprachstichproben nötig.Values of n = 4 and / or n = 5 are preferably also used for the n-grams. The longer the maximum n-grams are chosen (i.e., larger maximum values for n), the better the proposed word hypotheses become. But it will also require more extensive language samples.

Im Speicher kann eine Liste von Zeichen oder Zeichensequenzen und von diesen zugeordneten Austauschzeichen, Austauschzeichensequenzen oder Austausch-n-Grammen gespeichert sein. Auf diese Weise erfolgt eine Anpassung an die Gewohnheiten eines Benutzers, bestimmte Zeichen oder Wörter (z.B. "spatz" und nicht "rsätz"), bestimmte Kurzformen (Englisch: "dont" -> "don't", Französisch: "cest" -> "c'est"), Sonderzeichen (z.B. Smiley) zu verwenden, an einen Spezialwortschatz etc.. Die Kurzformen müssen dann aber auch in ihrer Kurzform in der Sprachstichprobe mit eingegeben werden. Auch kann zweckmäßig vorgesehen werden, dass die n-Gramme im Speicher ergänzt werden, um das Erkennen von neuen Wörtern oder Spezialeingaben zu ermöglichen. Die Eingabe unbekannter Wörter ist dabei nicht notwendig. Ausreichend ist die Aktualisierung entsprechender n-Gramme (Wortanfangs-n-Gramme, Wort-n-Gramme, Wortend-n-Gramme, Ganzwort-n-Gramme) . Es ist nicht sinnvoll, alle möglichen Häufigkeiten der n-Gramme An('), Wn(-), En(O und Gn(-) zu speichern (z.B. gibt es für n = 5 über 24 Millionen mögliche n-Gramme) . Das ist auch nicht nötig. Nur wenige dieser n-Gramme treten in der Sprache auf, d.h. die Häufigkeit der meisten n-Gramme ist 0. Auf deren Speicherung kann verzichtet werden .The memory may store a list of characters or character sequences and their associated replacement characters, exchange character sequences, or replacement n-grams. In this way, adaptation to the habits of a user, certain characters or words (eg "sparrow" and not "rick"), certain short forms (English: "dont"->"donot", French: "cest") >"c'est"), special characters (eg smiley) to use, to a special vocabulary etc .. The short forms must then also be entered in their short form in the language sample with. It may also be expedient to supplement the n-grams in the memory in order to enable the recognition of new words or special entries. The input of unknown words is not necessary. Sufficient is the updating of corresponding n-grams (word-beginning n-grams, word-n-grams, word-end-n-grams, integer-n-grams). It does not make sense to store all possible frequencies of the n-grams An ('), Wn (-), En (O and Gn (-) (eg for n = 5 there are over 24 million possible n-grams) is also not necessary.Not of these n-grams occur in the language, ie the frequency of most n-grams is 0. On their storage can be omitted.

Wortend-n-Gramme bringen die Aussage mit sich, dass es sich um ein gültiges komplettes Wort handelt, und andere Merkmale können im Sinne der erfassten Sprachdaten ein Wort als solches erkennen. Um die einzelnen Wörter zu isolieren, ist es insbesondere für Anwendungen mit Lesen von Dateien auch nützlich, wenn Wortgrenzen, insbesondere Wortenden, zusätzlich eingegeben werden, um die Wortkette in einzelne jeweils komplette Wörter, z.B. "baumhaus" auch in "bäum haus", zu teilen.Word-end n-grams convey the statement that it is a valid complete word, and other features may recognize a word as such in terms of the acquired speech data. In order to isolate the individual words, it is also particularly useful for file reading applications where word boundaries, in particular word ends, are additionally entered to separate the word string into individual complete words, e.g. "Baumhaus" also in "Baume Haus", to share.

Das erfindungsgemäße Verfahren kann auch mit einer Wortvorhersage ausgestattet werden. Diese kann so ablaufen, dass anhand einer eingegebenen N-Zeichen-Sequenz eine Worterkennung für eine Zeichen-Sequenz mit einer angenommenen Länge von N + (1 bis 1) Zeichen durchgeführt wird, wobei 1 die Vorhersagelänge, d.h. die Zahl der vorausgesagten Eingabeschritte ist. Nach Erstellung der Liste L wird aus dieser eine weitere Liste L' erstellt, die alle n-Gramm-Kombinationen der Liste L enthält, wobei diese n-Gramm- Kombinationen um n-Gramme oder n-Gramm-Kombinationen mit der Länge 1 bis 1 ergänzt sind. Aus der Liste L' werden alle n- Gramm-Kombinationen entfernt, deren Wort-Wahrscheinlichkeit Null ist, die in der Liste L' verbliebenen n-Gramm-Kombinationen werden sortiert werden und die n-Gramm-Kombinationen der Listen L und L' angezeigt. Auf diese Weise kann für ein noch nicht vollständig eingegebenes Wort eine Vorhersage getroffen werden daraufhin, welches Wort bzw. welche Wörter der Benutzer bei der Eingabe im Sinn hat.The method according to the invention can also be equipped with a word prediction. This may be done so that, based on an input N-character sequence, word recognition is performed for a character sequence having an assumed length of N + (1 to 1) characters, where 1 is the prediction length, ie the number of predicted input steps. After creating the list L, a further list L 'containing all the n-gram combinations of the list L is created therefrom, these n-gram combinations being n-grams or n-gram combinations having the length 1 to 1 are supplemented. From the list L ', all n-gram combinations whose word probability is zero are removed, the n-gram combinations remaining in the list L' are sorted, and the n-gram combinations of the lists L and L 'are displayed , This way can not work for you yet completely input word, a prediction will be made as to which word or words the user has in mind in the input.

Zweckmäßig bei dieser Wortvorhersage-Methode werden in der Liste L' zuerst alle n-Gramm-Kombinationen nach der Ganzwort- Wahrscheinlichkeit pG = GN/NG sortiert, wobei GN die Ganzwort-n- Gramm-Häufigkeit und NG die Gesamtzahl aller Ganzwort-n-Gramme der Sprachstichprobe ist. Die Sortierung erfolgt dann nach der Anfangswort-n-Gramm- und der Endwort-n-Gramm-Wahrscheinlichkeit nach pA pW pE .In this word prediction method, all n-gram combinations are first sorted according to the whole-word probability pG = GN / NG in the list L ', where GN is the whole-word n-gram frequency and NG is the total number of all the whole-word n Gramme of the language sample is. The sorting then takes place after the start word n-gram and the end word n-gram probability after pA pW pE.

Obenstehend sind die Bestimmung der n-Gramme und deren Verwen¬ dung erläutert worden. Es folgt nun eine Darstellung der Bestimmung der Wort-Wahrscheinlichkeiten.In the above, the determination of the n-grams and their USAGE ¬ dung have been explained. The following is a representation of the determination of the word probabilities.

Die in den verschiedenen n-Gramm-Gruppen enthaltene Sprachstatistik wird dazu eingesetzt, um einerseits Worthypothesen aus¬ zuschließen, die mit größter Wahrscheinlichkeit kein Wort der aktuellen Sprache sind, und um zum anderen die verbleibenden Hypothesen in eine Reihenfolge entsprechend ihrer wahrscheinlichen Korrektheit zu bringen. Dabei bezeichne im folgenden w = wlw2w3 . . .wN ein Wort w der Länge N, zusammengesetzt aus der Buchstabenfolge wlw2w3 . . .wN. Es werden folgende Auftrittswahrscheinlichkeiten bestimmt :The language statistics contained in the various n-gram groups is used to to shut one hand word hypotheses from ¬ that are no words for the current language is most likely, and to the other to bring the remaining hypotheses in an order according to their probable correctness. In this case, w = wlw2w3. , .wN is a word w of length N, composed of the letters wlw2w3. , .WN. The following occurrence probabilities are determined:

Für ein Wort w berechnen sich die Wahrscheinlichkeiten, dass w ein gültiges Wort im Sinne von n-Grammen der Länge n ist nachFor a word w, the probabilities that w is a valid word in terms of n-grams of length n are calculated

Wn (v) pnW(w) = 11 NW (n) vεVn (w)Wn (v) pnW (w) = 11 NW (n) vεVn (w)

Aus diesen nach n-Gramm-Länge unterschiedenen Wort-Wahrschein- lichkeiten kann eine gesamteFrom these word-probabilities, which differ according to n-gram length, a whole

Wortwahrscheinlichkeit des Wortes w für die Gesamtheit aller trainierter n-Gramm-Längen berechnet werden:Word probability of the word w are calculated for the total of all trained n-gram lengths:

pW (w) = 11 nW (w) npW (w) = 11 nW (w) n

Sobald auch nur eine einzige der Wort-n-Gramm-Häufigkeiten Wn(-) = 0 ist, ist auch die Wort-Wahrscheinlichkeit pW(w) = 0.As soon as even one of the word n-gram frequencies Wn (-) = 0, the word probability pW (w) = 0 is also.

Am Beispiel des Wortes "baumhaus" wird dies weiter erläutert. Zur Bestimmung von Bigrammen und unter der Annahme, dass es eine Gesamtzahl NW (2) = 100 Bigramme gibt, ergibt sich:This will be explained further using the example of the word "Baumhaus". For the determination of bigrams and assuming that there are a total of NW (2) = 100 bigrams, we obtain:

p2W (baumhaus) = W2(ba)/NW(2) W2(au)/NW(2) W2(um)/NW(2) W2(mh)/NW(2) W2(ha)/NW(2) W2(au)/NW(2) W2(us)/NW(2) = 1/100 2/100 1/100 1/100 2/100 2/100 1/100p2W (tree) = W2 (ba) / NW (2) W2 (au) / NW (2) W2 (um) / NW (2) W2 (mh) / NW (2) W2 (ha) / NW (2) W2 (au) / NW (2) W2 (us) / NW (2) = 1/100 2/100 1/100 1/100 2/100 2/100 1 / 100

Für Trigramme ergibt sich entsprechend:For trigrams follows:

p3W (baumhaus) = W3 (bau) /NW (3) W3 (aum) /NW (3) W3 (umh) /NW (3) W3 (mha) /NW (3) W3 (hau) /NW (3) W3 (aus) /NW (3)p3W (tree) = W3 (construction) / NW (3) W3 (aum) / NW (3) W3 (umh) / NW (3) W3 (mha) / NW (3) W3 (hau) / NW (3) W3 (off) / NW (3)

Aus diesen Ergebnissen resultiert letztendlichFrom these results ultimately results

pW (baumhaus) = ... p2W (baumhaus) p3W (baumhaus) ...pW (tree house) = ... p2W (tree house) p3W (tree house) ...

Eine große Hilfe bei der Einschätzung, ob es ein Wort w geben kann, sind die Wortanfangs-Wahrscheinlichkeiten . Denn gibt es in der Sprachstichprobe keine Wörter mit den Wortanfangs-n-Grammen des Wortes w, so wird dieses mit großer Wahrscheinlichkeit kein gültiges Wort der Sprache sein. Dementsprechend berechnet sich die Wahrscheinlichkeit dass ein Wort w im Sinne seines Wortanfangs existiert aus An (wl . . . wn ) pA (w) = 11 NA (n) nA great help in assessing whether there is a word w are the word-beginning probabilities. For if there are no words in the language sample with the word-beginning n-grams of the word w, this will most likely not be a valid word of the language. Accordingly, the probability that a word w exists in the sense of the beginning of the word is calculated At (wl ... wn) pA (w) = 11 NA (n) n

Sobald auch nur eine einzige der Wortanfangs-n-Gramm-Häufig- keiten An(-) = 0 ist, ist auch die Wortanfangs-Wahrscheinlichkeit pA(w) = 0.As soon as even one of the word-beginning n-gram frequencies An (-) = 0, the word-beginning probability pA (w) = 0 is also present.

Ein Beispiel soll dies näher erläutern. Angenommen, es soll die Wortanfangs-Wahrscheinlichkeit für n-Gramme der Länge 2 bis 5 und das Wort w = baumhaus berechnet werden. Es seien die Häufigkeiten aus der oben veranschaulichten Auflistung von Wortanfangs-Bigrammen gegeben, die in diesem Beispiel immer den Wert 1 haben. Einige beispielhafte Gesamtzahlen von Wortanfangs- n-Grammen seien NA(2) = 12, NA(3) = 10, NA(4) = 13, NA(5) = 11. Damit ergibt sichAn example will explain this in more detail. Suppose that you want to calculate the word beginning probability for n-grams of length 2 to 5 and the word w = tree. Given the frequencies from the list of top-of-the-word bigrams illustrated above, which in this example always has the value 1. Some exemplary total numbers of word start n-grams are NA (2) = 12, NA (3) = 10, NA (4) = 13, NA (5) = 11. This yields

pA (baumhaus) = A2(ba)/NA(2) A3 (bau) /NA (3) A4 (bäum) /NA (4) A5 (baumh) /NA(5) = 1/12 1/10 1/13 1/11.pA (tree house) = A2 (ba) / NA (2) A3 (construction) / NA (3) A4 (tree) / NA (4) A5 (tree) / NA (5) = 1/12 1 / 10 1/13 1/11.

Eine weitere große Hilfe bei der Einschätzung, ob es ein Wort w geben kann, sind wie erwähnt die Wortend-Wahrschein- lichkeiten. Gibt es in der Sprachstichprobe keine Wörter, die auf die gleiche Buchstabenkette enden wie das Wort w, so ist dieses mit großer Wahrscheinlichkeit kein Wort der Sprache. Berechnen lassen sich die Wortend-Wahrscheinlichkeiten direkt aus den Wortend-n-Grammen :Another great help in assessing whether there is a word w is, as mentioned, the word end probabilities. If there are no words in the language sample that end in the same string of letters as the word w, then this is probably not a word of the language. The word end probabilities can be calculated directly from the word end n-grams:

En(wN-n+l . . ,wN) pE (w) = IT NE (n) nEn (wN-n + l., WN) p E (w) = IT NE (n) n

Sobald auch nur eine einzige der Wortend-n-Gramm-Häufigkeiten En ( ) = 0 ist, ist auch die Wortend-Wahrscheinlichkeit pE (w) = 0.As soon as even one of the word end n gram frequencies En ( ) = 0, the word end probability pE (w) = 0 is also.

Ein unbekanntes Wortende deutet nicht unbedingt auf eine un- sinnige Worthypothese hin, sondern kann genauso gut ein Indiz dafür sein, dass ein Wort noch nicht komplett eingegeben ist.An unknown end of the word does not necessarily indicate a meaningful word hypothesis, but may as well be an indication that a word is not yet fully entered.

Dies erläutert das folgende Beispiel: Angenommen, es soll die Wortend-Wahrscheinlichkeit für n-Gramme der Länge 2 bis 5 und das Wort w = baumhaus berechnet werden. Es seien die Häufig¬ keiten aus der oben veranschaulichten Auflistung von Wortend- Bigrammen gegeben, die in diesem Beispiel immer den Wert 1 haben, und einige beispielhafte Gesamtzahlen von Wortend-n- Grammen seien NE (2) = 22, NE (3) = 20, NE (4) = 23, NE (5) = 21. Damit ergibt sichThis is illustrated by the following example: Assume that the word end probability for n-grams of length 2 to 5 and the word w = tree is to be calculated. Let the Frequently ¬ opportunities given from the above-illustrated collection of Wortend- bigrams that always have the value 1 in this example, and some exemplary overall numbers of Wortend-n-grams are NE (2) = 22, NE (3) = 20, NE (4) = 23, NE (5) = 21. This yields

pE (baumhaus) = E2(us)/NE(2) E3 (aus) /NE (3) E4 (haus) /NE (4) E5 (mhaus) /NE (5) = 1/22 1/20 1/23 1/21pE (tree) = E2 (us) / NE (2) E3 (off) / NE (3) E4 (house) / NE (4) E5 (mhaus) / NE (5) = 1/22 1 / 20 1/23 1/21

Für die Ganzwort-Wahrscheinlichkeiten gilt folgendes: Ist das zu bewertende Wort w so kurz, dass aus der Sprachstichprobe Ganzwort-n-Gramme derselben Länge bestimmt wurden, so kann die Auftrittswahrscheinlichkeit von w einfach angegeben werden alsThe following applies to the whole-word probabilities: If the word w to be evaluated is so short that whole-word n-grams of the same length have been determined from the speech sample, the occurrence probability of w can be simply specified as

pG(w) = GN(wl . . .wN)/NG(N)pG (w) = GN (wl ... WN) / NG (N)

Ein Beispiel soll dies näher erläutern. Angenommen, es soll die Ganzwortwahrscheinlichkeit für die Wörter w = der, w = du und w = lqü berechnet werden. Es seien die Häufigkeiten aus der oben erwähnten Sprachstichprobe (immer 1 oder 0) gegeben und einige beispielhafte Gesamtzahlen von Ganzwort-n- Grammen seien NG (2) = 33, NG (3) = 30. Damit ergibt sichAn example will explain this in more detail. Suppose that the whole-word probability is calculated for the words w = der, w = du and w = lqü. Given the frequencies from the above-mentioned speech sample (always 1 or 0) and some exemplary total numbers of whole-word n-grams, let NG (2) = 33, NG (3) = 30. This yields

pG(der) = G3 (der) /NG (3) = 1/30 pG(du) = G2 (der) /NG (2) = 1/33 pG(lqü) = G3 (der) /NG(3) = 0/30pG (der) = G3 (der) / NG (3) = 1/30 pG (du) = G2 (der) / NG (2) = 1/33 pG (lqü) = G3 (der) / NG (3) = 0/30

Es wird nun anhand des Beispiels "baumhaus" der konkrete Ablauf näher beschrieben, um aus der Vielzahl der möglichen Zeichenkombinationen für ein Wort (hier wie oben bereits angegeben: 61.440) eine sinnvolle Liste von Wortalternativen zu erstellen.The concrete procedure will now be described in more detail on the basis of the example "tree house" in order to select from the multitude of possible character combinations for a word (here as already stated above: 61.440) to create a meaningful list of word alternatives.

Aus der Liste L der durch n-Gramm-Kombinationen repräsentierten möglichen Wörter werden alle n-Gramm-Kombinationen entfernt, deren Wahrscheinlichkeiten pW(w) = 0 oder pA(w) = 0 sind. Diese Wörter stellen mit ziemlicher Sicherheit kein korrektes Wort dar. Aus Performancegründen ist es sinnvoll, bereits beim Aufbau der ersten Liste L von n-Gramm-Kombinationen dieses Kriterium anzuwenden und überhaupt nur n-Gramm-Kombinationen in die Liste aufzunehmen, für die pW(w) ≠ 0 und pA(w) ≠ 0 gilt.From the list L of possible words represented by n-gram combinations, all n-gram combinations whose probabilities pW (w) = 0 or pA (w) = 0 are removed. These words are almost certainly not a correct word. For performance reasons, it makes sense to apply this criterion when building the first list L of n-gram combinations and to include only n-gram combinations in the list for which pW ( w) ≠ 0 and pA (w) ≠ 0.

Aus den wenigen verbleibenden Worthypothesen wird eine sortierte Liste erzeugt, wobei sich die Reihenfolge der einzelnen Wörter aus folgenden drei Kriterien ergibt:From the few remaining word hypotheses a sorted list is generated, whereby the order of the individual words results from the following three criteria:

(a) Zuerst stehen alle Wörter mit pG (w) ≠ 0, absteigend sortiert nach pG (w) . Damit bekommen Wörter Priorität, für die Ganzwort-n-Gramme vorhanden sind.(a) First all words with pG (w) ≠ 0 are listed, sorted in descending order according to pG (w). This gives priority to words for which whole-word n-grams exist.

(b) Danach kommen alle Wörter mit pE (w) ≠ 0, absteigend sortiert nach pA(w) pW(w) pE (w) . Damit bekommen Wörter, die ein komplettes Wort repräsentieren, Priorität vor solchen, die (bisher) nur teilweise eingegeben sind.(b) Then all words come with pE (w) ≠ 0, sorted in descending order according to pA (w) pW (w) pE (w). This gives words that represent a complete word priority over those that are (so far) only partially entered.

(c) Es folgen alle restlichen Wörter, absteigend sortiert nach pA(w) pW(w) . In Vergleich zu der vorhergehenden Wortgruppe aus (b) werden Wörter hinten angestellt, die erst teilweise eingegeben sind. Sinnvoll wäre, dass die Eingabe von 2286428 als Hypothese zwar das Teil-Wort "baumhau" findet, aber eventuell bessere Hypothesen bevorzugt, die nach (b) bereits ein gesamtes Wort repräsentieren.(c) All remaining words follow, sorted in descending order by pA (w) pW (w). Compared to the previous word group from (b), words are placed behind, which are only partly entered. It makes sense that the entry of 2286428 as a hypothesis, although the sub-word "tree" finds, but may prefer better hypotheses, which after (b) already represent an entire word.

Die Erfindung wird im folgenden anhand von Ausführungsbeispielen und der Zeichnung weiter erläutert. In der Zeichnung zeigen:The invention will be explained below with reference to exemplary embodiments and the drawing. In the drawing show:

Fig. 1 eine Prozessoreinrichtung zur Durchführung des erfin- dungsgemäßen Verfahrens bei der Texteingabe in eine Tastatur,1 shows a processor device for carrying out the invention method according to the invention when entering text into a keyboard,

Fig. 2 eine Prozessoreinrichtung zur Durchfürhung des erfindungsgemäßen Verfahrens bei der Sprachaufnahme,2 shows a processor device for carrying out the method according to the invention in voice recording,

Fig. 3 ein Ablaufdiagramm des erfindungsgemäßen Verfahrens zur Worterkennung,3 shows a flow diagram of the method according to the invention for word recognition,

Fig. 4 ein Ablaufdiagramm zur Ergänzung der n-Gramme im Speicher undFig. 4 is a flowchart for supplementing the n-grams in the memory and

Fig. 5 ein Ablaufdiagramm zur Vorhersage von Wörtern bei bereits eingegebenen Teilwörtern.Fig. 5 is a flow chart for predicting words in already input partial words.

Fig. 1 zeigt eine Prozessoreinrichtung einschließlich Peripherie, mit der das erfindungsgemäße Verfahren bei der Texteingabe eingesetzt werden kann. Eine Tastatur 10 mit Tasten 11, eine Anzeige 13 und ein Speicher 15 sind an eine Prozessoreinrichtung 12 angeschlossen. Den Tasten 11 der Tastatur 10 sind mehrere Zeichen zugeordnet, so dass bei der Zeicheneingabe nicht sofort eindeutig identifizierbare Zeichenketten, Wörter etc. entstehen. Der Speicher 15 enthält n-Gramme und diesen n-Grammen zugeordnete Häufigkeitswerte, die durch das Bezugszeichen 16 symbolisiert sind. Die Bildschirmanzeige 14 der Anzeige 13 veranschaulicht die unter Benutzung der gespeicherten n-Gramme und deren Häufigkeitswerten als mögliche Wörter ermittelten verbliebenen Wörter, hier die drei alternative Wörter "die", "ehe", "eid".Fig. 1 shows a processor device including peripherals, with which the inventive method can be used in the text input. A keyboard 10 with keys 11, a display 13 and a memory 15 are connected to a processor device 12. The keys 11 of the keyboard 10 are associated with several characters, so that in the character input not immediately unique identifiable strings, words, etc. arise. The memory 15 contains n-grams and frequency values assigned to these n-grams, which are symbolized by the reference symbol 16. The screen 14 of the display 13 illustrates the remaining words determined using the stored n-grams and their frequency values as possible words, here the three alternative words "the", "marriage", "eid".

In Fig. 2 ist eine Prozessoreinrichtung mit Peripherie für die Worterkennung bei der Sprachaufnahme gezeigt. Eine Sprachauf¬ nahmeeinrichtung wie ein Mikrophon 20, eine Anzeige 13 und ein Speicher 15 sind mit einer Prozessoreinrichtung 21 verbunden. Bei der Spracheingabe entstehen nicht sofort eindeutig identi¬ fizierbare Phoneme bzw. hieraus ableitbare Grapheme, N-Zeichen- Sequenzen von Strings bzw. Wörtern, etc.. Grundsätzlich ist der Lösungsansatz analog zu dem bei der Texteingabe. Der Speicher 15 enthält n-Gramme und diesen n-Grammen zugeordnete Häufigkeitswerte, die durch das Bezugszeichen 16 symbolisiert sind. Die Bildschirmanzeige 14 der Anzeige 13 veranschaulicht die unter Benutzung der gespeicherten n-Gramme und deren Häufigkeitswerten als mögliche Wörter ermittelten verbliebenen Wörter, hier die drei alternative Wörter "die", "ehe", "eid" .FIG. 2 shows a processor device with peripherals for word recognition during voice recording. A Sprachauf ¬ acquisition device such as a microphone 20, a display 13 and a memory 15 are connected to a processor device 21st Voice input not immediately clearly identi fiable ¬ phonemes or derivable therefrom grapheme, N-character created Sequences of strings or words, etc. Basically, the approach is analogous to that in text input. The memory 15 contains n-grams and frequency values assigned to these n-grams, which are symbolized by the reference symbol 16. The screen 14 of the display 13 illustrates the remaining words determined using the stored n-grams and their frequency values as possible words, here the three alternative words "the", "marriage", "eid".

Fig. 3 zeigt, dass das Verfahren zur Worterkennung im Wesentlichen durch folgende Verfahrensschritte gekennzeichnet ist. Im Schritt 101 steht dem Verfahren der aktuelle Stand der Eingabe, z.B. eine Folge von N Tastendrücken, zur Verfügung. Aus dieser Eingabe wird im Schritt 102 die Liste L aller möglichen Worthypothesen auf Grund der existierenden Eingabe-Mehrdeutigkeiten durch Permutation aller Kombinationsmöglichkeiten generiert. Im Verfahrensschritt 103 werden die Ganzwort-Wahr¬ scheinlichkeiten pG, die Wort-Wahrscheinlichkeiten pW, die Wortend-Wahrscheinlichkeiten pE und die Wortanfangs-Wahr- scheinlichkeiten pA für jede Worthypothese der Liste L berechnet. Basierend auf diesen Wahrscheinlichkeiten werden im Verfahrensschritt 104 aus der Liste L alle Worthypothesen entfernt, deren Wort-Wahrscheinlichkeiten pW oder Wortanfangs- Wahrscheinlichkeiten pA Null ist und die damit mit großer Sicherheit kein gültiges Wort repräsentieren. Falls eine Wort¬ vorhersage durchgeführt werden soll, zweigt die Abfrage 112 zur Erzeugung der in Fig. 5 dargestellten und weiter unten näher erläuterten Erstellung der Vorhersage-Liste L'. Falls in der Liste L gültige Ganzwörter existieren, charakterisiert durch Hypothesen mit Ganzwort-Wahrscheinlichkeiten ungleich Null, zweigt die Abfrage 105 in den Verfahrensschritt 106, der alle gültigen Ganzwörter, absteigend sortiert nach ihren Ganzwort- Wahrscheinlichkeiten, auf der Bildschirmanzeige 14 darstellt. Verfahrensschritt 107 entfernt alle im Verfahrensschritt 106 angezeigten Hypothesen aus der Liste L und vermeidet damit die mehrfache Ausgabe ein und derselben Hypothese. Falls in der Liste L gültige komplette Wörter existieren, charakterisiert durch Hypothesen mit Wortend-Wahrscheinlichkeiten ungleich Null, zweigt die Abfrage 108 in den Verfahrensschritt 109, der alle gültigen kompletten Wörter, absteigend sortiert nach dem Produkt ihrer Wortend-Wahrscheinlichkeiten, Wortanfangs- Wahrscheinlichkeiten und Wort-Wahrscheinlichkeiten, an die bisherige Ausgabe auf der Bildschirmanzeige 14 anfügt. Verfahrensschritt 110 entfernt alle im Verfahrensschritt 109 angezeigten Hypothesen aus der Liste L und vermeidet damit die mehrfache Ausgabe ein und derselben Hypothese. Alle verbleibenden Hypothesen der Liste L werden im Verfahrensschritt 111, absteigend sortiert nach dem Produkt ihrer Wortanfangs- Wahrscheinlichkeiten und Wort-Wahrscheinlichkeiten, an die bisherige Ausgabe auf der Bildschirmanzeige 14 angefügt. Falls eine Wortvorhersage durchgeführt werden soll, zweigt die Abfrage 112 zur Ausgabe der Liste L', angefügt an die bisherige Ausgabe auf der Bildschirmanzeige 14. Akzeptiert der Benutzer eines der angezeigten Wörter, so verzweigt die Abfrage 115 zu Verfahrensschritt 116, der das gewählte Wort einer beliebigen Anwendung zur Verfügung stellt und die aktuelle Zeichen- bzw. Eingabesequenz löscht, so dass bei der nächsten Eingabe das Verfahren gemäß Fig. 3 im Schritt 101 mit einer leeren Zeichensequenz, d.h. einem neuen Wort, beginnt.FIG. 3 shows that the method for word recognition is essentially characterized by the following method steps. In step 101, the method has the current status of the input, for example a sequence of N key presses available. From this input, the list L of all possible word hypotheses is generated in step 102 on the basis of the existing input ambiguities by permutation of all possible combinations. In step 103, the whole-word true ¬ probabilities p G, the word probabilities pW that Wortend probabilities pE and the word initial probabilities pA are calculated for each word hypothesis list L. Based on these probabilities, in method step 104 all word hypotheses are removed from the list L whose word probabilities pW or word-start probabilities pA are zero and which therefore do not represent a valid word with great certainty. If a word ¬ prediction is to be performed, branches off the query 112 to generate the creation of the predictive list L illustrated and explained in greater detail below in FIG. 5 '. If valid whole words exist in the list L, characterized by hypotheses with non-zero integer probabilities, the query 105 branches to the process step 106, which displays all valid whole words, descending sorted by their whole word probabilities, on the screen 14. Method step 107 removes all the hypotheses displayed in method step 106 from the list L and thus avoids the multiple output of one and the same hypothesis. If in the List L valid complete words, characterized by hypotheses with non-zero word-end probabilities, query 108 branches to step 109, which sorts all valid complete words, descending by product of their word-end probabilities, word-start probabilities and word probabilities, attached to the previous edition on the screen 14. Method step 110 removes all the hypotheses displayed in method step 109 from the list L and thus avoids the multiple output of one and the same hypothesis. All remaining hypotheses of the list L are added to the previous output on the screen 14 in step 111, sorted in descending order of the product of their word-start probabilities and word probabilities. If a word prediction is to be performed, query 112 branches to output list L ', added to the previous output on screen 14. If the user accepts one of the displayed words, query 115 branches to step 116 which selects the selected word provides any application and deletes the current character or input sequence, so that in the next input, the method of FIG. 3 in step 101 begins with an empty character sequence, ie a new word.

Die zweckmäßige Ausgestaltung der Ergänzung der im Speicher 15 vorgehaltenen n-Gramme durch neue Wörter (unbekannte oder akzeptierte) ist durch die folgenden Verfahrensschritte, darge¬ stellt in Fig. 4, beschrieben. Im Verfahrensschritt 201 wird als Grundlage der Ergänzung die Bestimmung aller n-Gramme Vn (w) des in den Speicher 15 zu integrierenden Wortes w durchgeführt. Hat das Wort w eine Länge, die durch die Ganzwort-n-Gramme abgedeckt ist, zweigt die Abfrage 202 in den Verfahrensschritt 203, der die Häufigkeit des dem Wort w zugehörigen Ganzwort-n-Gramms aktualisiert. Im Verfahrensschritt 204 wird das Wort w in die Datenbasis der Wortanfangs-n-Gramme im Speicher 15 integriert, indem die Häufigkeiten der Wortanfangs-n-Gramme aller n-Gramme Vn (w) aktualisiert werden, die gültige Wortanfangs-n-Gramme des Wortes w repräsentieren. Im Verfahrensschritt 205 wird das Wort w in die Datenbasis der Wort-n-Gramme im Speicher 15 integriert, indem die Häufigkeiten der Wort-n-Gramme aller n-Gramme Vn (w) aktualisiert werden. Im Verfahrensschritt 206 wird das Wort w in die Datenbasis der Wortend-n-Gramme im Speicher 15 integriert, indem die Häufigkeiten der Wortend-n-Gramme aller n-Gramme Vn (w) aktualisiert werden, die gültige Wortend-n-Gramme des Wortes w repräsentieren .The practical embodiment of the complement of the pre-preserved in the memory 15 n-grams with new words (unknown or accepted) is described by the following method steps, shown by way ¬, in Fig. 4. In method step 201, the determination of all n-grams Vn (w) of the word w to be integrated into the memory 15 is carried out as the basis of the supplement. If the word w has a length covered by the whole-word n-grams, the query 202 branches to the process step 203 which updates the frequency of the whole-word n-gram associated with the word w. In method step 204, the word w is integrated into the data base of the word-beginning n-grams in the memory 15 by the frequencies of the word-beginning n-grams of all n-grams Vn (w) representing valid word-beginning n-grams of the word w. In step 205, the word w is integrated into the database of word n-grams in memory 15 by updating the frequencies of the word n-grams of all n-grams Vn (w). In step 206, the word w is integrated into the database of word-end n-grams in the memory 15 by updating the frequencies of the word-end n-grams of all n-grams Vn (w), the valid word-end n-grams of the word represent w.

Fig. 5 beschreibt die Verfahrensschritte zur Erzeugung einer Wortvorhersageliste L', referenziert in Fig. 3, Verfahrens¬ schritt 114. Aus einer Liste L wird im Verfahrensschritt 301 eine neue Liste L' erzeugt, die für jede Hypothese der Liste L alle Konkatenation dieser Hypothese mit allen Permutationen des bekannten Ausgabealphabets in den Längen von 1 bis 1 Zeichen enthält. Aus der Liste L' werden im Verfahrensschritt 302 alle Hypothesen entfernt, die entweder eine Wort-Wahrscheinlichkeit von Null oder eine Wortanfangs-Wahrscheinlichkeit von Null oder eine Wortend-Wahrscheinlichkeit von Null aufweisen. Die verbleibenden Hypothesen der Liste L' werden im Verfahrensschritt 303 so sortiert, dass allen Hypothesen, die ein gültiges Ganzwort repräsentieren und absteigend nach der Ganz¬ wort-Wahrscheinlichkeit pG sortiert sind, die weiteren Hypo¬ thesen folgen und diese dabei absteigend nach dem Produkt ihrer Wortend-Wahrscheinlichkeiten, Wortanfangs-Wahrscheinlichkeiten und Wort-Wahrscheinlichkeiten sortiert sind. Die Ausgabe 304 des Vorhersageverfahrens ist damit die sortierte Liste L'.FIG. 5 describes the steps for generating a word prediction list L ', referenced in FIG. 3, method ¬ step 114. From a list L in process step 301 a new list L' generated which for each hypothesis from the list L all concatenation this hypothesis with all permutations of the known output alphabet in the lengths of 1 to 1 characters. From the list L ', in the step 302, all hypotheses are removed which have either a word probability of zero or a word start probability of zero or a word end probability of zero. The remaining hypotheses of the list L 'are sorted in step 303 so that all hypotheses that represent a valid whole-word and are decreasing by the whole ¬ word probability pG, followed by the other Hypo ¬ theses and these in descending order according to the product of their Word end probabilities, beginning of word probabilities and word probabilities are sorted. The output 304 of the prediction method is thus the sorted list L '.

Im folgenden wird das erfindungsgemäße Verfahren anhand konkreter Ausführungsbeispiele in der deutschen und lateinischen Sprache bei Benutzung einer Telefontastatur weiter erläutert.In the following, the method according to the invention will be explained further using concrete exemplary embodiments in German and Latin using a telephone keypad.

Für erste Beispiel ist eine umfangreiche Sprachstichprobe mit 688.000 Wörtern benutzt worden, die viele zusammengesetzte Wörter und auch Bücher aus der Trivialliteratur enthält. Die n- Gramm-Belegung ist wie folgt:For the first example, an extensive language sample of 688,000 words has been used, containing many compound words as well as books from the trivial literature. The n- Gram occupancy is as follows:

Tabelle 1Table 1

Figure imgf000026_0001
Figure imgf000026_0001

An dieser Tabelle erkennt man gut, dass gerade durch die n- Gramme mit n = 4 und n = 5 viel Wissen repräsentiert wird, da ein Großteil (95%-99.99%) aller Vier- und Fünf-Buchstabenkombinationen in der Sprachstichprobe nicht vorkommen.On this table it is well recognized that much knowledge is represented by the n-grams with n = 4 and n = 5, because a large part (95% -99.99%) of all four- and five-letter combinations do not occur in the language sample.

Die Worterkennungsprozedur wird nun für die Wörter "Ist" "das" "Baumhaus" "schon" "fertig", "Abschlussball", "Bierkasten", "Außenhandelsumsatz", "Fußballspiel" an Hand ihrer Ziffernfolgen 478 327 22864287 72466 337844. 2272458772255, 2437527836, 287364263357867289, 387225577435 erkannt werden. Zum Vergleich sind die Ergebnisse bei Verwendung der T9-Technologie der Firma Tegic angegeben.The word recognition procedure is now "ready" for the words "actual", "the tree house", "prom", "beer box", "foreign trade turnover", "soccer game" by means of their numbers 478 327 22864287 72466 337844. 2272458772255, 2437527836, 287364263357867289, 387225577435 are recognized. For comparison, the results are given using the T9 technology Tegic.

Die Tabelle 2 stellt das Ergebnis dar, wobei das gesuchte bzw. eingetippte Wort in Fettschrift dargestellt ist. Dahinter steht die jeweilige Wort-Hypothesenliste,Table 2 shows the result, with the searched or typed word shown in bold. Behind it stands the respective word hypothesis list,

Tabelle 2

Figure imgf000027_0001
Die Unterschiede zwischen den beiden Worterkennungsverfahren liegen im wesentlichen nicht bei der Bearbeitung der einfachen, gängigen Wörter. Viele zusammengesetzte Wörter, die sich bei Anwendung des erfindungsgemäßen Verfahrens erschließen, können mit dem herkömmlichen T9-Verfahren nicht gefunden werden. Dabei liegt die Rechenzeit zur Erstellung der o.g. Worthypothesenliste im nichtmessbaren Bereich.Table 2
Figure imgf000027_0001
The differences between the two word recognition methods are essentially not in the processing of simple, common words. Many compound words that can be obtained using the method according to the invention can not be found with the conventional T9 method. The calculation time for creating the above-mentioned word hypothesis list is in the non-measurable range.

Das folgende Beispiel bezieht sich auf Latein auf einer 6-er Tastatur mit der folgenden Tastenbelegung:The following example refers to Latin on a 6-key keyboard with the following key mapping:

0 1 a b c d e f g h0 1 a b c d e f g h

2 3 j l m n o p q r2 3 j l m n o p q r

4 5 s t u v x y4 5 s t u v x y

Die Buchstaben j, k, w, z kommen im Lateinischen nicht vor und entfallen daher. Das Beispiel zeigt, wie leicht sich die Text¬ eingabe sowohl an neue Sprachen, als auch an andere Tastaturen anpassen lässt. Daraus ergibt sich folgendes Ausgabealphabet:The letters j, k, w, z do not appear in Latin and are therefore omitted. The example shows how easily the text ¬ input can be adapted to both new languages, as well as on other keyboards. This results in the following output alphabet:

0(0) = {a, b, c, d}0 (0) = {a, b, c, d}

0(1) = {e, f, g, h}0 (1) = {e, f, g, h}

0(2) = {i, l,m, n}0 (2) = {i, l, m, n}

0(3) = {o, p, q, r}0 (3) = {o, p, q, r}

0(4) = {s, t, u}0 (4) = {s, t, u}

0(5) = {v, x, y}0 (5) = {v, x, y}

Die Sprachstatistik wurde aus einer Sprachstichprobe bestimmt, die ausschließlich eine Reihe von längeren lateinischen Origi¬ naltexten (z.B. Caesar "Commentariorum Libri VII de Bello Gallico", "Commentariorum Libri III de Bello Civili", "Libri Incertorum Auctorum") mit insgesamt 128.000 Wörtern bestand. Nach der Auszählung sind von den möglichen n-Grammen folgende belegt :The language statistics was determined from a voice sample, which consisted solely a number of longer Latin Origi ¬ naltexten (eg Caesar "Commentariorum Libri VII de Bello Gallico", "Commentariorum Libri III de Bello Civili", "Libri Incertorum Auctorum") with a total of 128,000 words , After counting, the following are documented by the possible n-grams:

Tabelle 3Table 3

Figure imgf000029_0001
Figure imgf000029_0001

Aus Tabelle 3 ist wiederum ersichtlich, dass gerade durch die n- Gramme mit n=4 und n=5 viel Information geliefert wird, die die Sprachstichprobe selbst nicht enthält.From Table 3 it can be seen again that a lot of information is supplied by the n-grams with n = 4 and n = 5, which does not contain the speech sample itself.

Im folgenden sollenIn the following should

Multa legas facito, perlectis neglege multa.Multa legas facito, perlectis negie multa.

Qualis artifex pereo ! [Cato Maior: "Sieh' zu, dass du viel liest, und wenn du es gelesen hast, dann lasse vieles davon unberücksichtigt." und "Welch großer Künstler scheidet mit mir dahin!"] an Hand ihrer Eingaben 24240 21104 100243, 313210424 2112111 24240. 340224 0342115 31313! erkannt werden. Es wird pro Wort jeweils die gesamte sortierte Hypothesenliste angegeben, die korrekte Hypothese in Fettdruck:Qualis artifex pereo! [Cato Maior: "See that you read a lot and when you read it, much of it is ignored." and "What great artist is going away with me!"] On the basis of her inputs 24240 21104 100243, 313210424 2112111 24240. 340224 0342115 31313! be recognized. The complete sorted list of hypotheses is given for each word, the correct hypothesis in bold:

Tabelle 4Table 4

Figure imgf000030_0001
Figure imgf000030_0001

Claims

Ansprüche claims 1. Verfahren zur Worterkennung in Sequenzen von N Zeichen, von denen ein oder mehrere Zeichen mehrdeutig sein können, bei dem ein Speicher, eine Anzeige und eine Prozessoreinrichtung verwendet werden, wobei der Speicher n-Gramme (Zeichenketten mit der Länge n) und den Zeichenketten zugeordnete Häufigkeitswerte enthält, wobei als Häufigkeitswert eines n-Gramms die Gesamtzahl aller n-Gramme in einer für die Worterkennung verwendeten Sprachstichprobe verwendet wird, wobei die Anzeige ausgewählte n-Gramme und/oder er¬ kannte Wörter anzeigt, wobei die Prozessoreinrichtung mit dem Speicher und der Anzeige verbunden ist, bei dem aus der betrachteten Zeichensequenz eine Liste L aller n-Gramm-Kombinationen mit N Zeichen erstellt wird, die aus der N-Zeichen-Sequenz unter Berücksichtigung der Mehrdeutigkeiten der in dieser enthaltenen einzelnen Zeichen gebildet werden können, bei dem aus der Liste L der möglichen n-Gramm-Kombinationen alle n-Gramm-Kombinationen entfernt werden, deren Wort- Wahrscheinlichkeit Null ist, wobei die Wort-Wahrscheinlichkeit p = π pn aus den in der Zeichensequenz enthaltenen n-Grammen mit n = 1 bis N-I bestimmt wird, und bei dem von der Anzeige die durch die verbliebenen n- Gramm-Kombinationen repräsentierten Wörter der Liste L angezeigt werden .A method of word recognition in sequences of N characters of which one or more characters may be ambiguous using a memory, a display and a processor means, the memory storing n-grams (strings of length n) and the strings contains associated frequency values, wherein the total number of n-grams is used in a used for word recognition speech sample as a frequency value of a n-gram, wherein the display selected n-grams and / or he ¬ knew displaying words, wherein the processor means to the memory and connected to the display, in which from the considered character sequence a list L of all n-gram combinations with N characters is created, which can be formed from the N-character sequence, taking into account the ambiguities of the individual characters contained in this, in the be removed from the list L of possible n-gram combinations all n-gram combinations whose Word probability is zero, where the word probability p = π pn is determined from the n-grams contained in the character sequence with n = 1 to NI and the display shows the words represented by the remaining n-gram combinations the L list. 2. Verfahren nach Anspruch 1, dadurch g e k e n n z e i c h n e t , dass es für die Texteingabe in eine Tastatur angewendet wird, wobei die Tastatur Tasten umfasst, die mehreren Zeichen zugeordnet sind, und die Tastatur mit der Prozessoreinrichtung verbunden ist, und bei der Texteingabe der N-Zeichen-Sequenzen ein Worterkennungsverfahren angewendet wird.A method according to claim 1, characterized in that it is applied to a keyboard for text input, the keyboard comprising keys comprising a plurality of characters and the keyboard is connected to the processor device, and in the text input of the N-character sequences a word recognition method is applied. 3. Verfahren nach Anspruch 1, dadurch g e k e n n z e i c h n e t , dass es für die Spracheingabe verwendet wird, und wobei eine Sprachaufnahmeinrichtung verwendet wird, und bei der Spracheingabe der Phoneme oder Phonem-Sequenzen eine Umwandlung in N-Zeichen-Sequenzen, insbesondere von Textzeichen, erfolgt, und auf die N-Zeichen-Sequenzen ein Worterkennungsverfahren angewendet wird.3. Method according to claim 1, characterized in that it is used for voice input, and wherein a voice recorder is used, and in the voice input of the phoneme or phoneme sequences, a conversion into N-character sequences, in particular of text characters, takes place, and a word recognition method is applied to the N-character sequences. 4. Verfahren nach Anspruch 1, dadurch g e k e n n z e i c h n e t , dass es für das Lesen von Zeichensequenzen verwendet wird,4. The method according to claim 1, characterized in that it is used for reading character sequences, wobei eine Leseeinheit verwendet wird, und bei dem Lesen der N-Zeichen-Sequenzen ein Worterkennungsverfahren angewendet wird.wherein a reading unit is used, and in reading the N-character sequences, a word recognition method is used. 5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch g e k e n n z e i c h n e t , dass als Ganzwort-n-Gramme die Wörter aus der Sprachstichprobe bestimmt werden, deren Länge der n- Gramm-Länge entspricht, und bei der Anzeige der verbliebenen n- Gramm-Kombinationen der Liste L zuerst alle Wörter sortiert nach der Ganzwort-Wahrscheinlichkeit pG = GN/NG angezeigt werden, wobei GN die Ganzwort-n-Gramm-Häufigkeit und NG die Gesamtzahl aller Ganzwort-n-Gramme der Sprachstichprobe ist.5. The method according to any one of claims 1 to 4, characterized in that the words are determined from the voice sample whose length corresponds to the n-gram length as the whole-word n-grams, and in the display of the remaining n-gram combinations the list L is first displayed all words sorted by the whole word probability pG = GN / NG, where GN is the whole word n-gram frequency and NG is the total number of all word n-grams of the speech sample. 6. Verfahren nach einem der Ansprüche 1 bis 4 und 5, dadurch g e k e n n z e i c h n e t , dass als Wortanfangs-n-Gramme die n-Gramme bestimmt werden, die den Anfang eines Wortes bilden, die Wortanfangs-Wahrscheinlichkeit pA = π An/NA bestimmt wird, wobei An die Wortanfangs-n-Gramm-Häufigkeit und NA die Gesamtzahl aller Wortanfangs-n-Gramme der Sprachstichprobe ist, und bei der Anzeige der verbliebenen möglichen Wörter zuerst alle Wörter sortiert nach der Ganzwort-Wahrscheinlichkeit pG = GN/NG angezeigt werden, wobei GN die Ganzwort-n-Gramm-Häufigkeit und NG die Gesamtzahl aller Ganzwort-n-Gramme der Sprachstichprobe ist und die Sortierung nach pA pW erfolgt, wobei pW = π pnW die Wortwahrscheinlichkeit ist und pnW = π Wn/NW, Wn die Wort-n-Gramm-Häufigkeit und NW die Gesamtzahl aller Wort-n-Gramme ist.6. The method according to any one of claims 1 to 4 and 5, characterized in that the word beginning n-grams the n-grams are determined which form the beginning of a word, the word-beginning probability pA = π An / NA is determined, where An is the beginning of the word n-grams frequency and NA is the total number of all word-beginning n-grams of the speech sample, and in displaying the remaining possible words, first all words sorted by the whole-word probability pG = GN / NG are displayed, where GN is the whole-word n-gram frequency and NG is the total number of all whole-word n-grams of the speech sample and the Sort by pA pW, where pW = π pnW is the word probability and pnW = π Wn / NW, Wn is the word n-gram frequency and NW is the total number of all word n-grams. 7. Verfahren nach einem der Ansprüche 1 bis 4 und 5 oder 6, dadurch g e k e n n z e i c h n e t , dass als Wortend-n- Gramme die n-Gramme bestimmt werden, die das Ende eines Wortes bilden, die Wortend-Wahrscheinlichkeit pE = π En/NE bestimmt wird, wobei En die Wortend-n-Gramm-Häufigkeit und NE die Ge¬ samtzahl aller Wortend-n-Gramme der Sprachstichprobe ist, und bei der Anzeige der verbleibenden möglichen Wörter zuerst alle Wörter sortiert nach der Ganzwort-Wahrscheinlichkeit pG = GN/NG und der Wortanfangs-n-Gramm-Wahrscheinlichkeit pA= π An/NA angezeigt werden, wobei GN die Ganzwort-n-Gramm-Häufigkeit , NG die Gesamtzahl aller Ganzwort-n-Gramme der Sprachstichprobe ist, An die Wortanfangs-n-Gramm-Häufigkeit und NA die Gesamtzahl aller Wortanfangs-n-Gramme der Sprachstichprobe ist, wobei die Sortierung nach pA pW pE erfolgt.7. The method according to any one of claims 1 to 4 and 5 or 6, characterized in that the n-grams are determined as the word end n-grams, forming the end of a word, the word end probability pE = π En / NE determined is, where En the Wortend-n-gram frequency and NE is the Ge ¬ total number of all Wortend-n-grams of the speech sample, and wherein the display of the remaining possible words first all words sorted by the whole-word likelihood pG = GN / NG and the word beginning n-gram probability pA = π An / NA, where GN is the whole-word n-gram frequency, NG is the total number of all whole-word n-grams of the speech sample, to the beginning of word n-gram Frequency and NA is the total number of all word-beginning n-grams of the speech sample, sorting according to pA pW pE. 8. Verfahren nach einem der Ansprüche 1 bis 4 und einem der Ansprüche 5 bis 7, dadurch g e k e n n z e i c h n e t , dass für eine N-Zeichen-Sequenz mit jedem weiteren eingegebenen Zeichen die Liste L der n-Gramm-Kombinationen neu erstellt wird.8. The method according to any one of claims 1 to 4 and one of claims 5 to 7, characterized g e k e n e c i n e t that for an N-character sequence with each further input character, the list L of the n-gram combinations is recreated. 9. Verfahren nach einem der Ansprüche 1 bis 8, dadurch g e k e n n z e i c h n e t , dass für die n-Gramme Werte von n = 2, n = 3 verwendet werden.9. The method according to any one of claims 1 to 8, characterized in that for the n-grams values of n = 2, n = 3 are used. 10. Verfahren nach Anspruch 9, dadurch g e k e n n z e i c h ¬ n e t , dass für die n-Gramme Werte von n = 4 und/oder n = 5 verwendet werden.10. The method according to claim 9, characterized marked ¬ net that values of n = 4 and / or n = 5 are used for the n-grams. 11. Verfahren nach Anspruch 9 oder 10, dadurch g e k e n n ¬ z e i c h n e t , dass für die n-Gramme der Wert n = 1 ver¬ wendet wird.11. The method according to claim 9 or 10, characterized marked ¬ records that for the n-grams of the value n = 1 ver ¬ applies. 12. Verfahren nach einem der Ansprüche 1 bis 11, dadurch g e ¬ k e n n z e i c h n e t , dass im Speicher eine Liste von Zeichen oder Zeichensequenzen und von diesen zugeordneten Aus¬ tauschzeichen, Austauschzeichensequenzen oder Austausch-n- Grammen gespeichert ist.12. The method according to any one of claims 1 to 11, characterized ge ¬ indicates that in memory a list of characters or character sequences and their associated from ¬ exchange characters, exchange character sequences or exchange n-grams is stored. 13. Verfahren nach einem der Ansprüche 1 bis 12, dadurch g e ¬ k e n n z e i c h n e t , dass die n-Gramme im Speicher ergänzt werden, um das Erkennen von neuen Wörtern oder Spezialeingaben zu ermöglichen.13. The method according to any one of claims 1 to 12, characterized ge ¬ indicates that the n-grams are added to the memory to allow the detection of new words or special inputs. 14. Verfahren nach einem der Ansprüche 1 bis 13, dadurch g e ¬ k e n n z e i c h n e t , dass Wortgrenzen, insbesondere Wortenden, eingegeben werden.14. The method according to any one of claims 1 to 13, characterized ge ¬ indicates that word boundaries, in particular word ends, are entered. 15. Verfahren nach einem der Ansprüche 1 bis 14, dadurch g e ¬ k e n n z e i c h n e t , dass anhand einer eingegebenen N-Zeichen-Sequenz eine Worter¬ kennung für eine Zeichen-Sequenz mit einer angenommenen Länge von N + (1 bis 1) Zeichen durchgeführt wird, wobei nach Erstellung der Liste L aus dieser eine weitere Liste L' erstellt wird, die alle n-Gramm-Kombinationen der Liste L enthält, wobei diese n-Gramm-Kombinationen um n-Gramme oder n- Gramm-Kombinationen mit der Länge 1 bis 1 ergänzt sind, aus der Liste L' alle n-Gramm-Kombinationen entfernt werden, deren Wort-Wahrscheinlichkeit Null ist, die in der Liste L' verbliebenen n-Gramm-Kombinationen sortiert werden und die n-Gramm-Kombinationen der Listen L und L' angezeigt werden .15. The method according to any one of claims 1 to 14, characterized ge ¬ indicates that on the basis of an inputted N-character sequence, a words ¬ recognition for a character sequence with an assumed length of N + (1 to 1) character is performed, wherein, after the list L has been prepared, another list L 'containing all the n-gram combinations of the list L is prepared from them, these n-gram combinations being n-grams or n-gram combinations of length 1 to 1 are added, from the list L 'all n-gram combinations are removed, whose word probability is zero, the n-gram combinations remaining in list L 'are sorted and the n-gram combinations of lists L and L' are displayed. 16. Verfahren nach Anspruch 15, dadurch g e k e n n z e i c h n e t , dass in der Liste L' zuerst alle n-Gramm- Kombinationen nach der Ganzwort-Wahrscheinlichkeit pG = GN/NG sortiert werden, wobei GN die Ganzwort-n-Gramm-Häufigkeit und NG die Gesamtzahl aller Ganzwort-n-Gramme der Sprachstichprobe ist, und die Sortierung dann nach der Anfangswort-n-Gramm- und der Endwort-n-Gramm-Wahrscheinlichkeit nach pA pW pE erfolgt. 16. The method according to claim 15, characterized in that in the list L 'first all n-gram combinations are sorted by the whole word probability pG = GN / NG, where GN is the whole word n-gram frequency and NG the total number of all the word n-grams of the speech sample, and then the sorting is done after the start word n-gram and the end word n-gram probabilities after pA pW pE.
PCT/EP2008/053430 2007-03-26 2008-03-20 Method for word recognition in character sequences Ceased WO2008116843A2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
EP08718135A EP2132656A2 (en) 2007-03-26 2008-03-20 Method for word recognition in character sequences

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102007014405A DE102007014405B4 (en) 2007-03-26 2007-03-26 Method for word recognition in character sequences
DE102007014405.0 2007-03-26

Publications (2)

Publication Number Publication Date
WO2008116843A2 true WO2008116843A2 (en) 2008-10-02
WO2008116843A3 WO2008116843A3 (en) 2009-01-29

Family

ID=39736022

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2008/053430 Ceased WO2008116843A2 (en) 2007-03-26 2008-03-20 Method for word recognition in character sequences

Country Status (3)

Country Link
EP (1) EP2132656A2 (en)
DE (1) DE102007014405B4 (en)
WO (1) WO2008116843A2 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8474755B2 (en) 2008-11-20 2013-07-02 Airbus Operations Gmbh Supply unit for flexible supply channels
US9046932B2 (en) 2009-10-09 2015-06-02 Touchtype Ltd System and method for inputting text into electronic devices based on text and text category predictions
US9189472B2 (en) 2009-03-30 2015-11-17 Touchtype Limited System and method for inputting text into small screen devices
US9424246B2 (en) 2009-03-30 2016-08-23 Touchtype Ltd. System and method for inputting text into electronic devices
US9659002B2 (en) 2009-03-30 2017-05-23 Touchtype Ltd System and method for inputting text into electronic devices
US10372310B2 (en) 2016-06-23 2019-08-06 Microsoft Technology Licensing, Llc Suppression of input images

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5031206A (en) * 1987-11-30 1991-07-09 Fon-Ex, Inc. Method and apparatus for identifying words entered on DTMF pushbuttons
DK0842463T3 (en) 1995-07-26 2000-07-17 Tegic Communications Inc Reduced keyboard ambiguity removal system
US5952942A (en) * 1996-11-21 1999-09-14 Motorola, Inc. Method and device for input of text messages from a keypad
FI974576A7 (en) 1997-12-19 1999-06-20 Nokia Mobile Phones Ltd Method for writing text on a mobile device and mobile device
GB2373907B (en) 2001-03-29 2005-04-06 Nec Technologies Predictive text algorithm
US6794966B2 (en) 2002-07-01 2004-09-21 Tyco Electronics Corporation Low noise relay
US7129932B1 (en) * 2003-03-26 2006-10-31 At&T Corp. Keyboard for interacting on small devices
EP1710668A1 (en) 2005-04-04 2006-10-11 Research In Motion Limited Handheld electronic device with text disambiguation employing advanced editing feature

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8474755B2 (en) 2008-11-20 2013-07-02 Airbus Operations Gmbh Supply unit for flexible supply channels
US9189472B2 (en) 2009-03-30 2015-11-17 Touchtype Limited System and method for inputting text into small screen devices
US9424246B2 (en) 2009-03-30 2016-08-23 Touchtype Ltd. System and method for inputting text into electronic devices
US9659002B2 (en) 2009-03-30 2017-05-23 Touchtype Ltd System and method for inputting text into electronic devices
US10073829B2 (en) 2009-03-30 2018-09-11 Touchtype Limited System and method for inputting text into electronic devices
US10402493B2 (en) 2009-03-30 2019-09-03 Touchtype Ltd System and method for inputting text into electronic devices
US9046932B2 (en) 2009-10-09 2015-06-02 Touchtype Ltd System and method for inputting text into electronic devices based on text and text category predictions
US10372310B2 (en) 2016-06-23 2019-08-06 Microsoft Technology Licensing, Llc Suppression of input images

Also Published As

Publication number Publication date
DE102007014405A1 (en) 2008-10-09
WO2008116843A3 (en) 2009-01-29
EP2132656A2 (en) 2009-12-16
DE102007014405B4 (en) 2010-05-27

Similar Documents

Publication Publication Date Title
DE60123952T2 (en) GENERATION OF A UNIFORM TASK DEPENDENT LANGUAGE MODEL THROUGH INFORMATION DISCUSSION PROCESS
DE10235548B4 (en) Method and device for the prediction of a text message input
DE19721198C2 (en) Statistical language model for inflected languages
DE69806780T2 (en) SYSTEM FOR SUPPRESSING AMBIANCE IN A REDUCED KEYBOARD
DE112007000847T5 (en) A portable electronic device and method for learning context data during a disambiguation of a text input
EP2815396B1 (en) Method for phoneticizing a data list and speech-controlled user interface
DE112007000848T5 (en) A portable electronic device and method for performing an optimized spell check during text input by providing a sequentially arranged set of spell check algorithms
DE112006003659T5 (en) A portable electronic device and method for disambiguating text input and providing a spelling substitution
DE112007000855T5 (en) A portable electronic device and method for performing a spelling check during text input and providing a spell check learning feature
DE112007000854T5 (en) A portable electronic device that provides a learning function for facilitating correction of erroneous text input in an environment of a text requiring multiple sequential operations of the same key, and related method
DE102007014405B4 (en) Method for word recognition in character sequences
DE112007000728B4 (en) A portable electronic device for providing a proposed corrected input in response to an erroneous text input in an environment of a text requiring multiple sequential operations of the same key, and related method
DE112021006602T5 (en) REFINING QUERY GENERATION PATTERNS
DE112005001284B4 (en) Portable electronic device with text disambiguation
DE112005001283T5 (en) Portable electronic device with text disambiguation
DE112007000856B4 (en) A portable electronic device and method for using context data to disambiguate a text input
DE112006003651T5 (en) Portable electronic device and method for disambiguating text input to suppress artificial variants with low probability
EP1340169B1 (en) Method and device for automatically issuing information using a search engine
EP2034472B1 (en) Speech recognition method and device
DE112005001316T5 (en) Portable electronic device with text disambiguation
DE112005001314T5 (en) Portable electronic device with text disambiguation
DE112006003660T5 (en) A portable electronic device and method for disambiguating a text input that provides artificial variants consisting of characters in a core alphabet
CN114818663B (en) A hierarchical intelligent pinyin and text matching method
Greenberg Recognition in a new key-Towards a science of spoken language
DE112005002060T5 (en) Portable electronic device with text disambiguation

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 08718135

Country of ref document: EP

Kind code of ref document: A2

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2008718135

Country of ref document: EP