[go: up one dir, main page]

WO2012093661A1 - 音声認識装置、音声認識方法および音声認識プログラム - Google Patents

音声認識装置、音声認識方法および音声認識プログラム Download PDF

Info

Publication number
WO2012093661A1
WO2012093661A1 PCT/JP2012/000044 JP2012000044W WO2012093661A1 WO 2012093661 A1 WO2012093661 A1 WO 2012093661A1 JP 2012000044 W JP2012000044 W JP 2012000044W WO 2012093661 A1 WO2012093661 A1 WO 2012093661A1
Authority
WO
WIPO (PCT)
Prior art keywords
word
hypothesis
section
transparent
rephrasing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2012/000044
Other languages
English (en)
French (fr)
Inventor
岡部 浩司
健 花沢
長田 誠也
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to US13/977,382 priority Critical patent/US20130282374A1/en
Priority to JP2012551857A priority patent/JPWO2012093661A1/ja
Publication of WO2012093661A1 publication Critical patent/WO2012093661A1/ja
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Definitions

  • the present invention relates to a voice recognition device, a voice recognition method, and a voice recognition program.
  • speech recognition technology has been applied, and speech recognition technology has been used not only for reading speech from people to machines but also for more natural speech from people to people.
  • speech recognition is performed on a person-to-person utterance, there are phenomena of rephrasing and saying as a cause of speech recognition errors.
  • Rephrasing is a phenomenon of re-speaking a word string as it is or by replacing it with another word string.
  • Speaking is a phenomenon that stops speaking in the middle of a part of a certain word.
  • the section restated by the subsequent utterance is restated, the section uttered in order to restate the preceding utterance section, the section after restatement, and the section connecting these two sections is restated. It is described as an interval.
  • the section before rephrasing is often accompanied by grudges.
  • Patent Document 1 describes a voice recognition device that can recognize and robustly recognize voices that are rephrased.
  • the speech recognition means performs speech recognition by searching for which word string is uttered using the hypothesis search unit using speech data as an input,
  • the recognizing unit receives the speech recognition result as an input, assumes a section before rephrasing and a section after rephrasing, and re-recognizes the section before rephrasing.
  • the section recognizing section assumes that each phrase is a section after rephrasing, and the preceding phrase is rephrased as a preceding section, and the word in the section after rephrasing or a subword of the similar word is rephrased as a dictionary, Re-recognize sequentially. Then, the determination unit determines which of the original recognition result and the section recognition result is likely as the speech recognition result, and the output unit outputs the speech recognition result determined to be likely.
  • the speech recognition result in the section after rephrasing is often wrong due to the influence of misrecognition in the section before rephrasing.
  • the method of performing re-processing on the speech recognition result after the speech recognition is finished the re-statement is accurate. If not recognized, the process for rephrasing cannot be performed normally. That is, when speech including a rephrase is recognized by speech, the word chain of the rephrased part becomes unnatural, so the language likelihood of the word chain of the section becomes low, and the rephrased part may make a recognition error. Often there is. Thus, if a recognition error has occurred at the stage of speech recognition, it cannot be corrected correctly.
  • an object of the present invention is to provide a speech recognition device, a speech recognition method, and a program that are robust against rephrasing and speaking.
  • a speech recognition apparatus includes a hypothesis search unit that generates a hypothesis that is a chain of words to be searched as a recognition result candidate for input speech data, and searches for an optimal solution, and a hypothesis search unit Calculates the rephrasability of the word or word string included in the hypothesis being searched and rephrased by the rephrase determining means for determining whether or not the word or word string is rephrased, Transparent word hypothesis generating means for generating a transparent word hypothesis that is a hypothesis that treats a word or a word string included in the previous section of the word or word string as a transparent word when it is determined that The hypothesis searching means searches for an optimal solution by including the transparent word hypothesis generated by the transparent word hypothesis generating means in the hypothesis to be searched.
  • the hypothesis searching means searches the optimum solution while generating a hypothesis that is a chain of words to be searched as a recognition result candidate for the input speech data. Then, calculate the rephrasability of the word or word string included in the hypothesis being searched, determine whether the word or word string is reworded, and if it is determined to be rephrased, By generating a transparent word hypothesis that is a hypothesis in which a word or word string included in the previous section related to the word or word string is treated as a transparent word, the hypothesis search means generates the transparent generated in the hypothesis to be searched. It is characterized by searching for an optimal solution including a word hypothesis.
  • the speech recognition program is a hypothesis search process for searching for an optimal solution while generating a hypothesis that is a chain of words to be searched as a recognition result candidate for speech data input to a computer.
  • re-determination determination processing for determining whether or not the word or word string is re-phrase, and re-phrase
  • a transparent word hypothesis generation process is executed to generate a transparent word hypothesis that is a hypothesis in which the word or word string included in the previous section related to the word or word string is treated as a transparent word, and a hypothesis search is performed.
  • an optimum solution is searched by including the transparent word hypothesis generated by the transparent word hypothesis generation processing in the hypothesis to be searched.
  • the present invention it is possible to prevent erroneous recognition in the section after rephrasing due to the influence of misrecognition in the section before rephrasing. As a result, it is possible to provide a speech recognition apparatus, method, and program that are robust against rephrasing and complaining.
  • FIG. 1 is a block diagram showing a configuration example of a speech recognition apparatus according to the present invention.
  • the speech recognition apparatus shown in FIG. 1 includes a speech input unit 101, a speech recognition unit 102, and a result output unit 106. Further, the speech recognition unit 102 includes a hypothesis search unit 103, a determination unit 104, and a hypothesis generation unit 105.
  • the voice input unit 101 captures the speaker generation as voice data.
  • the audio data is captured as, for example, an audio feature amount series.
  • the voice recognition unit 102 receives voice data, performs voice recognition, and outputs a recognition result.
  • the result output unit 106 displays the recognition result by the voice recognition unit 102.
  • the hypothesis search unit 103 calculates the likelihood of the hypothesis, develops hypotheses connected to phonemes and words connected to each hypothesis, and searches for solutions.
  • the determination unit 104 assumes an interval before and after rephrasing in the word chain of each hypothesis, obtains rephrasing under the assumption, rephrases a word chain having a rephrasing greater than or equal to a threshold, and hypothesis Judge that.
  • the hypothesis generation unit 105 generates a hypothesis in which each word in the word string in the previous section of the restatement hypothesis is treated as a transparent word.
  • the voice input unit 101 is realized by a voice input device such as a microphone, for example.
  • the voice recognition unit 102 (including the hypothesis search unit 103, the determination unit 104, and the hypothesis generation unit 105) is realized by an information processing apparatus that operates according to a program such as a CPU, for example.
  • the result output unit 106 is realized by, for example, an information processing device that operates according to a program such as a CPU and an output device such as a monitor.
  • acoustic information such as the presence or absence of silent intervals, power, pitch, and the presence or absence of sudden changes in speech speed, acoustic similarity between subwords before and after rephrasing, and rewording
  • a linguistic index such as the presence or absence of continuation of words of the same class in the previous section and the subsequent section can be used. These indices may be used alone, or may be integrated and used by linear combination or the like.
  • the speech recognition apparatus rephrases based on the rephrasing probability that is an index indicating the degree of rewording of the word or the word string included in the pre-rephrased interval and the rephrased interval.
  • a hypothesis that dynamically treats the word string of the previous section as a transparent word is generated.
  • the speech recognition apparatus uses such a transparent word to suppress deterioration of linguistic likelihood in the rephrasing phenomenon.
  • FIG. 2 is a flowchart showing an example of the operation of the speech recognition apparatus shown in FIG.
  • the voice input unit 101 captures a speaker's utterance as voice data (step S ⁇ b> 1).
  • the voice recognition unit 102 performs voice recognition on the voice data by using the fetched voice data as an input.
  • the hypothesis searching unit 103 calculates the likelihood of the intra-word hypothesis using the speech data captured by the speech input unit 101 as an input (step S2).
  • the intra-word hypothesis is the process of searching for speech data along the time axis from the front, and in the part where the word is uncertain, the word with the same phoneme as one hypothesis It refers to the unit (unit) that is handled.
  • the hypothesis search unit 103 performs likelihood calculation in the form of “acoustic likelihood + approximate language likelihood” for the intra-word hypothesis where the word is not fixed. Note that the word likelihood of the word chain is accurately calculated and summed with “acoustic likelihood + language likelihood” when the hypothesis reaches the end of the word and the word is finalized. To do.
  • the hypothesis search unit 103 gives a language likelihood based on the confirmed word for the hypothesis that has reached the end of the word (step S3).
  • the determination unit 104 lists all the possible re-rearranged and re-interpreted intervals in the determined word string. Then, the first set is taken out (step S4).
  • the determination unit 104 uses the hypothesis generated by the hypothesis search unit 103 (that is, the hypothesis being searched) as one type of word, and sets the predetermined rephrase section setting information. On the basis of the above, it is assumed that the section before rephrasing and the section after rephrasing.
  • the determination unit 104 includes the word determined in the immediately preceding step S3 in the section after rephrasing.
  • the likelihood calculation of the intra-word hypothesis is completed in step S2, and the word that has just reached the end of the word is included.
  • the section before rephrasing and the section after rephrasing may be, for example, one continuous word, or the section before rephrasing may be N words and the section after rephrasing may be continuous sections allowing up to M words. . In that case, all combinations of 1 to N words and 1 to M words may be listed.
  • the group of sections before rephrasing and the section after rephrasing listed in step S4 may be referred to as a hypothetical rewording section group, and a section connecting them may be referred to as a hypothetical rephrasing section.
  • the determination unit 104 calculates the rephrasing likelihood for the hypothetical rephrasing section set extracted in step S4 (step S5).
  • acoustic information such as the presence or absence of silent sections or the presence or absence of sudden changes in power, pitch, and speech speed, the degree of acoustic similarity between subwords before and after rephrasing, and rewording
  • An index such as the presence or absence of continuation of words of the same class in the previous section and the subsequent section can be used.
  • the determination unit 104 determines whether or not the rephrase is greater than or equal to a threshold value (step S6).
  • the determination unit 104 proceeds to step S7 if the rephrase is greater than or equal to the threshold, and proceeds to step S8 if it is less than the threshold.
  • step S7 the hypothesis generation unit 105 generates a hypothesis that regards the word string in the previous section as a transparent word for the hypothesis including the rephrasing section set of the hypothesis determined to have a rephrase greater than or equal to the threshold.
  • the transparent word refers to a word that is treated as non-linguistic in the speech recognition process. Therefore, in the case of a transparent word, when calculating the hypothesis language likelihood, the word is removed and the likelihood is calculated.
  • step S8 the determination unit 104 confirms whether there is a set that has not yet been processed in the hypothetical rephrasing section sets listed in step S4. If it remains, the determination unit 104 returns to step S4 and takes out one set from the remaining sets (Yes in step S8). On the other hand, when the processing from step S5 to S7 is completed for all of the listed assumption rephrasing section sets (No in step S8), the determination unit 104 proceeds to step S9.
  • step S9 the determination unit 104 determines whether the hypothesis search has been completed up to the end of the speech. If the end of the speech has not been reached (No in step S9), the process returns to step S2, and after adding the hypothesis generated in step S7 or replacing it with the hypothesis determined to be restated, the next speech frame Search for hypotheses. When the end of the voice is reached (Yes in step S9), the process proceeds to step S10.
  • step S10 the result output unit 106 outputs the hypothesis that finally becomes the maximum likelihood as the speech recognition result.
  • the speech recognition apparatus dynamically or in the process of searching for speech recognition includes a word or a word included in a pre-rephrase section of an assumed restatement section group that is highly likely to be rephrased. Since the column is treated as a transparent word, it is possible to suppress a decrease in the language likelihood of the correct hypothesis in the section after rephrasing. For example, in the case where the transparent word is not dynamically processed with respect to the section before rephrasing extracted in this way, the correct hypothesis of the section after rephrasing is recognized by misrecognizing the section before rephrasing. Often, the likelihood of language becomes worse, and the section after rephrasing is often misrecognized.
  • the word or word string included in the hypothesis being searched is sequentially calculated, the word or word string is determined when the word or word string is determined to be rephrased.
  • the word or word string is determined when the word or word string is determined to be rephrased.
  • the timing for performing the rewording determination is not limited to this. It is sufficient that the hypothesis search unit 103 can recognize a hypothesis (a hypothesis including a transparent word) generated as a result of the rewording determination as a search target together with or in place of the hypothesis being searched. It is also possible to determine the timing or conditions for performing the rephrasing determination, and sequentially perform the restatement determination for the hypotheses that have been searched so far. As an example, it is conceivable to perform a rephrasing determination when a plurality of word hypotheses are detected in the same section.
  • step S1 the voice input unit 101 captures a speaker's utterance “Do you know some someone who can speak Japanese?” As voice data.
  • the hypothesis search unit 103 calculates the likelihood of the intra-word hypothesis in which the word is uncertain with respect to the speech data taken in. For example, for the utterance of the / i / phoneme of the word “speak” in the utterance example, the acoustic likelihood calculation with the / i / or / u / phoneme model is performed, and “can” or “can ' This corresponds to the addition of the language likelihood of the word chain of the hypothesis, such as “t”.
  • step S3 the hypothesis search unit 103 gives a language likelihood based on the confirmed word for the hypothesis that has reached the end of the word.
  • FIG. 3 is an explanatory diagram showing examples of hypotheses searched in this example. This process will be described more specifically using the example shown in FIG. In FIG. 3, each ellipse indicates a word (word hypothesis) to be searched as a recognition result candidate.
  • the numerical value attached to each word hypothesis represents the log likelihood of the word chain in which each word hypothesis is linked to the preceding word hypothesis.
  • step S4 the determination unit 104 enumerates a set of possible before-rephrased sections and a re-phrased section in the determined word string, and takes out the first set.
  • the determination unit 104 includes the word determined in step S3 in the section after rephrasing.
  • the section before rephrasing and the section after rephrasing may be, for example, one continuous word, or all the combinations are enumerated as a continuous section allowing N words for the previous section and M words for the subsequent section. Also good.
  • FIG. 4 is an explanatory diagram showing an example of enumeration of hypothetical rephrasing sections.
  • section before rephrasing is one word and the section after rephrasing is two words
  • the section before rephrasing is “know” and the section after rephrasing is “some someone”. Accordingly, one set of hypothetical rewording section sets is listed.
  • a total of two sets are listed including the one set of combinations described above. That is, in FIG.
  • the setting information in FIG. 4 includes (number of words in the section before rephrasing + section after rephrasing)
  • a total of 4 sets of rewording section (“you know” + “some someone”) are listed.
  • step S5 the determination unit 104 calculates a rephrase likelihood for the one reassured section set of 1 hypothesized extracted in step S4.
  • acoustic information such as the length of a silent section, power, pitch, and presence / absence of a sudden change in speech speed is used as an index of rephrasing.
  • Acoustic information is modeled using a mixture of Gaussian distributions with features such as length, power, pitch, and time differential of speech speed, using learning data that is pre-tagged with reworded sections.
  • the determination unit 104 calculates the likelihood with the model.
  • step S6 the determination unit 104 determines whether or not the restatement probability of the extracted one assumed restatement section is equal to or greater than a threshold value.
  • the determination unit 104 proceeds to step S7 when the rephrase is greater than or equal to the threshold, and proceeds to step S8 when the rephrasing is less than the threshold.
  • step S7 the hypothesis generation unit 105 generates a hypothesis that regards the word string in the previous section as a transparent word for a hypothesis having a rewordability equal to or greater than the threshold, and is regarded as a transparent word in terms of language.
  • the likelihood is removed and the likelihood is recalculated. Note that recalculation of the language likelihood of the generated hypothesis may be executed by the hypothesis search unit 103.
  • FIG. 5 is an explanatory diagram showing an example of a hypothesis generated when it is assumed that the section before rephrasing is “some” and the section after rephrasing is “someone” in this utterance example.
  • “some” which is the previous section is excluded, and the language likelihood is given by regarding the word chain as “Do you know someone who can speak Japanese”. For this reason, the log likelihood given to the word chain “know some” is “0”, and a high log likelihood of “ ⁇ 30” is given to the word chain “know someone”. Note that the acoustic likelihood is not changed.
  • step S8 the determination unit 104 confirms whether there are other combinations remaining before the redoing section enumerated in step S4. When it remains, it returns to step S4 and takes out one combination from the remaining combinations.
  • step S9 the determination unit 104 determines whether the hypothesis search has been completed up to the end of the speech. If the end of the speech has not been reached, the process returns to step S2, and the hypothesis search for the next speech frame is performed by adding the hypothesis generated in step S7. On the other hand, when the end of the voice is reached, the process proceeds to step S10.
  • step S10 the result output unit 106 outputs the hypothesis that finally becomes the maximum likelihood as the speech recognition result.
  • the word likelihood of the word chain in the rephrasing section “some someone” is low, so the “someone” part is erroneous.
  • the word ⁇ some '' included in the previous rephrase section of the restatement section of the hypothetical rephrase section that was likely to be rephrased Is dynamically treated as a transparent word. For this reason, the fall of the language likelihood of the word chain following this can be suppressed. Therefore, the correct hypothesis “Do you know someone who can speak Japanese” can be easily left as the most likely hypothesis. Therefore, it is possible to reduce misrecognition in utterances including rephrasing.
  • the acoustic similarity between the section before rephrasing and the subword of the section after rephrasing is used as the rephrasing index used by the determination unit 104.
  • the subword including the first phoneme in the subsequent section is first generated, and the edit distance between each subword and the previous section is calculated.
  • the section before rephrasing is “some” and the section after rephrasing is “someone”
  • the subwords of the section after rephrasing are “so”, “some”, “someo”, and “someone”.
  • the phoneme editing distance of “some” (note: pronunciation) and “some” (note: word) is zero.
  • a linguistic index indicating the presence / absence of consecutive words of the same class is used as a rephrasing index used by the determination unit 104.
  • the presence / absence of consecutive words of the same class is determined based on the semantic similarity of each word using a thesaurus. For example, when it is determined that a word representing a fruit is continuously uttered between the previous section and the second section, such as "apple banana" (Japanese: "apple banana” in English). Alternatively, it may be determined that the rephrase is higher than the threshold value.
  • the semantic similarity of words that are continuous between the previous section and the subsequent section may be obtained, and the higher the similarity, the higher the likelihood of rephrasing, which may be used for the determination.
  • an appendix is accompanied, such as “apple is a banana” (Japanese: “apple is banana is” in English)
  • the similarity between words is obtained by excluding the appendix.
  • the semantic similarity between the words excluding the annexed word is obtained. Good.
  • the indices used in the first to third embodiments are linearly combined and used as the rephrasing index used by the determination unit 104.
  • the speech recognition apparatus determines whether or not the hypothesis search has been completed up to the end of speech in the first to fourth steps S9. When it is determined that the end of the speech has not been reached, the speech recognition apparatus replaces the hypothesis generated in step 7 with the hypothesis determined to include the rephrasing section when returning to step S2. Then, the hypothesis search of the next speech frame is performed.
  • the hypothesis search unit 103 adds the hypothesis generated in step 7 to the search target hypothesis and searches for a hypothesis that does not treat the word or word string included in the section set determined to be rephrased as a transparent word. After removing from the target hypothesis, the hypothesis search for the next speech frame may be performed.
  • the result excluding the hypothesis determined to include the rephrasing section can be output as the recognition result. That is, since the recognition result that may be misrecognized by the restated part can be removed, it is possible to expect the effect of preventing the subsequent process from being adversely affected and the effect of reducing the processing load.
  • FIG. 6 is a block diagram showing an outline of the present invention.
  • the speech recognition apparatus includes a hypothesis search unit 11, a rephrase determination unit 12, and a transparent word hypothesis generation unit 13.
  • the hypothesis search means 11 (for example, the hypothesis search unit 103) generates a hypothesis that is a chain of words to be searched as a recognition result candidate for the input speech data and searches for an optimal solution. Further, the hypothesis search means 11 searches the hypothesis to be searched including the transparent word hypothesis generated by the transparent word hypothesis generation means 13 described later.
  • the rephrasing determination unit 12 calculates the rephrasing likelihood of the word or word string included in the hypothesis being searched by the hypothesis searching unit 11, and whether the word or word string is reworded. Determine whether or not.
  • the transparent word hypothesis generation unit 13 (for example, the hypothesis generation unit 105), when it is determined that the reword determination unit 12 determines that the word is rephrased, the word or the word included in the previous section of the word or word string A transparent word hypothesis that is a hypothesis in which the column is treated as a transparent word is generated.
  • the rephrasing determination means 12 is a section before rephrasing a word or word string included in a hypothesis being searched by the hypothesis searching means 11 and a section before rephrasing that includes the word or word string in a section after rephrasing.
  • the speech recognition apparatus may use, for example, the presence or absence of a sudden change in the length or power, pitch, and speech speed of the silent section in the phrase section as the rephrasing index.
  • the acoustic similarity between the word or word string included in the section before rephrasing and the subword of the word or word string included in the section after rephrasing may be used.
  • presence / absence of words that belong to the same class between the section before rephrasing and the section after rephrasing may be used.
  • the hypothesis search means 11 may perform the search by adding the transparent word hypothesis generated by the transparent word hypothesis generation means 13 to the existing hypothesis.
  • the hypothesis search means 11 adds the transparent word hypothesis generated by the transparent word hypothesis generation means 13 to the existing hypothesis and the word, word string, or rephrase determined to be restated by the restatement determination means 12.
  • the search may be performed except for the hypothesis that does not treat the word or the word string included in the subsequent section of the combination as the transparent word.
  • the present invention can be widely used for general speech recognition systems.
  • the present invention can be suitably applied to a speech recognition system that recognizes speech spoken by people such as lecture speech and dialogue speech.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 音声認識装置は、入力された音声データに対して、認識結果の候補として探索が行われる単語の連鎖である仮説を生成して最適な解を探索する仮説探索手段と、仮説探索手段が探索中の仮説に含まれる単語または単語列の言い直しらしさを計算し、当該単語または単語列が言い直しであるか否かを判定する言い直し判定手段と、言い直し判定手段によって言い直しであると判定された場合に、当該単語または単語列に係る言い直し前区間に含まれる単語または単語列を透過単語として扱った仮説である透過単語仮説を生成する透過単語仮説生成手段とを備え、仮説探索手段は、探索対象とする仮説に透過単語仮説生成手段によって生成された透過単語仮説を含めて最適な解を探索する。

Description

音声認識装置、音声認識方法および音声認識プログラム
 本発明は、音声認識装置、音声認識方法および音声認識プログラムに関する。
 近年、音声認識技術の応用が進み、人から機械への読み上げ発声だけでなく、人から人へのより自然な発声に対しても音声認識技術が用いられるようになっている。人から人への発声を対象に音声認識を行う場合、音声認識誤りを引き起こす原因として、言い直し、言い淀みという現象が存在する。
 言い直しは、ある単語列をそのまま、または別の単語列に置き換えて発声しなおす現象である。言い淀みは、ある単語の一部分まで発声したものの途中で発声をやめてしまう現象である。以下、言い直しについて、後続の発声で言い直された区間を言い直し前区間、先行する発声区間を言い直すために発声した区間を言い直し後区間、これら2つの区間を繋げてなる区間を言い直し区間と記述する。言い直し前区間は、しばしば言い淀みを伴う。
 特許文献1には、言い直し、言い淀みの存在する音声に対しても頑健に認識できる音声認識装置が記載されている。特許文献1に記載されている音声認識装置では、音声認識手段が、音声データを入力として、仮説探索部を用いてどの単語列が発声されたかを探索することで音声認識を行った後、区間認識部が、音声認識結果を入力として、言い直し前区間と言い直し後区間とを仮定し、言い直し前区間を再認識する。ここで、区間認識部は、各文節を言い直し後区間、さらにその前の文節を言い直し前区間と仮定し、言い直し後区間の単語またはその類似語のサブワードを辞書として言い直し前区間を順次再認識する。そして、判定部が元の認識結果と区間認識の結果のどちらが音声認識結果として尤もらしいかを判定し、出力部が尤もらしいと判定された音声認識結果を出力する。
特開2010-079092号公報
 しかし、言い直し後区間の音声認識結果は、言い直し前区間の誤認識の影響を受けてしばしば誤ったものである。このような場合に特許文献1に記載されている音声認識装置のように、音声認識が終わった後に当該音声認識結果に対して言い直しのための処理等を行う方法では、言い直しが正確に認識されなければ、言い直しのための処理を正常に行うことができない。すなわち、言い直しを含む発話を音声認識した場合、言い直しの部分の単語連鎖が不自然になるため、当該区間の単語連鎖の言語尤度が低くなり、言い直し部分が認識誤りを行うことがしばしばある。このように、音声認識の段階で認識誤りを起こしている場合には、それを正しく修正するといったことはできない。
 例えば、特許文献1に記載されている音声認識装置において、言い回しの部分に認識誤りがおきた場合、言い直し後区間の誤認識結果が言い直し前区間の正解のサブワードにならない。このため、言い直し前区間の再認識を行うための辞書が正しく生成できずに、正しい認識結果の出力ができなくなり、言い直しに対しての認識率が不十分だという問題があった。
 そこで、本発明は、言い直しや言い淀みに頑健な音声認識装置、音声認識方法およびプログラムを提供することを目的とする。
 本発明による音声認識装置は、入力された音声データに対して、認識結果の候補として探索が行われる単語の連鎖である仮説を生成して最適な解を探索する仮説探索手段と、仮説探索手段が探索中の仮説に含まれる単語または単語列の言い直しらしさを計算し、当該単語または単語列が言い直しであるか否かを判定する言い直し判定手段と、言い直し判定手段によって言い直しであると判定された場合に、当該単語または単語列に係る言い直し前区間に含まれる単語または単語列を透過単語として扱った仮説である透過単語仮説を生成する透過単語仮説生成手段とを備え、仮説探索手段は、探索対象とする仮説に透過単語仮説生成手段によって生成された透過単語仮説を含めて最適な解を探索することを特徴とする。
 また、本発明による音声認識方法は、仮説探索手段が、入力された音声データに対して、認識結果の候補として探索が行われる単語の連鎖である仮説を生成しつつ最適な解を探索する過程で、探索中の仮説に含まれる単語または単語列の言い直しらしさを計算し、当該単語または単語列が言い直しであるか否かを判定し、言い直しであると判定された場合に、当該単語または単語列に係る言い直し前区間に含まれる単語または単語列を透過単語として扱った仮説である透過単語仮説を生成することによって、仮説探索手段が、探索対象とする仮説に生成された透過単語仮説を含めて最適な解を探索することを特徴とする。
 また、本発明による音声認識プログラムは、コンピュータに、入力された音声データに対して、認識結果の候補として探索が行われる単語の連鎖である仮説を生成しつつ最適な解を探索する仮説探索処理の過程で、探索中の仮説に含まれる単語または単語列の言い直しらしさを計算し、当該単語または単語列が言い直しであるか否かを判定する言い直し判定処理、および言い直しであると判定された場合に、当該単語または単語列に係る言い直し前区間に含まれる単語または単語列を透過単語として扱った仮説である透過単語仮説を生成する透過単語仮説生成処理を実行させ、仮説探索処理で、探索対象とする仮説に透過単語仮説生成処理で生成された透過単語仮説を含めて最適な解を探索させることを特徴とする。
 本発明によれば、言い直し前区間の誤認識の影響を受けて言い直し後区間が誤認識することを防ぐことができるので、言い直しや言い淀みを含む発声に対しての音声認識誤りを減少させることができ、結果として言い直しや言い淀みに頑健な音声認識装置、方式およびプログラムを提供することができる。
本発明による音声認識装置の構成例を示すブロック図である。 本発明による音声認識装置の動作の一例を示すフローチャートである。 仮説生成をする前の仮説の一例を示す説明図である。 仮定の言い直し区間の列挙例を示す説明図である。 言い直し前区間を透過単語とみなした仮説を生成した後の仮説の一例を示す説明図である 本発明の概要を示すブロック図である。
 以下、本発明の実施形態を図面を参照して説明する。図1は、本発明による音声認識装置の構成例を示すブロック図である。図1に示す音声認識装置は、音声入力部101と、音声認識部102と、結果出力部106とを備える。また、音声認識部102は、仮説探索部103と、判定部104と、仮説生成部105とを含む。
 音声入力部101は、話者の発生を音声データとして取り込む。音声データは、例えば、音声の特徴量系列として取り込まれる。音声認識部102は、音声データを入力とし、音声認識を行って認識結果を出力する。結果出力部106は、音声認識部102による認識結果を表示する。
 仮説探索部103は、仮説の尤度を計算し、各仮説につながる音素および単語と接続する仮説の展開を行い、解の探索を行う。
 判定部104は、各仮説の単語連鎖において言い直し前区間と言い直し後区間をそれぞれ仮定し、その仮定の下で言い直しらしさを求め、閾値以上の言い直しらしさを持つ単語連鎖を言い直し仮説だと判定する。
 仮説生成部105は、言い直し仮説の言い直し前区間の単語列の各単語を透過単語として扱った仮説を生成する。なお、音声入力部101は、例えば、マイクロフォンなどの音声入力装置によって実現される。また、音声認識部102(仮説探索部103と、判定部104と、仮説生成部105とを含む。)は、例えば、CPU等のプログラムに従って動作する情報処理装置によって実現される。また、結果出力部106は、例えば、CPU等のプログラムに従って動作する情報処理装置と、モニタ等の出力装置とによって実現される。
 言い直しらしさについては、無音区間の有無やパワー、ピッチ、話速の急激な変化の有無といった音響的な情報や、言い直し前区間と言い直し後区間のサブワードとの音響類似度や、言い直し前区間と言い直し後区間での同クラスの単語の連続の有無といった言語的な指標を用いることができる。これらの指標を単一で用いてもよいし、線形結合などをして統合して用いてもよい。
 言い直し前区間に現れる単語は言い直し前区間のみで出現するとは限らないため、静的に透過単語を決めることができない。しかし、本実施形態では、音声認識装置は、仮定の言い直し前区間と言い直し後区間に含まれる単語または単語列が言い直しである度合いを表す指標である言い直しらしさに基づいて、言い直し前区間の単語列を動的に透過単語として扱う仮説を生成する。音声認識装置は、このような透過単語を用いて、言い直し現象における言語的な尤度の劣化を抑制する。
 次に、本実施形態の動作について説明する。図2は、図1に示した音声認識装置の動作の一例を示すフローチャートである。図2に示す例では、まず、音声入力部101が、話者の発声を音声データとして取り込む(ステップS1)。
 次に、音声認識部102は、取り込まれた音声データを入力として当該音声データに対して音声認識を行う。ここでは、まず、仮説探索部103が、音声入力部101によって取り込まれた音声データを入力として、単語内仮説の尤度計算を行う(ステップS2)。なお、単語内仮説とは、音声データに対して時間軸に沿って前から探索を行う過程で、どの単語であるかが確定していない部分において、語頭が同じ音素の単語を一つの仮説として扱うその単位(ひとまとまり)をいう。従って、ステップS2の段階では、仮説探索部103は、単語が確定していない単語内仮説に対して、”音響尤度+近似された言語尤度”という形で尤度計算を行う。なお、正確に単語連鎖の言語尤度を計算して、”音響尤度+言語尤度”と合算するのは該仮説が単語終端までたどり着き、単語が確定した時であり、この時にS3に移行する。
 次いで、仮説探索部103は、単語終端に辿りついた仮説について、確定した単語に基づいて言語尤度を与える(ステップS3)。
 仮説探索部103が仮説を探索する過程で単語終端にたどり着いたタイミングで、判定部104は、確定した単語列の中で可能性のある言い直し前区間と言い直し後区間の組を全て列挙して、1つ目の組を取り出す(ステップS4)。ここでは、判定部104は、仮説探索部103によって生成された仮説(すなわち、探索中の仮説)において一種類の単語として確定したものを対象に、予め定めておいた言い直し区間の設定情報に基づき、言い直し前区間と言い直し後区間を仮定する。判定部104は、言い直し後区間には直前のステップS3において確定した単語を含むようにする。すなわち、本例では、ステップS2で単語内仮説の尤度計算を終え、たったいま単語終端までたどり着いた単語を含むようにする。設定情報において、言い直し前区間と言い直し後区間は例えば連続する一単語ずつであるとしてもよいし、言い直し前区間をN単語、言い直し後区間をM単語まで許す連続した区間としてもよい。その場合、1~N単語までと1~M単語までのそれぞれの組み合わせを全て列挙してもよい。以下、ステップS4において列挙された言い直し前区間と言い直し後区間の組を、仮定の言い直し区間組と呼び、またそれらを繋げてなる区間を仮定の言い直し区間と呼ぶ場合がある。
 次いで、判定部104は、ステップS4で取り出された仮定の言い直し区間組に対して言い直しらしさを計算する(ステップS5)。言い直しらしさとして、無音区間の有無、またはパワー、ピッチ、話速の急激な変化の有無といった音響的な情報や、言い直し前区間と言い直し後区間のサブワードとの音響類似度や、言い直し前区間と言い直し後区間での同クラスの単語の連続の有無といった指標を用いることができる。
 また、判定部104は、言い直しらしさが閾値以上かどうかの判定を行う(ステップS6)。ここで、判定部104は、言い直しらしさが閾値以上の場合はステップS7に進み、閾値未満の場合はステップS8に進む。
 ステップS7では、仮説生成部105が、閾値以上の言い直しらしさを持つと判断した仮定の言い直し区間組を含む仮説に対して、言い直し前区間の単語列を透過単語とみなした仮説を生成する。ここで、透過単語とは、音声認識過程において言語的にはないものとして取り扱われる単語をいう。従って、透過単語とされた場合には、仮説の言語尤度計算を行う際に、当該単語を取り除いて尤度の計算が行われる。
 次に、ステップS8において、判定部104は、ステップS4で列挙された仮定の言い直し区間組に、まだ処理していない組が残っているかを確認する。残っている場合には、判定部104は、ステップS4に戻り、残りの組の中から1つの組を取り出す(ステップS8のYes)。一方、列挙された仮定の言い直し区間組の全てに対してステップS5~S7までの処理が完了した場合には(ステップS8のNo)、判定部104は、ステップS9に進む。
 ステップS9では、判定部104は、音声の終端まで仮説探索を終えたかどうかを判定する。音声の終端まで達していない場合は(ステップS9のNo)、ステップS2に戻り、ステップS7で生成された仮説を加えて、または言い直しと判定された仮説に置き換えた上で、次の音声フレームの仮説探索を行う。音声の終端まで達した場合は(ステップS9のYes)、ステップS10に進む。
 ステップS10では、結果出力部106が、最終的に最尤となった仮説を音声認識結果として出力する。
 以上のように、本実施形態では、音声認識装置は、音声認識の探索の過程で、動的に、言い直しらしさが高かった仮定の言い直し区間組の言い直し前区間に含まれる単語または単語列を透過単語として扱うため、言い直し後区間の正解仮説の言語尤度の低下を抑制することができる。例えば、このようにして抽出される言い直し前区間に対して動的に透過単語とする処理を行わない場合には、言い直し前区間が誤認識されることにより、言い直し後区間の正解仮説の言語尤度まで悪くなり、言い直し後区間が誤認識してしまうことがしばしばある。しかし、本実施形態のように、探索中の仮説に含まれる単語または単語列に対して、順次言い直しらしさを計算し、当該単語または単語列が言い直しであると判断した場合に当該単語または単語列に係る言い直し前区間の単語または単語列を透過単語として扱うことによって、言い直し後区間の正解仮説の言語尤度の低下を抑制することができる。従って、言い直しを含む発声における誤認識を減少させることが可能である。
 なお、本実施形態では、単語が確定する度に言い直し判定を行う例を示したが、言い直し判定を行うタイミングはこの限りではない。仮説探索部103が、探索中の仮説とともに、またはこれと置き換わって、言い直し判定の結果生成される仮説(透過単語を含む仮説)を探索対象として認識できるような態様であればよい。なお、言い直し判定を行うタイミングまたは条件を定めておき、それに合致したときにそれまでに探索された仮説に対して逐次的に言い直し判定を行うといったことも可能である。一例として、同一の区間において単語仮説が複数検出された場合に言い直し判定を行うことも考えられる。
 次に、具体的な実施例を用いて本発明の実施形態を説明する。第1の実施例では、「Do you know some someone who can speak Japanese?」という発声を認識する場合を例に挙げて動作の説明を行う。
 本実施例では、まず、ステップS1において、音声入力部101が話者の「Do you know some someone who can speak Japanese?」という発声を音声データとして取り込む。
 次に、ステップS2において、仮説探索部103が取り込まれた音声データを対象にして、どの単語であるかが確定していない単語内仮説の尤度計算を行う。例えば、発話例での「speak」という単語の/i/の音素の発声に対して、/i/や/u/の音素のモデルとの音響尤度計算を行い、「can」や「can't」といった当該仮説の先方の単語連鎖の言語尤度と合算することに該当する。
 次に、ステップS3では、仮説探索部103が単語終端に辿りついた仮説について、確定した単語に基づいて言語尤度を与える。
 図3は、本例において探索される仮説の例を示す説明図である。図3に示す例を用いて、本処理についてより具体的に説明する。図3において、各楕円は、認識結果の候補として探索が行われる単語(単語仮説)を示している。また、各単語仮説に付された数値は、各単語仮説が先行する単語仮説と連鎖している状態とされる単語連鎖の対数尤度を表す。
 本例でいうと「someone」という単語が確定した場合に、先行する「some」という発話が「some」という単語仮説になっている場合、「some someone」という単語連鎖の言語尤度を与える。図3に示す例では「-60」という対数尤度が与えられている。同時に「some saman」といった単語連鎖の仮説も計算されることがあり、「-50」という対数尤度が与えられている。
 このように、言い直しがあった場合に、単純に単語連鎖に対して言語尤度を与える処理だけでは、「some someone」の単語連鎖の言語尤度が「some saman」などの単語連鎖の言語尤度と十分に差をつけることができないため、最尤仮説となることができずに誤認識を起こすことがしばしばある。なお、音響尤度や言語尤度を用いて仮説を探索する具体的な方法については、詳細な説明を省略する。ここでは、一般的な音声認識における手法を用いればよい。
 次に、ステップS4において、判定部104が、確定した単語列の中で可能性のある言い直し前区間と言い直し後区間の組を列挙して、1つ目の組を取り出す。判定部104は、言い直し後区間にはステップS3において確定した単語を含むようにする。言い直し前区間と言い直し後区間は例えば連続する一単語ずつでもよいし、言い直し前区間をN単語、言い直し後区間をM単語まで許す連続した区間として、それぞれの組み合わせを全て列挙してもよい。
 本発声例でいうと、例えば直前のステップS3において「someone」という単語が確定したとすると、「Do you know some someone who can speak Japanese」という仮説に対して、次のような仮定の言い直し区間の組が列挙される。
 例えば、言い直し前区間と言い直し後区間がそれぞれ1単語ずつの場合、言い直し前区間が「some」、言い直し後区間が「someone」と仮定される。従って、1組みの仮定の言い直し区間が列挙される。図4は、仮定の言い直し区間の列挙例を示す説明図である。図4の例でいうと、設定情報が(言い直し前区間の単語数+言い直し後区間の単語数)=(1単語+1単語)の行に示されている仮定の言い直し区間=(「some」+「someone」)が1組列挙される。
 また、例えば、言い直し前区間が1単語、言い直し後区間が2単語の場合、言い直し前区間が「know」、言い直し後区間が「some someone」と仮定される。従って、1組みの仮定の言い直し区間組が列挙される。なお、言い直し後区間が2単語までとした場合には、上記の1組みの組み合わせも含め、計2組み列挙される。すなわち、図4において設定情報が(言い直し前区間の単語数+言い直し後区間の単語数)=(1単語+1単語)の行に示されている仮定の言い直し区間=(「some」+「someone」)と、(1単語+2単語)の行に示されている仮定の言い直し区間=(「know」+「some someone」)の2組が列挙される。
 また、例えば、言い直し前区間が2単語まで、言い直し後区間が2単語までの場合、上記の組み合わせに加えて、図4において設定情報が(言い直し前区間の単語数+言い直し後区間の単語数)=(2単語+1単語)の行に示されている仮定の言い直し区間=(「know some」+「someone」)と、(2単語+2単語)の行に示されている仮定の言い直し区間=(「you know」+「some someone」)の計4組が列挙される。
 次に、ステップS5において、判定部104が、ステップS4で取り出された1の仮定の言い直し区間組に対して言い直しらしさを計算する。本実施例では、言い直しらしさの指標として、無音区間の長さ、パワー、ピッチ、話速の急激な変化の有無といった音響的な情報を用いる。音響的な情報については、あらかじめ言い直し区間がタグ付けされた学習データを用いて、無音区間の長さ、パワー、ピッチ、話速の時間微分を特徴量とした混合ガウス分布などによってモデル化しておき、判定部104は、当該モデルとの尤度を計算する。
 次に、ステップS6において、判定部104は、取り出した1の仮定の言い直し区間の言い直しらしさが閾値以上かどうかの判定を行う。判定部104は、言い直しらしさが閾値以上の場合はステップS7に進み、閾値未満の場合はステップS8に進む。
 ステップS7では、仮説生成部105が、閾値以上の言い直しらしさを持つ仮説に対して、言い直し前区間の単語列を透過単語とみなした仮説を生成し、言語的には透過単語とみなされた単語を取り除いて尤度を計算しなおす。なお、生成した仮説の言語尤度の再計算は、仮説探索部103によって実行されてもよい。
 図5は、本発声例において言い直し前区間が「some」、言い直し後区間が「someone」と仮定された場合に生成される仮説の例を示す説明図である。図5に示す例では、言い直し前区間である「some」を除外し、「Do you know someone who can speak Japanese」という単語連鎖だとみなして、言語尤度が与えられている。このため、「know some」という単語連鎖に与えられる対数尤度は「0」となり、「know someone」という単語連鎖に対して「-30」という高い対数尤度が与えられる。なお、音響尤度に関しては変更しない。
 次に、ステップS8において、判定部104は、ステップS4で列挙された言い直し前区間と言い直し後区間の他の組み合わせが残っているかを確認する。残っている場合ステップS4に戻り、残りの組み合わせの中から1つの組み合わせを取り出す。
 次に、ステップS9において、判定部104は、音声の終端まで仮説探索を終えたかどうかを判定する。ここで、音声の終端まで達していない場合は、ステップS2に戻り、ステップS7で生成された仮説を加えて、次の音声フレームの仮説探索を行う。一方、音声の終端まで達した場合は、ステップS10に進む。
 ステップS10では、結果出力部106が、最終的に最尤となった仮説を音声認識結果として出力する。
 以上のように、単純に単語連鎖に対して言語尤度を与えて仮説探索を行うと、言い直し区間「some someone」の単語連鎖の言語尤度が低いことにより、「someone」の部分が誤認識してしまうことがしばしばあるが、実施例では、例え言い淀みを伴う言い直しがあった場合でも、言い直しらしさが高かった仮定の言い直し区間組の言い直し前区間に含まれる単語「some」が動的に透過単語として扱われる。このため、これに続く単語連鎖の言語尤度の低下を抑制することができる。よって、「Do you know someone who can speak Japanese」という正解仮説が最尤の仮説として残りやすくすることができる。従って、言い直しを含む発声における誤認識を減少させることが可能である。
 次に、本発明の第2の実施例について説明する。本実施例では、判定部104が用いる言い直しらしさの指標として、言い直し前区間と言い直し後区間のサブワードとの音響類似度を用いる。
 言い直し前区間と言い直し後区間のサブワードとの音響類似度は、言い直し後区間の先頭音素を含むサブワードをまず生成し、各サブワードと言い直し前区間との編集距離を計算する。言い直し前区間が「some」、言い直し後区間が「someone」と仮定された場合、言い直し後区間のサブワードは「so」、「some」、「someo」、「someone」となる。これらのうち「some」(注:発音)と「some」(注:単語)の音素の編集距離は0となる。このようにして計算した各サブワードと言い直し前区間との編集距離を用い、編集距離が低いほど当該区間の音響類似度が高いとして、当該音響類似度の高さを言い直しらしさの高さとして判定に用いてもよい。また、編集距離だけでなく、/s/の音素と/sh/の音素は近いといった各音素モデル間の音素間距離を用いて、言い直し前区間の単語といい直し後区間のサブワードとの距離を求めてもよい。
 次に、本発明の第3の実施例について説明する。本実施例では、判定部104が用いる言い直しらしさの指標として、同クラスの単語の連続の有無という言語的な指標を用いる。同クラスの単語の連続の有無については、シソーラスを用いて各単語の意味的な類似度を基に判断する。例えば、「りんごバナナ」(日本語:英語では、"apple banana")のように、言い直し前区間と言い直し後区間との間で、果物を表す単語が連続で発声されたと判断した場合に、言い直しらしさが閾値よりも高いと判定してもよい。
 具体的には、言い直し前区間と言い直し後区間との間で連続する単語の意味的な類似度を求め、類似度が高いほど言い直しらしさが高いとして判定に用いてもよい。また、「りんごはバナナは」」(日本語:英語では、"apple is banana is")というように付属語を伴う場合は、当該付属語を除いて、単語間類似度を求める。具体的には、言い直し前区間と言い直し後区間の境界に、付属語として用いられる単語があると認識した場合には、当該付属語を除いた単語間で意味的な類似度を求めればよい。
 第4の実施例では、判定部104が用いる言い直しらしさの指標として、第1~第3の実施例で用いた各指標を線形結合して用いる。
 第5の実施例では、音声認識装置は、第1~第4のステップS9において、音声の終端まで仮説探索を終えたかどうかを判定する。音声の終端まで達していないと判定された場合には、音声認識装置は、ステップS2に戻る際に、ステップ7で生成された仮説を、言い直し区間を含むと判定された仮説に置き換えた上で、次の音声フレームの仮説探索を行う。
 換言すると、仮説探索部103の探索対象の仮説にステップ7で生成された仮説を加えるとともに、言い直しであると判断された区間組に含まれる単語または単語列を透過単語として扱わない仮説を探索対象の仮説から除いた上で、次の音声フレームの仮説探索を行わせればよい。
 本実施例の動作を行うと、認識結果として、言い直し区間を含むと判定された仮説を除いた結果を出力することができる。すなわち、言い直し部分が誤認識している可能性のある認識結果を除くことができるので、後段の処理に悪影響を与えることを防ぐといった効果や、処理負担を軽くするといった効果が期待できる。
 次に、本発明の概要について説明する。図6は、本発明の概要を示すブロック図である。図6に示すように、本発明による音声認識装置は、仮説探索手段11と、言い直し判定手段12と、透過単語仮説生成手段13とを備えている。
 仮説探索手段11(例えば、仮説探索部103)は、入力された音声データに対して、認識結果の候補として探索が行われる単語の連鎖である仮説を生成して最適な解を探索する。また、仮説探索手段11は、探索対象とする仮説に、後述する透過単語仮説生成手段13によって生成された透過単語仮説を含めて探索する。
 言い直し判定手段12(例えば、判定手部104)は、仮説探索手段11が探索中の仮説に含まれる単語または単語列の言い直しらしさを計算し、当該単語または単語列が言い直しであるか否かを判定する。
 透過単語仮説生成手段13(例えば、仮説生成部105)は、言い直し判定手段12によって言い直しであると判定された場合に、当該単語または単語列に係る言い直し前区間に含まれる単語または単語列を透過単語として扱った仮説である透過単語仮説を生成する。
 また、言い直し判定手段12は、仮説探索手段11が探索中の仮説に含まれる単語または単語列に対して、当該単語または単語列を言い直し後区間に含む言い直し前区間と言い直し後区間の組み合わせを仮定し、仮定した言い直し前区間と言い直し後区間の組み合わせ毎に言い直しらしさを計算し、計算した言い直しらしさが所定の閾値以上であるか否かを判定することによって、該組み合わせに対して言い直しであるか否かを判定し、透過単語仮説生成手段13は、言い直し判定手段12によって言い直しであると判定された組み合わせの言い直し前区間に含まれる単語または単語列を透過単語として扱った仮説を生成してもよい。
 また、本発明による音声認識装置は、言い直しらしさの指標として、例えば、言い回し区間における無音区間の長さもしくはパワー、ピッチ、話速の急激な変化の有無を用いてもよい。また、例えば、言い直し前区間に含まれる単語または単語列と、言い直し後区間に含まれる単語または単語列のサブワードとの音響類似度を用いてもよい。また、例えば、言い直し前区間と言い直し後区間の間での意味的に同クラスに属する単語の連続の有無を用いてもよい。
 また、仮説探索手段11は、透過単語仮説生成手段13によって生成された透過単語仮説を既存の仮説に付け加えて探索を行ってもよい。
 また、仮説探索手段11は、透過単語仮説生成手段13によって生成された透過単語仮説を既存の仮説に付け加えるとともに、言い直し判定手段12によって言い直しである判定された単語、単語列、または言い直し前区間と言い直し後区間の組み合わせに対して判定された場合には当該組み合わせの言い直し後区間に含まれる単語または単語列を透過単語として扱わない仮説を除いて探索を行ってもよい。
 以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 この出願は、2011年1月7日に出願された日本特許出願2011-002306を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 本発明は、一般の音声認識システムに広く用いることができる。特に、講演音声や対話音声のように人が人に向かって話す音声を認識する音声認識システムに好適に適用可能である。
 101 音声入力部
 102 音声認識部
 103 仮説探索部
 104 判定部
 105 仮説生成部
 106 結果出力部
 11 仮説探索手段
 12 言い直し判定手段
 13 透過単語仮説生成手段

Claims (9)

  1.  入力された音声データに対して、認識結果の候補として探索が行われる単語の連鎖である仮説を生成して最適な解を探索する仮説探索手段と、
     前記仮説探索手段が探索中の仮説に含まれる単語または単語列の言い直しらしさを計算し、当該単語または単語列が言い直しであるか否かを判定する言い直し判定手段と、
     前記言い直し判定手段によって言い直しであると判定された場合に、当該単語または単語列に係る言い直し前区間に含まれる単語または単語列を透過単語として扱った仮説である透過単語仮説を生成する透過単語仮説生成手段とを備え、
     前記仮説探索手段は、探索対象とする仮説に、前記透過単語仮説生成手段によって生成された透過単語仮説を含めて最適な解を探索する
     ことを特徴とする音声認識装置。
  2.  言い直し判定手段は、仮説探索手段が探索中の仮説に含まれる単語または単語列に対して、当該単語または単語列を言い直し後区間に含む言い直し前区間と言い直し後区間の組み合わせを仮定し、仮定した言い直し前区間と言い直し後区間の組み合わせ毎に言い直しらしさを計算し、計算した言い直しらしさが所定の閾値以上であるか否かを判定することによって、該組み合わせに対して言い直しであるか否かを判定し、
     透過単語仮説生成手段は、前記言い直し判定手段によって言い直しであると判定された組み合わせの言い直し前区間に含まれる単語または単語列を透過単語として扱った仮説を生成する
     請求項1に記載の音声認識装置。
  3.  言い直しらしさの指標として、言い回し区間における無音区間の長さもしくはパワー、ピッチ、話速の急激な変化の有無を用いる
     請求項2に記載の音声認識装置。
  4.  言い直しらしさの指標として、言い直し前区間に含まれる単語または単語列と、言い直し後区間に含まれる単語または単語列のサブワードとの音響類似度を用いる
     請求項2または請求項3のうちのいずれか1項に記載の音声認識装置。
  5.  言い直しらしさの指標として、言い直し前区間と言い直し後区間の間での意味的に同クラスに属する単語の連続の有無を用いる
     請求項2から請求項4のうちのいずれか1項に記載の音声認識装置。
  6.  仮説探索手段は、透過単語仮説生成手段によって生成された透過単語仮説を既存の仮説に付け加えて探索を行う
     請求項1から請求項5のうちのいずれか1項に記載の音声認識装置。
  7.  仮説探索手段は、透過単語仮説生成手段によって生成された透過単語仮説を既存の仮説に付け加えるとともに、言い直し判定手段によって言い直しである判定された単語、単語列、または言い直し前区間と言い直し後区間の組み合わせに対して判定された場合には当該組み合わせの言い直し後区間に含まれる単語または単語列を透過単語として扱わない仮説を除いて探索を行う
     請求項1から請求項6のうちのいずれか1項に記載の音声認識装置。
  8.  仮説探索手段が、入力された音声データに対して、認識結果の候補として探索が行われる単語の連鎖である仮説を生成しつつ最適な解を探索する過程で、
     探索中の仮説に含まれる単語または単語列の言い直しらしさを計算し、当該単語または単語列が言い直しであるか否かを判定し、
     言い直しであると判定された場合に、当該単語または単語列に係る言い直し前区間に含まれる単語または単語列を透過単語として扱った仮説である透過単語仮説を生成することによって、
     仮説探索手段が、探索対象とする仮説に、前記生成された透過単語仮説を含めて最適な解を探索する
     ことを特徴とする音声認識方法。
  9.  コンピュータに、
     入力された音声データに対して、認識結果の候補として探索が行われる単語の連鎖である仮説を生成しつつ最適な解を探索する仮説探索処理の過程で、
     探索中の仮説に含まれる単語または単語列の言い直しらしさを計算し、当該単語または単語列が言い直しであるか否かを判定する言い直し判定処理、および
     言い直しであると判定された場合に、当該単語または単語列に係る言い直し前区間に含まれる単語または単語列を透過単語として扱った仮説である透過単語仮説を生成する透過単語仮説生成処理を実行させ、
     前記仮説探索処理で、探索対象とする仮説に、前記透過単語仮説生成処理で生成された透過単語仮説を含めて最適な解を探索させる
     ための音声認識プログラム。
PCT/JP2012/000044 2011-01-07 2012-01-05 音声認識装置、音声認識方法および音声認識プログラム Ceased WO2012093661A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US13/977,382 US20130282374A1 (en) 2011-01-07 2012-01-05 Speech recognition device, speech recognition method, and speech recognition program
JP2012551857A JPWO2012093661A1 (ja) 2011-01-07 2012-01-05 音声認識装置、音声認識方法および音声認識プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011-002306 2011-01-07
JP2011002306 2011-01-07

Publications (1)

Publication Number Publication Date
WO2012093661A1 true WO2012093661A1 (ja) 2012-07-12

Family

ID=46457512

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/000044 Ceased WO2012093661A1 (ja) 2011-01-07 2012-01-05 音声認識装置、音声認識方法および音声認識プログラム

Country Status (3)

Country Link
US (1) US20130282374A1 (ja)
JP (1) JPWO2012093661A1 (ja)
WO (1) WO2012093661A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017211513A (ja) * 2016-05-26 2017-11-30 日本電信電話株式会社 音声認識装置、その方法、及びプログラム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9047562B2 (en) * 2010-01-06 2015-06-02 Nec Corporation Data processing device, information storage medium storing computer program therefor and data processing method
US20150058006A1 (en) * 2013-08-23 2015-02-26 Xerox Corporation Phonetic alignment for user-agent dialogue recognition

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07230293A (ja) * 1994-02-17 1995-08-29 Sony Corp 音声認識装置
JPH11194793A (ja) * 1997-12-26 1999-07-21 Nec Corp 音声ワープロ
JP2006235298A (ja) * 2005-02-25 2006-09-07 Mitsubishi Electric Corp 音声認識ネットワーク生成方法、音声認識装置及びそのプログラム
JP2006277676A (ja) * 2005-03-30 2006-10-12 Toshiba Corp 情報検索装置、情報検索方法および情報検索プログラム
JP2007057844A (ja) * 2005-08-24 2007-03-08 Fujitsu Ltd 音声認識システムおよび音声処理システム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07230293A (ja) * 1994-02-17 1995-08-29 Sony Corp 音声認識装置
JPH11194793A (ja) * 1997-12-26 1999-07-21 Nec Corp 音声ワープロ
JP2006235298A (ja) * 2005-02-25 2006-09-07 Mitsubishi Electric Corp 音声認識ネットワーク生成方法、音声認識装置及びそのプログラム
JP2006277676A (ja) * 2005-03-30 2006-10-12 Toshiba Corp 情報検索装置、情報検索方法および情報検索プログラム
JP2007057844A (ja) * 2005-08-24 2007-03-08 Fujitsu Ltd 音声認識システムおよび音声処理システム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIN'ICHI MURAKAMI: "Frame Synchronous Full Search Algorithm and Applied for Spontaneous Speech Recognition", IEICE TECHNICAL REPORT, vol. 95, no. 123, 23 June 1995 (1995-06-23), pages 57 - 64 *
KOTARO FUNAKOSHI ET AL.: "Tango no Imi Yakuwari o Mochiita Jiko Shufuku Hyogen no Shori", THE ASSOCIATION FOR NATURAL LANGUAGE PROCESSING NENJI TAIKAI HAPPYO RONBUNSHU, vol. 8, 18 March 2002 (2002-03-18), pages 655 - 658 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017211513A (ja) * 2016-05-26 2017-11-30 日本電信電話株式会社 音声認識装置、その方法、及びプログラム

Also Published As

Publication number Publication date
JPWO2012093661A1 (ja) 2014-06-09
US20130282374A1 (en) 2013-10-24

Similar Documents

Publication Publication Date Title
US9911413B1 (en) Neural latent variable model for spoken language understanding
US8972243B1 (en) Parse information encoding in a finite state transducer
JP4301102B2 (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
CN1160699C (zh) 语音识别系统
CN102013253B (zh) 基于语音单元语速的差异的语音识别方法及语音识别系统
Wester Pronunciation modeling for ASR–knowledge-based and data-derived methods
Lin et al. OOV detection by joint word/phone lattice alignment
Prabhavalkar et al. Less is more: Improved RNN-T decoding using limited label context and path merging
EP3734595A1 (en) Methods and systems for providing speech recognition systems based on speech recordings logs
Chang et al. Turn-taking prediction for natural conversational speech
Liu et al. Rnn-t based open-vocabulary keyword spotting in mandarin with multi-level detection
Yamasaki et al. Transcribing and aligning conversational speech: A hybrid pipeline applied to french conversations
KR101122591B1 (ko) 핵심어 인식에 의한 음성 인식 장치 및 방법
Catania et al. Automatic Speech Recognition: Do Emotions Matter?
WO2012093661A1 (ja) 音声認識装置、音声認識方法および音声認識プログラム
Mao et al. Integrating articulatory features into acoustic-phonemic model for mispronunciation detection and diagnosis in l2 english speech
WO2012093451A1 (ja) 音声認識システム、音声認識方法および音声認識プログラム
Kou et al. Fix it where it fails: Pronunciation learning by mining error corrections from speech logs
KR20050101695A (ko) 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법
Li et al. Improving entity recall in automatic speech recognition with neural embeddings
Kim et al. Improving end-to-end contextual speech recognition via a word-matching algorithm with backward search
Hwang et al. Building a highly accurate Mandarin speech recognizer with language-independent technologies and language-dependent modules
Anzai et al. Recognition of utterances with grammatical mistakes based on optimization of language model towards interactive CALL systems
Taguchi et al. Learning lexicons from spoken utterances based on statistical model selection
Breslin et al. Continuous asr for flexible incremental dialogue

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12732012

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2012551857

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 13977382

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12732012

Country of ref document: EP

Kind code of ref document: A1