[go: up one dir, main page]

JP2000222000A - Voice recognition device - Google Patents

Voice recognition device

Info

Publication number
JP2000222000A
JP2000222000A JP11021805A JP2180599A JP2000222000A JP 2000222000 A JP2000222000 A JP 2000222000A JP 11021805 A JP11021805 A JP 11021805A JP 2180599 A JP2180599 A JP 2180599A JP 2000222000 A JP2000222000 A JP 2000222000A
Authority
JP
Japan
Prior art keywords
microphone
voice
environmental noise
signal
switch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP11021805A
Other languages
Japanese (ja)
Inventor
Akira Yamada
山田  晃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP11021805A priority Critical patent/JP2000222000A/en
Publication of JP2000222000A publication Critical patent/JP2000222000A/en
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 適切なタイミングで環境ノイズを採取して、
正確な環境ノイズを得ることができる音声認識装置を提
供する。 【解決手段】 マイクロフォンと、前記マイクロフォン
を作動させるための操作部材と、前記操作部材の第1ス
トロークでオンする第1のスイッチ手段と、前記操作部
材の第1ストロークに続く第2ストロークでオンする第
2のスイッチ手段と、前記第2のスイッチ手段がオンさ
れたときに前記マイクロフォンに入力される信号成分か
ら前記第1のスイッチ手段がオンされたときに前記マイ
クロフォンに入力される信号成分を差し引く演算手段
と、前記演算手段の出力を用いて音声認識動作を実行す
る音声認識手段を有する。
(57) [Summary] [Problem] To collect environmental noise at appropriate timing,
Provided is a speech recognition device that can obtain accurate environmental noise. SOLUTION: A microphone, an operation member for operating the microphone, first switch means which is turned on by a first stroke of the operation member, and is turned on by a second stroke following the first stroke of the operation member. A second switch, and a signal component input to the microphone when the first switch is turned on is subtracted from a signal component input to the microphone when the second switch is turned on. A computing unit; and a speech recognition unit that performs a speech recognition operation using an output of the computing unit.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は音声を認識する音声
認識装置に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech recognition device for recognizing speech.

【0002】[0002]

【従来の技術】最近のカメラをはじめとする携帯用小型
精密機器や通信機器は高度に電子化され、小型なボディ
サイズにも関わらず非常に多くの機能を備えることが可
能となってきている。しかしながらそれに伴いこれらの
機能を操作するために電子ダイヤル、押し釦、スライド
スイッチ等の操作部材が数多く用いられ、操作方法が判
りづらくなるとともに、限られたカ機器のサイズでは配
置できる操作部材の数には限りがあるため、時には複数
の操作部材を同時に押したり、順次階層的に操作すると
いった複雑で、面倒な操作となってしまっていた。たと
えば小型精密機器の代表であるカメラにおいては従来の
操作方式では複雑で面倒なだけではなく、迅速性が要求
される撮影条件下においてカメラを構えながら操作を行
なうことは困難であるという操作性と速写性との両面で
問題があった。
2. Description of the Related Art In recent years, portable small precision devices and communication devices such as cameras have been highly digitized, and it has become possible to provide a great number of functions in spite of their small body size. . However, a large number of operating members such as electronic dials, push buttons, and slide switches are used to operate these functions, which makes it difficult to understand the operating method, and the number of operating members that can be arranged in a limited size of equipment. Due to limitations, sometimes complicated operations are complicated, such as pressing a plurality of operation members at the same time or operating sequentially in a hierarchical manner. For example, in the case of a camera that is a representative of small precision equipment, the conventional operation method is not only complicated and troublesome, but also it is difficult to operate while holding the camera under shooting conditions that require quickness. There was a problem in both the quick shooting performance.

【0003】以上のような問題点を解決するために特開
昭64-56428号公報ではカメラの機能を制御する制御機構
において、音声を入力する音声入力手段と、入力された
音声を認識する音声認識手段と、認識結果に対応する制
御内容に基づいてカメラの機能を制御する制御手段を有
する音声入力カメラが提案されている。これによって音
声によって絞り、シャッター速度、動作モード等のカメ
ラの機能を自由に設定できる操作性、連写性の優れたカ
メラを提供しようというものである。
In order to solve the above problems, Japanese Patent Laid-Open Publication No. Sho 64-56428 discloses a control mechanism for controlling the function of a camera, in which a voice input means for inputting voice and a voice for recognizing the input voice are provided. There has been proposed a voice input camera including a recognition unit and a control unit that controls a function of the camera based on control content corresponding to a recognition result. Accordingly, it is an object of the present invention to provide a camera excellent in operability and continuous shooting in which functions of the camera such as an aperture, a shutter speed, and an operation mode can be freely set by voice.

【0004】[0004]

【発明が解決しようとする課題】しかしなから、特開昭
64-56428号公報に開示される音声入力機能を備えた携帯
用小型精密機器や通信機器(以下音声入力機器と略す)
は操作が簡便になる反面、その認識度が正確であること
を要求されるため、機器の操作においていかに精度よく
音声を取り込み、正確に認識を行わせることが出来るか
が音声入力機器を実現する上での課題となっていた。特
にこれらの音声入力機器は室内屋外を問わずいろいろな
環境下で使用されるため、それぞれの騒音環境下でも正
確に操作者の音声を認識することがもっとも重要な課題
となっていた。
SUMMARY OF THE INVENTION
Portable small precision equipment and communication equipment having a voice input function disclosed in Japanese Patent Publication No. 64-56428 (hereinafter abbreviated as voice input equipment)
Although the operation is simple, it is required that the degree of recognition is accurate. Therefore, how accurately the voice can be captured in the operation of the device and the recognition can be accurately performed realizes the voice input device. The above was a challenge. In particular, since these voice input devices are used in various environments both indoors and outdoors, it has been the most important issue to accurately recognize the voice of the operator even in each noise environment.

【0005】また、従来においても騒音環境下でも認識
率を高めたいくつかの認識方法が提案されたりしてい
る。たとえば操作者が発生する音声のある領域とない領
域とをある音声レベルのしきい値で分離し、ない領域を
ノイズ成分とし、操作者が発声した音声成分からこのノ
イズ成分を差し引き、それから音声の特徴量を求め、あ
らかじめ登録してあるパターンとと間でマッチング処理
を行う音声認識方法が取られている。しかしながら、正
確にはノイズ成分だけを分離することはできず結果的に
音声認識が不正確になり、操作者に意識させず正確に雑
音だけを取り出すことが必要となっていた。
[0005] In addition, some recognition methods have been proposed in the past, which have improved recognition rates even in a noisy environment. For example, a region where a voice is generated by an operator and a region where the voice is not generated are separated by a threshold of a certain voice level, a non-voice region is set as a noise component, and this noise component is subtracted from a voice component uttered by the operator. A voice recognition method has been adopted in which a feature amount is obtained, and a matching process is performed with a pattern registered in advance. However, it was not possible to accurately separate only the noise component, resulting in inaccurate speech recognition, and it was necessary to accurately extract only the noise without making the operator aware.

【0006】さらに、音声入力用のマイクロホン以外に
環境音を採集するためのマイクロホンを別に持つ音声入
力システムも提案されているが、携帯用小型精密機器や
通信機器においては形状が大きくなり現実的ではない。
Further, a voice input system having a microphone for collecting environmental sounds in addition to a voice input microphone has been proposed. However, in a portable small precision device or a communication device, the shape becomes large and it is not practical. Absent.

【0007】本発明は上記の問題点に鑑みなされたもの
で、第1の目的は適切なタイミングで環境ノイズを採取
することで、環境ノイズを正確に採取することができる
音声認識装置を提供することにある。
SUMMARY OF THE INVENTION The present invention has been made in view of the above problems, and a first object of the present invention is to provide a speech recognition apparatus capable of accurately collecting environmental noise by collecting environmental noise at an appropriate timing. It is in.

【0008】第2の目的は音声認識装置自体が環境ノイ
ズの採取が必要かどうかを判断し、必要である場合に
は、自動的に環境ノイズを採取する音声認識装置を提供
することにある。
It is a second object of the present invention to provide a speech recognition apparatus which determines whether or not it is necessary for the speech recognition apparatus itself to collect environmental noise and, if necessary, automatically collects environmental noise.

【0009】[0009]

【課題を解決するための手段】請求項1に記載した発明
は、マイクロフォンと、前記マイクロフォンを作動させ
るための操作部材と、前記操作部材の第1ストロークで
オンする第1のスイッチ手段と、前記操作部材の第1ス
トロークに続く第2ストロークでオンする第2のスイッ
チ手段と、前記第2のスイッチ手段がオンされたときに
前記マイクロフォンに入力される信号成分から前記第1
のスイッチ手段がオンされたときに前記マイクロフォン
に入力される信号成分を差し引く演算手段と、前記演算
手段の出力を用いて音声認識動作を実行する音声認識手
段を有することを特徴としている。
According to a first aspect of the present invention, there is provided a microphone, an operation member for operating the microphone, first switch means for turning on the first stroke of the operation member, Second switch means that is turned on in a second stroke following the first stroke of the operating member; and the first component is obtained from a signal component input to the microphone when the second switch means is turned on.
And a voice recognition means for performing a voice recognition operation using an output of the calculation means when the switch means is turned on.

【0010】請求項2に記載した発明は、マイクロフォ
ンと、使用者の眼が所定の位置にある場合に、前記マイ
クロフォンを作動させる第1のスイッチ手段と、前記使
用者が所定の操作部材を操作した場合に、前記マイクロ
フォンを作動させる第2のスイッチ手段と、前記第2の
スイッチ手段がオンされたときに前記マイクロフォンに
入力される信号成分から前記第1のスイッチ手段がオン
されたときに前記マイクロフォンに入力される信号成分
を差し引く演算手段と、前記演算手段の出力を用いて音
声認識動作を実行する音声認識手段を有することを特徴
としている。
According to a second aspect of the present invention, a microphone, first switch means for operating the microphone when a user's eye is at a predetermined position, and the user operates a predetermined operation member In this case, the second switch means for operating the microphone, and the second switch means when the first switch means is turned on based on a signal component inputted to the microphone when the second switch means is turned on. It is characterized by having arithmetic means for subtracting a signal component inputted to the microphone, and speech recognition means for executing a speech recognition operation using the output of the arithmetic means.

【0011】請求項3に記載した発明は、マイクロフォ
ンと、使用者の体の部位が所定の位置にある場合に、前
記マイクロフォンを作動させる第1のスイッチ手段と、
前記使用者が所定の操作部材を操作した場合に、前記マ
イクロフォンを作動させる第2のスイッチ手段と、前記
第2のスイッチ手段がオンされたときに前記マイクロフ
ォンに入力される信号成分から前記第1のスイッチ手段
がオンされたときに前記マイクロフォンに入力される信
号成分を差し引く演算手段と、前記演算手段の出力を用
いて音声認識動作を実行する音声認識手段を有すること
を特徴としている。
According to a third aspect of the present invention, there is provided a microphone, and first switch means for operating the microphone when a part of a user's body is at a predetermined position;
A second switch for operating the microphone when the user operates a predetermined operation member; and a first component based on a signal component input to the microphone when the second switch is turned on. And a voice recognition means for performing a voice recognition operation using an output of the calculation means when the switch means is turned on.

【0012】請求項4に記載した発明は、マイクロフォ
ンと、前記マイクロフォンを作動させる第1のスイッチ
手段と、前記マイクロフォンを作動させる第2のスイッ
チ手段と、前記第2のスイッチ手段がオンされたときに
前記マイクロフォンに入力される信号成分から前記第1
のスイッチ手段がオンされたときに前記マイクロフォン
に入力される信号成分を差し引く演算手段と、前記演算
手段の出力を用いて音声認識動作を実行する音声認識手
段を有することを特徴としている。
According to a fourth aspect of the present invention, a microphone, first switch means for operating the microphone, second switch means for operating the microphone, and when the second switch means is turned on. From the signal component input to the microphone to the first
And a voice recognition means for performing a voice recognition operation using an output of the calculation means when the switch means is turned on.

【0013】請求項5に記載した発明は、環境ノイズ信
号を検出し、入力される音声信号から前記環境ノイズ信
号を差し引いた信号を用いて音声認識動作を行う音声認
識装置において、前記音声認識装置を使用する空間を撮
像する撮像手段と、前記撮像手段により撮像された画像
が変化したときに、環境ノイズ信号を検出する環境ノイ
ズ検出手段とを有することを特徴としている。
According to a fifth aspect of the present invention, in the voice recognition apparatus for detecting an environmental noise signal and performing a voice recognition operation using a signal obtained by subtracting the environmental noise signal from an input voice signal, And an environmental noise detecting means for detecting an environmental noise signal when an image captured by the image capturing means changes.

【0014】請求項6に記載した発明は、環境ノイズ信
号を検出し、入力される音声信号から前記環境ノイズ信
号を差し引いた信号を用いて音声認識動作を行う音声認
識装置において、前記音声認識装置を使用する空間を撮
像する撮像手段と、前記撮像手段により撮像された画像
の輝度が所定値以上変化したときに、環境ノイズ信号を
検出する環境ノイズ検出手段とを有することを特徴とし
ている。
According to a sixth aspect of the present invention, in the voice recognition apparatus for detecting an environmental noise signal and performing a voice recognition operation using a signal obtained by subtracting the environmental noise signal from an input voice signal, And an environmental noise detecting means for detecting an environmental noise signal when the luminance of the image captured by the image capturing means changes by a predetermined value or more.

【0015】請求項7に記載した発明は、環境ノイズ信
号を検出し、入力される音声信号から前記環境ノイズ信
号を差し引いた信号を用いて音声認識動作を行う音声認
識装置において、前記音声認識装置を使用する空間を撮
像する撮像手段と、前記撮像手段により撮像された画像
のデフォーカス量が所定値以上変化したときに、環境ノ
イズ信号を検出する環境ノイズ検出手段とを有すること
を特徴としている。
According to a seventh aspect of the present invention, in the voice recognition apparatus for detecting an environmental noise signal and performing a voice recognition operation using a signal obtained by subtracting the environmental noise signal from an input voice signal, And an environmental noise detecting means for detecting an environmental noise signal when a defocus amount of an image captured by the image capturing means changes by a predetermined value or more. .

【0016】請求項8に記載した発明は、環境ノイズ信
号を検出し、入力される音声信号から前記環境ノイズ信
号を差し引いた信号を参照音声パターンと比較すること
で音声認識動作を行う音声認識装置において、前記信号
と前記参照パターンとの差に基づいて音声認識度の信頼
性を判断する信頼性判断手段と、前記信頼性判断手段に
より音声認識度の信頼性が低いと判断される場合には、
環境ノイズ信号を検出する環境ノイズ検出手段とを有す
ることを特徴としている。
According to the present invention, there is provided a speech recognition apparatus for performing a speech recognition operation by detecting an environmental noise signal and comparing a signal obtained by subtracting the environmental noise signal from an input audio signal with a reference audio pattern. In the case where the reliability determination means for determining the reliability of the speech recognition degree based on the difference between the signal and the reference pattern, and the reliability determination means determines that the reliability of the speech recognition degree is low ,
Environmental noise detection means for detecting an environmental noise signal.

【0017】[0017]

【発明の実施の形態】(第1の実施形態)以下、本発明
の実施の形態を詳細に説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS (First Embodiment) Hereinafter, embodiments of the present invention will be described in detail.

【0018】図1(A)、(B)、(C)は本発明を携帯
用小型精密機械の一つである一眼レフカメラに適用した
際の実施形態を示す音声入力機能を備えた一眼レフカメ
ラの上面と背面と側面の概要図である。
FIGS. 1A, 1B and 1C show a single-lens reflex camera having an audio input function showing an embodiment when the present invention is applied to a single-lens reflex camera which is one of portable small precision machines. It is a schematic diagram of the upper surface, the back surface, and the side surface of the camera.

【0019】図1において1はカメラ本体、2はレリーズ
釦、3は公知のプログラムAE,シャッター優先AE,絞り優
先AE,被写界深度優先AE,等のAEモードを設定するAEモー
ド設定釦、4は公知のワンショットAF,サーボAF等のAF動
作モードを設定するAFモード設定釦、5は公知の評価測
光,平均測光,部分測光,スポット測光等の測光方式を設
定する測光モード設定釦、6は一般的に電子ダイヤルと
いわれる入力スイッチで、回転するとタイミングの異な
る二つのクリックパルスを発生させることによって前記
3から5で示される設定釦を押してモード設定状態にした
際に、各モードを後述するモニター用LCDに順次表示し
て選択させるものである。
In FIG. 1, 1 is a camera body, 2 is a release button, 3 is an AE mode setting button for setting an AE mode such as a well-known program AE, shutter priority AE, aperture priority AE, depth of field priority AE, etc. 4 is a known one-shot AF, AF mode setting button for setting an AF operation mode such as servo AF, 5 is a known evaluative metering, average metering, partial metering, spot metering, etc. Reference numeral 6 denotes an input switch generally called an electronic dial, which generates two click pulses having different timings when rotated.
When the setting buttons 3 to 5 are pressed to enter the mode setting state, each mode is sequentially displayed and selected on a monitor LCD described later.

【0020】9は外部モニター表示装置としてのモニタ
ー用LCDであり、予め決められたパターンを表示する固
定セグメント表示部9aと可変数値表示用の7セグメント
表示部9bからなっている。10はカメラの背蓋で本実施
形態の構成の中心である音声認識部を備えている。
Reference numeral 9 denotes a monitor LCD as an external monitor display device, which comprises a fixed segment display section 9a for displaying a predetermined pattern and a 7-segment display section 9b for displaying a variable numerical value. Reference numeral 10 denotes a camera back cover having a voice recognition unit which is the center of the configuration of the present embodiment.

【0021】11は撮影者が発声する音声を入力する際の
トリガースイッチとなる音声入力釦で、電子ダイヤル6
と同じような構成で背蓋10にも設けられたAE撮影時に
は露出補正段数の設定に用いられるサブ電子ダイヤル12
の回転中心部に設けられている。
Reference numeral 11 denotes a voice input button which is a trigger switch for inputting a voice uttered by the photographer.
The sub electronic dial 12 used for setting the number of exposure correction steps when performing AE photographing also provided on the back lid 10 in the same configuration as
Are provided at the center of rotation.

【0022】図2は音声入力釦11のスイッチ部の構成を
示す局部断面図である。このスイッチは押下方向におい
て2段のストロークを持ち2回路をON・OFFする公知の2段
スイッチになっている。キートップ11aを押すとその第
1ストロークでまずその下にあるお椀状の接点バネ21の
外周部22bがまず凹み、スイッチ基板22に設けたGNDパタ
ーン22cと後述するSW-NOISEのパターン22bを導通さ
せ、SW-NOISEがONする。
FIG. 2 is a local sectional view showing the configuration of the switch section of the voice input button 11. As shown in FIG. This switch is a known two-stage switch that has two strokes in the pressing direction and turns on and off two circuits. When the key top 11a is pressed, the outer peripheral portion 22b of the bowl-shaped contact spring 21 thereunder is first dented by the first stroke, and the GND pattern 22c provided on the switch board 22 and the SW-NOISE pattern 22b described later are conducted. And SW-NOISE turns on.

【0023】さらにキートップ11aを押し下げると、そ
の第2ストロークで接点バネ21の中央部22aが凹み、ス
イッチ基板22に設けたGNDパターン22cと後述するSW-VO
ICEのパターン2aを導通させ、SW-VOICEがONする。なお
第1ストロークのばね圧は第2ストロークに対して5〜7
倍程度に後者を重くしておき、かつ第1ストロークは軽
く指を乗せただけでオンする数10g程度に設定するのが
適当である。つまりSW-NOISEは無意識のうちにオンし、
SW-VOICEはかなり意識して押さないとオンしないように
なっている。
When the key top 11a is further depressed, the central portion 22a of the contact spring 21 is depressed by the second stroke, and the GND pattern 22c provided on the switch board 22 and the SW-VO to be described later are pressed.
The pattern 2a of the ICE is made conductive, and the SW-VOICE is turned on. The spring pressure of the first stroke is 5-7 for the second stroke.
It is appropriate that the latter is made about twice as heavy and the first stroke is set to about several tens g, which is turned on only by putting a finger lightly. In other words, SW-NOISE turns on unconsciously,
SW-VOICE does not turn on unless you push it quite consciously.

【0024】図1に戻り、13は音声入力機能をOFFす
るポジション、音声認識動作を行う音声認識モード及び
撮影者の音声を予め登録しておくための音声登録モード
の3ポジションを選択する音声モードスイッチ、14は背
蓋10に開けた穴から音声を発生するように構成された小
型のマイクロスピーカー、15は撮影者の音声を取り込む
エレクトレットタイプの小型コンデンサーマイクロフォ
ンである。
Returning to FIG. 1, reference numeral 13 denotes a voice mode for selecting three positions: a position for turning off a voice input function, a voice recognition mode for performing a voice recognition operation, and a voice registration mode for pre-registering a voice of a photographer. A switch 14 is a small micro speaker configured to generate sound from a hole formed in the back cover 10, and 15 is a small electret condenser microphone that captures a photographer's voice.

【0025】図3は上記構成の一眼レフカメラに内蔵さ
れた電気的構成を示すブロック図で、図1と同一のもの
は同じ符号を付している。なお図中、二点鎖(A)で囲
まれるブロック図はカメラ本体1に内蔵されているカメ
ラ機能部を、二点鎖線(B)で囲まれるブロック図は背
蓋10に内蔵されている音声認識部を示している。まず2
点鎖線で囲まれる、カメラ本体1に内蔵されているカメ
ラ機能部を示すブロック図内の構成について説明する。
FIG. 3 is a block diagram showing an electrical configuration incorporated in the single-lens reflex camera having the above-described configuration. The same components as those in FIG. 1 are denoted by the same reference numerals. In the drawing, a block diagram surrounded by a two-dot chain (A) shows a camera function unit built in the camera body 1, and a block diagram surrounded by a two-dot chain line (B) shows a voice built in the back cover 10. 4 shows a recognition unit. First two
The configuration in the block diagram showing the camera function unit built in the camera body 1 and surrounded by a chain line will be described.

【0026】カメラ本体1に内蔵されたマイクロコンピ
ューターである中央処理装置(以下メインCPUと記
す)101には自動焦点検出回路102、焦点調節回路103、
測光回路104、シャッター制御回路105、絞り制御回路10
6、モーター制御回路107が接続されている。このメイン
CPU101はまずレリーズ釦2の第1ストロークが押される
と図示しない撮影レンズの焦点状態を検出し、その状態
に基づいて撮影レンズの焦点調整機構を駆動するいわゆ
るAF動作を行わせることから始めて、撮影される被写体
の輝度を測光し、その測光値に基づいて露出値を決定す
る。
A central processing unit (hereinafter, referred to as a main CPU) 101, which is a microcomputer built in the camera body 1, includes an automatic focus detection circuit 102, a focus adjustment circuit 103,
Photometry circuit 104, shutter control circuit 105, aperture control circuit 10
6. The motor control circuit 107 is connected. This main
When the first stroke of the release button 2 is pressed, the CPU 101 detects a focus state of a photographic lens (not shown) and performs a so-called AF operation for driving a focus adjustment mechanism of the photographic lens based on the state. The brightness of the subject to be measured is measured, and the exposure value is determined based on the measured light value.

【0027】次にレリーズボタン2のさらなる第2スト
ロークへの押下によって所定のシャッター秒時と絞り値
でシャッターと撮影レンズの絞りを制御し、フィルムに
前記露出値に相当する露光量で露光させ、露光終了後に
フィルムを一駒巻き上げ、シャッターをチャージすると
いう一連のカメラのレリーズシーケンスを実行させるも
のである。
Next, by further pressing the release button 2 to the second stroke, the shutter and the aperture of the photographing lens are controlled at a predetermined shutter time and an aperture value, and the film is exposed at an exposure amount corresponding to the exposure value. After the exposure is completed, the film is wound up by one frame and the shutter is charged, thereby executing a series of camera release sequences.

【0028】SW−1はレリーズ釦2の第1ストロークでオ
ンし、AFと測光を開始させるスイッチ、SW-2はレリーズ
釦2の第2ストロークでオンするレリーズスイッチであ
る。SW-AEMDはAEモード設定釦3に連動するスイッチ、SW
-AFMDはAFモード設定釦4に連動するスイッチ、SW-MEMD
は測光モード設定釦5に連動するスイッチに連動するス
イッチである。
SW-1 is a switch that is turned on by the first stroke of the release button 2 to start AF and photometry, and SW-2 is a release switch that is turned on by the second stroke of the release button 2. SW-AEMD is a switch linked to AE mode setting button 3, SW
-AFMD is a switch linked to AF mode setting button 4, SW-MEMD
Is a switch linked to a switch linked to the photometry mode setting button 5.

【0029】SW-DIAL1とSW-DIAL2は電子ダイヤル8内に
設けられたダイヤルスイッチであり、信号入力回路107
のアップダウンカウンタに入力され、電子ダイヤル8の
回転クリック量をカウントする。以上のスイッチの状態
が信号入力回路107に入力され、データバスによってメ
インCPU101に送信される。108はLCDを表示駆動させる公
知の構成からなるLCD駆動回路で、メインCPU101からの
信号に従い、絞り値、シャッター秒時、撮影モード、フ
ィルム枚数等をモニター用LCD9に表示するとともに、絞
り値とシャッター秒時はファインダー内LCD109にも表示
させる。
SW-DIAL1 and SW-DIAL2 are dial switches provided in the electronic dial 8, and the signal input circuit 107
Is input to the up / down counter of the electronic dial 8 to count the amount of rotation click of the electronic dial 8. The above switch states are input to the signal input circuit 107 and transmitted to the main CPU 101 via the data bus. Reference numeral 108 denotes an LCD drive circuit having a known configuration for driving the LCD to display an aperture value, a shutter time, a shooting mode, the number of films, and the like on the monitor LCD 9 in accordance with a signal from the main CPU 101. At the time of second, it is also displayed on the LCD 109 in the viewfinder.

【0030】110は主に音声認識処理をつかさどるマイ
クロプロセッサーで、マイクロフォン15から出力された
音声信号はプリアンプ111に入力され、所定ゲインで増
幅されA/D変換器113に送られ、デジタル音声信号に変換
されてマイクロプロセッサー110に送られ、音声認識処
理が行われる。そして音声認識された結果や音声認識動
作状況はデータバスによってメインCPU101に送信され
る。なおマイクロプロセッサー110は音声認識に適した
音量が入力されるようにゲインコントロール112にフィ
ードバック制御がかかる、いわゆるオートゲインコント
ロール(AGC)を行わせる。
Reference numeral 110 denotes a microprocessor that mainly performs voice recognition processing. A voice signal output from the microphone 15 is input to a preamplifier 111, amplified at a predetermined gain, sent to an A / D converter 113, and converted into a digital voice signal. The data is converted and sent to the microprocessor 110, where voice recognition processing is performed. The result of the voice recognition and the voice recognition operation status are transmitted to the main CPU 101 via the data bus. Note that the microprocessor 110 causes the gain control 112 to perform feedback control, that is, so-called automatic gain control (AGC) so that a volume suitable for voice recognition is input.

【0031】114は予め撮影者の音声や環境ノイズの音
響的特徴パラメータをメモリーするため、及び音声認識
処理を行うワーキングメモリーとして設けられたRAM、1
15はカメラから発声させる音声データを予め記憶させて
おくROMであり、両者ともメモリーコントローラー116を
介してマイクロプロセッサー110に接続されている。117
はD/A変換器で、ROM115に記憶された音声データをマイ
クロプロセッサー110がメモリーコントローラ116を介し
て呼び出し、この音声データをアナログ音声信号に変換
する。さらにパワーアンプ118で適当な音量になるよう
に増幅され、スピーカー14から記憶された音声が発声さ
れる。SW-VMDは音声モードスイッチ13と連動する3ポジ
ションスイッチ。SW-NOISEは音声入力釦11の第1ストロ
ークでONするノイズ入力スイッチ、SW-VOICEは音声入
力釦11の第2ストロークでONする音声入力スイッチで
ある。
Reference numeral 114 denotes a RAM provided as a working memory for previously storing a photographer's voice and acoustic feature parameters of environmental noise, and as a working memory for performing voice recognition processing.
Reference numeral 15 denotes a ROM in which voice data to be uttered from the camera is stored in advance, and both are connected to the microprocessor 110 via the memory controller 116. 117
Is a D / A converter. The microprocessor 110 calls up audio data stored in the ROM 115 via the memory controller 116, and converts the audio data into an analog audio signal. The sound is further amplified by the power amplifier 118 so as to have an appropriate volume, and the sound stored from the speaker 14 is uttered. SW-VMD is a three-position switch that works with the audio mode switch 13. SW-NOISE is a noise input switch that is turned on by the first stroke of the voice input button 11, and SW-VOICE is a voice input switch that is turned on by the second stroke of the voice input button 11.

【0032】一般的に音声認識装置は話者を限定する特
定話者用と話者を限定しない、誰の声でも認識する不特
定話者用とに分類される。特定話者用は使用する特定の
話者に認識系を設定することが出来るため、システムの
負荷が軽くなるとともに高い認識率が期待でき、また言
語にも依存されにくい特性を持っている。
In general, speech recognition devices are classified into those for specific speakers that limit the speakers and those for unspecified speakers that can recognize any voice without limiting the speakers. For a specific speaker, since a recognition system can be set for a specific speaker to be used, the load on the system can be reduced, a high recognition rate can be expected, and the language is less dependent on language.

【0033】しかし認識する語彙を予め発声させ、登録
しておくという操作を使用者に強いるという絶対的な不
便さは避けられない。一方不特定話者用は話者を選ば
ず、すぐに音声認識を動作させることが出来る簡便性は
あるが、認識精度を上げるためには演算装置、メモリー
とも大規模なシステムが必要となってくる。
However, the absolute inconvenience of forcing the user to utter a vocabulary to be recognized and register it in advance is inevitable. On the other hand, for unspecified speakers, it is easy to operate voice recognition immediately, regardless of the speaker.However, in order to improve recognition accuracy, a large-scale system is required for both the arithmetic unit and the memory. come.

【0034】ところでカメラの様な携帯用小型精密機器
というアプリケーションから見ると音声入力を行ないた
い機能はそれほど多くはなく(せいぜい100語彙に収ま
る程度)、また使用者はほとんどの場合一個人に限定さ
れるという特性と小型で低コストであることが絶対条件
であることを考慮すると特定話者でかつ特定語彙を対象
とする音声認識装置が適しているといえる。このような
背景から本発明における音声入力機能を備えた装置の特
徴も特定話者仕様に適したものである。
By the way, from the point of view of an application such as a camera and a portable small precision device, there are not so many functions for which voice input is desired (approximately 100 vocabulary), and in most cases the user is limited to one individual. Considering the above characteristics and the absolute condition that small size and low cost are absolute conditions, it can be said that a speech recognition device that is a specific speaker and targets a specific vocabulary is suitable. Against this background, the features of the apparatus having the voice input function according to the present invention are also suitable for the specific speaker specification.

【0035】図4はマイクロプロセッサー110を中心と
した音声認識装置で行われる音声認識処理のブロック図
である。マイクロプロセッサー110にディジタル化され
た音声信号が入力されるとスペクトル分析部201は音声
の特徴量を検出するために時系列に一定区間を切り出す
フレーム処理を行い、フーリエ変換によるスペクトル分
析して、その入力スペクトルを求める。雑音除去部202
はRAM114内のノイズパターン記録部203にあらかじめ記
憶されていたノイズスペクトルを読み出し、入力スペク
トルに対してノイズスペクトルを差し引くことによって
認識すべき音声スペクトルを求める、いわゆるスペクト
ルサブトラクション処理を行う。
FIG. 4 is a block diagram of a speech recognition process performed by a speech recognition device centered on the microprocessor 110. When the digitized audio signal is input to the microprocessor 110, the spectrum analysis unit 201 performs frame processing to cut out a certain section in a time series in order to detect a feature amount of the audio, and performs spectrum analysis by Fourier transform. Find the input spectrum. Noise removal unit 202
Performs a so-called spectrum subtraction process of reading a noise spectrum stored in the noise pattern recording unit 203 in the RAM 114 in advance and obtaining a speech spectrum to be recognized by subtracting the noise spectrum from the input spectrum.

【0036】スペクトルサブトラクション方式について
はBoll,IEEE Trans.Vol.Assp-27, No2, April 1979をは
じめとしてそのアルゴリズムについては多くの研究発表
がなされている。
Many studies have been published on the algorithm of the spectral subtraction method, including Boll, IEEE Trans. Vol. Assp-27, No. 2, April 1979.

【0037】特徴量抽出部204は入力された音声スペク
トルの特徴量をフレーム単位で算出する。これには所定
の帯域ごとの音声のパワーや線形予測係数(LPC)、ケ
プストラム係数などの音声の特徴ベクトルを抽出するよ
うに構成されている。
The feature quantity extraction unit 204 calculates the feature quantity of the input speech spectrum in frame units. This is configured to extract speech feature vectors such as speech power, linear prediction coefficients (LPC), and cepstrum coefficients for each predetermined band.

【0038】RAM114内の参照音声パターン記憶部206は
あらかじめ同じ音声分析系で特徴ベクトルを抽出して登
録されていた参照音声パターン(特徴ベクトル系列)を
格納しており、認識(照合)部205はこの参照音声パタ
ーンと認識すべき音声の特徴ベクトルとのマッチング処
理行う。マッチング計算は参照音声パターンベクトルと
認識すべき音声パターンベクトルとの距離計算として行
われる。
The reference voice pattern storage unit 206 in the RAM 114 stores a reference voice pattern (feature vector sequence) registered in advance by extracting a feature vector by the same voice analysis system. A matching process is performed between the reference voice pattern and the feature vector of the voice to be recognized. The matching calculation is performed as a distance calculation between the reference voice pattern vector and the voice pattern vector to be recognized.

【0039】この計算アルゴリズムは特徴抽出部の特徴
量に基づきたとえばDP(ダイナミックプログラミング)
マッチング法やHMM(隠れマルコフ)法などの所定の音
声認識アルゴリズムにしたがって照合処理を行う。次の
判定部207にて登録された各参照音声パターンとの距離
の中で最小なものが認識された単語として判定され、認
識結果として出力される。
This calculation algorithm is based on the feature amount of the feature extraction unit, for example, DP (dynamic programming).
The matching process is performed according to a predetermined speech recognition algorithm such as a matching method or an HMM (Hidden Markov) method. The next determination unit 207 determines that the word with the smallest distance from each registered reference voice pattern is recognized as a recognized word, and outputs the word as a recognition result.

【0040】次に本発明の特徴である環境ノイズを考慮
した音声認識装置の具体的な動作について説明する。図
5は音声モードスイッチ13が登録のポジションに有り、
予め撮影者の音声を登録する「登録モード」での動作を
説明するフローチャートである。
Next, a specific operation of the speech recognition apparatus in consideration of environmental noise which is a feature of the present invention will be described. FIG. 5 shows that the voice mode switch 13 is in the registered position,
9 is a flowchart illustrating an operation in a “registration mode” in which a photographer's voice is registered in advance.

【0041】音声モードスイッチ13が登録のポジション
にあり、VMD-SWが登録側にONしていると301にて「登録
モード」に入る。すると302にての各モード設定釦の何
れかが押されているか、すなわちAEMD-SW,AFMD-SW ,MEM
D-SWがONしているかを検知する。いずれのスイッチもOF
FしていればONするまでこの検出を繰り返す。いずれか
がONしていれば303に進み、モードタイマーがスタート
する。次に304にてモード設定状態の表示をモニター用L
CD9に表示させるとともに撮影者が電子ダイヤル8を回転
することによって所望のモードを選択可能とする(30
5)。
When the voice mode switch 13 is at the registration position and the VMD-SW is ON at the registration side, the process enters the "registration mode" at 301. Then, whether any of the mode setting buttons in 302 is pressed, that is, AEMD-SW, AFMD-SW, MEM
Detects whether D-SW is ON. Both switches are OF
If F is performed, this detection is repeated until it is turned ON. If any of them is ON, the process proceeds to 303, and the mode timer starts. Next, at 304, display the mode setting status for monitor L
The desired mode can be selected by displaying the image on the CD 9 and rotating the electronic dial 8 by the photographer (30).
Five).

【0042】この状態の一例を図6で説明する。図6は
測光モード設定釦5が押されたときの固定表示部9aでの
表示状態を示すもので電子ダイヤル8の右回転、左回転
で図示するように評価測光、部分測光、スポット測光、
平均測光を順次選択し、測光モードを設定できる。AE
モード設定、AFモード設定においても同様に設定でき
る。
An example of this state will be described with reference to FIG. FIG. 6 shows a display state on the fixed display unit 9a when the photometry mode setting button 5 is pressed. As shown in FIG. 6, when the electronic dial 8 is rotated clockwise and counterclockwise, evaluation photometry, partial photometry, spot photometry,
Average photometry can be sequentially selected and the photometry mode can be set. AE
The same can be set in the mode setting and the AF mode setting.

【0043】このように何れかの撮影モードが選択され
ると次に306にて音声入力釦11の第1ストロークが押さ
れてSW-NOISEがONしているかをマイクロプロセッサー11
0が検出する。OFFしていれば307に進み、モードタイマー
が所定時間経過しているかを調べ経過していれば302に
戻る。経過していなければ304に戻りモード設定表示を
続ける。
When any one of the photographing modes is selected, the microprocessor 11 determines whether the first stroke of the voice input button 11 is pressed at 306 and the SW-NOISE is turned on.
0 is detected. If it is OFF, the process proceeds to step 307. If the mode timer has passed a predetermined time, the process returns to step 302. If not, the process returns to 304 and the mode setting display is continued.

【0044】306にてSW-NOISEがONしていればマイクロ
プロセッサー110は308に進み、ノイズ検出処理をスター
トする。つまりこれ以降の音響を環境ノイズとしてマイ
クロフォン15から取り込む。次にノイズ分析309に進
み、マイクロプロセッサー101のスペクトル分析部201で
取り込まれたデジタル音声信号に対して一定区間を切り
出すフレーム処理を行い、フーリエ変換によるスペクト
ル分析して、所定時間ノイズスペクトルを求める。
If SW-NOISE is ON at 306, the microprocessor 110 proceeds to 308 to start noise detection processing. That is, the sound after this is taken in from the microphone 15 as environmental noise. Next, the processing proceeds to noise analysis 309, in which the spectrum analysis unit 201 of the microprocessor 101 performs frame processing for cutting out a certain section of the digital audio signal, and performs spectrum analysis by Fourier transform to obtain a noise spectrum for a predetermined time.

【0045】次に310に進み、マイクロプロセッサー110
は求めたノイズスペクトルから記憶すべきノイズスペク
トルを推定する。これは例えば数フレーム分のスペクト
ルの平均スペクトルを計算するなどして推定する。次に
311に進み、推定されたノイズスペクトルをメモリーコ
ントローラ116を介してノイズパターン記録部203である
RAM114に記憶する。
Next, the process proceeds to 310, where the microprocessor 110
Estimates a noise spectrum to be stored from the obtained noise spectrum. This is estimated, for example, by calculating an average spectrum of spectra for several frames. next
Proceeding to 311, the estimated noise spectrum is stored in the noise pattern recording unit 203 via the memory controller 116.
It is stored in the RAM 114.

【0046】次に312にて音声入力釦11の第2ストロー
クが押されてSW-VOICEがONしているかを検出する。OFF
していれば306に戻り、ONしていれば313にてマイクロプ
ロセッサー110はノイズ検出処理を終了させる。従って3
06〜313までの間で環境ノイズが取得できたことにな
る。なおノイズパターンは所定時間経過で繰り返し検出
されるが、常に最新のノイズパターンに更新されて記憶
している。ノイズ検出終了とともにマイクロプロセッサ
ー110はメインCPU101からカメラのモードの設定内容を
読み込み、314にて撮影者の入力音声の検出をスタート
する。つまりこれ以降の音響を撮影者の音声としてマイ
クロフォン15から取り込む。
Next, at 312, it is detected whether the second stroke of the voice input button 11 is pressed and the SW-VOICE is turned on. OFF
If so, the process returns to 306, and if it has been turned on, the microprocessor 110 ends the noise detection process at 313. Therefore 3
This means that environmental noise was acquired between 06 and 313. The noise pattern is repeatedly detected after a lapse of a predetermined time, but is always updated to the latest noise pattern and stored. Upon completion of the noise detection, the microprocessor 110 reads the settings of the camera mode from the main CPU 101, and starts detecting the input voice of the photographer at 314. That is, the sound after this is taken in from the microphone 15 as the voice of the photographer.

【0047】ここで撮影者は表示されている選択モード
と認識させる入力音声を対応させて登録させるべく、モ
ード名を発声させる。例えば評価測光モード図6(a)
を選択していれば「ひょうか」、図6(b)部分測光モ
ードを選択していれば「ぶぶん」という具合に発声す
る。するとマイクロプロセッサー110は入力された音声
の音声スペクトル分析315に進み、スペクトル分析部201
で取り込まれたデジタル音声信号に対して一定区間を切
り出すフレーム処理を行い、フーリエ変換によるスペク
トル分析して、入力スペクトルを求める。
Here, the photographer utters the mode name so that the input voice to be recognized as the selected mode is registered in correspondence with the selected mode. For example, evaluation photometry mode Fig. 6 (a)
Is selected, and if the partial photometry mode is selected in FIG. Then, the microprocessor 110 proceeds to a voice spectrum analysis 315 of the input voice, and the spectrum analyzer 201
A frame processing for cutting out a predetermined section is performed on the digital audio signal captured in step (1), and spectrum analysis is performed by Fourier transform to obtain an input spectrum.

【0048】次に316に進み、マイクロプロセッサー110
は雑音除去部202にてこの入力スペクトルに対してノイ
ズパターン記録部203のRAM114から記憶されていたノイ
ズスペクトルを読み出し、入力スペクトルに対してノイ
ズスペクトルを差し引くことによって認識すべき音声ス
ペクトルを求めるノイズ除去を行う。
Next, proceeding to 316, the microprocessor 110
The noise elimination unit 202 reads the noise spectrum stored in the RAM 114 of the noise pattern recording unit 203 with respect to this input spectrum and subtracts the noise spectrum from the input spectrum to obtain a speech spectrum to be recognized. I do.

【0049】このノイズ除去演算の一例を図7を用いて
説明する。図7(1)〜(3)はいずれもある時間での周波数
とスペクトルの関係をそれぞれマイクから入力された音
声、あらかじめ記憶されているノイズ、およびノイズ除
去演算後の音声すなわち音声認識処理を行うべき音声に
ついてあらわしたものである。
An example of the noise removal operation will be described with reference to FIG. 7 (1) to 7 (3) show the relationship between the frequency and the spectrum at a certain time, the speech input from the microphone, the noise stored in advance, and the speech after the noise removal operation, that is, the speech recognition processing is performed. It is an expression of the sound to be played.

【0050】ある時間での入力音声のスペクトルパター
ンS1:S11,S12,…S1nは各周波数における周波数スペク
トルを示し、またノイズパターンのスペクトルパターン
N:N1,N2…Nnも入力音声のスペクトルパターンと同様に
示すものである。S1p、S2p、S3p…はそれぞれの時間軸
における入力音声の各周波数帯域でのパワースペクトル
を示し、Npもノイズの各周波数帯域でのパワースペクト
ルを示している。ここで時間軸S1におけるノイズ除去演
算後の結果をS1i'、入力音声のスペクトルパターンをS1
i、ノイズのスペクトルパターンをNiとするとノイズ除
去演算は次式のようにあらわされる。
The spectrum pattern S1 of the input voice at a certain time: S11, S12,... S1n indicates the frequency spectrum at each frequency.
N: N1, N2,... Nn are also shown in the same manner as the spectrum pattern of the input voice. S1p, S2p, S3p... Indicate the power spectrum in each frequency band of the input voice on each time axis, and Np indicates the power spectrum in each noise frequency band. Here, the result after the noise removal operation on the time axis S1 is S1i ′, and the spectral pattern of the input voice is S1i ′.
i, assuming that the noise spectrum pattern is Ni, the noise removal operation is expressed as the following equation.

【0051】S1i' =S1iー(S1p/Np)*Ni・・…(1) すなわち演算結果は入力音声に含まれるノイズをパワー
スペクトルの比でを乗じたもので推定し、入力音声に対
して引き算をしたものである。
S1i ′ = S1i− (S1p / Np) * Ni ··· (1) That is, the calculation result is estimated by multiplying the noise included in the input voice by the ratio of the power spectrum. It is the result of subtraction.

【0052】次に317に進み、マイクロプロセッサー110
は算出された音声スペクトルパターンにおける特徴量を
フレーム毎に特徴量抽出部204にて算出する。これには
所定の帯域ごとの音声のパワーや線形予測係数(LP
C)、ケプストラム係数などの音声の特徴ベクトルを抽
出するようになされている。例えば線形予測分析処理を
施すことによって線形予測係数を求め、さらにその線形
予測係数からケプストラム係数(LPCケプストラム)を
計算するようになされているものである。これによって
登録すべき音声パターンが生成される。
Next, the routine proceeds to 317, where the microprocessor 110
Is calculated by the feature amount extraction unit 204 for each frame in the calculated speech spectrum pattern. This includes speech power and linear prediction coefficients (LP
C), speech feature vectors such as cepstrum coefficients are extracted. For example, a linear prediction coefficient is obtained by performing a linear prediction analysis process, and a cepstrum coefficient (LPC cepstrum) is calculated from the linear prediction coefficient. As a result, a voice pattern to be registered is generated.

【0053】次に318に進み、音声パターンの信頼性判
定が行なわれる。つまり生成された音声パターンが参照
パターンとして登録するのに値するレベルに達している
かを判定する。信頼性が不十分であると判定されると31
9に進み、登録を不可でとし、再度登録動作を行なわせ
るために再入力を勧告する表示を行なう。これはモニタ
ー用LCD9に表示されている設定すべきモード表示部を点
滅させるとともにスピーカー14より「登録できません。
もう一度」と発声させ、撮影者に知らせるものである。
Next, the flow proceeds to 318, where the reliability of the voice pattern is determined. That is, it is determined whether the generated voice pattern has reached a level worth registering as a reference pattern. If the reliability is determined to be insufficient 31
Proceeding to 9, the registration is disabled, and a display recommending re-entry is made to perform the registration operation again. This flashes the mode display section to be set, which is displayed on the LCD 9 for the monitor, and "Cannot register" from the speaker 14.
Again "to inform the photographer.

【0054】そしてこの勧告表示を所定時間行なわせ、
モードタイマーをリセットした後、306に戻り、再度音声
入力SW1が押されるのを待つ。信頼性がOKと判断される
と320に進み、今までに出来ている音声パターンの数が
所定数nに達しているかを調べ、達していなければ321
に進み、319と同じくスピーカー14より「もう一度」と
音声で勧告する。勧告後モードタイマーをリセットし30
6へ戻る。所定数nに達していれば322に進み登録すべき
参照音声パターンを作成する。これはn個の音声パター
ンの平均値や中間値または信頼性が最大の音声パターン
等のいずれかから作成するものである。次に323へ進
み、RAM14の参照音声パターン記録部206に参照音声パタ
ーンとして記憶させ、登録動作が完了する。
Then, this recommendation display is performed for a predetermined time,
After resetting the mode timer, the process returns to 306, and waits for the voice input SW1 to be pressed again. If the reliability is determined to be OK, the process proceeds to 320, and it is checked whether the number of voice patterns made so far has reached a predetermined number n.
Then, as in 319, the speaker 14 recommends “again” by voice. Reset mode timer after advisory 30
Return to 6. If the number has reached the predetermined number n, the process proceeds to 322 to create a reference voice pattern to be registered. This is created from any one of the average value and intermediate value of the n voice patterns, the voice pattern with the highest reliability, and the like. Next, the process proceeds to 323, where the reference voice pattern is stored in the reference voice pattern recording unit 206 of the RAM 14, and the registration operation is completed.

【0055】次に音声入力を実際にカメラに行わせる
「音声認識モード」について説明する。図8はその動作
を説明するフローチャートである。マイクロプロッセッ
サー110は音声モードスイッチ13の状態を検知し、音声
モードスイッチ13が認識のポジションにあり、VMD-SWが
認識側にONしていると401「認識モード」であることを
メインCPU101に通信する。次に402にてカメラの他のス
イッチがONされているかの状態をメインCPU101、マイク
ロプロセッサー110ともに検知し、さらに403にて音声入
力釦11が押されてSW-NOISEがONしているかを検出する。
Next, a description will be given of a "voice recognition mode" in which a voice is actually input to the camera. FIG. 8 is a flowchart for explaining the operation. The microprocessor 110 detects the state of the voice mode switch 13, and notifies the main CPU 101 that the voice mode switch 13 is in the recognition position and that the VMD-SW is ON on the recognition side and that 401 is the recognition mode. connect. Next, at 402, the main CPU 101 and the microprocessor 110 detect whether the other switches of the camera are turned on, and at 403, detect whether the voice input button 11 is pressed and the SW-NOISE is turned on. I do.

【0056】OFFしていれば402に戻り、ONされていれば4
04に進み、ノイズ検出処理をスタートさせる。この404
以降413までのフローチャートの内容は408にてSW-VOICE
がOFFしていた場合は402に戻るシーケンスとなる点が異
なる以外は登録モードの308〜317と全く同じあり、ノイ
ズスペクトル分析処理、ノイズ除去処理、音声特徴量抽
出処理といった一連の音声認識処理を実行するため説明
を省略する。ただ、音声認識装置の動作は同じである
が、撮影者は408にて音声入力釦11の第2ストロークを
押した後には、登録したいモード名を発声するのではな
く、撮影者が予め登録されている語彙の何れか(選択し
たいモード名)を発声することになる。
If it is OFF, it returns to 402; if it is ON, it returns 4
Proceed to 04 to start noise detection processing. This 404
After that, the contents of the flowchart up to 413 are SW-VOICE at 408
Is the same as the registration mode 308 to 317 except that the sequence returns to 402 when is OFF, and performs a series of speech recognition processing such as noise spectrum analysis processing, noise removal processing, and speech feature extraction processing. The description is omitted because it is executed. However, the operation of the voice recognition device is the same, but after pressing the second stroke of the voice input button 11 at 408, the photographer does not speak the mode name to be registered, but the photographer is registered in advance. One of the vocabulary words (mode name to be selected) is uttered.

【0057】次の414では除去された音声スペクトルパ
ターンの特徴量を抽出して得られた認識すべき音声パタ
ーンと参照音声パターン記憶部206のRAM114に収納され
ている参照音声パターンとのマッチング処理を行う。マ
ッチング計算は前述のように特徴抽出部の特徴量に基づ
きDP(ダイナミックプログラミング)マッチング法やHM
M(隠れマルコフ)法などの所定の音声認識アルゴリズ
ムにしたがって参照音声パターンベクトルと音声パター
ンベクトルとの距離計算として行われる。次に415に進
み判定部207にて登録された各参照音声パターンとの距
離の中で最小なものが認識された単語として判定され、
認識結果として出力される。
In the next step 414, a matching process is performed between the voice pattern to be recognized, which is obtained by extracting the characteristic amount of the removed voice spectrum pattern, and the reference voice pattern stored in the RAM 114 of the reference voice pattern storage unit 206. Do. The matching calculation is based on the DP (Dynamic Programming) matching method and the HM
This is performed as a distance calculation between the reference voice pattern vector and the voice pattern vector according to a predetermined voice recognition algorithm such as the M (Hidden Markov) method. Next, proceeding to 415, the smallest one of the distances from the reference voice patterns registered by the determination unit 207 is determined as a recognized word,
Output as a recognition result.

【0058】次に416に進み、音声認識度の信頼性判定
が行なわれる。つまり入力された音声パターンと認識さ
れた参照音声パターンとの距離が所定の基準値よりも小
さいかを判断する。大きければ認識信頼性がないと判断
し、417に進み、再度入力動作を行うように「もう一
度」と音声でスピーカー14から勧告表示を行う。
Next, the process proceeds to 416, where the reliability of the speech recognition degree is determined. That is, it is determined whether or not the distance between the input voice pattern and the recognized reference voice pattern is smaller than a predetermined reference value. If it is larger, it is determined that there is no recognition reliability, the process proceeds to 417, and a recommendation display is performed from the speaker 14 as "again" so as to perform the input operation again.

【0059】また、あまりにも参照音声パターンとの距
離がかけ離れている場合、何回やっても信頼性が得られ
ない場合などは「登録をやり直して下さい」と音声で勧
告するようにしても良い。距離が小さければ認識信頼性
が充分と判断され、418に進み、マイクロプロセッサー1
10はメインCPU101に認識結果を送信すると、メインCPU1
01は認識結果に対応する撮影モードにカメラの設定を切
り換え、認識結果に対応するモード表示をモニターLCD1
09に表示する。それとともに419に進み、マイクロプロ
セッサー110はROM115に予め撮影モードに対応させて記
憶させておいた標準的な判りやすい音声を発生させ、撮
影者に撮影モードを知らせる。
If the reference voice pattern is too far away from the reference voice pattern, or if the reliability cannot be obtained no matter how many times, it is possible to make a voice recommendation to "re-register". . If the distance is small, the recognition reliability is judged to be sufficient, and the process proceeds to 418, where the microprocessor 1
10 sends the recognition result to the main CPU 101,
01 switches the camera settings to the shooting mode corresponding to the recognition result, and displays the mode display corresponding to the recognition result on the monitor LCD1.
Display at 09. At the same time, the process proceeds to 419, where the microprocessor 110 generates a standard easy-to-understand sound stored in the ROM 115 in advance corresponding to the shooting mode, and notifies the photographer of the shooting mode.

【0060】以上で一連の音声入力動作が終了し、撮影
者は音声にて変更した撮影モードでの撮影が可能とな
る。
Thus, a series of voice input operations is completed, and the photographer can shoot in the shooting mode changed by voice.

【0061】なお、本実施形態においては、音声入力ス
イッチ11を2段クリック式のタクトスイッチで構成した
が、これに限らず時間的にずれてONすることができる
2接点スイッチであればよく、例えば、SW-NOISEをキー
トップ上に適当な間隙を設けた電極を配置し、これに手
が触れると静電容量の変化によって接点をONさせるい
わゆる静電スイッチを用いてもよい。この場合は構成が
タクトスイッチに比べて複雑になるが、撮影者により意
識させることなく、環境ノイズを取得できるメリットが
ある。
In the present embodiment, the audio input switch 11 is constituted by a two-click click type tact switch, but the present invention is not limited to this, and the audio input switch 11 can be turned on with a time delay.
A two-contact switch may be used.For example, a so-called electrostatic switch that arranges an electrode with an appropriate gap on the key top and places a contact on the key top with a change in capacitance when the SW-NOISE is touched with a hand. May be used. In this case, the configuration is more complicated than the tact switch, but there is an advantage that environmental noise can be acquired without the photographer being conscious.

【0062】以上本発明の第1の実施形態によれば、音
声入力スイッチが押される第1ストロークと第2ストロ
ークとの間の時間差を利用して環境ノイズを取得するの
で、撮影者の音声が混じらない雑音成分だけを正確に採
取することができる。
As described above, according to the first embodiment of the present invention, the environmental noise is acquired by using the time difference between the first stroke and the second stroke in which the voice input switch is pressed. Only immiscible noise components can be accurately sampled.

【0063】また、環境ノイズの採取が実際の操作者の
音声入力の直前であるため、精度よく発生した音声時の
環境ノイズを採取することができる。
Since the environmental noise is collected immediately before the actual input of the voice by the operator, it is possible to accurately collect the environmental noise generated at the time of the voice.

【0064】また、撮影者から見ると音声入力スイッチ
を押すという一連の操作の中で環境ノイズの採取が行わ
れるので、撮影者は特別な操作や設定をすることなく、
無意識のうちに正確に環境ノイズを採取できるといった
効果がある。
Further, environmental noise is collected during a series of operations of pressing the voice input switch when viewed from the photographer, so that the photographer does not need to perform any special operation or setting.
There is an effect that environmental noise can be accurately and unconsciously collected.

【0065】(第2の実施形態)図9〜11は本発明の第
2の実施形態を示したもので、図9は第1の実施形態の
図1に相当する一眼レフカメラの概要図、図10は第1
の実施形態の図2に相当する電気的構成を示すブロック
図、図11は第1の実施形態の認識モードでの動作を示
すフローチャートである。
(Second Embodiment) FIGS. 9 to 11 show a second embodiment of the present invention. FIG. 9 is a schematic diagram of a single-lens reflex camera corresponding to FIG. 1 of the first embodiment. FIG. 10 shows the first
FIG. 11 is a block diagram showing an electrical configuration corresponding to FIG. 2 of the first embodiment, and FIG. 11 is a flowchart showing an operation in a recognition mode of the first embodiment.

【0066】図9において図1との違いは撮影者の目が
ファインダー部にあることを検知する公知の接眼検知機
構を備え、その構成要素である赤外光をファインダー周
辺から発光する赤外発光ダイオード部6とその赤外光の
撮影者からの反射光を受光するフォトトランジスター部
7が追加されていることである。
FIG. 9 differs from FIG. 1 in that it has a known eyepiece detection mechanism for detecting that the photographer's eyes are in the finder section, and emits infrared light, which is a component of the mechanism, from the periphery of the finder. Diode section 6 and phototransistor section that receives the reflected light of the infrared light from the photographer
7 is added.

【0067】また図10において図2との違いはSW-NOI
SEが不要となった代わりに接眼検知回路121と前述のIRE
D122及びフォトトランジスタ123からなる接眼検知手段1
20が追加されていることである。
In FIG. 10, the difference from FIG. 2 is that the SW-NOI
The eye detection circuit 121 and the IRE
Eyepiece detection means 1 composed of D122 and phototransistor 123
20 has been added.

【0068】このような構成において第2実施形態の音
声認識装置の動作を説明すると、図11において図8と
の違いはステップ403における「ノイズ入力スイッチ=
ON」の判定の代わりにステップ503「接眼検知」の判
定が入ったものである。この503においてメインCPU1
01は赤外光をファインダー周辺の赤外発光ダイオード部
6から赤外光を発光させ、その赤外光の撮影者からの反
射光をフォトトランジスター部7で受光させる。そして
所定の強度以上の反射光が検出されたら、撮影者がファ
インダーに接眼していると検知し、所定の強度以下の場
合は離眼しているものと判断するとともに接眼した場合
はその旨マイクロプロセッサー110に送信する。
The operation of the speech recognition apparatus according to the second embodiment in such a configuration will be described. The difference between FIG. 11 and FIG. 8 is that “noise input switch =
Instead of the determination of “ON”, the determination of step 503 “eye detection” is included. In this 503, the main CPU 1
01 is the infrared light emitting diode part around the finder
The infrared light is emitted from 6, and the reflected light from the photographer of the infrared light is received by the phototransistor unit 7. Then, if reflected light having a predetermined intensity or higher is detected, it is detected that the photographer is in eye contact with the viewfinder. Send to processor 110.

【0069】マイクロプロセッサー110はこの通信を受
けてOFFしていれば502に戻り、ONされていれば504に進
み、ノイズ検出処理をスタートさせる。
The microprocessor 110 receives this communication, returns to 502 if turned off, proceeds to 504 if turned on, and starts noise detection processing.

【0070】以下、504以外のシーケンス、すなわち501
〜502、504〜519は第1の実施形態の401〜402、404〜41
9と同じであるので省略する。
Hereinafter, sequences other than 504, ie, 501
To 502, 504 to 519 are 401 to 402, 404 to 41 of the first embodiment.
Since it is the same as 9, it is omitted.

【0071】なお、本実施形態においては認識モードの
おいての場合を説明したが、登録モードに置いてもモー
ドに置いても全く同じように適用される。
Although the present embodiment has been described in the case of the recognition mode, the present invention is applied to the registration mode or the mode in exactly the same manner.

【0072】以上、本発明の第2の実施形態によれば、
撮影者の接眼動作によって環境ノイズを取得するので撮
影者にはまったく環境ノイズを取得していることを意識
させないですむことができる。
As described above, according to the second embodiment of the present invention,
Since the environmental noise is acquired by the eye movement of the photographer, the photographer does not need to be conscious of acquiring the environmental noise at all.

【0073】また、実際の音声入力までの間に十分な時
間が取れるので、ノイズ処理時間に十分な時間をかけら
れるとともに第1の実施形態の場合に撮影者が音声入力
ボタンを押す前にすでに発声してしまう場合でも環境ノ
イズを正確に処理できるといった効果がある。
Further, since a sufficient time can be taken before the actual voice input, a sufficient time can be taken for the noise processing time, and in the case of the first embodiment, before the photographer presses the voice input button in the first embodiment. There is an effect that environmental noise can be accurately processed even when uttered.

【0074】(第3の実施形態)図12は本発明の第三
の実施形態のカメラにおけるカメラ動作シーケンスを示
したもので、カメラシーケンス上でのノイズ検出動作を
示したフローチャートである。
(Third Embodiment) FIG. 12 shows a camera operation sequence in a camera according to a third embodiment of the present invention, and is a flowchart showing a noise detection operation in the camera sequence.

【0075】カメラの電源を入れる(601)と次の602に
てレリーズ釦2が半押しされてSW1がONしているかを検
知し、OFFしていればこの検出を繰り返す、ONした時点
で603に進み、自動焦点検出回路102が撮影される被写体
に対する撮影レンズのピントを検出し、AF動作を行わせ
るとともに測光回路104が撮影される被写体の輝度を測
光し、その測光値に基づいて露出値を決定する。
When the power of the camera is turned on (601), the release button 2 is half-pressed in the next step 602 to detect whether the switch SW1 is ON. If the switch SW1 is OFF, this detection is repeated. The automatic focus detection circuit 102 detects the focus of the photographing lens with respect to the object to be photographed, performs the AF operation, and the light metering circuit 104 measures the luminance of the object to be photographed, and sets the exposure value based on the measured light value. To determine.

【0076】次に604にてレリーズ釦2がさらに押されSW
2がONしているかを検知し、ONしていれば605に進み、シ
ャッター制御回路105、絞り制御回路106、モーター制御
回路107によって公知のカメラのレリーズシーケンスを
実行し、次の操作に備えてリターンする。OFFしていれ
ば606に進み、測光値が所定値以上変化しているかどう
かを検出する。
Next, at 604, the release button 2 is further pressed, and
Detects whether 2 is ON, and if it is ON, proceeds to 605, executes a known camera release sequence by the shutter control circuit 105, the aperture control circuit 106, and the motor control circuit 107, and prepares for the next operation To return. If it is OFF, the process proceeds to 606, where it is detected whether the photometric value has changed by a predetermined value or more.

【0077】これは所定値以上測光値が変化している
(例えば測光値が3〜4段以上違うような場合)と撮影者
のおかれた環境が変化している可能性があり、それによ
って環境ノイズも変化している可能性があると判断する
ものである。変化していなければ607に進み、変化して
いれば608に進みノイズ検出をスタートさせる。
This is because when the photometric value has changed by a predetermined value or more (for example, when the photometric value differs by 3 to 4 steps or more), the environment where the photographer is placed may have changed. It is determined that the environmental noise may have changed. If it has not changed, the process proceeds to 607, and if it has changed, the process proceeds to 608 to start noise detection.

【0078】607では撮影レンズのピントのずれ量が所
定値以上変化しているかどうかを検出する。これは所定
値以上ピントのずれ量が所定値以上変化している(例え
ば数メートルの位置でのピントが急に至近や無限遠にな
った場合)と撮影者のおかれた環境が606の場合と同じ
く変化している可能性があり、それによって環境のいず
も変化している可能性があると判断するものである。変
化していれば608に進み、ノイズ検出をスタートさせ、
変化していなければ602に戻る。つまり自動焦点検出回
路102と測光回路104で被写体輝度の変化やピントの変化
のいずれかが大きい時には再度ノイズ検出を行うシーケ
ンスとなっている。
At 607, it is detected whether or not the amount of defocus of the photographing lens has changed by a predetermined value or more. This is because when the amount of defocus has changed by more than a predetermined value or more (for example, when the focus at a position of several meters suddenly becomes close or infinity) and the environment where the photographer is placed is 606 It is determined that there is a possibility that the environment may have changed as well as that of the environment. If it has changed, proceed to 608, start noise detection,
If not, return to 602. That is, when either the change in subject brightness or the change in focus is large in the automatic focus detection circuit 102 and the photometry circuit 104, the sequence is to perform noise detection again.

【0079】ここで608以降のノイズ検出の動作は第1
の実施形態の図5の説明でなされた動作と同じである。
従って608〜611は308〜311と同じであるため、説明を省
略する。611でノイズスペクトルがノイズパターンとし
て記憶されると612へ進み、所定回のノイズ検出された
のを確認した後ノイズ検出を終了させる。次に音声入力
釦11が押されて音SW-VOICEがONしているかを検出し、OF
Fしていれば602に戻り、ONしていれば614に進み、音
声検出をスタートさせ、撮影者が発声した音声を認識処
理する。すでにこの認識処理については説明をしている
ので省略する。
Here, the operation of noise detection after 608 is the first operation.
The operation is the same as that described in the description of FIG.
Accordingly, 608 to 611 are the same as 308 to 311 and will not be described. When the noise spectrum is stored as a noise pattern in 611, the process proceeds to 612, and after it is confirmed that noise has been detected a predetermined number of times, the noise detection is terminated. Next, it is detected whether the sound input button 11 is pressed and the sound SW-VOICE is ON, and the OF
If F, the process returns to 602; if it is ON, the process proceeds to 614 to start voice detection, and recognizes the voice uttered by the photographer. Since the recognition processing has already been described, the description thereof is omitted.

【0080】以上、本発明の第3の実施形態によれば、
撮影する被写体の輝度の変化やピントのずれ量がかなり
大きいと検知された場合に環境が変化した可能性が高い
と判断し、環境ノイズを取得するので撮影者にはまった
く環境ノイズを取得していることを意識させないですむ
ことができ、また検出するための新たなコストを発生さ
せることがない。
As described above, according to the third embodiment of the present invention,
If the change in the brightness of the subject to be shot or the amount of defocus is detected to be quite large, it is determined that the environment has likely changed, and the environmental noise is acquired. It does not need to be aware that there is no additional cost for detection.

【0081】また、実際の音声入力までの間に十分な時
間が取れるので、ノイズ処理時間に十分な時間をかけら
れ環境ノイズを正確に処理できるといった効果がある。
Further, since a sufficient time is taken until the actual voice input, there is an effect that a sufficient time is taken for the noise processing time, and the environmental noise can be accurately processed.

【0082】しかしながら、必ずしも環境ノイズが変わ
った時に再度環境ノイズを採取するわけではないため、
第2の実施形態との併用が適当である。
However, since environmental noise is not necessarily collected again when environmental noise changes,
The combination with the second embodiment is appropriate.

【0083】(第4の実施形態)図13は本発明の第4
の実施形態のカメラにおける認識モードでの動作を示す
フローチャートで第1の実施形態の認識モードとおなじ
動作であるものはそのほとんどを省略している。
(Fourth Embodiment) FIG. 13 shows a fourth embodiment of the present invention.
In the flowchart of the operation in the recognition mode of the camera according to the second embodiment, almost the same operations as those in the recognition mode according to the first embodiment are omitted.

【0084】具体的には第4の実施形態は図8の第1の
実施形態の音声認識モードでのフローチャートにおける
信頼性判定416でNGとなった場合以降の動作について
さらに改良をしたものである。なお同じ動作をするもの
はそのままのステップ番号を適用している。
More specifically, the fourth embodiment is a further improvement of the operation after the reliability judgment 416 in the flowchart in the voice recognition mode of the first embodiment of FIG. 8 results in NG. . Note that the same step numbers are applied to those performing the same operation.

【0085】図8で第1の実施形態の説明と同じように
音声認識動作が進み、415にて単語判定がなされると次
に420に進み、音声認識度の信頼性判定が行なわれ、入
力された音声パターンと認識された参照音声パターンと
の距離が所定の基準値よりも小さいかを判断する。
In FIG. 8, the speech recognition operation proceeds in the same manner as described in the first embodiment. When the word is determined at 415, the process proceeds to 420, where the reliability of the speech recognition degree is determined, and the input is performed. It is determined whether the distance between the recognized voice pattern and the recognized reference voice pattern is smaller than a predetermined reference value.

【0086】大きければ認識信頼性がないと判断し、42
1に進み、距離が小さければ認識信頼性が充分と判断さ
れ、418に進み、認識結果に対応する撮影モードにカメ
ラの設定を切り換え、それとともに419に進み、予め撮
影モードに対応させて記憶させておいた標準的な判りや
すい音声を発生させる。
If it is larger, it is determined that there is no recognition reliability.
Proceed to 1 and if the distance is short, it is determined that the recognition reliability is sufficient, proceed to 418, switch the camera setting to the shooting mode corresponding to the recognition result, and proceed with 419 and store it in advance corresponding to the shooting mode Generates a standard, easy-to-understand sound.

【0087】421で認識結果が信頼性がない=NGとさ
れた回数が所定回数Nを満たしていれば417に進み、第1
の実施形態と同じく再入力勧告表示を行い、408に戻
る。所定回数Nを満たしていなければ422に進み、再度環
境ノイズを採取する動作にかかり、ノイズ分析を行い、
更に423に進み、ノイズスペクトル推定を行う。これら
は第1の実施形態の405と406と同じである。次に424に
進み、新しく推定されたノイズスペクトルに更新する
か、または今まで用いていたノイズスペクトルとで新し
いノイズスペクトルを作成する。
If the number of times that the recognition result is unreliable at 421 = NG is less than the predetermined number N, the process proceeds to 417, and the first
A re-input recommendation display is made in the same manner as in the embodiment of FIG. If the predetermined number N is not satisfied, the process proceeds to 422, the operation of collecting the environmental noise is again performed, the noise analysis is performed,
Proceeding further to 423, noise spectrum estimation is performed. These are the same as 405 and 406 of the first embodiment. Next, the process proceeds to 424, where the noise spectrum is updated with the newly estimated noise spectrum, or a new noise spectrum is created with the noise spectrum used so far.

【0088】ここでは単純に平均化したり、もっとも新
しいノイズスペクトルの重みづけを高くし、古いノイズ
スペクトルは順次重みづけを低くするというような重み
づけや、それまでのノイズスペクトルに対して変化の大
きいものは重みづけを高くすると言った重みづけをおこ
なう、いわゆる加重平均で新しいノイズスペクトルを作
成するといったノイズスペクトルの学習がなされる。つ
まり単純に新しいノイズパターンに置き換えるのではな
く前回までの環境ノイズも考慮して新しいノイズパター
ンを作成することになる。
In this case, weighting is performed by simply averaging, or increasing the weight of the newest noise spectrum, and sequentially decreasing the weight of the old noise spectrum. The noise spectrum is learned by performing weighting to increase the weight, that is, creating a new noise spectrum by a so-called weighted average. In other words, a new noise pattern is created in consideration of the environmental noise up to the previous time, instead of simply replacing it with a new noise pattern.

【0089】次に425に進み、新たに作られたノイズス
ペクトルを記憶すると、410に戻り、再度新しいノイズ
パターンを用い音声認識を行わせる。つまり音声認識結
果後に再度ノイズを採取し、撮影者に再度音声を発生さ
せることなく、音声認識を行わせるものである。
Next, the process proceeds to 425, where the newly created noise spectrum is stored, and the process returns to 410, where speech recognition is performed again using the new noise pattern. That is, noise is collected again after the speech recognition result, and the photographer performs speech recognition without generating speech again.

【0090】以上、本発明の第4の実施形態によれば、
入力された音声認識の結果が所定の信頼性より低ければ
再度環境ノイズだけを取り込み、再度音声認識動作を行
わせるので 認識率が向上するとともに認識結果がNG
でも撮影者に再度音声の発声をさせるようなことを減ら
すことができるとともに環境ノイズを学習することでよ
り撮影者が置かれた環境に即したノイズパターンを作成
することができる。
As described above, according to the fourth embodiment of the present invention,
If the input speech recognition result is lower than the predetermined reliability, only the environmental noise is captured again and the speech recognition operation is performed again, so that the recognition rate is improved and the recognition result is NG.
However, it is possible to reduce the need for the photographer to utter voice again, and to learn the environmental noise, thereby making it possible to create a noise pattern that is more suited to the environment where the photographer is placed.

【0091】なお、本実施形態においては認識結果の信
頼性が低い場合の動作を示したが、認識結果が不定とな
る場合も同じである。
Although the operation in the case where the reliability of the recognition result is low has been described in the present embodiment, the same applies to the case where the recognition result is undefined.

【0092】また、本発明の実施形態は、一眼レフカメ
ラに適用した例を述べているが、ビデオカメラや電子ス
ティルカメラなどの種々の形態の撮像装置、さらにはカ
メラ以外の携帯用小型精密機器やその他の装置に対して
も適用できるものである。
Although the embodiment of the present invention has been described as applied to a single-lens reflex camera, various types of imaging devices such as a video camera and an electronic still camera, and a portable small precision device other than a camera. And other devices.

【0093】[0093]

【発明の効果】以上、説明したように本発明によれば、
適切なタイミングで環境ノイズを採取することで、環境
ノイズを正確に採取することができ、音声認識装置の認
識率を向上させることができる。また、音声認識装置自
体が環境ノイズの採取が必要かどうかを判断し、必要で
ある場合には、自動的に環境ノイズを採取するので、使
用者は環境ノイズ採取のための特別な操作を行う必要が
なく、音声認識装置の操作を簡便化することができると
ともに、音声認識装置の認識率を向上させることができ
る。
As described above, according to the present invention,
By collecting environmental noise at appropriate timing, environmental noise can be accurately collected, and the recognition rate of the voice recognition device can be improved. Also, the voice recognition device itself determines whether or not environmental noise needs to be collected, and if necessary, automatically collects environmental noise. Therefore, the user performs a special operation for collecting environmental noise. This eliminates the necessity, so that the operation of the speech recognition device can be simplified and the recognition rate of the speech recognition device can be improved.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の実施形態における一眼レフカメラの上
面、背面、および側面図。
FIG. 1 is a top view, a rear view, and a side view of a single-lens reflex camera according to an embodiment of the present invention.

【図2】図1の音声入力釦のスイッチ部の構成を示す要
部断面図。
FIG. 2 is an essential part cross-sectional view showing a configuration of a switch unit of the voice input button in FIG. 1;

【図3】図1のカメラの電気的構成を示すブロック図。FIG. 3 is a block diagram showing an electrical configuration of the camera shown in FIG. 1;

【図4】図1のカメラの音声認識処理のブロック図。FIG. 4 is a block diagram of a voice recognition process of the camera in FIG. 1;

【図5】図1のカメラの登録モードの動作を示すフロー
チャート。
FIG. 5 is a flowchart showing the operation of the registration mode of the camera of FIG. 1;

【図6】図1のカメラの測光モード設定での表示状態を
示すフローチャート。
FIG. 6 is a flowchart showing a display state in a photometric mode setting of the camera in FIG. 1;

【図7】図1の音声認識装置が行なうノイズ除去演算を
説明する図。
FIG. 7 is an exemplary view for explaining a noise removal operation performed by the speech recognition apparatus in FIG. 1;

【図8】図1のカメラの認識モードでの動作を示すフロ
ーチャート。
FIG. 8 is a flowchart showing an operation of the camera in FIG. 1 in a recognition mode.

【図9】本発明の第2の実施形態における一眼レフカメ
ラの上面、背面、および側面図。
FIG. 9 is a top view, a rear view, and a side view of a single-lens reflex camera according to a second embodiment of the present invention.

【図10】図9のカメラの電気的構成を示すブロック
図。
FIG. 10 is a block diagram showing an electrical configuration of the camera shown in FIG. 9;

【図11】図9のカメラの認識モードでの動作を示すフ
ローチャート。
FIG. 11 is a flowchart showing an operation of the camera in FIG. 9 in a recognition mode.

【図12】本発明の第3の実施形態における一眼レフカ
メラにおけるカメラ動作シーケンス上でのノイズ除去動
作を示すフローチャート。
FIG. 12 is a flowchart illustrating a noise removal operation in a camera operation sequence in a single-lens reflex camera according to a third embodiment of the present invention.

【図13】本発明の第4の実施形態のカメラにおける認
識モードでの動作を示すフローチャート。
FIG. 13 is a flowchart illustrating an operation in a recognition mode in the camera according to the fourth embodiment of the present invention.

【符号の説明】[Explanation of symbols]

5 測光モード設定釦 11 音声入力釦 13 音声モードスイッチ 14 スピーカー 15 マイクロフォン 101 メインCPU 102 自動焦点検出回路 104 測光回路 110 マイクロプロセッサー 120 接眼検知手段 201 スペクトル分析部 202 雑音除去部 204 特徴量抽出部 205 認識(照合)部 206 判定部 5 Metering Mode Setting Button 11 Voice Input Button 13 Voice Mode Switch 14 Speaker 15 Microphone 101 Main CPU 102 Automatic Focus Detection Circuit 104 Photometry Circuit 110 Microprocessor 120 Eyepiece Detection Unit 201 Spectrum Analysis Unit 202 Noise Removal Unit 204 Feature Extraction Unit 205 Recognition (Collation) unit 206 judgment unit

Claims (8)

【特許請求の範囲】[Claims] 【請求項1】 マイクロフォンと、 前記マイクロフォンを作動させるための操作部材と、 前記操作部材の第1ストロークでオンする第1のスイッ
チ手段と、 前記操作部材の第1ストロークに続く第2ストロークで
オンする第2のスイッチ手段と、 前記第2のスイッチ手段がオンされたときに前記マイク
ロフォンに入力される信号成分から前記第1のスイッチ
手段がオンされたときに前記マイクロフォンに入力され
る信号成分を差し引く演算手段と、 前記演算手段の出力を用いて音声認識動作を実行する音
声認識手段を有することを特徴とする音声認識装置。
1. A microphone, an operation member for operating the microphone, first switch means that is turned on by a first stroke of the operation member, and is turned on by a second stroke following the first stroke of the operation member. And a signal component input to the microphone when the first switch is turned on, from a signal component input to the microphone when the second switch is turned on. A voice recognition device comprising: a calculation unit for subtraction; and a voice recognition unit that performs a voice recognition operation using an output of the calculation unit.
【請求項2】 マイクロフォンと、 使用者の眼が所定の位置にある場合に、前記マイクロフ
ォンを作動させる第1のスイッチ手段と、 前記使用者が所定の操作部材を操作した場合に、前記マ
イクロフォンを作動させる第2のスイッチ手段と、 前記第2のスイッチ手段がオンされたときに前記マイク
ロフォンに入力される信号成分から前記第1のスイッチ
手段がオンされたときに前記マイクロフォンに入力され
る信号成分を差し引く演算手段と、 前記演算手段の出力を用いて音声認識動作を実行する音
声認識手段を有することを特徴とする音声認識装置。
2. A microphone, first switch means for operating the microphone when a user's eye is at a predetermined position, and the microphone when the user operates a predetermined operation member. A second switch for operating; and a signal component input to the microphone when the first switch is turned on from a signal component input to the microphone when the second switch is turned on. And a voice recognition unit that executes a voice recognition operation using an output of the calculation unit.
【請求項3】 マイクロフォンと、 使用者の体の部位が所定の位置にある場合に、前記マイ
クロフォンを作動させる第1のスイッチ手段と、 前記使用者が所定の操作部材を操作した場合に、前記マ
イクロフォンを作動させる第2のスイッチ手段と、 前記第2のスイッチ手段がオンされたときに前記マイク
ロフォンに入力される信号成分から前記第1のスイッチ
手段がオンされたときに前記マイクロフォンに入力され
る信号成分を差し引く演算手段と、 前記演算手段の出力を用いて音声認識動作を実行する音
声認識手段を有することを特徴とする音声認識装置。
3. A microphone, first switch means for operating the microphone when a body part of the user is at a predetermined position, and when the user operates a predetermined operation member, the first switch means operates the microphone. A second switch for operating the microphone; and a signal component input to the microphone when the second switch is turned on is input to the microphone when the first switch is turned on. A voice recognition device comprising: a calculation unit for subtracting a signal component; and a voice recognition unit that performs a voice recognition operation using an output of the calculation unit.
【請求項4】 マイクロフォンと、 前記マイクロフォンを作動させる第1のスイッチ手段
と、 前記マイクロフォンを作動させる第2のスイッチ手段
と、 前記第2のスイッチ手段がオンされたときに前記マイク
ロフォンに入力される信号成分から前記第1のスイッチ
手段がオンされたときに前記マイクロフォンに入力され
る信号成分を差し引く演算手段と、 前記演算手段の出力を用いて音声認識動作を実行する音
声認識手段を有することを特徴とする音声認識装置。
4. A microphone; first switch means for operating the microphone; second switch means for operating the microphone; and input to the microphone when the second switch means is turned on. Calculating means for subtracting a signal component input to the microphone when the first switch means is turned on from a signal component; and speech recognition means for executing a speech recognition operation using an output of the calculating means. Characteristic speech recognition device.
【請求項5】 環境ノイズ信号を検出し、入力される音
声信号から前記環境ノイズ信号を差し引いた信号を用い
て音声認識動作を行う音声認識装置において、 前記音声認識装置を使用する空間を撮像する撮像手段
と、 前記撮像手段により撮像された画像が変化したときに、
環境ノイズ信号を検出する環境ノイズ検出手段とを有す
ることを特徴とする音声認識装置。
5. A voice recognition device for detecting an environmental noise signal and performing a voice recognition operation using a signal obtained by subtracting the environmental noise signal from an input voice signal, wherein a space in which the voice recognition device is used is imaged. Imaging means, when an image taken by the imaging means changes,
A speech recognition device comprising: an environmental noise detection unit that detects an environmental noise signal.
【請求項6】 環境ノイズ信号を検出し、入力される音
声信号から前記環境ノイズ信号を差し引いた信号を用い
て音声認識動作を行う音声認識装置において、 前記音声認識装置を使用する空間を撮像する撮像手段
と、 前記撮像手段により撮像された画像の輝度が所定値以上
変化したときに、環境ノイズ信号を検出する環境ノイズ
検出手段とを有することを特徴とする音声認識装置。
6. A speech recognition apparatus for detecting an environmental noise signal and performing a speech recognition operation using a signal obtained by subtracting the environmental noise signal from an input speech signal, wherein a space in which the speech recognition apparatus is used is imaged. A speech recognition apparatus comprising: an imaging unit; and an environmental noise detection unit that detects an environmental noise signal when the luminance of an image captured by the imaging unit changes by a predetermined value or more.
【請求項7】 環境ノイズ信号を検出し、入力される音
声信号から前記環境ノイズ信号を差し引いた信号を用い
て音声認識動作を行う音声認識装置において、 前記音声認識装置を使用する空間を撮像する撮像手段
と、 前記撮像手段により撮像された画像のデフォーカス量が
所定値以上変化したときに、環境ノイズ信号を検出する
環境ノイズ検出手段とを有することを特徴とする音声認
識装置。
7. A voice recognition device that detects an environmental noise signal and performs a voice recognition operation using a signal obtained by subtracting the environmental noise signal from an input voice signal, wherein an image of a space where the voice recognition device is used is taken. A speech recognition apparatus comprising: an imaging unit; and an environmental noise detection unit that detects an environmental noise signal when a defocus amount of an image captured by the imaging unit changes by a predetermined value or more.
【請求項8】 環境ノイズ信号を検出し、入力される音
声信号から前記環境ノイズ信号を差し引いた信号を参照
音声パターンと比較することで音声認識動作を行う音声
認識装置において、 前記信号と前記参照パターンとの差に基づいて音声認識
度の信頼性を判断する信頼性判断手段と、 前記信頼性判断手段により音声認識度の信頼性が低いと
判断される場合には、環境ノイズ信号を検出する環境ノ
イズ検出手段とを有することを特徴とする音声認識装
置。
8. A speech recognition apparatus for performing a speech recognition operation by detecting an environmental noise signal and comparing a signal obtained by subtracting the environmental noise signal from an input audio signal with a reference audio pattern, wherein the signal and the reference A reliability judging unit for judging the reliability of the speech recognition degree based on a difference from the pattern; and detecting an environmental noise signal when the reliability judgment unit judges that the reliability of the speech recognition degree is low. A speech recognition device comprising: an environmental noise detection unit.
JP11021805A 1999-01-29 1999-01-29 Voice recognition device Withdrawn JP2000222000A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11021805A JP2000222000A (en) 1999-01-29 1999-01-29 Voice recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11021805A JP2000222000A (en) 1999-01-29 1999-01-29 Voice recognition device

Publications (1)

Publication Number Publication Date
JP2000222000A true JP2000222000A (en) 2000-08-11

Family

ID=12065278

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11021805A Withdrawn JP2000222000A (en) 1999-01-29 1999-01-29 Voice recognition device

Country Status (1)

Country Link
JP (1) JP2000222000A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006279185A (en) * 2005-03-28 2006-10-12 Casio Comput Co Ltd Imaging apparatus, audio recording method, and program
JP2013020252A (en) * 2011-07-06 2013-01-31 Honda Motor Co Ltd Acoustic processing device, acoustic processing method and acoustic processing program
JP2019008274A (en) * 2017-06-26 2019-01-17 フェアリーデバイセズ株式会社 Voice information processing system, control method of voice information processing system, program of voice information processing system and storage medium

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006279185A (en) * 2005-03-28 2006-10-12 Casio Comput Co Ltd Imaging apparatus, audio recording method, and program
JP2013020252A (en) * 2011-07-06 2013-01-31 Honda Motor Co Ltd Acoustic processing device, acoustic processing method and acoustic processing program
JP2019008274A (en) * 2017-06-26 2019-01-17 フェアリーデバイセズ株式会社 Voice information processing system, control method of voice information processing system, program of voice information processing system and storage medium

Similar Documents

Publication Publication Date Title
JP5451749B2 (en) IMAGING DEVICE, INTEGRATED CIRCUIT, IMAGING METHOD, PROGRAM, AND RECORDING MEDIUM
US7468743B2 (en) Photographing device and method for obtaining photographic image having image vibration correction
JP4516985B2 (en) Digital camera focusing
US20190086768A1 (en) Automatic focusing apparatus and control method therefor
US20130002924A1 (en) Electronic apparatus
JP6961500B2 (en) Image shake correction device and its control method, imaging device
JP5171468B2 (en) IMAGING DEVICE AND IMAGING DEVICE CONTROL METHOD
JP2010008695A (en) Image capturing apparatus, focus control method, and program
KR101457392B1 (en) Imaging apparatus and audio processing apparatus
JP5361398B2 (en) Imaging device
JP2000222000A (en) Voice recognition device
US9282229B2 (en) Audio processing apparatus, audio processing method and imaging apparatus
WO2020250828A1 (en) Utterance section detection device, utterance section detection method, and utterance section detection program
KR101616028B1 (en) A digital photographing apparatus, a method for controlling the same, and a computer-readable medium
JP2025126341A (en) Imaging apparatus
JP5499796B2 (en) Electronics
JP2013207543A (en) Imaging device
JP2004301893A (en) Control method of voice recognition device
JP2019021966A (en) Sound collecting device and sound collecting method
JP2012185343A (en) Photographing device
JPH11109498A (en) Device with voice input function and camera
JP2005156597A (en) Automatic focusing apparatus and method, program, and storage medium
JP2003098422A (en) Autofocusing device
JP4445612B2 (en) camera
JP2021087026A (en) Imaging device, control method of imaging device, and program thereof

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20060404