SU1675936A1 - Method for verification of speaker - Google Patents
Method for verification of speaker Download PDFInfo
- Publication number
- SU1675936A1 SU1675936A1 SU894740098A SU4740098A SU1675936A1 SU 1675936 A1 SU1675936 A1 SU 1675936A1 SU 894740098 A SU894740098 A SU 894740098A SU 4740098 A SU4740098 A SU 4740098A SU 1675936 A1 SU1675936 A1 SU 1675936A1
- Authority
- SU
- USSR - Soviet Union
- Prior art keywords
- voice
- parameters
- voiced
- sequence
- sections
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 10
- 238000012795 verification Methods 0.000 title claims abstract description 8
- 206010011878 Deafness Diseases 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 12
- 230000002596 correlated effect Effects 0.000 claims 1
- 230000000875 corresponding effect Effects 0.000 claims 1
- 238000010606 normalization Methods 0.000 claims 1
- 238000004458 analytical method Methods 0.000 abstract description 4
- 238000003909 pattern recognition Methods 0.000 abstract description 2
- 238000001914 filtration Methods 0.000 abstract 1
- 238000005070 sampling Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 239000012814 acoustic material Substances 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Landscapes
- Electrophonic Musical Instruments (AREA)
Abstract
Изобретение относитс к области автоматического распознавани образов на основе анализа речевых сигналов и может быть использовано дл автоматизации контрольно-пропускных пунктов и разработки голосовых ключей, обеспечивающих санкционированный доступ определенных лиц к банкам данных. Способ упрощает процесс верификации и повышает ее быстродействие при сохранении надежности. Способ заключаетс в произнесении диктором контрольной фразы, содержащей последовательность глухих и однофонемных звонких участков, выделении звонких участков и их фильтрации в полосах частот основного тона голоса и третьей и четвертой формант, определении последовательности значений плотностей нулевых пересечений сигналов в отфильтрованных частотных полосах и пороговом сравнении параметров выделенных признаков с эталонными самосто тельно в пределах каждого выделенного участка от его начала. 2 ил.The invention relates to the field of automatic pattern recognition based on the analysis of speech signals and can be used to automate checkpoints and develop voice keys that allow authorized persons to access data banks. The method simplifies the verification process and improves its speed while maintaining reliability. The method consists in pronouncing by the speaker a control phrase containing a sequence of deaf and single-phone voiced sections, highlighting voiced sections and filtering them in the frequency bands of the main voice of the voice and the third and fourth formant, determining the sequence of values of the densities of zero signal intersections in the filtered frequency bands and threshold comparison of the parameters of the selected features with reference independently within each selected area from its beginning. 2 Il.
Description
Изобретение относитс к автоматическому распознаванию образов на основе анализа речевых сигналов и может быть использовано дл автоматизации контрольно-пропускных пунктов (КПП) учреждений и разработки голосовых ключей, обеспечивающих санкционированный доступ определенных лиц к банкам данных или механизмам специального назначени на основе предъ влени этими лицами свидетельства о личности своей речи.The invention relates to automatic pattern recognition based on the analysis of speech signals and can be used to automate checkpoints of agencies and develop voice keys that allow authorized persons to access data banks or special purpose mechanisms based on the presentation of personality of his speech.
Целью изобретени вл етс упрощение процесса верификации и повышение ее быстродействи при сохранении высокого уровн надежности верификации.The aim of the invention is to simplify the verification process and increase its speed while maintaining a high level of verification reliability.
На фиг. 1 на конкретном примере контрольной фазы (слова) даетс временна диаграмма анализа акустического материала; фиг. 2 - приведена блок-схема устройства , реализующего способ.FIG. 1, using a specific example of the control phase (words), gives a timing chart for the analysis of acoustic material; FIG. 2 shows a block diagram of a device implementing the method.
Способ по сн етс на конкретном примере анализа контрольной фразы (слова) афиша (фиг. 1).The method is illustrated by a specific example of the analysis of the control phrase (word) of the poster (Fig. 1).
На фиг. 1 а приведена осцилограмма речевого сигнала; на фиг. 16 - вид речевого сигнала, который сегментирован по признаку звонкость-глухость.FIG. 1 and shows the oscillogram of the speech signal; in fig. 16 is a speech signal that is segmented by voicing-deafness.
В пределах выделенных звонких участков , начало и конец которых определ ют управл ющие импульсы (фиг. 1 в), в моменты времени, соответствующие тактовым импульсам (фиг. 1г), дискретно определ ют значени плотностей нулевых пересечений сигналов, соответствующих выделенным участкам речевого отрезка в отфильтрованных частотных полосах основного тона голоса PQ (фиг. 1д). третьей pi и четвертой piWithin the selected voiced sections, the beginning and end of which determine the control pulses (Fig. 1c), at the times corresponding to the clock pulses (Fig. 1d), the values of the densities of zero intersections of the signals corresponding to the highlighted parts of the speech segment in filtered frequency bands of the main tone of the PQ voice (Fig. 1e). third pi and fourth pi
ОABOUT
XJ ел ю ыXJ ave you
OsOs
формант (фиг. 1е и ж, соответственно). Эти признаки характеризуют индивидуальную манеру произнесени говор щего, а также тональные и тембральные особенности его голоса. По дискретным значени м признаков ро(+) i/9i(+), (+) формируют матрицу данных (фиг. 1з). Матрица данных содержит подматрицы, которые сравнивают с соответствующими эталонными подматрицами раздельно, Число строк всех трех подматриц (в указанном примере) равно трем, число столбцов в первой подматрице равно четырем, во второй - шести и в третьей - четырем.formant (fig. 1e and g, respectively). These signs characterize the speaker's individual manner of speaking, as well as the tonal and tonal features of his voice. According to the discrete values of the signs, ro (+) i / 9i (+), (+) form the data matrix (Fig. 1h). The data matrix contains submatrices that are compared with the corresponding reference submatrices separately, the number of rows of all three submatrices (in the specified example) is three, the number of columns in the first submatrix is four, in the second six and in the third four.
Полученна матрица подлежит сравнению с эталонной в соответствии с заранее выбранным значением порога сравнени 9.The resulting matrix is to be compared with the reference one in accordance with the pre-selected value of the comparison threshold 9.
Устройство, реализующее способ, (фиг. 2) состоит из усилител 1, разделител 2 речевого сигнала на звонкие и глухие участки , низкочастотных фильтров 3 дл выделени первой гармоники сигнала и двух полосовых фильтров 4 и 5, выдел ющих участки спектра, соответствующее третьей и четвертой формантам. Блоки 6-8 осуществл ют выделение признака плотностей нулевых пересеченийр0 ,pt, речевого сигнала, проход щего, соответственно, через фильтры 3-5. Данные об изменении плотностей/э нулей во времени записываютс в запоминающее устройство - формирователь 9 матрицы данных в виде дискретных значений в дискретные моменты времени. Управление записью соответствующих данных в блок 9 осуществл етс с помощью блока 10, фиксирующего начало и конец звонких участков сигнала, и блоком 11, генерирующим в этих промежутках времени тактовые импульсы, дискретизирую- щие значени .The device implementing the method (Fig. 2) consists of an amplifier 1, a speech signal splitter 2 into voiced and deaf sections, low-pass filters 3 for separating the first signal harmonic and two band-pass filters 4 and 5 separating the spectral regions corresponding to the third and fourth formants. Blocks 6-8 carry out the selection of the sign of the density of zero intersections p0, pt, speech signal passing, respectively, through the filters 3-5. Data on changes in densities / e zeros in time are recorded in a storage device — shaper 9 of a data matrix as discrete values at discrete points in time. The recording of the corresponding data in the block 9 is controlled by the block 10, which fixes the beginning and the end of the ringing sections of the signal, and the block 11, which generates in these time intervals the clock pulses sampling values.
Устройство работает в режиме обучени - правое положение переключател 12, и верификации - левое положение переключател 12,The device operates in the learning mode - the right position of the switch 12, and verification - the left position of the switch 12,
Данные из блока 9 в режиме обучени передаютс в блок 13, который представл ет собой запоминающее устройство. В режиме верификации данные о неизвестном произнесении фиксируютс в блоке 14, который вл етс сравнивающим устройством , сопоставл ющим данные блоков 13 и 9. Блок 15 прин ти решени анализирует результаты сравнени и констатирует факт принадлежности или непринадлежности контрольного произнесени эталонному.The data from block 9 in the learning mode is transmitted to block 13, which is a memory device. In the verification mode, data on unknown pronunciation is recorded in block 14, which is a comparing device that compares data from blocks 13 and 9. Decision unit 15 analyzes the results of the comparison and states the fact or non-ownership of the control pronunciation of the reference.
Устройство работает следующим образом .The device works as follows.
Речевой сигнал после усилени до величины , необходимой дл поддержани работы следующих блоков, подаетс на разделитель 2, который содержит наборThe speech signal, after amplification to the magnitude necessary to support the operation of the following blocks, is fed to separator 2, which contains a set of
узкополосных фильтров, накрывающих диапазон частот 100-500 Гц. Ширина полосы пропускани каждого фильтра не больше возможной частоты основного тона голоса и составл ет примерно 70-80 Гц. Во врем narrowband filters covering the frequency range of 100-500 Hz. The bandwidth of each filter is not more than the possible pitch frequency of the voice and is approximately 70-80 Hz. In time
произнесени звуков устройство позвол ет определ ть линейчатую структуру сигнала и отдел ть его от сплошного спектра, имеющего место при глухих звуках.the device makes it possible to determine the line structure of the signal and separate it from the continuous spectrum that occurs when there is a deaf sound.
Выделенные блоков 2 звонкие участкиSelected blocks 2 voiced sections
речи подаютс на три фильтра. Первый из них (3) представл ет собой низкочастотный фильтр с крутизной спада 18 дБ/окт, начина от 200 Гц. Этот фильтр служит дл выделени первой гармоники сигнала. Фильтр 4speech is given to three filters. The first of these (3) is a low-pass filter with a decay slope of 18 dB / oct, starting at 200 Hz. This filter serves to highlight the first harmonic of the signal. Filter 4
вл етс полосовым фильтром в области спектра третьей форманты 2200-3200 Гц. Фильтр 5 также вл етс полосным фильтром в области четвертой форманты спектра 2800-4000 Гц.is a band-pass filter in the spectral region of the third formant at 2200–3200 Hz. Filter 5 is also a bandpass filter in the fourth formant area of 2800–4000 Hz.
Проход щие через указанные фильтры сигналы далее подаютс на блоки 6, 7 и 8 ( /о-метры), формирующие последовательность значений нулевых точек сигнала, р-метры представл ют собойThe signals passing through these filters are then fed to blocks 6, 7 and 8 (/ o-meters), which form a sequence of values of the zero points of the signal, p-meters are
простые конденсаторные накопители или интеграторы, выдающие определенные потенциалы в зависимости от числа нулевых точек поступающего на них сигнала в промежутке между двум тактовыми импульсами .simple capacitor drives or integrators that produce certain potentials depending on the number of zero points of the signal arriving at them in the interval between two clock pulses.
Очевидно, чем выше частота речевого сигнала, проход щего через фильтры 3, 4 и 5, тем больше число нулевых точек и, поэтому , тем выше потенциал на накопителе вObviously, the higher the frequency of the speech signal passing through the filters 3, 4 and 5, the greater the number of zero points and, therefore, the higher the potential at the drive in
пределах двух соседних тактовых импульсов . Измеренные таким образом значени на выходах блоков 6-8 отражают как индивидуальные особенности основного тона голоса и двух высших формант, так и особенность их изменени во времени в дискретные моменты времени, обусловленные тактовыми импульсами. Последовательности этих дискретных значений отражают на выходе блока 6 характер изменени (мелодию ) основного тона голоса, на выходах же блоков 7 и 8 характер изменени третьей и четвертой формант речи.within two adjacent clock pulses. The measured values at the outputs of blocks 6-8 reflect both the individual characteristics of the fundamental tone of the voice and the two higher formant, as well as the peculiarity of their change in time at discrete points in time, due to the clock pulses. The sequences of these discrete values reflect at the output of block 6 the character of the change (melody) of the pitch of the voice, at the outputs of blocks 7 and 8 the character of the change of the third and fourth formant of speech.
Дл формировани матрицы данных дискретные значени всех выделенныхTo form a data matrix, the discrete values of all the selected
признаков (ра ,pi, и/за ) записывают в запоминающее устройство (блок 9) со строго определенной адресацией. Управление процессом дискретизации значений y°o(t) ./9l(t) и/°2(г) Р и запись этих значенийsigns (pa, pi, and / for) are recorded in a storage device (block 9) with strictly defined addressing. Controlling the process of sampling the values y ° o (t) ./9l(t) and / ° 2 (g) P and recording these values
в ЗУ осуществл ет блок 10, фиксирующий начало и конец звонких участков сигнала и, тем самым, определ ющий адрес записи соответствующих данных в 3 и блок 11, представл ющий собой генератор тактовых импульсов, служащий дл преобразовани с частотой 25 Гц аналоговых значений признаков в цифровые в промежутке между управл ющими импульсами (блок 10), Сформированна таким образом матрица данных служит основой дл характеристики голоса человека. В режиме обучени (правое положение переключател 12) матрица данных передаетс в долговременное запоминающее устройство (блок 13) в режиме верификации (левое положение переключател 12) эти данные передаютс в блок 14, где происходит их сравнение с данными блоками 13. Блок 14 фактически вл етс арифметическим устройством, вычисл ющим разницу между двум матрицами . При этом разность беретс раздельно по различным участкам матрицы, соответствующим подматрицам. Кажда подматрица отражает соответствующий звонкий участок произносимого речевого отрезка. При неравенстве числа подматриц в контрольном произнесении и эталоне на блок 15 прин ти решени выдаетс отрицательный сигнал, указывающий на чужое произнесение. При равенстве числа подматриц блок прин ти решени анализирует значение разности матриц и, в зависимости от того, меньше или больше полученное в блоке сравнени абсолютное значение разности матриц некоторого порога 9, констатирует, что диктор свой или чужой, соответственно. В качестве порога 0 берут 10-20% суммы всех членов эталонной матрицы. В случае решени свой блок 15 выдает на выходе исполнительный импульс.in the memory unit, block 10 records the beginning and end of voiced signal sections and, thus, determines the write address of the corresponding data in 3, and block 11, which is a clock pulse generator, used to convert the analog characteristic values to 25 Hz at a frequency of 25 Hz in the interval between the control pulses (block 10), the data matrix thus formed serves as the basis for characterizing the human voice. In the learning mode (right position of the switch 12) the data matrix is transferred to the non-volatile memory (block 13) in the verification mode (left position of the switch 12) this data is transmitted to block 14, where they are compared with these blocks 13. Block 14 is actually an arithmetic unit that calculates the difference between two matrices. In this case, the difference is taken separately for different parts of the matrix, corresponding to submatrices. Each submatrix reflects the corresponding voiced portion of the spoken speech segment. If the number of submatrices is unequal in the control pronunciation and the standard, a negative signal is output to the decision block 15 indicating a foreign pronunciation. When the number of submatrices is equal, the decision block analyzes the value of the matrix difference and, depending on whether the absolute value of the difference between the matrices of a certain threshold 9 obtained in the comparison block, indicates that the speaker is native or foreign, respectively. As threshold 0, 10-20% of the sum of all members of the reference matrix is taken. In the case of a decision, its block 15 generates an output impulse at the output.
В случае неравенства числа столбцов контрольной подматрицы и эталоннойIn case of inequality of the number of columns of the control submatrix and the reference
подматрицы сравнение производ т по тем столбцам, которые в обоих подматрицах имеют место ненулевые значени , т. е, сравнение происходит по наикратчайшей (по числу столбцов) матрице (по значимымsubmatrices comparison is performed for those columns that have nonzero values in both submatrices, i.e., the comparison occurs by the shortest (by the number of columns) matrix (by significant
Claims (1)
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| SU894740098A SU1675936A1 (en) | 1989-06-25 | 1989-06-25 | Method for verification of speaker |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| SU894740098A SU1675936A1 (en) | 1989-06-25 | 1989-06-25 | Method for verification of speaker |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| SU1675936A1 true SU1675936A1 (en) | 1991-09-07 |
Family
ID=21471057
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| SU894740098A SU1675936A1 (en) | 1989-06-25 | 1989-06-25 | Method for verification of speaker |
Country Status (1)
| Country | Link |
|---|---|
| SU (1) | SU1675936A1 (en) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5774858A (en) * | 1995-10-23 | 1998-06-30 | Taubkin; Vladimir L. | Speech analysis method of protecting a vehicle from unauthorized accessing and controlling |
| RU2399102C2 (en) * | 2008-11-05 | 2010-09-10 | Андрей Николаевич Голубинский | Method and device for identity verification using voice |
-
1989
- 1989-06-25 SU SU894740098A patent/SU1675936A1/en active
Non-Patent Citations (1)
| Title |
|---|
| Авторское свидетельство СССР Мг 898496, кл. G 10 L 9/06, 1984. Розенберг А. Автоматическа верификаци диктора. Обзор. Тематический выпуск Речева св зь с машиной. ТИИЭР, 1976, т. 64, №4. * |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5774858A (en) * | 1995-10-23 | 1998-06-30 | Taubkin; Vladimir L. | Speech analysis method of protecting a vehicle from unauthorized accessing and controlling |
| RU2399102C2 (en) * | 2008-11-05 | 2010-09-10 | Андрей Николаевич Голубинский | Method and device for identity verification using voice |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Kim et al. | Auditory processing of speech signals for robust speech recognition in real-world noisy environments | |
| US5791904A (en) | Speech training aid | |
| Culling et al. | Perceptual and computational separation of simultaneous vowels: Cues arising from low‐frequency beating | |
| KR980700637A (en) | METHOD AND DEVICE FOR ENHANCER THE RECOGNITION OF SPEECHAMONG SPEECH-IMPAI RED INDIVIDUALS | |
| Javkin | Perceptual basis of vowel‐duration differences | |
| Sandhu et al. | A comparative study of mel cepstra and EIH for phone classification under adverse conditions | |
| US5278911A (en) | Speech recognition using a neural net | |
| SU1675936A1 (en) | Method for verification of speaker | |
| Studdert-Kennedy | From continuous signal to discrete message: Syllable to phoneme | |
| Karl et al. | The role of talker‐specific information in memory for spoken sentences | |
| GB2231698A (en) | Speech recognition | |
| SU1453442A1 (en) | Method of identifying a speaker | |
| Patterson et al. | PREPROCESSING AND RECOGNITION OF SPEECH | |
| Soron et al. | Some Measurements of the Glottal‐Area Waveform | |
| JPS6331798B2 (en) | ||
| AU613904B2 (en) | Audio visual speech recognition | |
| Pisoni et al. | Simple and contingent adaptation effects in speech perception | |
| Ramsay et al. | A stochastic framework for articulatory speech recognition | |
| Tokuma | A multidimensional scaling study of fricatives; a comparison of perceptual and physical dimensions | |
| BERG et al. | AUDTORYMODELSOF MUSCRESEARCH (PART) | |
| Choo | The relationship between perceptual and physical space of fricatives | |
| Kameny et al. | Automatic formant tracking | |
| Rosen et al. | Dynamic analog of the vocal tract | |
| JPH02254498A (en) | Phonological classification symbolization device | |
| Gazdag | A method of decoding speech |