[go: up one dir, main page]

WO2025187145A1 - 情報処理方法、情報処理装置及びプログラム - Google Patents

情報処理方法、情報処理装置及びプログラム

Info

Publication number
WO2025187145A1
WO2025187145A1 PCT/JP2024/042181 JP2024042181W WO2025187145A1 WO 2025187145 A1 WO2025187145 A1 WO 2025187145A1 JP 2024042181 W JP2024042181 W JP 2024042181W WO 2025187145 A1 WO2025187145 A1 WO 2025187145A1
Authority
WO
WIPO (PCT)
Prior art keywords
speaker
expression vector
score
processing
evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
PCT/JP2024/042181
Other languages
English (en)
French (fr)
Other versions
WO2025187145A8 (ja
Inventor
光佑 板倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Publication of WO2025187145A1 publication Critical patent/WO2025187145A1/ja
Publication of WO2025187145A8 publication Critical patent/WO2025187145A8/ja
Pending legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/12Score normalisation

Definitions

  • This disclosure relates to an information processing method, an information processing device, and a program.
  • speaker recognition involves comparing the registered voice of a pre-registered speaker with the input voice of an unknown speaker to be evaluated to calculate a similarity (score), and then comparing this score with a pre-set threshold to determine whether the input voice is the voice of the person claiming to be the speaker (speaker verification) or which registered speaker it is (speaker identification).
  • One of the objectives of this disclosure is to appropriately correct speaker recognition scores that may fluctuate in real-world environments.
  • the information processing method disclosed herein is an information processing method executed by at least one processor in an information processing device having at least one processor, which stores registration speaker data related to registration speech, which is the speech of a registered registration speaker; acquires evaluation speech, which is the speech of a speaker to be evaluated; calculates a score indicating the similarity between a registration speaker expression vector, which is a feature of the registration speech, and an evaluation speaker expression vector, which is a feature of the evaluation speech; corrects the score by combining at least two score correction processes; compares the corrected score with a preset threshold to determine whether the speaker to be evaluated matches the registration speaker; and outputs information indicating the determination result.
  • the at least two score correction processes include a first process that corrects the score using a model of interaction between speeches in metadata including quality indicators of the registration speech and the evaluation speech; and a second process that corrects the speaker matching score based on the result of matching an unspecified majority speaker speech, which is the speech of an unspecified majority speaker, with an unspecified majority speaker expression vector. At least the first process is applied before the second process.
  • FIG. 1 is a diagram illustrating an example of the configuration of a speaker verification score correction system according to the first embodiment.
  • FIG. 2 is a diagram illustrating an example of a functional configuration of the speaker verification device according to the first embodiment.
  • FIG. 3 is a diagram illustrating an example of a hardware configuration of an information processing device that realizes the speaker verification device according to the first embodiment.
  • FIG. 4 is a flowchart showing an example of the flow of the score correction process executed in the speaker verification device according to the first embodiment.
  • FIG. 5 is a diagram for explaining an example of the QMF process of FIG.
  • FIG. 6 is a diagram for explaining an example of the processing of the CMF in FIG.
  • FIG. 7 is a diagram for explaining an example of the ASnorm process in FIG. FIG.
  • FIG. 8 is a diagram for explaining improvement in accuracy of speaker verification by score correction according to the first embodiment.
  • FIG. 9 is a diagram illustrating an example of ASnorm processing according to the second embodiment.
  • FIG. 10 is a diagram for explaining improvement in accuracy of speaker verification by score correction according to the second embodiment.
  • FIG. 11 is a diagram illustrating an example of ASnorm processing according to the third embodiment.
  • An information processing method is an information processing method executed by at least one processor in an information processing device including at least one processor.
  • the information processing method includes: storing enrollment speaker data relating to enrollment speech, which is speech of a registered enrollment speaker; acquiring evaluation speech, which is speech of a speaker to be evaluated; calculating a score indicating the similarity between an enrollment speaker expression vector, which is a feature of the enrollment speech, and an evaluation speaker expression vector, which is a feature of the evaluation speech; correcting the score by combining at least two score correction processes; comparing the corrected score with a predetermined threshold to determine whether the speaker to be evaluated matches the enrollment speaker; and outputting information indicating the determination result.
  • the at least two score correction processes include a first process of correcting the score using a model of interaction between speeches in metadata including quality indicators of the enrollment speech and the evaluation speech; and a second process of correcting a speaker matching score based on a result of matching an unspecified majority speaker speech, which is speech of an unspecified majority speaker, with an unspecified majority speaker expression vector. At least the first process is applied before the second process.
  • the at least two score correction processes further include a third process of correcting the score based on the variation of the speaker expression vector for each time period of each voice.
  • the metadata includes an average value of the scores based on an unspecified multi-speaker expression vector used in the first processing of the unspecified multi-speaker speech.
  • the first processing calculates the scores of each of the registered speaker expression vector and the evaluated speaker expression vector and an unspecified majority speaker expression vector used in the first processing, selects the score when the unspecified majority speaker expression vector used in the first processing that has a high score with the registered speaker expression vector is compared with the evaluated speaker expression vector, selects the score when the unspecified majority speaker expression vector used in the first processing that has a high score with the evaluated speaker expression vector is compared with the registered speaker expression vector, and calculates the average score of the unspecified majority speaker expression vector used in the first processing for each of the registered speaker expression vector and the evaluated speaker expression vector.
  • the second processing includes the first processing to which the registered speaker expression vector and an unspecified majority speaker expression vector used in the second processing are input, and the second processing to which the evaluation speaker expression vector and an unspecified majority speaker expression vector used in the second processing are input, and the scores of each of the registered speaker expression vector and the evaluation speaker expression vector and the unspecified majority speaker expression vector used in the second processing are calculated, and the second processing having a high score with the registered speaker expression vector is selected.
  • the scores of the unspecified majority speaker expression vectors used in the second processing are selected when compared with the evaluation speaker expression vectors, the scores of the unspecified majority speaker expression vectors used in the second processing that have high scores with the evaluation speaker expression vectors are selected when compared with the registered speaker expression vectors, the average value and variance of the scores of the unspecified majority speaker expression vectors used in the second processing for each of the registered speaker expression vectors and the evaluation speaker expression vectors are calculated, and the scores corrected in at least the first processing are normalized using the calculated average value and variance.
  • the second processing calculates the score between the registered speaker expression vector and an unspecified majority speaker expression vector used in the second processing, calculates the score between the evaluation speaker expression vector and an unspecified majority speaker expression vector used in the second processing, selects the score when the unspecified majority speaker expression vector used in the second processing that has a high score with the registered speaker expression vector and the evaluation speaker expression vector, selects the score when the unspecified majority speaker expression vector used in the second processing that has a high score with the evaluation speaker expression vector and the registered speaker expression vector, calculates the average value and variance of the scores of the unspecified majority speaker expression vector used in the second processing for each of the registered speaker expression vector and the evaluation speaker expression vector, and normalizes at least the score corrected in the first processing using the calculated average value and variance.
  • the second processing includes the first processing on the calculated mean value and variance value, and at least the score corrected by the first processing is normalized using the mean value and variance value to which the first processing has been applied.
  • the calculation results i.e., the corrected score values, are comparable, and it is possible to reduce the amount of calculation required for at least the ASnorm processing applied after QMF processing.
  • the information processing device includes a memory and at least one processor.
  • the memory stores enrollment speaker data related to enrollment speech, which is speech of a registered enrollment speaker.
  • the at least one processor is configured to acquire evaluation speech, which is speech of a speaker to be evaluated, calculate a score indicating the similarity between an enrollment speaker expression vector, which is a feature of the enrollment speech, and an evaluation speaker expression vector, which is a feature of the evaluation speech, correct the score by combining at least two score correction processes, compare the corrected score with a predetermined threshold to determine whether the speaker to be evaluated matches the enrollment speaker, and output information indicating the determination result.
  • the at least two score correction processes include a first process that corrects the score using a model of interaction between speeches in metadata including quality indicators of the enrollment speech and the evaluation speech, and a second process that corrects a speaker matching score based on a matching result of an unspecified majority speaker speech, which is speech of an unspecified majority speaker, with an unspecified majority speaker expression vector. At least the first process is applied before the second process.
  • the program according to the present disclosure causes a computer to store enrollment speaker data relating to an enrollment speech, which is the speech of a registered enrollment speaker; acquire an evaluation speech, which is the speech of a speaker to be evaluated; calculate a score indicating the similarity between an enrollment speaker expression vector, which is a feature of the enrollment speech, and an evaluation speaker expression vector, which is a feature of the evaluation speech; correct the score by combining at least two or more score correction processes; compare the corrected score with a predetermined threshold to determine whether the speaker to be evaluated matches the enrolled speaker; and output information indicating the determination result.
  • the at least two or more score correction processes include a first process of correcting the score using a model of interaction between speeches in metadata including quality indicators of the enrollment speech and the evaluation speech; and a second process of correcting a speaker matching score based on a result of matching an unspecified multi-speaker speech, which is the speech of an unspecified multi-speaker, with an unspecified multi-speaker expression vector. At least the first process is applied before the second process.
  • components having the same or substantially the same functions may be distinguished by adding an alphanumeric character to the end of the reference symbol.
  • components having the same or substantially the same functions may be collectively described by omitting the alphanumeric character at the end of the reference symbol.
  • the score correction according to the present disclosure is applied to speaker verification as speaker recognition, but this is not limiting.
  • the score correction according to the present disclosure may also be applied to speaker identification instead of, or in addition to, speaker verification.
  • the speaker verification score correction system according to the present disclosure may be realized as a speaker identification score correction system or a speaker recognition score correction system.
  • the speaker verification device according to the present disclosure may be realized as a speaker identification device or a speaker recognition device.
  • the speaker recognition disclosed herein may be speech content-dependent speaker recognition, in which the words to be spoken (uttered) are determined in advance, or speech content-independent speaker recognition, in which any words may be uttered, or a combination of these.
  • the speaker verification score correction system 1 may be applied to a moving body such as a vehicle.
  • the speaker recognition device may be mounted on a moving body configured to be able to execute control in response to user voice input, such as for autonomous driving.
  • the moving body may be any type of vehicle, such as an EV vehicle such as an electric vehicle powered by a motor, a vehicle such as an automobile powered by an engine (internal combustion engine), or a hybrid vehicle powered by both an engine and a motor.
  • the moving body may be, for example, an automobile (vehicle) such as a passenger car, truck, or motorcycle, but may also be an electric bicycle, electric kick scooter, electric wheelchair, construction machinery, agricultural machinery, ship, train, airplane, etc.
  • the moving body may be configured to be capable of autonomous movement, or may be configured to be able to move in response to direct or remote operation by a user.
  • voice operation of a mobile object may refer to operations that control the movement of the mobile object, such as driving operations or setting a destination or route in a navigation system, or operations that control other functions of the mobile object, such as music playback, video playback, or internet searches.
  • the "movement" of a mobile object is achieved through autonomous or heteronomous control (driving control), and may also be expressed as “driving.”
  • the user who controls the mobile object by voice may be a driver, a passenger, or other occupant of the mobile object, or an operator who remotely controls the mobile object from outside the mobile object.
  • FIG. 1 is a diagram illustrating an example of the configuration of a speaker verification score correction system 1 according to the first embodiment.
  • the speaker matching score correction system 1 compares the voice of a registered speaker who has been registered in advance (registered voice) with the voice of an unknown speaker to be matched, i.e., the evaluation target voice (evaluation voice), to calculate the similarity, and determines whether the unknown speaker matches the registered speaker based on the similarity. For example, the speaker matching score correction system 1 determines whether the unknown speaker matches the registered speaker by comparing the similarity with a preset threshold. Note that, while this embodiment illustrates a use case in which the voice of the registered speaker is registered in advance as the registration voice, this is not limited to this.
  • the speaker matching score correction system 1 may also be applied to use cases in which the registered speaker is not registered "in advance.” As an example, when applied to a use case such as taking minutes of a meeting, the registered speaker can be registered "concurrently" rather than "in advance.” For example, the speaker matching score correction system 1 may simultaneously acquire the voice of the registered speaker to be registered and the voice of the unknown speaker to be evaluated, and compare these acquired voices to calculate the similarity. Furthermore, this embodiment illustrates a use case in which the speaker to be evaluated is an unknown speaker, but this is not limited to this. The speaker to be evaluated may be, for example, a known speaker who has been previously enrolled or evaluated.
  • the similarity changes depending on the conditions under which the voice is recorded.
  • changes in the conditions could cause the score to fall below the threshold even though the input voice is the person's own.
  • the score could exceed the threshold even though the input voice is from another person.
  • the score changes depending on the conditions under which the voice is recorded, which could lead to incorrect judgments (mismatches).
  • the speaker verification score correction system 1 is configured to correct the speaker verification similarity (score), which indicates the similarity between speaker expression vectors (x-vectors) extracted from the speech data to be compared, by combining at least two or more score correction techniques.
  • Score speaker verification similarity
  • the speaker verification score correction system 1 is configured to perform a quality measure function (QMF) process (first process) that adds or subtracts (corrects) the speaker verification score using a QMF model that models the interaction of quality indicators (metadata) such as speech length between voices and signal-to-noise ratio (SN).
  • QMF quality measure function
  • the speaker verification score correction system 1 according to the embodiment is configured to perform a QMF process that corrects the speaker verification score using a QMF model that has learned how much to correct the speaker verification score for the quality indicators (metadata).
  • model training refers to determining or updating the parameters of at least one function that defines the model. Details of the QMF process will be described later.
  • the speaker verification score correction system 1 is configured to perform CMF (Consistency Measure Factor) processing (third processing) that penalizes (corrects) the speaker verification score based on the variability of the feature values (e.g., voiceprints) over time for each voice.
  • CMF Consistency Measure Factor
  • the speaker verification score correction system 1 calculates a CMF value for each voice individually that reflects the degree of consistency or variance of the feature values over time for the voice, and scales the speaker verification score using the calculated CMF value as a correction coefficient. For example, a larger CMF value indicates that the distribution of speaker expression vectors is more concentrated, and increases the speaker verification score. Details of the CMF processing will be described later.
  • the speaker verification score correction system 1 is configured to perform ASnorm (Adaptive Symmetric Normalization) processing (second processing) that normalizes (corrects) the speaker verification score based on the results of matching with an unspecified number of speakers (Imposters). Details of the ASnorm processing will be described later.
  • ASnorm Adaptive Symmetric Normalization
  • the speaker matching score correction system 1 compares the similarity (corrected score) corrected using a combination of at least two or more score correction techniques with a preset threshold to determine (match) whether the unknown speaker matches a registered speaker.
  • the speaker matching score correction system 1 also outputs information indicating the determination result (matching result). As an example, if the corrected score is equal to or greater than the preset threshold, the speaker matching score correction system 1 determines that the unknown speaker is a registered speaker (the person in question) and outputs a matching result indicating that the unknown speaker is a registered speaker (the person in question).
  • the speaker matching score correction system 1 determines that the unknown speaker is a person (other person) who is not a registered speaker (the person in question) and outputs a matching result indicating that the unknown speaker is an unregistered speaker (other person).
  • the speaker verification score correction system 1 includes a speaker verification device 10.
  • FIG. 2 is a diagram showing an example of the functional configuration of the speaker verification device 10 according to the first embodiment.
  • the speaker verification device 10 has the functions of an input/output unit 101, an execution unit 102, and a storage unit 103.
  • the input/output unit 101 acquires the evaluation speech uttered by the unknown speaker.
  • the input/output unit 101 also outputs information indicating the determination result (matching result).
  • the execution unit 102 performs speaker matching processing, score correction processing, and judgment processing.
  • the storage unit 103 stores programs, parameters, data being processed, data resulting from processing, and the like related to each process executed by the speaker verification device 10.
  • the storage unit 103 stores registered speaker data 3, unspecified majority speaker (Imposter) data 4, and trained QMF model 5.
  • the registered speaker data 3 is information relating to the speech of a registered speaker who has been registered in advance (registered speech).
  • the registered speaker data 3 includes registered speech 3a, registered speaker expression vector 3b, and registered metadata 3c.
  • the registered speech 3a is the speech of a registered speaker who has been registered in advance.
  • the registered speaker expression vector 3b is the speaker expression vector (x-vector) of the registered speech 3a, i.e., a feature extracted from the registered speech 3a.
  • the registered metadata 3c is a quality index (metadata) such as the speech length and signal-to-noise ratio (SN) of the registered speech 3a.
  • the unspecified multi-speaker data 4 is information relating to the speech of an unspecified multi-speaker (unspecified multi-speaker speech).
  • the unspecified multi-speaker data 4 includes unspecified multi-speaker speech for ASnorm 4a, unspecified multi-speaker expression vector for QMF 4b, unspecified multi-speaker expression vector for ASnorm 4c, and unspecified multi-speaker metadata for ASnorm 4d.
  • the unspecified multi-speaker speech for ASnorm 4a is speech of an unspecified multi-speaker used for ASnorm processing.
  • the unspecified multi-speaker expression vector for QMF 4b and the unspecified multi-speaker expression vector for ASnorm 4c are each speaker expression vectors (x-vectors) of the unspecified multi-speaker speech 4a, i.e., features extracted from the unspecified multi-speaker speech 4a.
  • the unspecified multi-speaker metadata 4d for ASnorm is quality indicators (metadata) such as speech length and signal-to-noise (SN) ratio for the unspecified multi-speaker speech 4a.
  • X for “A” means at least the “X” used for “A,” and does not prevent “X” for “A” from being used for another “B” of “A,” or “X” for another “C” of “A” from being used for “A.” Furthermore, the “X” for "A” and the “X” for another “D” of “A” may be partially or entirely the same.
  • the trained QMF model 5 is a machine learning model or at least one function whose parameters are determined to output information indicating the degree of correction depending on the input of similarity (score) and metadata, or a corrected score. Any machine learning model, such as a CNN (Convolutional Neural Network), can be used as this machine learning model, as appropriate depending on the processing.
  • the trained QMF model 5 may also be stored outside the speaker verification device 10.
  • speaker verification device 10 may be integrated into a single function. Furthermore, some of the functions of the speaker verification device 10 according to the embodiment may be implemented by an information processing device provided outside the speaker verification device 10 in the speaker verification score correction system 1.
  • FIG. 3 is a diagram showing an example of the hardware configuration of an information processing device 8 that realizes the speaker verification device 10 according to the first embodiment.
  • the information processing device 8 has a processor 81, a main memory device 82, an auxiliary memory device 83, and an I/F (interface) 84.
  • the processor 81, the main memory device 82, the auxiliary memory device 83, and the I/F 84 are interconnected via a bus or the like, and have a hardware configuration that utilizes a typical computer. Note that each component of the information processing device 8 may be realized by a combination of two or more components.
  • the processor 81 is, for example, at least one CPU (Central Processing Unit).
  • the processor 81 comprehensively controls the operation of the information processing device 8, for example by executing a program, and realizes each function of the information processing device 8.
  • the processor 81 loads a program stored in the auxiliary storage device 83 into the main storage device 82 and executes it, thereby realizing each function of the speaker verification device 10, including the execution unit 102 illustrated in FIG. 2.
  • the functions of the speaker verification device 10 are not limited to these. Furthermore, some or all of the functions of the speaker verification device 10 may be realized by dedicated hardware circuits.
  • the processor 81 is an example of at least one processor in the information processing device 8.
  • at least one processor at least one other processor may be used instead of or in addition to the CPU.
  • various processors such as a CPU, GPU (Graphics Processing Unit), DSP (Digital Signal Processor), or a dedicated arithmetic circuit realized by an ASIC (Application Specific Integrated Circuit) or FPGA (Field Programmable Gate Array) can be used as appropriate.
  • the main memory device 82 is, for example, RAM (Random Access Memory).
  • the main memory device 82 temporarily stores data necessary for various processes performed by the processor 81.
  • the main memory device 82 in this embodiment is an example of at least one memory in the information processing device 8.
  • the auxiliary storage device 83 is, for example, a ROM (Read Only Memory).
  • the auxiliary storage device 83 stores programs and parameters that realize various processes performed by the processor 81.
  • the auxiliary storage device 83 in this embodiment is an example of at least one memory in the information processing device 8. Note that, instead of or in addition to ROM, various storage media and storage devices such as an HDD (Hard Disk Drive), SSD (Solid State Drive), and flash memory can be used as the auxiliary storage device 83, as appropriate.
  • the main memory device 82 and auxiliary memory device 83 realize the memory unit 103.
  • I/F 84 is an interface for implementing input/output functions, connecting external devices, and/or communicating with the outside world. I/F 84 may also be an output interface that connects or implements an output device that outputs audio, images, or video, an input interface that connects or implements an input device that acquires user input, or an interface that functions as these devices.
  • Output devices may include various displays and speakers, such as liquid crystal displays (LCDs), organic electroluminescence (EL) displays, and projectors.
  • Input devices may include keyboards, mice, touch panels, microphones, and other devices.
  • Wired or wireless communication circuits may be used as interfaces for communicating with the outside world. Wireless communication circuits may include communication circuits compatible with various standards, such as 3G, 4G, 5G, 6G, Wi-Fi (registered trademark), Bluetooth (registered trademark), and infrared communication.
  • the I/F 84 realizes an input interface (input/output unit 101) that connects or realizes an input device, and an output interface (input/output unit 101) that connects or realizes an output device.
  • the information processing device 8 that realizes the speaker verification device 10 may be realized by an on-board computer such as an ECU (Electronic Control Unit) installed inside the vehicle, a DCU (Domain Control Unit) such as a CDC (Cockpit Domain Controller) that integrates multiple ECUs, or an OBU (On Board Unit).
  • the information processing device 8 that realizes the speaker verification device 10 may be an external computer installed near the dashboard of the vehicle.
  • the information processing device 8 that realizes the speaker verification device 10 may be realized by an information processing device 8 shared with other on-board devices, or each may be realized by a different information processing device 8.
  • the information processing device 8 that realizes the speaker verification device 10 may be configured integrally with an on-board car navigation device.
  • the information processing device 8 that realizes the speaker verification device 10 may send and receive information to and from other computers installed in the vehicle via an in-vehicle network including a CAN (Controller Area Network), Ethernet (registered trademark), or USB (Universal Serial Bus (registered trademark)) within the vehicle, or may communicate with information processing devices external to the vehicle via a network such as the Internet.
  • the information processing device 8 that realizes the speaker verification device 10 outputs the verification results (determination results) of speaker verification to another in-vehicle computer that controls the vehicle.
  • the memory unit 103 of the speaker verification device 10 stores registered speaker data 3, which includes the voice of a registered speaker (registered voice) that has been registered in advance.
  • the input/output unit 101 of the speaker verification device 10 acquires the speech of the unknown speaker to be evaluated (evaluation speech).
  • the execution unit 102 then performs speaker verification processing, comparing the registered speech with the evaluation speech to calculate a similarity (score) (S1). Specifically, in the speaker verification processing, the execution unit 102 calculates a speaker verification similarity (score) that indicates the similarity between speaker expression vectors (x-vectors) extracted from the registered speech and the evaluation speech.
  • the execution unit 102 also performs score correction processing, correcting the speaker verification score by combining at least two or more score correction techniques (S2).
  • the execution unit 102 also performs a determination (verification) processing, comparing the speaker verification similarity (corrected score) corrected in the score correction processing with a preset threshold value to determine whether the unknown speaker matches the registered speaker (S3).
  • the input/output unit 101 then outputs the determination result (verification result).
  • FIG. 4 is a flowchart showing an example of the flow of the score correction process executed in the speaker verification device 10 according to the first embodiment.
  • the flow in FIG. 4 corresponds to the processes S1 and S2 in FIG. 1.
  • the execution unit 102 performs QMF processing (first processing) and adds or subtracts (corrects) the speaker verification score using quality indicators (metadata) such as the speech length between voices and signal-to-noise ratio (S101).
  • QMF processing first processing
  • metals or subtracts corrects the speaker verification score using quality indicators (metadata) such as the speech length between voices and signal-to-noise ratio (S101).
  • the execution unit 102 performs CMF processing (third processing) and penalizes (corrects) the speaker verification score corrected by QMF processing based on the variation in the features (e.g., voiceprints) of each voice over time (S102).
  • CMF processing third processing
  • QMF processing penalizes (corrects) the speaker verification score corrected by QMF processing based on the variation in the features (e.g., voiceprints) of each voice over time (S102).
  • the execution unit 102 performs ASnorm processing (second processing) and normalizes (corrects) the speaker matching scores corrected by QMF and CMF processing based on the matching results with an unspecified number of speakers (Imposter) (S103).
  • Figure 5 is a diagram illustrating an example of the QMF processing in Figure 4.
  • the execution unit 102 calculates the cosine similarity between the enrollment speaker expression vector 3b extracted from the enrollment speech 3a and the evaluation speaker expression vector 6b extracted from the evaluation speech 6a as the speaker matching score (S201).
  • This Cosine similarity is a measure of the similarity between speaker expression vectors, and is, for example, the cosine distance.
  • This cosine distance is calculated, for example, as the inner product of the speaker expression vectors divided by the product of the magnitudes (L2 norms) of the respective speaker expression vectors. For example, if the Cosine similarity between speaker expression vectors is "1", the two speaker expression vectors are completely similar. For example, if the Cosine similarity between speaker expression vectors is "0", the two speaker expression vectors are not related to whether they are similar or not. For example, if the Cosine similarity between speaker expression vectors is "-1", the two speaker expression vectors are completely dissimilar.
  • the execution unit 102 calculates the cosine similarity between the registered speaker expression vector 3b and the unspecified majority speaker expression vector 4b for QMF (S202). Similarly, the execution unit 102 calculates the cosine similarity between the evaluation speaker expression vector 6b and the unspecified majority speaker expression vector 4b for QMF (S203).
  • the execution unit 102 performs data selection to determine the Cosine similarity when comparing an unspecified majority speaker expression vector 4b for QMF that is similar to the registered speaker expression vector 3b with an evaluation speaker expression vector 6b (S204). Similarly, the execution unit 102 performs data selection to determine the Cosine similarity when comparing an unspecified majority speaker expression vector 4b for QMF that is similar to the evaluation speaker expression vector 6b with a registered speaker expression vector 3b (S205).
  • the execution unit 102 selects unspecified majority speaker expression vectors 4b for QMF that have a high Cos similarity to the evaluation speaker expression vector 6b from among the unspecified majority speaker expression vectors 4b for QMF that have a high Cos similarity to the registration speaker expression vector 3b.
  • the execution unit 102 selects unspecified majority speaker expression vectors 4b for QMF that have a high Cos similarity to the registration speaker expression vector 3b from among the unspecified majority speaker expression vectors 4b for QMF that have a high Cos similarity to the evaluation speaker expression vector 6b.
  • speaker expression vectors with a high Cos similarity may be speaker expression vectors whose Cos similarity is higher than a predetermined threshold, or may be a predetermined number of speaker expression vectors sorted in descending order of Cos similarity.
  • the execution unit 102 calculates the average value of the Cosine similarity of the unspecified majority speaker expression vectors 4b for QMF after data selection with respect to the registered speaker expression vectors 3b (S206). Similarly, the execution unit 102 calculates the average value of the Cosine similarity of the unspecified majority speaker expression vectors 4b for QMF after data selection with respect to the evaluation speaker expression vectors 6b (S207).
  • the execution unit 102 determines parameters for QMF using the average value of the Cosine similarity of the unspecified majority speaker expression vector 4b for QMF to the registered speaker expression vector 3b, and the average value of the Cosine similarity of the unspecified majority speaker expression vector 4b for QMF to the evaluation speaker expression vector 6b (S208).
  • the QMF parameters may be the calculated average values themselves, or may be values calculated by calculation based on the average values. These QMF parameters are also treated as metadata in the QMF processing.
  • the metadata used in the QMF processing according to this embodiment includes enrollment metadata 3c, unspecified majority speaker metadata for ASnorm 4d, evaluation metadata 6c, and QMF parameters which are the score averages of the enrollment speaker expression vectors 3b and evaluation speaker expression vectors 6b with an unspecified majority of speakers.
  • the execution unit 102 corrects the Cos similarity as the speaker matching score calculated in the processing of S201 to calculate a corrected score (S209). Specifically, the execution unit 102 inputs the Cos similarity and metadata including the QMF parameters calculated in the processing of S208 into the trained QMF model 5. The execution unit 102 also obtains the output of the trained QMF model 5 in response to the input of the Cos similarity and metadata as a corrected score (similarity).
  • FIG 6 is a diagram illustrating an example of the CMF processing of Figure 4.
  • the execution unit 102 calculates the feature quantities of the registered speech 3a for each time period, i.e., the CMF values indicating the variance of the registered speaker expression vector 3b for each time period (S301).
  • the execution unit 102 calculates the feature quantities of the evaluation speech 6a for each time period, i.e., the CMF values indicating the variance of the evaluation speaker expression vector 6b for each time period (S302).
  • the execution unit 102 uses the calculated CMF values as correction coefficients to scale and correct the similarity (corrected score) corrected in the QMF processing, thereby calculating the corrected score (similarity).
  • the execution unit 102 calculates the Cosine similarity between the registered speaker expression vector 3b and the evaluation speaker expression vector 6b as the speaker matching score, and then corrects it using the CMF value.
  • Figure 7 is a diagram illustrating an example of the ASnorm processing in Figure 4.
  • the execution unit 102 calculates the Cosine similarity (speaker matching score) between the enrollment speaker expression vector 3b extracted from the enrollment speech 3a and the evaluation speaker expression vector 6b extracted from the evaluation speech 6a, and corrects the calculated Cosine similarity through QMF processing and CMF processing (S401).
  • This S401 processing corresponds to the processing of S101 to S102 in Figure 4.
  • the processing in this step can be processing to obtain the similarity (corrected score) corrected through QMF processing and CMF processing.
  • the execution unit 102 executes QMF processing and CMF processing using the registered speaker expression vector 3b and the unspecified majority speaker expression vector for ASnorm 4c as input, and calculates each similarity (S402). That is, the execution unit 102 executes the QMF processing of FIG. 5 using the unspecified majority speaker expression vector for ASnorm 4c instead of the evaluation speaker expression vector 6b. Furthermore, the execution unit 102 executes the CMF processing of FIG. 6 using the unspecified majority speaker speech for ASnorm 4a instead of the evaluation speech 6a.
  • the execution unit 102 executes QMF processing and CMF processing using the evaluation speaker expression vector 6b and the unspecified majority speaker expression vector for ASnorm 4c as input, and calculates each similarity (S403). That is, the execution unit 102 executes the QMF processing of FIG. 5 using the unspecified majority speaker expression vector for ASnorm 4c instead of the registered speaker expression vector 3b. Also, the execution unit 102 executes the CMF processing of FIG. 6 using the unspecified majority speaker speech for ASnorm 4a instead of the registered speech 3a.
  • the execution unit 102 performs data selection to select the Cosine similarity when comparing the unspecified majority speaker expression vector 4c for ASnorm, which is similar to the registered speaker expression vector 3b, with the evaluation speaker expression vector 6b (S404), for example, in the same manner as the processing of S204 in FIG. 5.
  • the execution unit 102 also performs data selection to select the Cosine similarity when comparing the unspecified majority speaker expression vector 4c for ASnorm, which is similar to the evaluation speaker expression vector 6b, with the registered speaker expression vector 3b (S405), for example, in the same manner as the processing of S205 in FIG. 5.
  • the execution unit 102 calculates the average value and variance of the Cos similarity of the unspecified majority speaker expression vector 4c for ASnorm after data selection with respect to the registered speaker expression vector 3b (S406). Similarly, the execution unit 102 calculates the average value and variance of the Cos similarity of the unspecified majority speaker expression vector 4c for ASnorm after data selection with respect to the evaluation speaker expression vector 6b (S407).
  • the execution unit 102 normalizes (corrects) the Cos similarity (corrected score) between the registered speaker expression vector 3b and the evaluation speaker expression vector 6b corrected by the QMF processing and the CMF processing using the average value and variance value of the Cos similarity of the unspecified majority speaker expression vector 4c for ASnorm for each of the registered speaker expression vector 3b and the evaluation speaker expression vector 6b, thereby calculating the corrected score (S408).
  • the speaker verification device 10 combines multiple score correction techniques to correct the speaker verification score.
  • FIG. 8 is a diagram illustrating how the accuracy of speaker verification is improved by score correction according to the first embodiment.
  • “BE1” indicates the first post-processing (BE) performed.
  • “BE2” and “BE3” indicate the second and third post-processing performed, respectively.
  • “minC” and “EER” are indicators for measuring speaker verification performance, with smaller values indicating better performance.
  • “minC”, also known as minDCF, is an indicator used to evaluate systems in speaker verification competitions held by the US National Institute of Standards and Technology (NIST) SRE (Speaker Recognition Evaluation).
  • “EER” is an indicator called the equivalent error rate, used to evaluate biometric authentication systems.
  • EER is the value at which the false rejection rate (FRR), which indicates the rate at which a registered person (the person in question) is mistakenly determined to be someone other than the registered person in authentication, is equal to the false acceptance rate (FAR), which indicates the rate at which a different person is mistakenly determined to be the registered person in authentication.
  • FRR false rejection rate
  • FAR false acceptance rate
  • the speaker verification device 10 is configured to use the score average with the unspecified number of speakers data 4 as metadata in addition to quality indicators such as speech length and SN during QMF processing.
  • the speaker verification device 10 according to the embodiment then executes a combination of three score correction processes (post-processing: BE) - QMF processing, CMF processing, and ASnorm processing - in an order in which QMF processing is applied at least prior to ASnorm processing.
  • BE score correction processes
  • the speaker verification device 10 applies and combines three score correction methods in the order of QMF processing, CMF processing, and ASnorm processing, as shown in the first row of Figure 8.
  • the speaker verification device 10 applies and combines three score correction methods in the order of QMF processing, ASnorm processing, and CMF processing, as shown in the second row of Figure 8.
  • the speaker verification device 10 applies and combines three score correction methods in the order of CMF processing, QMF processing, and ASnorm processing, as shown in the third row of Figure 8.
  • the "minC” and “EER” values can be reduced compared to when QMF processing is applied after ASnorm processing (lines 4-6), improving speaker verification performance. Therefore, speaker recognition scores, which can fluctuate in real-world environments, can be appropriately corrected.
  • Second Embodiment 9 is a diagram for explaining an example of ASnorm processing according to the second embodiment, and mainly describes differences from the ASnorm processing exemplified in FIG.
  • the execution unit 102 calculates the Cos similarity (speaker matching score) between the registered speaker expression vector 3b and the unspecified majority speaker expression vector for ASnorm 4c (S501), instead of performing QMF processing and CMF processing using the registered speaker expression vector 3b and the unspecified majority speaker expression vector for ASnorm 4c as input.
  • the execution unit 102 calculates the Cosine similarity (speaker matching score) between the evaluation speaker expression vector 6b and the unspecified majority speaker expression vector for ASnorm 4c (S502).
  • the execution unit 102 performs data selection to select the Cos similarity when the unspecified majority speaker expression vector 4c for ASnorm, which is similar to the registered speaker expression vector 3b, is compared with the evaluation speaker expression vector 6b (S404). Furthermore, based on the Cos similarity calculated in the processing of S502, the execution unit 102 performs data selection to select the Cos similarity when the unspecified majority speaker expression vector 4c for ASnorm, which is similar to the evaluation speaker expression vector 6b, is compared with the registered speaker expression vector 3b (S405).
  • Figure 9 illustrates an example in which, in ASnorm processing applied after at least QMF processing, QMF processing and CMF processing are excluded when calculating the score with the unspecified majority speaker expression vector 4c, but this is not limiting.
  • ASnorm processing applied after at least QMF processing it is sufficient that at least QMF processing is excluded when calculating the score with the unspecified majority speaker expression vector 4c, and CMF processing does not have to be excluded.
  • unspecified multi-speaker (imposter) data can contain tens of thousands of pieces of utterance data.
  • QMF processing and CMF processing are applied to calculate the similarity between the registration/evaluation data and the impostor data.
  • the speaker verification device 10 is configured to exclude at least QMF processing when calculating scores with the unspecified majority speaker representation vector 4c in ASnorm processing. This configuration makes it possible to reduce the amount of calculation required for ASnorm processing, which is applied at least after QMF processing.
  • FIG. 10 is a diagram for explaining the improvement in speaker verification accuracy through score correction according to the second embodiment.
  • QMF processing uses the average score with the unspecified multi-speaker data 4 as metadata, in addition to quality indicators such as utterance length and SN, prior to ASnorm processing.
  • the speaker verification device 10 applies and combines three score correction methods in the order of QMF processing, CMF processing, and ASnorm processing, as shown in the first row of Figure 10.
  • the speaker verification device 10 applies and combines three score correction methods in the order of QMF processing, ASnorm processing, and CMF processing, as shown in the second row of Figure 10.
  • (Third embodiment) 11 is a diagram for explaining an example of ASnorm processing according to the third embodiment.
  • differences from the ASnorm processing exemplified in FIG. 10 will be mainly explained.
  • the execution unit 102 applies QMF processing and CMF processing to the mean value and variance of the Cos similarity of the unspecified majority speaker expression vector 4c for ASnorm with respect to the registered speaker expression vector 3b, calculated in the processing of S406 (S601).
  • the execution unit 102 applies QMF processing and CMF processing to the mean value and variance of the Cos similarity of the unspecified majority speaker expression vector 4c for ASnorm with respect to the evaluation speaker expression vector 6b, calculated in the processing of S407 (S602).
  • the execution unit 102 calculates the corrected score by normalizing (correcting) the Cos similarity (corrected score) between the registered speaker expression vector 3b and the evaluation speaker expression vector 6b corrected by the QMF processing and CMF processing using the mean value and variance value of the Cos similarity corrected by the QMF processing and CMF processing (S408).
  • Figure 11 illustrates an example in which, in ASnorm processing applied after at least QMF processing, the amount of calculation is reduced by calculating and approximating the mean and variance of the Cos similarity for the unspecified multi-speaker representation vector 4c before QMF processing and CMF processing, but this is not limiting.
  • ASnorm processing applied after at least QMF processing it is sufficient to calculate and approximate the mean and variance of the Cos similarity for the unspecified multi-speaker representation vector 4c at least before QMF processing, and CMF processing may be performed before calculating the mean and variance of the Cos similarity for the unspecified multi-speaker representation vector 4c.
  • the number of data selected in the data selection process is assumed to be equal to the original number of data. Furthermore, in the ASnorm processing of this embodiment, the metadata and score values used in the QMF processing are assumed to be independent.
  • the speaker verification device 10 is configured to perform QMF processing and CMF processing on the unspecified multi-speaker expression vector 4c and the mean and variance of its metadata.
  • both QMF processing and CMF processing are linear transformations.
  • the mean and variance are calculated after QMF processing and CMF processing or before QMF processing and CMF processing, the calculation results, i.e., the values of the corrected scores, are approximately the same. Therefore, even with the configuration according to this embodiment, it is possible to reduce the amount of calculation for ASnorm processing, which is applied at least after QMF processing.
  • the programs executed by the speaker verification device 10 in each of the above-described embodiments may be provided as installable or executable files recorded on a computer-readable recording medium (Computer Program Product) such as a CD-ROM, FD, CD-R, or DVD.
  • a computer-readable recording medium such as a CD-ROM, FD, CD-R, or DVD.
  • the program executed by the speaker verification device 10 of each of the above-described embodiments may be stored on a computer connected to a network such as the Internet, and provided by being downloaded via the network. Further, the program executed by the speaker verification device 10 of each of the above-described embodiments may be provided or distributed via a network such as the Internet.
  • the programs executed by the speaker verification device 10 of each of the above-described embodiments may be configured to be provided by being pre-installed in a ROM or the like.
  • At least one of the embodiments described above makes it possible to appropriately correct speaker recognition scores that may fluctuate in real-world environments.
  • Speaker verification device 101 Input/output unit 102 Execution unit 103 Storage unit 3 Enrolled speaker data 3a Enrolled speech 3b Enrolled speaker expression vector (xvector) 3c Registration metadata 4 Unspecified multi-speaker (Imposter) data 4a Unspecified multi-speaker speech for ASnorm 4b Unspecified multi-speaker expression vector for QMF 4c Unspecified multi-speaker expression vector for ASnorm 4d Unspecified multi-speaker metadata for ASnorm 5 Trained QMF model 6a Evaluation speech 6b Evaluation speaker expression vector 6c Evaluation metadata 8 Information processing device 81 Processor 82 Main storage device 83 Auxiliary storage device 84 I/F

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本開示にかかる情報処理方法は、登録話者の登録音声と取得した評価音声との評価話者表現ベクトルの類似性を示すスコアを算出し、少なくとも2以上のスコア補正処理を組み合わせてスコアを補正し、補正されたスコアと事前に設定された閾値とを比較して評価対象の話者が登録話者に一致するか否かを判定し、判定結果を示す情報を出力する。少なくとも2以上のスコア補正処理は、メタデータの音声間の相互作用のモデルを用いてスコアを補正する第1の処理と、不特定多数話者音声の不特定多数話者表現ベクトルとの照合結果をもとに話者照合のスコアを補正する第2の処理と、を含む。少なくとも第1の処理は、第2の処理より前に適用される。

Description

情報処理方法、情報処理装置及びプログラム
 本開示は、情報処理方法、情報処理装置及びプログラムに関する。
 一般に、話者認識(Speaker Recognition)においては、事前に登録した登録話者の登録音声と評価対象の未知話者の入力音声とを比較して類似度(スコア)を算出し、そのスコアを事前に設定された閾値と比較することにより、入力音声が名乗った本人の音声であるかの判定(話者照合:Speaker Verification)や、いずれの登録話者であるかの判定(話者識別:Speaker Identification)が行われている。
Sturim D.E. and Reynolds D.A., Speaker adaptive cohort selection for Tnorm in text-independent speaker verification, ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings, I, art. no.1415220, pp.741-744(2005). Mandasari, M.I., Saeidi, R., McLaren, M. and van Leeuwen, D.A., Quality measurefunctions for calibration of speaker recognition systems in various duration conditions, IEEE Transactions on Audio, Speech, and Language Processing, 21(11), pp.425-2438(2013). Yu Zheng, Yajun Zhang, Chuanying Niu, Yibin Zhan, Yanhua Long, and Dongxing Xu, Unisound system for voxceleb speaker recognition challenge 2023, eprint arXiv:2308.12526(2023).
 しかしながら、実環境では、その音声が収録された条件によって類似度(スコア)が変化するため、例えば、その条件の変化によって本人の入力音声であるにもかかわらずスコアが閾値を下回ったり、他人の入力音声であるにもかかわらずスコアが閾値を上回ったりするなど、誤判定(誤認識)が生じるおそれがあった。このため、話者認識においては、スコアの適切な補正に関し、改善の余地があった。
 本開示は、実環境において変動し得る話者認識のスコアを適切に補正することを目的の一つとする。
 本開示にかかる情報処理方法は、少なくとも一つのプロセッサを備える情報処理装置において前記少なくとも一つのプロセッサが実行する情報処理方法であって、登録した登録話者の音声である登録音声に関する登録話者データを記憶し、評価対象の話者の音声である評価音声を取得し、前記登録音声の特徴量である登録話者表現ベクトルと、前記評価音声の特徴量である評価話者表現ベクトルと、の間の類似性を示すスコアを算出し、少なくとも2以上のスコア補正処理を組み合わせて前記スコアを補正し、補正された前記スコアと事前に設定された閾値とを比較して前記評価対象の話者が前記登録話者に一致するか否かを判定し、判定結果を示す情報を出力する。前記少なくとも2以上のスコア補正処理は、前記登録音声及び前記評価音声の品質指標を含むメタデータの音声間の相互作用のモデルを用いて前記スコアを補正する第1の処理と、不特定多数話者の音声である不特定多数話者音声の不特定多数話者表現ベクトルとの照合結果をもとに話者照合のスコアを補正する第2の処理と、を含む。少なくとも前記第1の処理は、前記第2の処理より前に適用される。
図1は、第1の実施形態にかかる話者照合スコア補正システムの構成の一例を示す図である。 図2は、第1の実施形態にかかる話者照合装置の機能構成の一例を示す図である。 図3は、第1の実施形態にかかる話者照合装置を実現する情報処理装置のハードウェア構成の一例を示す図である。 図4は、第1の実施形態にかかる話者照合装置において実行される、スコア補正処理の流れの一例を示すフローチャートである。 図5は、図4のQMFの処理の一例について説明するための図である。 図6は、図4のCMFの処理の一例について説明するための図である。 図7は、図4のASnormの処理の一例について説明するための図である。 図8は、第1の実施形態にかかるスコア補正による話者照合の精度向上について説明するための図である。 図9は、第2の実施形態にかかるASnormの処理の一例について説明するための図である。 図10は、第2の実施形態にかかるスコア補正による話者照合の精度向上について説明するための図である。 図11は、第3の実施形態にかかるASnormの処理の一例について説明するための図である。
(1)
 本開示にかかる情報処理方法は、少なくとも一つのプロセッサを備える情報処理装置において前記少なくとも一つのプロセッサが実行する情報処理方法である。前記情報処理方法は、登録した登録話者の音声である登録音声に関する登録話者データを記憶し、評価対象の話者の音声である評価音声を取得し、前記登録音声の特徴量である登録話者表現ベクトルと、前記評価音声の特徴量である評価話者表現ベクトルと、の間の類似性を示すスコアを算出し、少なくとも2以上のスコア補正処理を組み合わせて前記スコアを補正し、補正された前記スコアと事前に設定された閾値とを比較して前記評価対象の話者が前記登録話者に一致するか否かを判定し、判定結果を示す情報を出力する。前記少なくとも2以上のスコア補正処理は、前記登録音声及び前記評価音声の品質指標を含むメタデータの音声間の相互作用のモデルを用いて前記スコアを補正する第1の処理と、不特定多数話者の音声である不特定多数話者音声の不特定多数話者表現ベクトルとの照合結果をもとに話者照合のスコアを補正する第2の処理と、を含む。少なくとも前記第1の処理は、前記第2の処理より前に適用される。
 この構成によれば、ASnormの処理の前にQMFの処理が適用されるため、話者照合の性能を向上させることができる。したがって、実環境において変動し得る話者認識のスコアを適切に補正することができる。
(2)
 上記(1)に記載の情報処理方法において、前記少なくとも2以上のスコア補正処理は、各音声の時間ごとの話者表現ベクトルのばらつきに基づいて前記スコアを補正する第3の処理をさらに含む。
 この構成によれば、CMFの処理をさらに適用する場合であっても、少なくともASnormの処理の前にQMFの処理が適用されるため、話者照合の性能を向上させることができる。
(3)
 上記(1)又は上記(2)に記載の情報処理方法において、前記メタデータは、前記不特定多数話者音声の前記第1の処理に用いる不特定多数話者表現ベクトルに基づく前記スコアの平均値を含む。
 この構成によれば、ASnormの処理に先立ってQMFの処理が適用されるため、発話長やSNといった品質指標に加えて、不特定多数話者データ4とのスコア平均をメタデータとして用いる場合であっても、話者照合の性能を向上させることができる。
(4)
 上記(1)又は上記(2)に記載の情報処理方法において、前記第1の処理は、前記登録話者表現ベクトル及び前記評価話者表現ベクトルのそれぞれと、前記第1の処理に用いる不特定多数話者表現ベクトルと、の前記スコアを算出し、前記登録話者表現ベクトルとの前記スコアが高い前記第1の処理に用いる不特定多数話者表現ベクトルを、前記評価話者表現ベクトルと比較した場合の前記スコアを選別し、前記評価話者表現ベクトルとの前記スコアが高い前記第1の処理に用いる不特定多数話者表現ベクトルを、前記登録話者表現ベクトルと比較した場合の前記スコアを選別し、前記登録話者表現ベクトル及び前記評価話者表現ベクトルのそれぞれに対する前記第1の処理に用いる不特定多数話者表現ベクトルの前記スコアの平均値を算出する。
 この構成によれば、ASnormの処理に先立ってQMFの処理が適用されるため、発話長やSNといった品質指標に加えて、不特定多数話者データ4とのスコア平均をメタデータとして用いる場合であっても、話者照合の性能を向上させることができる。
(5)
 上記(1)から上記(4)のうちのいずれか一項に記載の情報処理方法において、前記第2の処理は、前記登録話者表現ベクトルと、前記第2の処理に用いる不特定多数話者表現ベクトルと、を入力とした前記第1の処理と、前記評価話者表現ベクトルと、前記第2の処理に用いる不特定多数話者表現ベクトルと、を入力とした前記第1の処理と、を含み、前記登録話者表現ベクトル及び前記評価話者表現ベクトルのそれぞれと、前記第2の処理に用いる不特定多数話者表現ベクトルと、の前記スコアを算出し、前記登録話者表現ベクトルとの前記スコアが高い前記第2の処理に用いる不特定多数話者表現ベクトルを、前記評価話者表現ベクトルと比較した場合の前記スコアを選別し、前記評価話者表現ベクトルとの前記スコアが高い前記第2の処理に用いる不特定多数話者表現ベクトルを、前記登録話者表現ベクトルと比較した場合の前記スコアを選別し、前記登録話者表現ベクトル及び前記評価話者表現ベクトルのそれぞれに対する前記第2の処理に用いる不特定多数話者表現ベクトルの前記スコアの平均値及び分散値を算出し、少なくとも前記第1の処理で補正された前記スコアを、算出した前記平均値及び前記分散値を用いて正規化する。
 この構成によれば、ASnormの処理に先立ってQMFの処理が適用されるため、発話長やSNといった品質指標に加えて、不特定多数話者データ4とのスコア平均をメタデータとして用いる場合であっても、話者照合の性能を向上させることができる。
(6)
 上記(1)から上記(4)のうちのいずれか一項に記載の情報処理方法において、前記第2の処理は、前記登録話者表現ベクトルと、前記第2の処理に用いる不特定多数話者表現ベクトルと、の前記スコアを算出し、前記評価話者表現ベクトルと、前記第2の処理に用いる不特定多数話者表現ベクトルと、の前記スコアを算出し、前記登録話者表現ベクトルとの前記スコアが高い前記第2の処理に用いる不特定多数話者表現ベクトルを、前記評価話者表現ベクトルと比較した場合の前記スコアを選別し、前記評価話者表現ベクトルとの前記スコアが高い前記第2の処理に用いる不特定多数話者表現ベクトルを、前記登録話者表現ベクトルと比較した場合の前記スコアを選別し、前記登録話者表現ベクトル及び前記評価話者表現ベクトルのそれぞれに対する前記第2の処理に用いる不特定多数話者表現ベクトルの前記スコアの平均値及び分散値を算出し、少なくとも前記第1の処理で補正された前記スコアを、算出した前記平均値及び前記分散値を用いて正規化する。
 この構成によれば、少なくともQMFの処理の後にASnormの処理を適用することにより照合精度を向上しつつ、少なくともQMFの処理の後に適用されるASnormの処理についての演算量を削減することができる。
(7)
 上記(6)に記載の情報処理方法において、前記第2の処理は、算出した前記平均値及び前記分散値に対する前記第1の処理を含み、少なくとも前記第1の処理で補正された前記スコアを、前記第1の処理を適用した前記平均値及び前記分散値を用いて正規化する。
 この構成によれば、QMFの処理及びCMFの処理の後に平均・分散を計算する場合であっても、QMFの処理及びCMFの処理の前に平均・分散を計算する場合であっても、その計算結果、すなわち補正スコアの値は同程度であり、少なくともQMFの処理の後に適用されるASnormの処理についての演算量を削減することができる。
(8)
 上記(2)から上記(7)のうちの少なくとも上記(2)を引用するいずれか一項に記載の情報処理方法においては、前記第1の処理、前記第3の処理、前記第2の処理の順に適用される。
 この構成によれば、ASnormの処理の前にQMFの処理が適用されるため、話者照合の性能を向上させることができる。
(9)
 本開示にかかる情報処理装置は、メモリと、少なくとも一つのプロセッサと、を備える。前記メモリは、登録した登録話者の音声である登録音声に関する登録話者データを記憶する。前記少なくとも一つのプロセッサは、評価対象の話者の音声である評価音声を取得し、前記登録音声の特徴量である登録話者表現ベクトルと、前記評価音声の特徴量である評価話者表現ベクトルと、の間の類似性を示すスコアを算出し、少なくとも2以上のスコア補正処理を組み合わせて前記スコアを補正し、補正された前記スコアと事前に設定された閾値とを比較して前記評価対象の話者が前記登録話者に一致するか否かを判定し、判定結果を示す情報を出力するように構成されている。前記少なくとも2以上のスコア補正処理は、前記登録音声及び前記評価音声の品質指標を含むメタデータの音声間の相互作用のモデルを用いて前記スコアを補正する第1の処理と、不特定多数話者の音声である不特定多数話者音声の不特定多数話者表現ベクトルとの照合結果をもとに話者照合のスコアを補正する第2の処理と、を含む。少なくとも前記第1の処理は、前記第2の処理より前に適用される。
 この構成によれば、ASnormの処理の前にQMFの処理が適用されるため、話者照合の性能を向上させることができる。したがって、実環境において変動し得る話者認識のスコアを適切に補正することができる。
(10)
 本開示にかかるプログラムは、登録した登録話者の音声である登録音声に関する登録話者データを記憶し、評価対象の話者の音声である評価音声を取得し、前記登録音声の特徴量である登録話者表現ベクトルと、前記評価音声の特徴量である評価話者表現ベクトルと、の間の類似性を示すスコアを算出し、少なくとも2以上のスコア補正処理を組み合わせて前記スコアを補正し、補正された前記スコアと事前に設定された閾値とを比較して前記評価対象の話者が前記登録話者に一致するか否かを判定し、判定結果を示す情報を出力することをコンピュータに実行させるためのプログラムである。前記少なくとも2以上のスコア補正処理は、前記登録音声及び前記評価音声の品質指標を含むメタデータの音声間の相互作用のモデルを用いて前記スコアを補正する第1の処理と、不特定多数話者の音声である不特定多数話者音声の不特定多数話者表現ベクトルとの照合結果をもとに話者照合のスコアを補正する第2の処理と、を含む。少なくとも前記第1の処理は、前記第2の処理より前に適用される。
 この構成によれば、ASnormの処理の前にQMFの処理が適用されるため、話者照合の性能を向上させることができる。したがって、実環境において変動し得る話者認識のスコアを適切に補正することができる。
 以下、図面を参照しながら、本開示にかかる話者認識方法(情報処理方法)、話者認識装置(情報処理装置)、プログラム及び記録媒体の各実施の形態について説明する。
 なお、本開示の説明において、既出の図に関して前述したものと同一又は略同一の機能を有する構成要素については、同一符号を付し、説明を適宜省略する場合もある。また、同一又は略同一の部分を表す場合であっても、図面により互いの寸法や比率が異なって表されている場合もある。また、例えば図面の視認性を確保する観点から、各図面の説明において主要な構成要素だけに参照符号を付し、既出の図において前述したものと同一又は略同一の機能を有する構成要素であっても参照符号を付していない場合もある。
 なお、本開示の説明において、同一又は略同一の機能を有する構成要素について、参照符号の末尾に英数字を追加することにより区別して記載する場合もある。あるいは、同一又は略同一の機能を有する複数の構成要素を区別しない場合には、参照符号の末尾に付された英数字を省略することにより統合して記載する場合もある。
 なお、以下の説明では、本開示にかかるスコア補正を、話者認識(Speaker Recognition)としての話者照合(Speaker Verification)に対して適用した場合を例示するが、これに限らない。本開示にかかるスコア補正は、話者照合に代えて、あるいは加えて、話者識別(Speaker Identification)に適用してもよい。つまり、本開示にかかる話者照合スコア補正システムは、話者識別スコア補正システム、あるいは話者認識スコア補正システムとして実現されてもよい。同様に、本開示にかかる話者照合装置は、話者識別装置、あるいは話者認識装置として実現されてもよい。
 なお、本開示にかかる話者認識は、発話(発声)すべき語句を予め定めておく発声内容依存型の話者認識であってもよいし、任意の語句を発声すればよい発声内容独立型の話者認識であってもよいし、これらの組合せであってもよい。
 なお、本開示にかかる話者照合スコア補正システム1は、車両などの移動体に適用されてもよい。例えば、本開示に係る話者認識装置は、例えば自動運転など、ユーザによる音声での操作に応じた制御を実行可能に構成された移動体に搭載されてもよい。ここで、移動体とは、各種の車両であってよく、モータを動力源として駆動される電気自動車などのEV車両であってもよいし、エンジン(内燃機関)を動力源として駆動される自動車などの車両であってもよいし、エンジンとモータとを動力源として併用して駆動されるハイブリッド車両であってもよい。また、移動体は、例えば乗用車やトラック、自動二輪車などの自動車(車両)であるが、電動自転車や電動キックボード、電動車椅子、建機(建設機械)、農機(農業機械)、船舶、鉄道、飛行機(航空機)などであっても構わない。また、移動体は、自律移動可能に構成されていてもよいし、ユーザの直接又は遠隔の操作に応じて移動可能に構成されていてもよい。ここで、移動体の「音声による操作」とは、例えば運転操作やナビゲーションシステムの目的地や経路の設定といった、移動体の移動を制御する操作であってもよいし、音楽再生や映像再生、インターネット検索といった、移動体の有する移動の他の機能を制御する操作であってもよい。また、移動体の「移動」とは、自律又は他律の制御(運転制御)により実現されるものであり、「運転」と表現されてもよい。また、移動体を音声により操作するユーザは、移動体の運転手、同乗者などの乗員であってもよいし、移動体の外部から移動体を遠隔操作するオペレータであってもよい。
(第1の実施形態)
 図1は、第1の実施形態にかかる話者照合スコア補正システム1の構成の一例を示す図である。
 話者照合スコア補正システム1は、事前に登録した登録話者の音声(登録音声)と、照合したい、すなわち評価対象の未知話者の音声(評価音声)と、を比較して類似度を計算し、その類似度をもとに未知話者が登録話者と一致するか否かを判定する。例えば、話者照合スコア補正システム1は、事前に設定された閾値と類似度とを比較することにより、未知話者が登録話者と一致するか否かを判定する。なお、本実施形態では、事前に登録話者の音声を登録音声として登録するユースケースを例示するが、これに限らない。本実施形態にかかる話者照合スコア補正システム1は、登録話者を「事前に」登録しないユースケースに対して適用してもよい。一例として、会議の議事録などを取るユースケースに適用すれば、登録話者の登録を「事前に」ではなく「同時並行で」行うことができる。例えば、話者照合スコア補正システム1は、登録する登録話者の音声と、評価対象の未知話者の音声と、を同時に並行して取得し、取得したこれらの音声を比較して類似度を計算してもよい。また、本実施形態では、評価対象の話者が未知の話者である場合を例示するが、これに限らない。評価対象の話者は、例えば以前に登録又は評価された既知の話者であっても構わない。
 例えば、実環境(例えば雑音環境下)では、その音声が収録された条件によって類似度(スコア)が変化する。このため、例えば、その条件の変化によって本人の入力音声であるにもかかわらずスコアが閾値を下回ってしまう場合があった。また、例えば、他人の入力音声であるにもかかわらずスコアが閾値を上回ってしまう場合があった。換言すれば、実環境では、その音声が収録された条件によってスコアが変化してしまうため、誤判定(誤照合)が生じるおそれがあった。このようなことから、実環境において収録条件によって変化し得る話者照合のスコアを適切に補正して照合精度を向上させる技術には需要があった。
 このような中、実施形態にかかる話者照合スコア補正システム1は、比較対象の音声データから抽出された話者表現ベクトル(x-vector)間の類似性を示す話者照合の類似度(スコア)を、少なくとも2以上のスコア補正技術を組み合わせて補正するように構成されている。
 一例として、実施形態にかかる話者照合スコア補正システム1は、音声間の発話長や信号対雑音(SN)といった品質指標(メタデータ)の相互作用をモデル化した品質測定関数(QMF:Quality Measure Functions)モデルを用いて話者照合のスコアを加算又は減算(補正)するQMFの処理(第1の処理)を行うように構成されている。換言すれば、実施形態にかかる話者照合スコア補正システム1は、品質指標(メタデータ)に対してどのくらい話者照合のスコアを補正するかを学習したQMFモデルを用いて話者照合のスコアを補正するQMFの処理を行うように構成されている。ここで、モデルの学習とは、モデルを規定する少なくとも一つの関数のパラメータを決定又は更新することを言う。QMFの処理の詳細については、後述する。
 一例として、実施形態にかかる話者照合スコア補正システム1は、各音声の時間ごとの特徴量(例えば音声声紋)のばらつきをもとに話者照合のスコアにペナルティを付与(補正)するCMF(Consistency Measure Factor)の処理(第3の処理)を行うように構成されている。具体的には、実施形態にかかる話者照合スコア補正システム1は音声の時間ごとの特徴量の一貫性又は分散の程度が反映されたCMF値を各音声について個別に算出し、算出したCMF値を補正係数として用いて話者照合のスコアをスケーリングする。このCMFは、例えば、その値が大きいほど話者表現ベクトルの分布が集中していることを示し、話者照合のスコアを増大させる。CMFの処理の詳細については、後述する。
 一例として、実施形態にかかる話者照合スコア補正システム1は、不特定多数話者(Imposter)との照合結果をもとに話者照合のスコアを正規化(補正)するASnorm(Adaptive Symmetric normalization)の処理(第2の処理)を行うように構成されている。ASnormの処理の詳細については、後述する。
 そして、実施形態にかかる話者照合スコア補正システム1は、少なくとも2以上のスコア補正技術を組み合わせて補正した類似度(補正スコア)と、事前に設定された閾値と、を比較することにより、未知話者が登録話者と一致するか否かを判定(照合)する。また、話者照合スコア補正システム1は、判定結果(照合結果)を示す情報を出力する。一例として、話者照合スコア補正システム1は、補正スコアが事前設定された閾値以上の場合、未知話者が登録話者(本人)であると判定し、未知話者が登録話者(本人)であることを示す照合結果を出力する。一方、話者照合スコア補正システム1は、補正スコアが事前設定された閾値未満の場合、未知話者が登録話者(本人)ではない人物(他人)であると判定し、未知話者が未登録話者(他人)であることを示す照合結果を出力する。
 図1に示すように、話者照合スコア補正システム1は、話者照合装置10を含む。図2は、第1の実施形態にかかる話者照合装置10の機能構成の一例を示す図である。図2に示すように、話者照合装置10は、入出力部101、実行部102及び記憶部103としての機能を有する。
 入出力部101は、未知話者が発話した評価音声を取得する。また、入出力部101は、判定結果(照合結果)を示す情報を出力する。
 実行部102は、話者照合処理、スコア補正処理及び判定処理を行う。
 記憶部103は、話者照合装置10で実行される各処理に関する、プログラムやパラメータ、処理中のデータ、処理結果のデータなどを記憶する。
 一例として、記憶部103は、登録話者データ3、不特定多数話者(Imposter)データ4及び学習済みQMFモデル5を記憶する。
 登録話者データ3は、事前に登録した登録話者の音声(登録音声)に関する情報である。登録話者データ3は、登録音声3a、登録話者表現ベクトル3b及び登録メタデータ3cを含む。登録音声3aは、事前に登録した登録話者の音声である。登録話者表現ベクトル3bは、登録音声3aの話者表現ベクトル(x-vector)であり、すなわち登録音声3aから抽出された特徴量である。登録メタデータ3cは、登録音声3aにおける発話長や信号対雑音(SN)といった品質指標(メタデータ)である。
 不特定多数話者データ4は、不特定多数の話者の音声(不特定多数話者音声)に関する情報である。不特定多数話者データ4は、ASnorm用の不特定多数話者音声4a、QMF用の不特定多数話者表現ベクトル4b、ASnorm用の不特定多数話者表現ベクトル4c及びASnorm用の不特定多数話者メタデータ4dを含む。ASnorm用の不特定多数話者音声4aは、ASnormの処理に供される不特定多数話者の音声である。QMF用の不特定多数話者表現ベクトル4b及びASnorm用の不特定多数話者表現ベクトル4cは、それぞれ不特定多数話者音声4aの話者表現ベクトル(x-vector)であり、すなわち不特定多数話者音声4aから抽出された特徴量である。ASnorm用の不特定多数話者メタデータ4dは、不特定多数話者音声4aにおける発話長や信号対雑音(SN)といった品質指標(メタデータ)である。なお、本開示の説明において、「A」用の「X」とは、少なくとも「A」に用いる「X」を意味し、「A」用の「X」が「A」の他の「B」に用いられること、あるいは「A」の他の「C」用の「X」が「A」に用いられることを妨げるものではない。また、「A」用の「X」と、「A」の他の「D」用の「X」とは、その一部又は全部が共通であってもよい。
 学習済みQMFモデル5は、類似度(スコア)及びメタデータの入力に応じてどのくらい補正するかを示す情報、あるいは補正後のスコアを出力するようにパラメータが決定された機械学習モデル又は少なくとも一つの関数である。この機械学習モデルとしては、CNN(Convolutional Neural Network)などの任意の機械学習モデルが処理に応じて適宜利用可能である。なお、学習済みQMFモデル5は、話者照合装置10の外部に記憶されていてもよい。
 なお、実施形態にかかる話者照合装置10の各機能のうちの二つ以上の機能を統合して一つの機能として実現してもよい。また、実施形態にかかる話者照合装置10の各機能の一部は、話者照合スコア補正システム1において話者照合装置10の外部に設けられた情報処理装置により実現されてもよい。
 図3は、第1の実施形態にかかる話者照合装置10を実現する情報処理装置8のハードウェア構成の一例を示す図である。
 図2に示すように、情報処理装置8は、プロセッサ81、主記憶装置82、補助記憶装置83及びI/F(インタフェース)84を有する。プロセッサ81、主記憶装置82、補助記憶装置83及びI/F84は、バスなどにより相互に接続されており、通常のコンピュータを利用したハードウェア構成となっている。なお、情報処理装置8の各構成要素は、二つ以上の構成要素の組合せにより実現されてもよい。
 プロセッサ81は、例えば少なくとも一つのCPU(Central Processing Unit)である。プロセッサ81は、例えばプログラムを実行することにより、情報処理装置8の動作を統括的に制御し、情報処理装置8の有する各機能を実現する。
 一例として、話者照合装置10を実現する情報処理装置8において、プロセッサ81は、補助記憶装置83に格納されたプログラムを主記憶装置82にロードして実行することにより、図2に例示する実行部102を含む、話者照合装置10の各機能を実現する。
 なお、図2の例では、本実施形態の要部の説明に必要な機能のみを例示しているが、話者照合装置10が有する機能はこれらに限られるものではない。また、話者照合装置10の機能の一部又は全部が専用のハードウェア回路で実現される形態であってもよい。
 なお、実施形態にかかるプロセッサ81は、情報処理装置8における少なくとも一つのプロセッサの一例である。当該少なくとも一つのプロセッサとしては、CPUに代えて、あるいはCPUに加えて、他の少なくとも一つのプロセッサが利用されてもよい。他のプロセッサとしては、CPU、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)などの各種プロセッサや、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)で実現される専用演算回路などが適宜利用可能である。
 主記憶装置82は、例えばRAM(Random Access Memory)である。主記憶装置82は、プロセッサ81による各種処理に必要なデータを一時的に記憶する。実施形態にかかる主記憶装置82は、情報処理装置8における少なくとも一つのメモリの一例である。
 補助記憶装置83は、例えばROM(Read Only Memоry)である。補助記憶装置83は、プロセッサ81による各種処理を実現するプログラムやパラメータなどを記憶する。実施形態にかかる補助記憶装置83は、情報処理装置8における少なくとも一つのメモリの一例である。なお、補助記憶装置83としては、ROMに代えて、あるいはROMに加えて、HDD(Hard Disk Drive)やSSD(Solid State Drive)、Flashメモリなどの各種の記憶媒体や記憶装置が適宜利用可能である。
 一例として、話者照合装置10を実現する情報処理装置8において主記憶装置82及び補助記憶装置83は、記憶部103を実現する。
 I/F84は、入出力にかかる機能の実現、外部機器の接続及び/又は外部との通信のためのインタフェースである。なお、I/F84は、音声や画像、映像を出力する出力デバイスを接続又は実現する出力インタフェースや、ユーザの操作入力を取得する入力デバイスを接続又は実現する入力インタフェース、あるいはこれらのデバイスとして機能するインタフェースであってもよい。出力デバイスとしては、液晶ディスプレイ(Liquid Crystal Display:LCD)や有機EL(Electo-Luminescence)ディスプレイ、プロジェクタなどの各種のディスプレイやスピーカなどが適宜利用可能である。また、入力デバイスとしては、キーボードやマウス、タッチパネル、マイクなどが適宜利用可能である。外部との通信のためのインタフェースとしては、有線又は無線通信用の通信回路が適宜利用可能である。無線通信用の通信回路としては、3Gや4G、5G、6G、Wi-Fi(登録商標)、Bluetooth(登録商標)、赤外線通信などの各種の規格に対応した通信回路が適宜利用可能である。
 一例として、話者照合装置10を実現する情報処理装置8においてI/F84は、入力デバイスを接続又は実現する入力インタフェース(入出力部101)と、出力デバイスを接続又は実現する出力インタフェース(入出力部101)と、を実現する。
 なお、実施形態にかかる話者照合スコア補正システム1が車両(移動体)に適用される場合、話者照合装置10を実現する情報処理装置8は、車両の内部に設けられたECU(Electronic Control Unit)や複数のECUを統合したCDC(Cockpit Domain Controller)などのDCU(Domain Control Unit)、あるいはOBU(On Board Unit)などの車載のコンピュータにより実現されてもよい。あるいは、話者照合装置10を実現する情報処理装置8は、車両のダッシュボード付近に設置された外付けのコンピュータであってもよい。また、話者照合装置10を実現する情報処理装置8は、他の車載装置と共通の情報処理装置8により実現されてもよいし、それぞれが異なる情報処理装置8により実現されてもよい。例えば、話者照合装置10を実現する情報処理装置8は、車載のカーナビゲーション装置と一体に構成されていてもよい。
 また、実施形態にかかる話者照合スコア補正システム1が車両(移動体)に適用される場合、話者照合装置10を実現する情報処理装置8は、車両内のCAN(Controller Area Network)やEthernet(登録商標)、USB(Universal Serial Bus(登録商標))などを含む車載ネットワークを介して、車両に搭載された他のコンピュータとの間で情報の送受信をしてもよいし、インターネットなどのネットワークを介して車両の外部の情報処理装置と通信をしてもよい。一例として、話者照合装置10を実現する情報処理装置8は、話者照合の照合結果(判定結果)を、車両を制御する他の車載コンピュータに出力する。
 以下、図面を参照して、実施形態にかかる話者照合スコア補正システム1の動作例について説明する。なお、以下に説明する処理は一例であり、処理順序の変更や一部の処理の削除、他の処理の追加も可能である。
 まず、図1を参照しつつ、実施形態にかかる話者照合スコア補正システム1において実行される、話者照合にかかる全体の処理の流れを説明する。
 話者照合スコア補正システム1において話者照合装置10の記憶部103には、事前に登録した登録話者の音声(登録音声)を含む登録話者データ3が記憶されている。
 話者照合装置10の入出力部101は、評価対象の未知話者の音声(評価音声)を取得する。そして、実行部102は、登録音声と評価音声とを比較して類似度(スコア)を計算する話者照合の処理を行う(S1)。具体的には、話者照合の処理において実行部102は、登録音声と評価音声とのそれぞれから抽出された話者表現ベクトル(x-vector)の間における類似性を示す話者照合の類似度(スコア)を算出する。また、実行部102は、少なくとも2以上のスコア補正技術を組み合わせて話者照合のスコアを補正するスコア補正の処理を行う(S2)。また、実行部102は、スコア補正の処理で補正された話者照合の類似度(補正スコア)と、事前に設定された閾値と、を比較することにより、未知話者が登録話者と一致するか否かを判定する判定(照合)の処理を行う(S3)。その後、入出力部101は、判定結果(照合結果)を出力する。
 図4は、第1の実施形態にかかる話者照合装置10において実行される、スコア補正処理の流れの一例を示すフローチャートである。図4の流れは、図1のS1~S2の処理に対応する。
 まず、実行部102は、QMFの処理(第1の処理)を行い、音声間の発話長や信号対雑音(SN)といった品質指標(メタデータ)を用いて話者照合のスコアを加算又は減算(補正)する(S101)。
 その後、実行部102は、CMFの処理(第3の処理)を行い、各音声の時間ごとの特徴量(例えば音声声紋)のばらつきをもとに、QMFの処理で補正された話者照合のスコアに対してペナルティを付与(補正)する(S102)。
 その後、実行部102は、ASnormの処理(第2の処理)を行い、不特定多数話者(Imposter)との照合結果をもとに、QMF及びCMFの処理で補正された話者照合のスコアを正規化(補正)する(S103)。
 図5は、図4のQMFの処理の一例について説明するための図である。
 QMFの処理において実行部102は、話者照合のスコアとして、登録音声3aから抽出された登録話者表現ベクトル3bと、評価音声6aから抽出された評価話者表現ベクトル6bと、のCos(コサイン)類似度を算出する(S201)。
 このCos類似度は、話者表現ベクトル間の類似度の尺度であり、例えばコサイン距離である。このコサイン距離は、例えば、話者表現ベクトルの内積を、話者表現ベクトルのそれぞれの大きさ(L2ノルム)の積で除した値として算出される。例えば、話者表現ベクトル間のCos類似度が「1」であれば、その二つの話者表現ベクトルは、完全に似ている。例えば、話者表現ベクトル間のCos類似度が「0」であれば、その二つの話者表現ベクトルは、似ている/似ていないに無関係である。例えば、話者表現ベクトル間のCos類似度が「-1」であれば、その二つの話者表現ベクトルは完全に似ていない。
 また、実行部102は、登録話者表現ベクトル3bと、QMF用の不特定多数話者表現ベクトル4bと、のCos類似度を算出する(S202)。同様に、実行部102は、評価話者表現ベクトル6bと、QMF用の不特定多数話者表現ベクトル4bと、のCos類似度を算出する(S203)。
 そして、実行部102は、登録話者表現ベクトル3bと似ているQMF用の不特定多数話者表現ベクトル4bを、評価話者表現ベクトル6bと比較した場合のCos類似度を選別するデータ選別を行う(S204)。同様に、実行部102は、評価話者表現ベクトル6bと似ているQMF用の不特定多数話者表現ベクトル4bを、登録話者表現ベクトル3bと比較した場合のCos類似度を選別するデータ選別を行う(S205)。
 例えば、実行部102は、登録話者表現ベクトル3bに対するCos類似度が高いQMF用の不特定多数話者表現ベクトル4bのうち、評価話者表現ベクトル6bに対するCos類似度が高いQMF用の不特定多数話者表現ベクトル4bを選別する。例えば、実行部102は、評価話者表現ベクトル6bに対するCos類似度が高いQMF用の不特定多数話者表現ベクトル4bのうち、登録話者表現ベクトル3bに対するCos類似度が高いQMF用の不特定多数話者表現ベクトル4bを選別する。ここで、Cos類似度が高い話者表現ベクトルとは、Cos類似度が予め定められた閾値より高い話者表現ベクトルであってもよいし、Cos類似度が高い順に予め定められた個数の話者表現ベクトルであってもよい。
 また、実行部102は、データ選別後のQMF用の不特定多数話者表現ベクトル4bの登録話者表現ベクトル3bに対するCos類似度の平均値を算出する(S206)。同様に、実行部102は、データ選別後のQMF用の不特定多数話者表現ベクトル4bの評価話者表現ベクトル6bに対するCos類似度の平均値を算出する(S207)。
 そして、実行部102は、登録話者表現ベクトル3bに対するQMF用の不特定多数話者表現ベクトル4bのCos類似度の平均値と、評価話者表現ベクトル6bに対するQMF用の不特定多数話者表現ベクトル4bのCos類似度の平均値と、を用いてQMF用のパラメータを決定する(S208)。
 なお、QMF用のパラメータは、算出された各平均値そのものであってもよいし、各平均値に基づく演算により算出された値であってもよい。このQMF用のパラメータもまた、QMFの処理におけるメタデータとして取り扱われる。つまり、実施形態にかかるQMFの処理において用いられるメタデータとは、登録メタデータ3cと、ASnorm用の不特定多数話者メタデータ4dと、評価メタデータ6cと、登録話者表現ベクトル3b及び評価話者表現ベクトル6bのそれぞれの不特定多数話者とのスコア平均であるQMF用のパラメータと、を含む。
 その後、実行部102は、S201の処理で算出した話者照合のスコアとしてのCos類似度を補正して補正スコアを算出する(S209)。具体的には、実行部102は、Cos類似度と、S208の処理で算出したQMF用のパラメータを含むメタデータと、を学習済みQMFモデル5に入力する。また、実行部102は、Cos類似度及びメタデータの入力に応じた学習済みQMFモデル5の出力を、補正スコア(類似度)として取得する。
 図6は、図4のCMFの処理の一例について説明するための図である。CMFの処理において実行部102は、時間ごとの登録音声3aの特徴量、すなわち時間ごとの登録話者表現ベクトル3bのばらつきを示すCMF値を算出する(S301)。同様に、実行部102は、時間ごとの評価音声6aの特徴量、すなわち時間ごとの評価話者表現ベクトル6bのばらつきを示すCMF値を算出する(S302)。そして、実行部102は、算出したCMF値を補正係数として用いて、QMFの処理で補正された類似度(補正スコア)をスケーリングして補正することにより、補正スコア(類似度)を算出する。
 なお、QMFの処理やASnormの処理に先立ってCMFの処理が実行される場合、実行部102は、話者照合のスコアとして、登録話者表現ベクトル3b及び評価話者表現ベクトル6bのCos類似度を算出した後、CMF値を用いて補正する。
 図7は、図4のASnormの処理の一例について説明するための図である。
 ASnormの処理において実行部102は、登録音声3aから抽出された登録話者表現ベクトル3bと、評価音声6aから抽出された評価話者表現ベクトル6bと、のCos類似度(話者照合のスコア)を算出し、算出したCos類似度をQMFの処理及びCMFの処理で補正する(S401)。このS401の処理は、図4のS101~S102の処理に対応する。つまり、本ステップの処理は、QMFの処理及びCMFの処理で補正された類似度(補正スコア)を取得する処理であり得る。
 また、実行部102は、登録話者表現ベクトル3bと、ASnorm用の不特定多数話者表現ベクトル4cと、を入力としてQMFの処理及びCMFの処理を実行し、各類似度を算出する(S402)。つまり、実行部102は、評価話者表現ベクトル6bに代えてASnorm用の不特定多数話者表現ベクトル4cを用いて図5のQMFの処理を実行する。また、実行部102は、評価音声6aに代えてASnorm用の不特定多数話者音声4aを用いて図6のCMFの処理を実行する。
 同様に、実行部102は、評価話者表現ベクトル6bと、ASnorm用の不特定多数話者表現ベクトル4cと、を入力としてQMFの処理及びCMFの処理を実行し、各類似度を算出する(S403)。つまり、実行部102は、登録話者表現ベクトル3bに代えてASnorm用の不特定多数話者表現ベクトル4cを用いて図5のQMFの処理を実行する。また、実行部102は、登録音声3aに代えてASnorm用の不特定多数話者音声4aを用いて図6のCMFの処理を実行する。
 そして、実行部102は、例えば図5のS204の処理と同様にして、登録話者表現ベクトル3bと似ているASnorm用の不特定多数話者表現ベクトル4cを、評価話者表現ベクトル6bと比較した場合のCos類似度を選別するデータ選別を行う(S404)。また、実行部102は、例えば図5のS205の処理と同様にして、評価話者表現ベクトル6bと似ているASnorm用の不特定多数話者表現ベクトル4cを、登録話者表現ベクトル3bと比較した場合のCos類似度を選別するデータ選別を行う(S405)。
 また、実行部102は、データ選別後のASnorm用の不特定多数話者表現ベクトル4cの登録話者表現ベクトル3bに対するCos類似度の平均値及び分散値を算出する(S406)。同様に、実行部102は、データ選別後のASnorm用の不特定多数話者表現ベクトル4cの評価話者表現ベクトル6bに対するCos類似度の平均値及び分散値を算出する(S407)。
 そして、実行部102は、QMFの処理及びCMFの処理で補正された登録話者表現ベクトル3b及び評価話者表現ベクトル6bのCos類似度(補正スコア)を、登録話者表現ベクトル3b及び評価話者表現ベクトル6bのそれぞれに対するASnorm用の不特定多数話者表現ベクトル4cのCos類似度の平均値及び分散値を用いて正規化(補正)して補正スコアを算出する(S408)。
 以上説明したように、実施形態にかかる話者照合装置10は、複数のスコア補正技術を組み合わせて話者照合のスコアを補正する。
 図8は、第1の実施形態にかかるスコア補正による話者照合の精度向上について説明するための図である。
 図8において、「BE1」は、一つ目に実行される後処理(BE)を示す。同様に、「BE2」及び「BE3」は、それぞれ、二つ目及び三つ目に実行される後処理を示す。また、「minC」及び「EER」のそれぞれは、話者照合の性能を測る指標であり、小さいほど性能が高い。「minC」は、minDCFとも呼ばれ、米国のNIST(National Institute of Standards and Technology) SRE(Speaker Recognition Evaluation)が開催する話者照合のコンペティションにおいてシステムの評価に用いられる指標である。また、「EER」は、生体認証システムの評価に用いられる、等価エラー率と呼ばれる指標である。この「EER」は、認証において登録された人物(本人)を誤って登録された人物ではない他人と判定した割合を示す本人棄却率(FRR:False Rejection Rate)と、認証において他人を誤って登録された本人と判定した割合を示す他人受入率(FAR:False Acceptance Rate)と、が等しくなる値である。
 具体的には、実施形態にかかる話者照合装置10は、QMFの処理において、発話長やSNといった品質指標に加えて、不特定多数話者データ4とのスコア平均をメタデータとして用いるように構成されている。そして、実施形態にかかる話者照合装置10は、QMFの処理、CMFの処理及びASnormの処理の三つのスコア補正処理(後処理:BE)を、少なくともASnormの処理に先立ってQMFの処理が適用される順序で組み合わせて実行する。
 一例として、実施形態にかかる話者照合装置10は、図8の1行目に示すように、QMFの処理、CMFの処理、ASnormの処理の順に、三つのスコア補正手法を適用して組み合わせる。
 一例として、実施形態にかかる話者照合装置10は、図8の2行目に示すように、QMFの処理、ASnormの処理、CMFの処理の順に、三つのスコア補正手法を適用して組み合わせる。
 一例として、実施形態にかかる話者照合装置10は、図8の3行目に示すように、CMFの処理、QMFの処理、ASnormの処理の順に、三つのスコア補正手法を適用して組み合わせる。
 これらの構成によれば、ASnormの処理の後にQMFの処理が適用される場合(4~6行目)と比べて「minC」及び「EER」の値を小さく、すなわち話者照合の性能を向上させることができる。したがって、実環境において変動し得る話者認識のスコアを適切に補正することができる。
 以下、本開示の他の実施形態について図面を参照しつつ説明する。なお、以下の各実施形態にかかる説明では、主として相違点について説明し、上述した内容と重複する内容については適宜記載を省略する。
(第2の実施形態)
 図9は、第2の実施形態にかかるASnormの処理の一例について説明するための図である。ここでは、主として図7に例示するASnormの処理との相違点について説明する。
 本実施形態にかかるASnormの処理において実行部102は、S401の処理の後、登録話者表現ベクトル3bと、ASnorm用の不特定多数話者表現ベクトル4cと、を入力としてQMFの処理及びCMFの処理を実行することに代えて、登録話者表現ベクトル3bと、ASnorm用の不特定多数話者表現ベクトル4cと、のCos類似度(話者照合のスコア)を算出する(S501)。
 同様に、本実施形態にかかるASnormの処理において実行部102は、評価話者表現ベクトル6bと、ASnorm用の不特定多数話者表現ベクトル4cと、を入力としてQMFの処理及びCMFの処理を実行することに代えて、評価話者表現ベクトル6bと、ASnorm用の不特定多数話者表現ベクトル4cと、のCos類似度(話者照合のスコア)を算出する(S502)。
 そして、実行部102は、S501の処理で算出されたCos類似度をもとに、登録話者表現ベクトル3bと似ているASnorm用の不特定多数話者表現ベクトル4cを、評価話者表現ベクトル6bと比較した場合のCos類似度を選別するデータ選別を行う(S404)。また、実行部102は、S502の処理で算出されたCos類似度をもとに、評価話者表現ベクトル6bと似ているASnorm用の不特定多数話者表現ベクトル4cを、登録話者表現ベクトル3bと比較した場合のCos類似度を選別するデータ選別を行う(S405)。
 なお、図9は、少なくともQMFの処理の後に適用されるASnormの処理において、不特定多数話者表現ベクトル4cとのスコア計算時にQMFの処理及びCMFの処理を除外する場合を例示するが、これに限らない。少なくともQMFの処理の後に適用されるASnormの処理においては、少なくともQMFの処理が不特定多数話者表現ベクトル4cとのスコア計算時に除外されればよく、CMFの処理については除外されなくてもよい。
 上述したように、QMFの処理において、発話長やSNといった品質指標に加えて、不特定多数話者データ4とのスコア平均をメタデータとして用いる場合、ASnormの処理に先立ってQMFの処理を適用することにより、話者照合の性能を向上させることができる。このような中、不特定多数話者(imposter)データは、多い時には数万個規模の発話データを含む。また、ASnormの処理では、登録・評価データとimposterデータとの類似度を算出するために、QMFの処理及びCMFの処理が適用されていた。このため、QMFの処理をASnormの処理に先立って適用する場合、ASnormの処理においては、QMFの処理内でQMF用の不特定多数話者表現ベクトル4bと、ASnorm用の不特定多数話者表現ベクトル4cとの類似度計算が発生し、すなわち数万個×数万個の規模の類似度計算が行われるために演算量が膨大になるという問題があった。
 これに対して、本実施形態にかかる話者照合装置10は、ASnormの処理において、不特定多数話者表現ベクトル4cとのスコア計算時に少なくともQMFの処理を除外するように構成されている。この構成によれば、少なくともQMFの処理の後に適用されるASnormの処理にかかる演算量を削減することができる。
 図10は、第2の実施形態にかかるスコア補正による話者照合の精度向上について説明するための図である。図10に示すように、ASnormの処理において不特定多数話者表現ベクトル4cとのスコア計算時に少なくともQMFの処理を除外して演算量の低減を図った場合であっても、発話長やSNといった品質指標に加えて、不特定多数話者データ4とのスコア平均をメタデータとして用いるQMFの処理をASnormの処理に先立って適用することにより、話者照合の性能を向上させることができる。
 一例として、本実施形態にかかる話者照合装置10は、図10の1行目に示すように、QMFの処理、CMFの処理、ASnormの処理の順に、三つのスコア補正手法を適用して組み合わせる。
 一例として、本実施形態にかかる話者照合装置10は、図10の2行目に示すように、QMFの処理、ASnormの処理、CMFの処理の順に、三つのスコア補正手法を適用して組み合わせる。
 このように、本実施形態にかかる構成によれば、少なくともQMFの処理の後にASnormの処理を適用することにより照合精度を向上しつつ、少なくともQMFの処理の後に適用されるASnormの処理についての演算量を削減することができる。
(第3の実施形態)
 図11は、第3の実施形態にかかるASnormの処理の一例について説明するための図である。ここでは、主として図10に例示するASnormの処理との相違点について説明する。
 本実施形態にかかるASnormの処理において実行部102は、S406の処理で算出された、ASnorm用の不特定多数話者表現ベクトル4cの登録話者表現ベクトル3bに対するCos類似度の平均値及び分散値に対して、QMFの処理及びCMFの処理を適用する(S601)。同様に、実行部102は、S407の処理で算出された、ASnorm用の不特定多数話者表現ベクトル4cの評価話者表現ベクトル6bに対するCos類似度の平均値及び分散値に対して、QMFの処理及びCMFの処理を適用する(S602)。
 そして、実行部102は、QMFの処理及びCMFの処理で補正された登録話者表現ベクトル3b及び評価話者表現ベクトル6bのCos類似度(補正スコア)を、QMFの処理及びCMFの処理で補正されたCos類似度の平均値及び分散値を用いて正規化(補正)することにより、補正スコアを算出する(S408)。
 なお、図11は、少なくともQMFの処理の後に適用されるASnormの処理において、QMFの処理及びCMFの処理の前に不特定多数話者表現ベクトル4cについてのCos類似度の平均・分散を計算して近似することで演算量を削減する場合を例示するが、これに限らない。少なくともQMFの処理の後に適用されるASnormの処理においては、少なくともQMFの処理の前に不特定多数話者表現ベクトル4cについてのCos類似度の平均・分散を計算して近似すればよく、CMFの処理は、不特定多数話者表現ベクトル4cについてのCos類似度の平均・分散を計算する前に実施されてもよい。
 なお、本実施形態にかかるASnormの処理において、データ選別の処理で選別されたデータ数は、元のデータ数に等しいとする。また、本実施形態にかかるASnormの処理において、QMFの処理で用いるメタデータとスコアの値とは独立であるとする。
 このように、本実施形態にかかる話者照合装置10は、不特定多数話者表現ベクトル4cとそのメタデータの平均・分散に対してQMFの処理及びCMFの処理を実施するように構成されている。ここで、QMFの処理とCMFの処理とは、いずれも線形変換である。このため、QMFの処理及びCMFの処理の後に平均・分散を計算する場合であっても、QMFの処理及びCMFの処理の前に平均・分散を計算する場合であっても、その計算結果、すなわち補正スコアの値は同程度である。したがって、本実施形態にかかる構成であっても、少なくともQMFの処理の後に適用されるASnormの処理についての演算量を削減することができる。
 なお、上述の各実施形態において、「Aであるか」とは、「Aである」ことと、「Aではない」ことと、のうちの少なくともいずれかを言うものとする。つまり、上述の各実施形態において、「Aであるか」の判定は、「Aである」ことの判定により実現されてもよいし、「Aではない」ことの判定により実現されてもよいし、これらの双方の判定により実現されてもよい。
 上述の各実施形態の話者照合装置10で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD-ROM、FD、CD-R、DVD等のコンピュータで読み取り可能な記録媒体(Computer Program Product)に記録されて提供されてもよい。
 また、上述の各実施形態の話者照合装置10で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、上述の各実施形態の話者照合装置10で実行されるプログラムをインターネット等のネットワーク経由で提供又は配布するように構成してもよい。
 また、上述の各実施形態の話者照合装置10で実行されるプログラムを、ROM等に予め組み込んで提供するように構成してもよい。
 以上説明した少なくとも1つの実施形態によれば、実環境において変動し得る話者認識のスコアを適切に補正することができる。
 本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これらの実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これらの実施形態やその変形は、発明の範囲や要旨に含まれると同様に、請求の範囲に記載された発明とその均等の範囲に含まれるものである。
 1 話者照合スコア補正システム
 10 話者照合装置
 101 入出力部
 102 実行部
 103 記憶部
 3 登録話者データ
 3a 登録音声
 3b 登録話者表現ベクトル(xvector)
 3c 登録メタデータ
 4 不特定多数話者(Imposter)データ
 4a ASnorm用の不特定多数話者音声
 4b QMF用の不特定多数話者表現ベクトル
 4c ASnorm用の不特定多数話者表現ベクトル
 4d ASnorm用の不特定多数話者メタデータ
 5 学習済みQMFモデル
 6a 評価音声
 6b 評価話者表現ベクトル
 6c 評価メタデータ
 8 情報処理装置
 81 プロセッサ
 82 主記憶装置
 83 補助記憶装置
 84 I/F

Claims (10)

  1.  少なくとも一つのプロセッサを備える情報処理装置において前記少なくとも一つのプロセッサが実行する情報処理方法であって、
     登録した登録話者の音声である登録音声に関する登録話者データを記憶し、
     評価対象の話者の音声である評価音声を取得し、
     前記登録音声の特徴量である登録話者表現ベクトルと、前記評価音声の特徴量である評価話者表現ベクトルと、の間の類似性を示すスコアを算出し、
     少なくとも2以上のスコア補正処理を組み合わせて前記スコアを補正し、
     補正された前記スコアと事前に設定された閾値とを比較して前記評価対象の話者が前記登録話者に一致するか否かを判定し、
     判定結果を示す情報を出力し、
     前記少なくとも2以上のスコア補正処理は、前記登録音声及び前記評価音声の品質指標を含むメタデータの音声間の相互作用のモデルを用いて前記スコアを補正する第1の処理と、不特定多数話者の音声である不特定多数話者音声の不特定多数話者表現ベクトルとの照合結果をもとに話者照合のスコアを補正する第2の処理と、を含み、
     少なくとも前記第1の処理は、前記第2の処理より前に適用される、
     情報処理方法。
  2.  前記少なくとも2以上のスコア補正処理は、各音声の時間ごとの話者表現ベクトルのばらつきに基づいて前記スコアを補正する第3の処理をさらに含む、
     請求項1に記載の情報処理方法。
  3.  前記メタデータは、前記不特定多数話者音声の前記第1の処理に用いる不特定多数話者表現ベクトルに基づく前記スコアの平均値を含む、
     請求項1に記載の情報処理方法。
  4.  前記第1の処理は、
     前記登録話者表現ベクトル及び前記評価話者表現ベクトルのそれぞれと、前記第1の処理に用いる不特定多数話者表現ベクトルと、の前記スコアを算出し、
     前記登録話者表現ベクトルとの前記スコアが高い前記第1の処理に用いる不特定多数話者表現ベクトルを、前記評価話者表現ベクトルと比較した場合の前記スコアを選別し、
     前記評価話者表現ベクトルとの前記スコアが高い前記第1の処理に用いる不特定多数話者表現ベクトルを、前記登録話者表現ベクトルと比較した場合の前記スコアを選別し、
     前記登録話者表現ベクトル及び前記評価話者表現ベクトルのそれぞれに対する前記第1の処理に用いる不特定多数話者表現ベクトルの前記スコアの平均値を算出する、
     請求項3に記載の情報処理方法。
  5.  前記第2の処理は、
     前記登録話者表現ベクトルと、前記第2の処理に用いる不特定多数話者表現ベクトルと、を入力とした前記第1の処理と、
     前記評価話者表現ベクトルと、前記第2の処理に用いる不特定多数話者表現ベクトルと、を入力とした前記第1の処理と、を含み、
     前記登録話者表現ベクトル及び前記評価話者表現ベクトルのそれぞれと、前記2の処理に用いる不特定多数話者表現ベクトルと、の前記スコアを算出し、
     前記登録話者表現ベクトルとの前記スコアが高い前記第2の処理に用いる不特定多数話者表現ベクトルを、前記評価話者表現ベクトルと比較した場合の前記スコアを選別し、
     前記評価話者表現ベクトルとの前記スコアが高い前記第2の処理に用いる不特定多数話者表現ベクトルを、前記登録話者表現ベクトルと比較した場合の前記スコアを選別し、
     前記登録話者表現ベクトル及び前記評価話者表現ベクトルのそれぞれに対する前記第2の処理に用いる不特定多数話者表現ベクトルの前記スコアの平均値及び分散値を算出し、
     少なくとも前記第1の処理で補正された前記スコアを、算出した前記平均値及び前記分散値を用いて正規化する、
     請求項1から請求項4のうちのいずれか一項に記載の情報処理方法。
  6.  前記第2の処理は、
     前記登録話者表現ベクトルと、前記第2の処理に用いる不特定多数話者表現ベクトルと、の前記スコアを算出し、
     前記評価話者表現ベクトルと、前記第2の処理に用いる不特定多数話者表現ベクトルと、の前記スコアを算出し、
     前記登録話者表現ベクトルとの前記スコアが高い前記第2の処理に用いる不特定多数話者表現ベクトルを、前記評価話者表現ベクトルと比較した場合の前記スコアを選別し、
     前記評価話者表現ベクトルとの前記スコアが高い前記第2の処理に用いる不特定多数話者表現ベクトルを、前記登録話者表現ベクトルと比較した場合の前記スコアを選別し、
     前記登録話者表現ベクトル及び前記評価話者表現ベクトルのそれぞれに対する前記第2の処理に用いる不特定多数話者表現ベクトルの前記スコアの平均値及び分散値を算出し、
     少なくとも前記第1の処理で補正された前記スコアを、算出した前記平均値及び前記分散値を用いて正規化する、
     請求項1から請求項4のうちのいずれか一項に記載の情報処理方法。
  7.  前記第2の処理は、
     算出した前記平均値及び前記分散値に対する前記第1の処理を含み、
     少なくとも前記第1の処理で補正された前記スコアを、前記第1の処理を適用した前記平均値及び前記分散値を用いて正規化する、
     請求項6に記載の情報処理方法。
  8.  前記第1の処理、前記第3の処理、前記第2の処理の順に適用される、
     請求項2に記載の情報処理方法。
  9.  登録した登録話者の音声である登録音声に関する登録話者データを記憶するメモリと、
     評価対象の話者の音声である評価音声を取得し、
     前記登録音声の特徴量である登録話者表現ベクトルと、前記評価音声の特徴量である評価話者表現ベクトルと、の間の類似性を示すスコアを算出し、
     少なくとも2以上のスコア補正処理を組み合わせて前記スコアを補正し、
     補正された前記スコアと事前に設定された閾値とを比較して前記評価対象の話者が前記登録話者に一致するか否かを判定し、
     判定結果を示す情報を出力するように構成された少なくとも一つのプロセッサと、を備え、
     前記少なくとも2以上のスコア補正処理は、前記登録音声及び前記評価音声の品質指標を含むメタデータの音声間の相互作用のモデルを用いて前記スコアを補正する第1の処理と、不特定多数話者の音声である不特定多数話者音声の不特定多数話者表現ベクトルとの照合結果をもとに話者照合のスコアを補正する第2の処理と、を含み、
     少なくとも前記第1の処理は、前記第2の処理より前に適用される、
     情報処理装置。
  10.  登録した登録話者の音声である登録音声に関する登録話者データを記憶し、
     評価対象の話者の音声である評価音声を取得し、
     前記登録音声の特徴量である登録話者表現ベクトルと、前記評価音声の特徴量である評価話者表現ベクトルと、の間の類似性を示すスコアを算出し、
     少なくとも2以上のスコア補正処理を組み合わせて前記スコアを補正し、
     補正された前記スコアと事前に設定された閾値とを比較して前記評価対象の話者が前記登録話者に一致するか否かを判定し、
     判定結果を示す情報を出力することをコンピュータに実行させるためのプログラムであって、
     前記少なくとも2以上のスコア補正処理は、前記登録音声及び前記評価音声の品質指標を含むメタデータの音声間の相互作用のモデルを用いて前記スコアを補正する第1の処理と、不特定多数話者の音声である不特定多数話者音声の不特定多数話者表現ベクトルとの照合結果をもとに話者照合のスコアを補正する第2の処理と、を含み、
     少なくとも前記第1の処理は、前記第2の処理より前に適用される、
     プログラム。
PCT/JP2024/042181 2024-03-06 2024-11-28 情報処理方法、情報処理装置及びプログラム Pending WO2025187145A1 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US202463562070P 2024-03-06 2024-03-06
US63/562,070 2024-03-06
JP2024-120304 2024-07-25
JP2024120304 2024-07-25

Publications (2)

Publication Number Publication Date
WO2025187145A1 true WO2025187145A1 (ja) 2025-09-12
WO2025187145A8 WO2025187145A8 (ja) 2025-10-02

Family

ID=96990354

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2024/042181 Pending WO2025187145A1 (ja) 2024-03-06 2024-11-28 情報処理方法、情報処理装置及びプログラム

Country Status (1)

Country Link
WO (1) WO2025187145A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001042896A (ja) * 1999-08-04 2001-02-16 Kdd Corp 話者認識方法及び装置
JP2007128046A (ja) * 2005-10-31 2007-05-24 Hitachi Ltd 認証方法、認証システム及び補正要素導出方法
JP2008070596A (ja) * 2006-09-14 2008-03-27 Yamaha Corp 音声認証装置、音声認証方法およびプログラム
JP2016206660A (ja) * 2015-04-22 2016-12-08 パナソニック株式会社 話者識別方法及び話者識別装置
WO2022149384A1 (ja) * 2021-01-05 2022-07-14 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 識別装置、識別方法、および、プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001042896A (ja) * 1999-08-04 2001-02-16 Kdd Corp 話者認識方法及び装置
JP2007128046A (ja) * 2005-10-31 2007-05-24 Hitachi Ltd 認証方法、認証システム及び補正要素導出方法
JP2008070596A (ja) * 2006-09-14 2008-03-27 Yamaha Corp 音声認証装置、音声認証方法およびプログラム
JP2016206660A (ja) * 2015-04-22 2016-12-08 パナソニック株式会社 話者識別方法及び話者識別装置
WO2022149384A1 (ja) * 2021-01-05 2022-07-14 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 識別装置、識別方法、および、プログラム

Also Published As

Publication number Publication date
WO2025187145A8 (ja) 2025-10-02

Similar Documents

Publication Publication Date Title
JP7525460B2 (ja) オーディオデータおよび画像データに基づいて人の発声を解析するコンピューティングデバイスおよび発声処理方法、ならびにプログラム
JP7091807B2 (ja) 情報提供システムおよび情報提供方法
CN103811002B (zh) 用于语音系统的调节方法和系统
JP7192222B2 (ja) 発話システム
CN112307816B (zh) 车内图像获取方法、装置以及电子设备、存储介质
CN106847277A (zh) 一种带方言识别的话音控制系统
US20030220791A1 (en) Apparatus and method for speech recognition
CN113646844B (zh) 用于高效检索人格数据的方法、服务器、客户端和电子系统
KR20200057516A (ko) 음성명령 처리 시스템 및 방법
CN111661068A (zh) 智能体装置、智能体装置的控制方法及存储介质
US9786295B2 (en) Voice processing apparatus and voice processing method
JP6289774B2 (ja) 音声認識装置、音声強調装置、音声認識方法、音声強調方法およびナビゲーションシステム
CN113850106A (zh) 车辆及其控制方法
US20250058726A1 (en) Voice assistant optimization dependent on vehicle occupancy
KR20210155321A (ko) 전자 장치 및 그 제어 방법
JP7280074B2 (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
CN113597641B (zh) 语音处理方法、装置及系统
CN116262476A (zh) 用于控制车辆声音的装置和方法
CN114691076A (zh) 信息处理装置、信息处理方法及存储介质
WO2025187145A1 (ja) 情報処理方法、情報処理装置及びプログラム
Jafarnejad et al. Revisiting gaussian mixture models for driver identification
CN111660966A (zh) 智能体装置、智能体装置的控制方法及存储介质
CN113919386B (zh) 情绪推断装置、情绪推断方法以及非暂时性存储介质
CN110562260B (zh) 对话系统和对话处理方法
JP7368090B2 (ja) エージェント装置、エージェント装置の制御方法、およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 24928286

Country of ref document: EP

Kind code of ref document: A1