[go: up one dir, main page]

WO2018147193A1 - モデル学習装置、推定装置、それらの方法、およびプログラム - Google Patents

モデル学習装置、推定装置、それらの方法、およびプログラム Download PDF

Info

Publication number
WO2018147193A1
WO2018147193A1 PCT/JP2018/003644 JP2018003644W WO2018147193A1 WO 2018147193 A1 WO2018147193 A1 WO 2018147193A1 JP 2018003644 W JP2018003644 W JP 2018003644W WO 2018147193 A1 WO2018147193 A1 WO 2018147193A1
Authority
WO
WIPO (PCT)
Prior art keywords
satisfaction
state
satisfaction state
change pattern
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2018/003644
Other languages
English (en)
French (fr)
Inventor
厚志 安藤
歩相名 神山
哲 小橋川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2018567405A priority Critical patent/JP6780033B2/ja
Priority to US16/484,053 priority patent/US11521641B2/en
Publication of WO2018147193A1 publication Critical patent/WO2018147193A1/ja
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services
    • G06Q30/015Providing customer assistance, e.g. assisting a customer within a business location or via helpdesk
    • G06Q30/016After-sales
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Definitions

  • the present invention relates to a technique for estimating the satisfaction state of a speaker.
  • Non-Patent Documents 1 and 2 propose techniques for estimating customer satisfaction, dissatisfaction, and anger from telephone calls as similar techniques.
  • Non-Patent Document 1 the satisfaction / dissatisfaction of a customer at a certain time is estimated using the features of the speech such as the speaking speed of the customer and the linguistic features such as the presence / absence of the competitor's product name.
  • customer anger / non-anger at a certain time is estimated using prosodic features such as customer's voice pitch and loudness and dialogue features such as frequency of conflict.
  • prosodic features such as customer's voice pitch and loudness
  • dialogue features such as frequency of conflict.
  • An object of the present invention is to estimate a satisfaction state in consideration of a change in a speaker's satisfaction state.
  • a satisfaction state change pattern model including a set of transition weights in the state sequence of the satisfaction state (state transition sequence) is obtained and output for each of the predetermined satisfaction state change patterns.
  • the posterior probability of the utterance feature amount when the satisfaction state of the utterer is given using the correct value of the satisfaction state of the utterer who performed the utterance for learning corresponding to the utterance feature amount for learning and the utterance feature amount for learning
  • a satisfaction state estimation model is obtained and output.
  • the estimated value of the satisfaction state of the speaker who made the utterance corresponding to the input utterance feature amount is obtained and output using the input utterance feature amount and the satisfaction state change pattern model and the satisfaction state estimation model.
  • FIG. 1 is a block diagram illustrating a functional configuration of the model learning apparatus according to the embodiment.
  • FIG. 2 is a block diagram illustrating a functional configuration of the estimation apparatus according to the embodiment.
  • FIG. 3 is an example of the change pattern of the satisfaction state.
  • FIG. 4 is a diagram illustrating the time change of the satisfaction state.
  • FIG. 5 is a diagram illustrating a satisfaction state change pattern model structure.
  • FIG. 6 is a diagram illustrating the satisfaction state change pattern model structure.
  • the satisfaction state change pattern correct value that represents the correct value of the speaker's satisfaction state change pattern in the conversation
  • the satisfaction value that represents the correct value of the speaker's satisfaction state when each utterance was made in the conversation
  • a satisfaction state change pattern model including a set of transition weights in the state sequence of the satisfaction state (state transition sequence)
  • the learning utterance feature amount and Satisfaction state estimation model to obtain posterior probability of utterance feature when given satisfaction of utterer using correct value of satisfaction of utterer who made utterance for learning corresponding to utterance feature for learning Get.
  • An example of “conversation” is a call made between a customer and a call center, but this does not limit the present invention.
  • the “conversation” may be a call made through a telephone line, a call made through the Internet, or a call made through a local line.
  • the “conversation” may not be a call, but may be a conversation such as a dialogue, a discourse, or a meeting that two or more people face each other.
  • the “conversation” may be performed between a human and a human, or may be performed between a human and an automatic dialog device (such as a dialog device using artificial intelligence).
  • “Speaker” means a specific person who “speaks” in “conversation”.
  • the customer is the “speaker”, and if the “conversation” is conducted by two or more people, they participate in the conversation.
  • a specific person who is talking is a “speaker”, and when a “conversation” is performed between a person and an automatic dialog device, a person who has a conversation with the automatic dialog device is a “speaker”.
  • “Satisfied state” means the degree of satisfaction (degree of satisfaction) of “speaker”.
  • the “satisfied state” may be divided into a plurality of classifications or may be digitized. In the former case, the “satisfied state” may be divided into two categories (for example, two categories of satisfaction and dissatisfaction), or three categories (for example, three categories of satisfaction, normal, and dissatisfaction). ) Or may be divided into four or more classifications.
  • the “change pattern” is a pattern representing how the “satisfaction state” of the “speaker” in the “conversation” changes.
  • the “change pattern” is a pattern representing the time change of the “satisfied state” at a plurality of times in the “conversation”.
  • the type and number of “change patterns” are predetermined. By using the “change pattern”, the “satisfaction state” of the “speaker” is applied to which “change pattern” from the estimated transition of the “satisfaction state”, and then to which “satisfaction state”. Can be estimated. There is no limitation on the type and number of “change patterns”.
  • the satisfaction state at the start of the “conversation” in (9) is “satisfaction”, and the satisfaction state at the start of the “conversation” in (1) (2) (4) (5) (7) is It is “normal”, and the satisfaction state at the start of “conversation” in (3), (6), and (8) is “dissatisfied”. (1) (2) (3) The satisfaction state at the end of the “conversation” in (9) is “satisfied”, and the satisfaction state at the end of the “conversation” in (4) (5) (8) Is “ordinary”, and the satisfaction state at the end of “conversation” in (6) and (7) is “dissatisfied”.
  • the change of the “satisfaction state” of the “speaker” in the “conversation” is various. As illustrated in FIG. 4, there are cases where the same satisfaction state continues at a plurality of time points (C1), and there are cases where the satisfaction state changes (C2). Therefore, the change in the satisfaction state of the “speaker” in the actual “conversation” does not always apply to a predetermined “change pattern”. In order to express such a complicated change, the change of the satisfaction state is expressed by a probability model (satisfaction state change pattern model) for each “change pattern”.
  • a “satisfaction state change pattern model” including a set of transition weights (for example, transition probabilities) in the state series of “satisfaction state” is generated.
  • a model including a set of transition weights between “satisfied states” in the state series is a “satisfied state change pattern model”.
  • the state series of “satisfied state” means a series of “satisfied states” that can transition from the start to the end of “conversation”.
  • Hidden Markov Model HMM is used to model “change pattern” (Reference 1: Keiichi Tokuda, “State-of-the-Art of Speech Information Processing Technology: 1.
  • FIG. 5 illustrates a state series of “satisfied states” in a Left-to-Right type HMM in which a branch exists.
  • the “satisfaction state” S 0 at the start time of the “conversation” is shifted from the “satisfaction state” at each of the time points I, II, and III to reach the “satisfaction state” S 4 at the end point.
  • a state series of “satisfaction state” used for modeling “change pattern” is called “satisfaction state change pattern model structure”.
  • the “satisfaction state change pattern model” is obtained for each “change pattern”, it is desirable that the “satisfaction state change pattern model structure” is the same for all “change patterns”. That is, it is desirable to use the same “satisfaction state change pattern model structure” for all “change patterns” and obtain a “satisfaction state change pattern model” for each “change pattern”.
  • the “satisfaction state change pattern model structure” is changed according to the “change pattern”, the tendency of the “satisfaction state change pattern model structure” appears in the “satisfaction state change pattern model”, and the “change pattern” is appropriately modeled. This is because there are cases where it cannot be realized. However, if the “change pattern” can be appropriately modeled, the “satisfaction state change pattern model structure” may not be the same for all “change patterns”.
  • the model learning device 11 of this embodiment includes a learning utterance storage unit 111 a, a satisfaction state correct value storage unit 111 b, a satisfaction state change pattern correct value storage unit 111 c, and a satisfaction state change pattern model structure storage unit.
  • 111d, satisfaction state estimation model storage unit 111e, satisfaction state change pattern model storage unit 111f, satisfaction state change pattern model learning unit 112, speech section detection unit 113, utterance feature amount extraction unit 114, and satisfaction state estimation model learning unit 115 Have.
  • FIG. 1 the model learning device 11 of this embodiment includes a learning utterance storage unit 111 a, a satisfaction state correct value storage unit 111 b, a satisfaction state change pattern correct value storage unit 111 c, and a satisfaction state change pattern model structure storage unit.
  • the estimation device 12 includes an input unit 121, a speech section detection unit 122, an utterance feature amount extraction unit 123, and a state estimation unit 124.
  • Each of the model learning device 11 and the estimation device 12 of the present embodiment includes, for example, a processor (hardware processor) such as a CPU (central processing unit), a random access memory (RAM), a read-only memory (ROM), and the like.
  • a general-purpose or dedicated computer having a memory or the like is executed by executing a predetermined program.
  • the computer may include a single processor and memory, or may include a plurality of processors and memory. This program may be installed in a computer, or may be recorded in a ROM or the like in advance.
  • processing units are configured using an electronic circuit that realizes a processing function without using a program, instead of an electronic circuit (circuitry) that realizes a functional configuration by reading a program like a CPU. May be.
  • an electronic circuit constituting one device may include a plurality of CPUs.
  • ⁇ Model learning process> First, a model learning process performed by the model learning device 11 (FIG. 1) will be described.
  • ⁇ Pretreatment ⁇ As preprocessing, “learning utterances” necessary for model learning are stored in the learning utterance storage unit 111a of the model learning device 11 (FIG. 1), and “satisfaction state change pattern correct value” is stored as a satisfaction state change pattern correct value.
  • the “satisfaction state correct value” is stored in the satisfaction state correct value storage unit 111b, and the “satisfaction state change pattern model structure” is stored in the satisfaction state change pattern model structure storage unit 111d.
  • the “learning utterance” is time-series voice data of “utterance” by the “speaker” made in each of a plurality of “conversations”.
  • the “learning utterance” is obtained by recording the “utterance” content of the “speaker” who is performing the “conversation”.
  • the “satisfaction state change pattern correct value” represents the correct value of the “change pattern” of the “speaker” satisfaction state in each “conversation”.
  • the “satisfaction state change pattern correct value” was set manually by the “speaker” who responded to which “change pattern” the change in their satisfaction state in “conversation” corresponds to. Is.
  • the “satisfied state” in this embodiment is one of the three states “satisfied”, “normal”, and “unsatisfied”, and the “satisfied state change pattern correct value” includes the nine “1” to (9) “ Any one of “change patterns” (FIG. 3).
  • the “satisfaction state correct value” represents the correct value of the “satisfaction state” of the “speaker” when each utterance is made in these “conversations”. That is, the “satisfaction state correct value” represents the correct value of the “satisfaction state” of the “speaker” at the time when each utterance is performed by the “speaker”.
  • the “satisfaction state correct value” is a value that is set manually by answering “satisfaction state” when the “speaker” made each “speech”.
  • the “satisfaction state change pattern model structure” is a state series of “satisfaction states” used for modeling the “change pattern”. An example of the “satisfaction state change pattern model structure” is the state series illustrated in FIG.
  • the same “satisfaction state change pattern model structure” is used for all “change patterns”.
  • “Learning utterance” is associated with a label for identifying “conversation” and “utterance” corresponding to each time point
  • “satisfaction state change pattern correct value” is associated with “conversation” corresponding to each.
  • Labels for identification are associated with each other
  • “satisfaction state correct value” is associated with a label for identifying “correspondence” corresponding to each.
  • “learning utterance”, “satisfaction state change pattern correct value”, and “satisfaction state correct value” are associated with each other.
  • the satisfaction state change pattern model learning unit 112 reads the “satisfaction state change pattern” read from the satisfaction state change pattern correct value storage unit 111c, the satisfaction state correct value storage unit 111b, and the satisfaction state change pattern model structure storage unit 111d.
  • the “correct value”, “satisfied state correct value”, and “satisfied state change pattern model structure” are input.
  • the satisfaction state change pattern model learning unit 112 uses these to determine a “satisfaction state change pattern model structure” and a set of transition weights of the satisfaction state for each of the “change patterns” of the predetermined “satisfaction state”. Obtain and output a "satisfaction state change pattern model”.
  • the satisfaction state change pattern model PM k the “satisfaction state correct value” corresponding to each “utterance” performed in the “conversation” in which the “satisfaction state change pattern correct value” is the change pattern C k is used. .
  • the satisfaction state change pattern model learning unit 112 uses, as learning data, the “satisfaction state correct value” corresponding to the “utterance” included in the “conversation” in which the “satisfaction state change pattern correct value” is the change pattern C k. Used to learn transition weights (for example, transition probabilities) between the satisfaction states included in the “satisfaction state change pattern model structure”, and to satisfy the satisfaction state including the “satisfaction state change pattern model structure” and a set of the obtained transition weights The change pattern model PM k is output. In the case of the “satisfaction state change pattern model structure” illustrated in FIG.
  • the satisfaction state change pattern model learning unit 112 includes “utterance” included in the “conversation” in which the “satisfaction state change pattern correct value” is the change pattern C k.
  • “Satisfaction state correct answer value” corresponding to ⁇ ⁇ ⁇ is used as learning data, transition weights from S 0 to S 1 , S 2 , S 3 in stage I, transition weights in S 1 , S 2 , S 3 in stage I , S 1, S 2, S 1, the transition weights to S 2, S 3 from S 3 stage II, S 1, S 2, transition weight of S 3 at stage II of stage I, stage II of S 1, S 2, S 3 S 1 at stage III from, S 2, transition weights to S 3, S 1 at stage III, S 2, S 1 at the transition weights of S 3, and stage III learns the transition weights to S 4 from S 2, S 3, be illustrated in FIG.
  • the satisfaction state change pattern model PM k including the “satisfaction state change pattern model structure” and the set of obtained transition weights is output. If the “satisfaction state change pattern model structure” is already known, the “satisfaction state change pattern model structure” is not included, and the information including the set of transition weights obtained is also referred to as the “satisfaction state change pattern model”. Good.
  • FIG. 6 shows a state transition having a large transition weight among the transition weights corresponding to the change pattern “(1) normal ⁇ satisfaction: pattern changing from normal to satisfaction” with a thick arrow, and a small transition weight. A state transition indicated by a thin arrow is illustrated.
  • Transition weight learning can be performed in the same procedure as HMM learning when the state series is known (for example, Reference 2 (Kiyohiro Shikano, Katsunobu Ito, Tatsuya Kawahara, Kazuya Takeda, Mikio Yamamoto, “Speech Recognition System”, Ohm Pp. 27-29, 2001.)).
  • the “speech for learning” read from the learning utterance storage unit 111 a is input to the speech section detection unit 113.
  • the voice section detection unit 113 detects one or more voice sections by applying voice section detection to the inputted “learning utterance”, and determines the “utterance” of the “speaker” in the detected voice section. Extract and output.
  • a known speech segment detection method such as a method based on power threshold processing or a method based on the likelihood ratio of a speech / non-speech model can be used.
  • the utterance feature amount extraction unit 114 receives “utterance (speech for learning)” of “speaker” in the voice section output from the voice section detection unit 113. For each “utterance” of “speaker”, the utterance feature amount extraction unit 114 extracts a “learning utterance feature amount” that is a feature amount considered to be related to the “satisfaction state”. For example, the utterance feature amount extraction unit 114 extracts a feature amount including at least one of the prosodic feature, the dialogue feature, and the language feature of “utterance” as the “learning utterance feature amount”.
  • the prosodic feature for example, at least one of the fundamental frequency of speech, the average / standard deviation / maximum value / minimum value of power, the speech speed during speech, and the duration of the last phoneme during speech can be used.
  • the utterance feature amount extraction unit 114 divides the utterance into frames, obtains the fundamental frequency or power for each frame, and characterizes the fundamental frequency or power of each frame. It may be at least part of the quantity.
  • the speech feature amount extraction unit 114 estimates a phoneme sequence during speech using a well-known speech recognition technique, and determines the speech speed or the last phoneme. You just need to get the continuation length. Dialogue features include the time from the previous "utterance” by the "speaker” such as the customer to the current "utterance", and the talker performed by a talker such as an operator who has a conversation with the "speaker” such as the customer.
  • the length of “utterance”, the length of the talker utterance by the talker such as the operator performed before and after the “spoken” performed by the “speaker”, and the talker by the talker such as the operator performed before and after It is possible to use at least one of the number of “speakers” such as a customer who is speaking, and the number of dialogues such as an operator performed while speaking “speaker” such as a customer.
  • the utterance feature amount extraction unit 114 may estimate an appearance word in the utterance using a known speech recognition technique and use the result. The number of appearances of thanks (for example, “Thank you” or “Thank you”) selected manually may be used as at least part of the feature amount. Which feature is used as the “learning utterance feature amount” is determined in advance. The utterance feature amount extraction unit 114 outputs the extracted “learning utterance feature amount”.
  • the satisfaction state estimation model learning unit 115 receives the “learning utterance feature amount” output from the utterance feature amount extraction unit 114 and the correct value of the “satisfaction state” read from the satisfaction state correct value storage unit 111b. Is done. However, the correct value of the “satisfaction state” input to the satisfaction state estimation model learning unit 115 performed “utterance” corresponding to the “learning utterance feature amount” input to the satisfaction state estimation model learning unit 115. This is the correct value of “satisfaction” of “speaker”.
  • the satisfaction state estimation model learning unit 115 uses a pair of the input “learning utterance feature amount” and the corresponding “satisfaction state” correct value of “speaker” for each “utterance (learning utterance)”.
  • a mixed normal distribution model is used. May be.
  • the “satisfaction state” of the “speaker” when the “speaker” performed the n-th “utterance” in the “conversation” is S (n)
  • the posterior probability of the utterance feature amount X (n) when the satisfaction state S (n) of the speaker is given can be expressed as P (X (n)
  • the satisfaction state S (n) is not dependent on n.
  • the satisfaction state estimation model learning unit 115 outputs the generated “satisfaction state estimation model”, and the “satisfaction state estimation model” is stored in the satisfaction state estimation model storage unit 111e.
  • the “input utterance” output from the input unit 121 is input to the voice section detection unit 122.
  • the voice section detection unit 122 detects one or more voice sections by applying voice section detection to the input “input utterance”, and detects the “input utterance” of the “speaker” in the detected voice section. Extract and output.
  • a known speech segment detection method such as a method based on power threshold processing or a method based on the likelihood ratio of a speech / non-speech model can be used.
  • the utterance feature amount extraction unit 123 receives “input utterance” of the “speaker” in the speech segment output from the speech segment detection unit 122. For each “input utterance” of “speaker”, the utterance feature amount extraction unit 123 extracts “input utterance feature amount” that is a feature amount considered to be related to “satisfaction state”.
  • the type of feature quantity extracted by the utterance feature quantity extraction unit 123 is the same as the type of feature quantity extracted by the utterance feature quantity extraction unit 114 described above.
  • the utterance feature amount extraction unit 123 outputs the extracted “input utterance feature amount”.
  • ⁇ Processing of State Estimation Unit 124 the “input utterance feature amount” output from the utterance feature amount extraction unit 123, the “satisfaction state estimation model” read from the satisfaction state estimation model storage unit 111 e of the model learning device 11 (FIG. 1). And “satisfaction state change pattern model” read from the satisfaction state change pattern model storage unit 111f.
  • the state estimation unit 124 uses the “input utterance feature amount”, the “satisfaction state estimation model”, and the “satisfaction state change pattern model”, and the “speaker” who performed “speech” corresponding to the “input utterance feature amount” Obtain and output an estimate of the satisfaction state of.
  • the state estimation unit 124 obtains an estimated value of the satisfaction state of the “speaker” when performing “utterance” based on the following.
  • S ⁇ (n) is an estimated value of “satisfied state” of “speaker” when n-th (nth in time order, n is an integer of 2 or more) “speech” in “conversation”.
  • S (n) represents the “satisfaction state” of the “speaker” when the nth “utterance” in the “conversation” is performed, and
  • X (n) represents the nth “utterance” in the “conversation”.
  • the state estimating unit 124 obtains P (X (n)
  • S ⁇ using the “satisfaction state change pattern model” and S ⁇ (n ⁇ 1),..., S ⁇ (1) for the pattern C k (where k 1,..., K). (N ⁇ 1),..., S ⁇ (1), C k ).
  • the state estimation unit 124 calculates the product P (X (n)
  • S ⁇ (n) corresponding P (X (n)
  • the maximum likelihood sequence may be used for the calculation using the Viterbi algorithm in the same manner as when an HMM is used for speech recognition.
  • the obtained S ⁇ (n) is recursively used to calculate the next n + 1th S ⁇ (n + 1).
  • the satisfaction state of “speaker” in “conversation” has a chronological relationship. For example, a “speaker” whose satisfaction state is “satisfied” at a certain time of “conversation” is very unlikely to become “dissatisfied” at the next time. In addition, the “speaker” whose satisfaction status has changed from “unsatisfied” to “normal” and then “satisfied” feels strong enough to change from “unsatisfied” to “satisfied”. It is expected to continue. As described above, the satisfaction state of the “speaker” is strongly related to the satisfaction state up to the time when the “utterance” is performed.
  • the “satisfaction state change pattern model” and the “satisfaction state estimation model” are learned, and using these and the “input utterance feature amount”, the utterance of the speaker who has made the utterance corresponding to the “input utterance feature amount” Get an estimate of satisfaction.
  • the satisfaction state can be estimated in consideration of the change of the satisfaction state of the “speaker”.
  • model learning device 11 and the estimation device 12 may be the same device, the model learning device 11 may be configured by a plurality of devices, or the estimation device 12 may be configured by a plurality of devices. .
  • the pattern C k is selected, and S ⁇ (n) corresponding to the selected change pattern C k is output as an estimated value of the satisfaction state of the “speaker” when the nth “utterance” in the “conversation” is performed. did.
  • a computer-readable recording medium is a non-transitory recording medium. Examples of such a recording medium are a magnetic recording device, an optical disk, a magneto-optical recording medium, a semiconductor memory, and the like.
  • This program is distributed, for example, by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
  • a computer that executes such a program first stores a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device.
  • the computer reads a program stored in its own storage device, and executes a process according to the read program.
  • the computer may read the program directly from the portable recording medium and execute processing according to the program, and each time the program is transferred from the server computer to the computer.
  • the processing according to the received program may be executed sequentially.
  • the above-described processing may be executed by a so-called ASP (Application Service Provider) type service that does not transfer a program from the server computer to the computer but implements a processing function only by the execution instruction and result acquisition. Good.
  • ASP Application Service Provider
  • the processing functions of the apparatus are realized by executing a predetermined program on a computer, but at least a part of these processing functions may be realized by hardware.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Acoustics & Sound (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Finance (AREA)
  • Computational Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Pure & Applied Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Tourism & Hospitality (AREA)

Abstract

モデル学習時に、会話における発話者の満足状態の変化パターンの正解値を表す満足状態変化パターン正解値、および、会話で各発話が行われた際の発話者の満足状態の正解値をそれぞれ表す満足状態正解値を用い、予め定められた満足状態の変化パターンのそれぞれについて、満足状態の状態系列における遷移重みの集合を含む満足状態変化パターンモデルを得、学習用発話特徴量および学習用発話特徴量に対応する学習用発話を行った発話者の満足状態の正解値を用い、発話者の満足状態が与えられた場合における発話特徴量の事後確率を得るための満足状態推定モデルを得る。推定時に、入力発話特徴量、ならびに、満足状態変化パターンモデルおよび満足状態推定モデルを用い、入力発話特徴量に対応する発話を行った発話者の満足状態の推定値を得る。

Description

モデル学習装置、推定装置、それらの方法、およびプログラム
 本発明は、発話者の満足状態を推定する技術に関する。
 コールセンタ運営において、通話から顧客の満足状態を推定する技術が求められている。ここで、顧客の満足状態とは、顧客が満足や不満を表出させたかを示す段階的カテゴリであり、例えば満足・普通・不満などの3段階を指す。この技術は、顧客が満足した頻度をオペレータごとに集計することでオペレータ評価を自動化する、満足した発話を音声認識しテキスト解析することで顧客の要望を調査する、などに応用可能である。上記の類似技術として、通話から顧客の満足や不満、怒りを推定する技術が非特許文献1,2で提案されている。非特許文献1では、顧客の話速などの話し方の特徴と、競合他社の製品名の有無などの言語的特徴を用いてある時刻における顧客の満足/不満を推定する。非特許文献2では、顧客の声の高さや大きさなどの韻律特徴と、相槌の頻度などの対話特徴を用いてある時刻における顧客の怒り/非怒りを推定する。いずれの技術でも、機械学習技術を用いて大量の通話から各特徴量と顧客の満足/不満・怒りとの関係性を学習し、推定に利用する。
Youngja Park, Stephen C. Gates, "Towards Real-Time Measurement of Customer Satisfaction Using Automatically Generated Call Transcripts," in Proceedings of the 18th ACM conference on Information and knowledge management, pp. 1387-1396, 2009. 野本済央、小橋川哲、田本真詞、政瀧浩和、吉岡理、高橋敏、"発話の時間的関係性を用いた対話音声からの怒り感情推定," 電子情報通信学会論文誌、Vol. J96-D, No. 1, pp. 15-24, 2013.
 従来技術はいずれも、ある時刻まで、またはその前後の通話の特徴から顧客の満足状態を推定する。一方で、顧客の満足状態には時系列的な関連性があると考えられる。しかし、顧客の満足状態がどのように変化するかについて調査した文献はこれまで存在しない。このことは、通話における顧客の満足状態を推定する場合のみならず、会話における発話者の満足状態を推定する場合に一般化できる。本発明の課題は、発話者の満足状態の変化を考慮して満足状態を推定することである。
 モデル学習時に、会話における発話者の満足状態の変化パターンの正解値を表す満足状態変化パターン正解値、および、会話で各発話が行われた際の発話者の満足状態の正解値をそれぞれ表す満足状態正解値を用い、予め定められた満足状態の変化パターンのそれぞれについて、満足状態の状態系列(状態遷移系列)における遷移重みの集合を含む満足状態変化パターンモデルを得て出力する。また、学習用発話特徴量および学習用発話特徴量に対応する学習用発話を行った発話者の満足状態の正解値を用い、発話者の満足状態が与えられた場合における発話特徴量の事後確率を得るための満足状態推定モデルを得て出力する。
 推定時に、入力発話特徴量、ならびに、満足状態変化パターンモデルおよび満足状態推定モデルを用い、入力発話特徴量に対応する発話を行った発話者の満足状態の推定値を得て出力する。
 これにより、発話者の満足状態の変化を考慮して満足状態を推定することができる。
図1は実施形態のモデル学習装置の機能構成を例示したブロック図である。 図2は実施形態の推定装置の機能構成を例示したブロック図である。 図3は満足状態の変化パターンの例示である。 図4は満足状態の時間変化を例示した図である。 図5は満足状態変化パターンモデル構造を例示した図である。 図6は満足状態変化パターンモデル構造を例示した図である。
 本発明の実施形態を説明する。
 [概要]
 本形態の概要を説明する。本形態では、会話における発話者の満足状態の変化パターンを所定個通りの表現で分類しておき、変化パターンそれぞれを確率モデルで表現して満足状態の推定に利用する。モデル学習時には、会話における発話者の満足状態の変化パターンの正解値を表す満足状態変化パターン正解値、および、会話で各発話が行われた際の発話者の満足状態の正解値をそれぞれ表す満足状態正解値を用い、予め定められた満足状態の変化パターンのそれぞれについて、満足状態の状態系列(状態遷移系列)における遷移重みの集合を含む満足状態変化パターンモデルを得、学習用発話特徴量および学習用発話特徴量に対応する学習用発話を行った発話者の満足状態の正解値を用い、発話者の満足状態が与えられた場合における発話特徴量の事後確率を得るための満足状態推定モデルを得る。満足状態の推定時には、入力発話特徴量、ならびに、モデル推定で得られた満足状態変化パターンモデルおよび満足状態推定モデルを用い、入力発話特徴量に対応する発話を行った発話者の満足状態の推定値を得る。
 「会話」の一例は顧客とコールセンタとの間で行われる通話であるが、これは本発明を限定するものではない。「会話」が電話回線を通じて行われる通話であってもよいし、インターネットを通じて行われる通話であってもよいし、ローカル回線を通じて行われる通話であってもよい。「会話」が通話ではなく、二人以上の人間が対面して行う対話、談話、打ち合わせなどの会話であってもよい。「会話」は人間と人間との間で行われてもよいし、人間と自動対話装置(人工知能を用いた対話装置など)との間で行われてもよい。「発話者」は「会話」において「発話」を行う特定の一人を意味する。例えば、「会話」が顧客とコールセンタとの間で行われる通話の場合には顧客が「発話者」であり、「会話」が二人以上の人間が対面して行うものの場合には会話に参加している特定の一人が「発話者」であり、「会話」が人間と自動対話装置との間で行われるものの場合には自動対話装置との会話を行う人間が「発話者」である。
 「満足状態」は「発話者」の満足度合(満足の程度)を意味する。「満足状態」は複数の分類に区分されたものであってもよいし、数値化されたものであってもよい。前者の場合、「満足状態」は2つの分類(例えば、満足と不満の2つの分類)に区分されたものであってもよいし、3つの分類(例えば、満足と普通と不満の3つの分類)に区分されたものであってもよいし、4つ以上の分類に区分されたものであってもよい。
 「変化パターン」は「会話」における「発話者」の「満足状態」がどのように変化するのかを表すパターンである。言い換えると、「変化パターン」は「会話」における複数の時点での「満足状態」の時間変化を表すパターンである。「変化パターン」の種類および個数は予め定められている。「変化パターン」を利用することで、推定された「満足状態」の遷移から「発話者」の「満足状態」が何れの「変化パターン」に当てはまっているか、次にどの「満足状態」に遷移する可能性が高いか、を推定できる。「変化パターン」の種類および個数に限定はない。発明者は、「満足状態」が「満足」「普通」「不満」のうちの何れかの状態であるとして、大量の通話を聴取して分析した結果、コールセンタ通話における顧客(発話者)の「満足状態」の「変化パターン」が以下の9通りに分類できることを見出した(図3)。
(1)普通→満足:普通から満足に変化するパターン
(2)普通→不満→満足:普通から不満に変化し、さらに満足に変化するパターン
(3)不満→満足:不満から満足に変化するパターン
(4)普通→普通:普通が継続するパターン
(5)普通→不満→普通:普通から不満に変化し、さらに普通に変化するパターン
(6)不満→不満:不満が継続するパターン
(7)普通→不満:普通から不満に変化するパターン
(8)不満→普通:不満から普通に変化するパターン
(9)満足→満足:満足が継続するパターン
 すなわち、「満足状態」が「満足」「普通」および「不満」のうちの何れかの状態である場合、「変化パターン」は上記の(1)から(9)のうちの何れかのパターンであることが望ましい。なお、(9)の「会話」の開始時点での満足状態は「満足」であり、(1)(2)(4)(5)(7)の「会話」の開始時点での満足状態は「普通」であり、(3)(6)(8)の「会話」の開始時点での満足状態は「不満」である。(1)(2)(3)(9)の「会話」の終了時点での満足状態は「満足」であり、(4)(5)(8)の「会話」の終了時点での満足状態は「普通」であり、(6)(7)の「会話」の終了時点での満足状態は「不満」である。このように、「会話」の開始時点での満足状態が高い場合(「満足」または「普通」の場合)には、「会話」の終了時点での満足状態も高い傾向にある。「会話」の終了時点での満足状態が「会話」の開始時点での満足状態以上となる場合は、それ以外の場合よりも少ない。なお、満足状態は「満足」が最も高く、「普通」が次に高く、「不満」が最も低いものとする。
 ここで、「会話」における「発話者」の「満足状態」の変化は多様である。図4に例示するように、複数の時点において同じ満足状態が継続される場合(C1)もあれば、満足状態が変化する場合もある(C2)。そのため、実際の「会話」における「発話者」の満足状態の変化が、予め定められた「変化パターン」に当てはまるとは限らない。このような複雑な変化を表現するため、「変化パターン」ごとに、満足状態の変化を確率モデル(満足状態変化パターンモデル)で表現する。すなわち、「変化パターン」ごとに、「満足状態」の状態系列における遷移重み(例えば、遷移確率)の集合を含む「満足状態変化パターンモデル」が生成される。言い換えると、状態系列における「満足状態」間の遷移重みの集合を含むモデルが「満足状態変化パターンモデル」である。なお、「満足状態」の状態系列とは、「会話」の開始から終了までに遷移し得る「満足状態」からなる系列を意味する。「変化パターン」のモデル化には、例えば、隠れマルコフモデル(Hidden Markov Model:HMM)を用いる(参考文献1:徳田恵一、”音声情報処理技術の最先端:1.隠れマルコフモデルによる音声認識と音声合成”、 情報処理、Vol. 45, No. 10, pp. 1005 - 1011, 2004.)。多様な満足状態の変化を適切にモデル化するため、「変化パターン」のモデル化には、鎖状ではなく分岐が存在するLeft-to-Right型のHMMが用いられることが望ましい。図5に分岐が存在するLeft-to-Right型のHMMにおける「満足状態」の状態系列を例示する。この例では、「会話」の開始時点の「満足状態」Sから、時点I, II, IIIそれぞれの「満足状態」を遷移して、終了時点の「満足状態」Sに至る。時点I, II, IIIの「満足状態」は、それぞれS=満足、S=普通、S=不満の3つに分岐している。「変化パターン」のモデル化に用いる「満足状態」の状態系列を「満足状態変化パターンモデル構造」と呼ぶ。「満足状態変化パターンモデル」は「変化パターン」ごとに得られるが、「満足状態変化パターンモデル構造」はすべての「変化パターン」について同一であることが望ましい。すなわち、すべての「変化パターン」について同一の「満足状態変化パターンモデル構造」を用い、「変化パターン」のそれぞれについて「満足状態変化パターンモデル」を得ることが望ましい。「変化パターン」に応じて「満足状態変化パターンモデル構造」を変更すると、「満足状態変化パターンモデル構造」の傾向が「満足状態変化パターンモデル」に表れてしまい、適切に「変化パターン」をモデル化できないことがあるからである。ただし、適切に「変化パターン」をモデル化できるのであれば、「満足状態変化パターンモデル構造」がすべての「変化パターン」について同一でなくてもよい。
 [実施形態の詳細]
 以下、図面を参照して本形態を具体的に説明する。
 <構成>
 図1に例示するように、本形態のモデル学習装置11は、学習用発話記憶部111a、満足状態正解値記憶部111b、満足状態変化パターン正解値記憶部111c、満足状態変化パターンモデル構造記憶部111d、満足状態推定モデル記憶部111e、満足状態変化パターンモデル記憶部111f、満足状態変化パターンモデル学習部112、音声区間検出部113、発話特徴量抽出部114、および満足状態推定モデル学習部115を有する。図2に例示するように、本形態の推定装置12は、入力部121、音声区間検出部122、発話特徴量抽出部123、および状態推定部124を有する。本形態のモデル学習装置11および推定装置12のそれぞれは、例えば、CPU(central processing unit)等のプロセッサ(ハードウェア・プロセッサ)およびRAM(random-access memory)・ROM(read-only memory)等のメモリ等を備える汎用または専用のコンピュータが所定のプログラムを実行することで構成される装置である。このコンピュータは1個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めROM等に記録されていてもよい。また、CPUのようにプログラムが読み込まれることで機能構成を実現する電子回路(circuitry)ではなく、プログラムを用いることなく処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。また、1個の装置を構成する電子回路が複数のCPUを含んでいてもよい。
 <モデル学習処理>
 まず、モデル学習装置11(図1)が行うモデル学習処理を説明する。
 ≪前処理≫
 前処理として、モデル学習に必要な「学習用発話」がモデル学習装置11(図1)の学習用発話記憶部111aに格納され、「満足状態変化パターン正解値」が満足状態変化パターン正解値記憶部111cに格納され、「満足状態正解値」が満足状態正解値記憶部111bに格納され、「満足状態変化パターンモデル構造」が満足状態変化パターンモデル構造記憶部111dに格納される。「学習用発話」は、複数の「会話」のそれぞれでなされた「発話者」による「発話」の時系列音声データである。「学習用発話」は「会話」を行っている「発話者」の「発話」内容を収録することで得られる。「満足状態変化パターン正解値」は、「会話」のそれぞれにおける「発話者」の満足状態の「変化パターン」の正解値を表す。「満足状態変化パターン正解値」は、「発話者」が「会話」における自らの満足状態の変化がどの「変化パターン」に該当するかを回答し、それらの回答に基づいて人手で設定されたものである。本形態の「満足状態」は「満足」「普通」「不満」の3状態の何れかであり、「満足状態変化パターン正解値」は、前述の(1)から(9)の9個の「変化パターン」の何れかである(図3)。「満足状態正解値」は、これらの「会話」で各発話が行われた際の「発話者」の「満足状態」の正解値をそれぞれ表す。すなわち、「満足状態正解値」は、「発話者」によって各発話が行われた時点での当該「発話者」の「満足状態」の正解値を表す。「満足状態正解値」は、「発話者」が各「発話」を行った時点での「満足状態」を回答し、それらの回答に基づいて人手で設定されたものである。「満足状態変化パターンモデル構造」は、「変化パターン」のモデル化に用いる「満足状態」の状態系列である。「満足状態変化パターンモデル構造」の例は、図5に例示した状態系列である。本形態では、すべての「変化パターン」について同一の「満足状態変化パターンモデル構造」が用いられる。しかし、これは本発明を限定しない。「学習用発話」には、各時点に対応する「会話」および「発話」を識別するためのラベルが対応付けられ、「満足状態変化パターン正解値」には、それぞれに対応する「会話」を識別するラベルが対応付けられ、「満足状態正解値」には、それぞれに対応する「発話」を識別するラベルが対応付けられている。これにより、「学習用発話」と「満足状態変化パターン正解値」と「満足状態正解値」とが対応付けられている。
 ≪満足状態変化パターンモデル学習部112の処理≫
 満足状態変化パターンモデル学習部112には、満足状態変化パターン正解値記憶部111c、満足状態正解値記憶部111b、および満足状態変化パターンモデル構造記憶部111dからそれぞれ読み出された「満足状態変化パターン正解値」「満足状態正解値」「満足状態変化パターンモデル構造」が入力される。満足状態変化パターンモデル学習部112は、これらを用い、予め定められた「満足状態」の「変化パターン」のそれぞれについて、「満足状態変化パターンモデル構造」とその満足状態の遷移重みの集合とを含む「満足状態変化パターンモデル」を得て出力する。K種類(ただし、Kは変化パターンの総数(K≧2)であり、図3の例ではK=9である)の変化パターンC,…,Cが設定されている場合、満足状態変化パターンモデル学習部112は、各変化パターンC(ただし、k=1,…,K)について、それぞれ満足状態変化パターンモデルPM(ただし、k=1,…,K)を得て出力する。満足状態変化パターンモデルPMの生成には、「満足状態変化パターン正解値」が変化パターンCである「会話」において行われた各「発話」に対応する「満足状態正解値」が用いられる。言い換えると、満足状態変化パターンモデル学習部112は、「満足状態変化パターン正解値」が変化パターンCである「会話」に含まれる「発話」に対応する「満足状態正解値」を学習データとして用い、「満足状態変化パターンモデル構造」に含まれる満足状態間の遷移重み(例えば、遷移確率)を学習し、「満足状態変化パターンモデル構造」と得られた遷移重みの集合とを含む満足状態変化パターンモデルPMを出力する。図5に例示する「満足状態変化パターンモデル構造」の場合、満足状態変化パターンモデル学習部112は、「満足状態変化パターン正解値」が変化パターンCである「会話」に含まれる「発話」に対応する「満足状態正解値」を学習データとして用い、SからステージIでのS,S,Sへの遷移重み、ステージIでのS,S,Sの遷移重み、ステージIでのS,S,SからステージIIでのS,S,Sへの遷移重み、ステージIIでのS,S,Sの遷移重み、ステージIIでのS,S,SからステージIIIでのS,S,Sへの遷移重み、ステージIIIでのS,S,Sの遷移重み、およびステージIIIでのS,S,SからS4への遷移重みを学習し、図5に例示する「満足状態変化パターンモデル構造」と、得られた遷移重みの集合と、を含む満足状態変化パターンモデルPMを出力する。なお、「満足状態変化パターンモデル構造」が既知である場合には、「満足状態変化パターンモデル構造」を含まず、得られた遷移重みの集合を含む情報を「満足状態変化パターンモデル」としてもよい。図6に、前述した「(1)普通→満足:普通から満足に変化するパターン」である変化パターンに対応する遷移重みのうち、大きな遷移重みを持つ状態遷移を太い矢印で示し、小さな遷移重みを持つ状態遷移を細い矢印で示したものを例示する。遷移重みの学習は、状態系列が既知の場合のHMM学習と同じ手順で実施できる(例えば、参考文献2(鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄、“音声認識システム”、 オーム社、pp. 27‐29, 2001.)参照)。満足状態変化パターンモデルPMは、各変化パターンC(ただし、k=1,…,K)について得られる。満足状態変化パターンモデル学習部112、すべての変化パターンC,…,Cについて同一の「満足状態変化パターンモデル構造」を用い、変化パターンC(ただし、k=1,…,K)のそれぞれについて満足状態変化パターンモデルPM(ただし、k=1,…,K)を得て出力する。変化パターンC(ただし、k=1,…,K)のそれぞれについて得られた満足状態変化パターンモデルPM(ただし、k=1,…,K)は、満足状態変化パターンモデル記憶部111fに格納される。
 ≪音声区間検出部113の処理≫
 音声区間検出部113には、学習用発話記憶部111aから読み出された「学習用発話」が入力される。音声区間検出部113は、入力された「学習用発話」に対して音声区間検出を適用して一つ以上の音声区間を検出し、検出された音声区間における「発話者」の「発話」を抽出して出力する。音声区間検出には、パワーのしきい値処理に基づく手法、音声/非音声モデルの尤度比に基づく手法などの周知の音声区間検出手法を用いることができる。
 ≪発話特徴量抽出部114の処理≫
 発話特徴量抽出部114には、音声区間検出部113から出力された音声区間における「発話者」の「発話(学習用発話)」が入力される。発話特徴量抽出部114は、「発話者」の「発話」ごとに、「満足状態」と関連すると考えられる特徴量である「学習用発話特徴量」を抽出する。例えば、発話特徴量抽出部114は、「発話」の韻律特徴、対話特徴、および言語特徴の少なくとも一つ以上を含む特徴量を「学習用発話特徴量」として抽出する。韻律特徴としては、例えば、発話の基本周波数、パワーの平均・標準偏差・最大値・最小値、発話中の話速、発話中の最終音素の継続長のうち少なくとも一つ以上を用いることができる。発話の基本周波数またはパワーを特徴量の少なくとも一部として用いる場合、発話特徴量抽出部114は、発話をフレーム分割し、フレームごとに基本周波数またはパワーを求め、各フレームの基本周波数またはパワーを特徴量の少なくとも一部とすればよい。話速または最終音素の継続長を特徴量の少なくとも一部として用いる場合、発話特徴量抽出部114は、周知の音声認識技術を用いて発話中の音素系列を推定し、話速または最終音素の継続長を得ればよい。対話特徴としては、顧客などの「発話者」による前の「発話」から現在の「発話」までの時間、顧客などの「発話者」と会話を行ったオペレータなどの対話者が行った対話者発話から顧客などの「発話者」による「発話」までの間、顧客などの「発話者」からオペレータなどの対話者が行った次の対話者発話までの間、顧客などの「発話者」による「発話」の長さ、「発話者」によって行われた「発話」の前後に行われたオペレータなどの対話者による対話者発話の長さ、前後に行われたオペレータなどの対話者による対話者発話中の顧客などの「発話者」の相槌数、顧客などの「発話者」の発話中に行われたオペレータなどの対話者の相槌数の少なくとも一つ以上を用いることができる。言語特徴としては、発話中の単語数、発話中のフィラー数、発話中の感謝の言葉の出現数のうち少なくとも一つ以上を用いることができる。言語特徴を特徴量の少なくとも一部として用いる場合、発話特徴量抽出部114は、周知の音声認識技術を用いて発話中の出現単語を推定し、その結果を用いればよい。人手によって選ばれた感謝の言葉(例えば「ありがとう」または「どうも」)の出現数を特徴量の少なくとも一部としてもよい。いずれの特徴を「学習用発話特徴量」として用いるかは事前に定められている。発話特徴量抽出部114は、抽出した「学習用発話特徴量」を出力する。
 <満足状態推定モデル学習部115の処理>
 満足状態推定モデル学習部115には、発話特徴量抽出部114から出力された「学習用発話特徴量」、および満足状態正解値記憶部111bから読み出された「満足状態」の正解値が入力される。ただし、満足状態推定モデル学習部115に入力される「満足状態」の正解値は、満足状態推定モデル学習部115に入力される「学習用発話特徴量」に対応する「発話」を行った「発話者」の「満足状態」の正解値である。すなわち、「学習用発話特徴量」および「学習用発話特徴量」に対応する各「発話」が行われた際の「発話者」の「満足状態」の正解値が、満足状態推定モデル学習部115に入力される。満足状態推定モデル学習部115は、入力された「学習用発話特徴量」とそれに対応する「発話(学習用発話)」ごとの「発話者」の「満足状態」の正解値とのペアを用い、学習処理を行い、「発話者の満足状態(当該発話者が各発話を行った際の満足状態)」が与えられた場合における「発話特徴量(当該発話者の各発話の発話特徴量)」の事後確率(発話特徴量の推定値の事後確率)を得るための「満足状態推定モデル」を生成して出力する。例えば、「満足状態推定モデル」にはニューラルネットワークなどを用いることができ、そのモデル学習には既存のニューラルネットワークの学習手法である誤差逆伝搬法などを用いることができる。ただし、「発話者」の「満足状態」が与えられた場合における「発話特徴量」の事後確率が得られるのであれば、ニューラルネットワーク以外のモデルを用いてもよく、例えば混合正規分布モデルを用いてもよい。なお、「発話者」が「会話」においてn番目の「発話」を行った際の「発話者」の「満足状態」をS(n)とし、当該n番目の「発話」の「発話特徴量」をX(n)とすると、発話者の満足状態S(n)が与えられた場合における発話特徴量X(n)の事後確率はP(X(n)|S(n))と表現できる。ただし、事後確率P(X(n)|S(n))において、満足状態S(n)はnに依存しないものとする。満足状態推定モデル学習部115は生成した「満足状態推定モデル」を出力し、「満足状態推定モデル」は満足状態推定モデル記憶部111eに格納される。
 <推定処理>
 次に、推定装置12(図2)が行う推定処理について説明する。
 ≪入力部121への入力≫
 推定装置12の入力部121に満足状態の推定対象となる発話である「入力発話」が入力される。「入力発話」は「会話」において「発話者」によって行われた発話の時系列データである。「入力発話」は音声区間検出部122に出力される。
 ≪音声区間検出部122の処理≫
 音声区間検出部122には、入力部121から出力された「入力発話」が入力される。音声区間検出部122は、入力された「入力発話」に対して音声区間検出を適用して一つ以上の音声区間を検出し、検出された音声区間における「発話者」の「入力発話」を抽出して出力する。音声区間検出には、パワーのしきい値処理に基づく手法、音声/非音声モデルの尤度比に基づく手法などの周知の音声区間検出手法を用いることができる。
 ≪発話特徴量抽出部123の処理≫
 発話特徴量抽出部123には、音声区間検出部122から出力された音声区間における「発話者」の「入力発話」が入力される。発話特徴量抽出部123は、「発話者」の「入力発話」ごとに、「満足状態」と関連すると考えられる特徴量である「入力発話特徴量」を抽出する。発話特徴量抽出部123が抽出する特徴量の種別は、前述の発話特徴量抽出部114が抽出する特徴量の種別と同じである。発話特徴量抽出部123は、抽出した「入力発話特徴量」を出力する。
 ≪状態推定部124の処理≫
 状態推定部124には、発話特徴量抽出部123から出力された「入力発話特徴量」、モデル学習装置11(図1)の満足状態推定モデル記憶部111eから読み出された「満足状態推定モデル」、および満足状態変化パターンモデル記憶部111fから読み出された「満足状態変化パターンモデル」が入力される。状態推定部124は、「入力発話特徴量」、「満足状態推定モデル」、および「満足状態変化パターンモデル」を用い、「入力発話特徴量」に対応する「発話」を行った「発話者」の満足状態の推定値を得て出力する。本形態の状態推定部124は、以下に基づいて「発話」を行った際の「発話者」の満足状態の推定値を得る。
Figure JPOXMLDOC01-appb-M000001

ただし、S^(n)は「会話」におけるn番目(時間順でn番目。nは2以上の整数)の「発話」が行われた際の「発話者」の「満足状態」の推定値を表し、S(n)は「会話」におけるn番目の「発話」が行われた際の「発話者」の「満足状態」を表し、X(n)は「会話」におけるn番目の「発話」の「入力発話特徴量」を表し、C(ただし、k=1,…,K)は前述したK個(例えば9個)の変化パターンのうちk番目の変化パターンを表す。「S^(n)」の「^」は本来「S」の真上に記載すべきであるが、記載表記の制約上の都合から「S」の右上に記載した。またS^(n)の初期値S^(1)は定数であってもよいし、会話の1番目から前回までの任意の推定されたS^(n)を今回の初期値S^(1)としてもよい。またP(α)は事象αの確率を表し、
Figure JPOXMLDOC01-appb-M000002

はP(α)を最大にするS(n)を意味する。また式(1)は以下のように導出されるものである。
Figure JPOXMLDOC01-appb-M000003
 より具体的に説明すると、状態推定部124は、入力発話特徴量X(n)を「満足状態推定モデル」に適用してP(X(n)|S(n))を得、さらに各変化パターンC(ただし、k=1,…,K)について「満足状態変化パターンモデル」およびS^(n-1),…,S^(1)を用いてP(S(n)|S^(n-1),…,S^(1),C)を得る。状態推定部124は、各変化パターンC(ただし、k=1,…,K、例えば、K=1,…,9)について積P(X(n)|S(n))P(S(n)|S^(n-1),…,S^(1),C)を最大にするS(n)をS^(n)として得る。さらに状態推定部124は、各変化パターンC(ただし、k=1,…,K、例えば、K=1,…,9)について得られたS^(n)=S(n)のうち、対応するP(X(n)|S(n))P(S(n)|S^(n-1),…,S^(1),C)が最大となる変化パターンCを選択し、選択した変化パターンCに対応するS^(n)を「会話」におけるn番目の「発話」が行われた際の「発話者」の満足状態の推定値として出力する。ただし、これらを総当たりで計算すると計算量が膨大となるため、音声認識でHMMが用いられる場合などと同様にビタビアルゴリズムを用いて最尤系列のみを計算に利用することにしてもよい。得られたS^(n)は次のn+1番目のS^(n+1)の算出のために再帰的に利用される。
 <本形態の特徴>
 「会話」における「発話者」の満足状態には時系列的な関連性があると考えられる。例えば、「会話」のある時刻において満足状態が「満足」である「発話者」は、次の時刻において満足状態が「不満」になる可能性は極めて低い。また、満足状態が「不満」から「普通」のち「満足」に遷移した「発話者」は、「不満」から「満足」に変わるほどに強い満足感を感じているため、「満足」がある程度継続することが予想される。このように、「発話者」の満足状態はある「発話」を行った時刻までの満足状態と強い関連性がある。本形態では、「満足状態変化パターンモデル」および「満足状態推定モデル」を学習し、それらと「入力発話特徴量」を用いて、「入力発話特徴量」に対応する発話を行った発話者の満足状態の推定値を得る。これにより、「発話者」の満足状態の変化を考慮して満足状態を推定することができる。
 [その他の変形例等]
 なお、本発明は上述の実施形態に限定されるものではない。例えば、モデル学習装置11と推定装置12が同一の装置であってもよいし、モデル学習装置11が複数の装置によって構成されてもよいし、推定装置12が複数の装置によって構成されてもよい。
 上述の実施形態では、状態推定部124が、各変化パターンC(ただし、k=1,…,K、例えば、K=1,…,9)について得られたS^(n)=S(n)のうち、対応するP(X(n)|S(n))P(S(n)|S^(n-1),…,S^(1),C)が最大となる変化パターンCを選択し、選択した変化パターンCに対応するS^(n)を「会話」におけるn番目の「発話」が行われた際の「発話者」の満足状態の推定値として出力した。しかし、各変化パターンC(ただし、k=1,…,K、例えば、K=1,…,9)について得られたS^(n)=S(n)のうち、対応するP(X(n)|S(n))P(S(n)|S^(n-1),…,S^(1),C)が大きい順番に複数個の変化パターンCが選択され、選択された複数個の変化パターンCに対応するS^(n)が「会話」におけるn番目の「発話」が行われた際の「発話者」の満足状態の推定値とされてもよい。また、状態推定部124が、各変化パターンC(ただし、k=1,…,K、例えば、K=1,…,9)について得られたS^(n)=S(n)を、対応するP(X(n)|S(n))P(S(n)|S^(n-1),…,S^(1),C)の大きさとともに、発話者」の満足状態の推定値として出力してもよい。
 上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
 上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な(non-transitory)記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。
 このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
 このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。
 上記実施形態では、コンピュータ上で所定のプログラムを実行させて本装置の処理機能が実現されたが、これらの処理機能の少なくとも一部がハードウェアで実現されてもよい。
11 モデル学習装置
12 推定装置

Claims (8)

  1.  会話における発話者の満足状態の変化パターンの正解値を表す満足状態変化パターン正解値、および、前記会話で各発話が行われた際の前記発話者の満足状態の正解値をそれぞれ表す満足状態正解値を用い、予め定められた満足状態の変化パターンのそれぞれについて、満足状態の状態系列における遷移重みの集合を含む満足状態変化パターンモデルを得て出力する満足状態変化パターンモデル学習部と、
     学習用発話特徴量および前記学習用発話特徴量に対応する学習用発話を行った発話者の満足状態の正解値を用い、発話者の満足状態が与えられた場合における発話特徴量の事後確率を得るための満足状態推定モデルを得て出力する満足状態推定モデル学習部と、
    を有するモデル学習装置。
  2.  請求項1のモデル学習装置であって、
     前記満足状態は、満足、普通、および不満のうちの何れかの状態であり、
     前記変化パターンは、前記満足状態が
     (1)普通から満足に変化するパターン、
     (2)普通から不満に変化し、さらに満足に変化するパターン、
     (3)不満から満足に変化するパターン、
     (4)普通が継続するパターン、
     (5)普通から不満に変化し、さらに普通に変化するパターン、
     (6)不満が継続するパターン、
     (7)普通から不満に変化するパターン、
     (8)不満から普通に変化するパターン、および
     (9)満足が継続するパターン、
    のうちの何れかである、モデル学習装置。
  3.  請求項1または2のモデル学習装置であって、
     満足状態変化パターンモデル構造が前記満足状態の状態系列であり、
     前記満足状態変化パターンモデル学習部は、すべての前記変化パターンについて同一の前記満足状態変化パターンモデル構造を用い、前記変化パターンのそれぞれについて前記満足状態変化パターンモデルを得て出力する、モデル学習装置。
  4.  入力発話特徴量、ならびに、請求項1から3のいずれかのモデル学習装置で得られる前記満足状態変化パターンモデルおよび前記満足状態推定モデルを用い、前記入力発話特徴量に対応する発話を行った発話者の満足状態の推定値を得て出力する、推定装置。
  5.  モデル学習装置によって実行されるモデル学習方法であって、
     会話における発話者の満足状態の変化パターンの正解値を表す満足状態変化パターン正解値、および、前記会話で各発話が行われた際の前記発話者の満足状態の正解値をそれぞれ表す満足状態正解値を用い、予め定められた満足状態の変化パターンのそれぞれについて、満足状態の状態系列における遷移重みの集合を含む満足状態変化パターンモデルを得て出力する満足状態変化パターンモデル学習ステップと、
     学習用発話特徴量および前記学習用発話特徴量に対応する学習用発話を行った発話者の満足状態の正解値を用い、発話者の満足状態が与えられた場合における発話特徴量の事後確率を得るための満足状態推定モデルを得て出力する満足状態推定モデル学習ステップと、
    を有するモデル学習方法。
  6.  請求項5のモデル学習方法であって、
     満足状態変化パターンモデル構造が前記満足状態の状態系列であり、
     前記満足状態変化パターンモデル学習ステップは、すべての前記変化パターンについて同一の前記満足状態変化パターンモデル構造を用い、前記変化パターンのそれぞれについて前記満足状態変化パターンモデルを得て出力する、モデル学習方法。
  7.  推定装置によって実行される推定方法であって、
     入力発話特徴量、ならびに、請求項5または6のモデル学習方法で得られる前記満足状態変化パターンモデルおよび前記満足状態推定モデルを用い、前記入力発話特徴量に対応する発話を行った発話者の満足状態の推定値を得て出力する、推定方法。
  8.  請求項1から3のいずれかのモデル学習装置、または、請求項4の推定装置としてコンピュータを機能させるためのプログラム。
PCT/JP2018/003644 2017-02-08 2018-02-02 モデル学習装置、推定装置、それらの方法、およびプログラム Ceased WO2018147193A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018567405A JP6780033B2 (ja) 2017-02-08 2018-02-02 モデル学習装置、推定装置、それらの方法、およびプログラム
US16/484,053 US11521641B2 (en) 2017-02-08 2018-02-02 Model learning device, estimating device, methods therefor, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017-020999 2017-02-08
JP2017020999 2017-02-08

Publications (1)

Publication Number Publication Date
WO2018147193A1 true WO2018147193A1 (ja) 2018-08-16

Family

ID=63108059

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/003644 Ceased WO2018147193A1 (ja) 2017-02-08 2018-02-02 モデル学習装置、推定装置、それらの方法、およびプログラム

Country Status (3)

Country Link
US (1) US11521641B2 (ja)
JP (1) JP6780033B2 (ja)
WO (1) WO2018147193A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109670030A (zh) * 2018-12-30 2019-04-23 联想(北京)有限公司 问答交互方法及装置
JP2020106657A (ja) * 2018-12-27 2020-07-09 富士通株式会社 学習装置、学習方法および学習プログラム
JP2021051391A (ja) * 2019-09-20 2021-04-01 ヤフー株式会社 学習装置、学習方法、および学習プログラム
US20220272124A1 (en) * 2021-02-19 2022-08-25 Intuit Inc. Using machine learning for detecting solicitation of personally identifiable information (pii)
JPWO2023100334A1 (ja) * 2021-12-02 2023-06-08
US12020427B2 (en) 2017-10-03 2024-06-25 Advanced Telecommunications Research Institute International Differentiation device, differentiation method for depression symptoms, determination method for level of depression symptoms, stratification method for depression patients, determination method for effects of treatment of depression symptoms, and brain activity training device
US12383157B2 (en) 2020-04-06 2025-08-12 Advanced Telecommunications Research Institute International Brain functional connectivity correlation value clustering device, brain functional connectivity correlation value clustering system, brain functional connectivity correlation value clustering method, brain functional connectivity correlation value classifier program, brain activity marker classification system and clustering classifier model for brain functional connectivity correlation values

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11989976B2 (en) * 2018-02-16 2024-05-21 Nippon Telegraph And Telephone Corporation Nonverbal information generation apparatus, nonverbal information generation model learning apparatus, methods, and programs
KR102225984B1 (ko) * 2018-09-03 2021-03-10 엘지전자 주식회사 음성 인식 서비스를 제공하는 서버
WO2020073147A1 (en) * 2018-10-08 2020-04-16 Qualcomm Incorporated Vehicle entry detection
WO2021186662A1 (ja) * 2020-03-19 2021-09-23 日本電信電話株式会社 モデル学習装置、その方法、およびプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100332287A1 (en) * 2009-06-24 2010-12-30 International Business Machines Corporation System and method for real-time prediction of customer satisfaction
WO2014069076A1 (ja) * 2012-10-31 2014-05-08 日本電気株式会社 会話分析装置及び会話分析方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9201863B2 (en) * 2009-12-24 2015-12-01 Woodwire, Inc. Sentiment analysis from social media content
US9613139B2 (en) * 2010-03-24 2017-04-04 Taykey Ltd. System and methods thereof for real-time monitoring of a sentiment trend with respect of a desired phrase
US20160350644A1 (en) * 2015-05-29 2016-12-01 Sas Institute Inc. Visualizing results of electronic sentiment analysis
CN106562792B (zh) * 2015-10-08 2021-08-06 松下电器(美国)知识产权公司 信息提示装置的控制方法和信息提示装置
US20170277993A1 (en) * 2016-03-22 2017-09-28 Next It Corporation Virtual assistant escalation
US20170278067A1 (en) * 2016-03-25 2017-09-28 International Business Machines Corporation Monitoring activity to detect potential user actions
US20180165582A1 (en) * 2016-12-08 2018-06-14 Facebook, Inc. Systems and methods for determining sentiments in conversations in a chat application
US11003716B2 (en) * 2017-01-10 2021-05-11 International Business Machines Corporation Discovery, characterization, and analysis of interpersonal relationships extracted from unstructured text data

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100332287A1 (en) * 2009-06-24 2010-12-30 International Business Machines Corporation System and method for real-time prediction of customer satisfaction
WO2014069076A1 (ja) * 2012-10-31 2014-05-08 日本電気株式会社 会話分析装置及び会話分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ENGELBRECHT, K. P. ET AL.: "Modeling User Satisfaction with Hidden Markov Models", PROC. SIGDIAL, September 2009 (2009-09-01), pages 170 - 177, XP055533856 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12020427B2 (en) 2017-10-03 2024-06-25 Advanced Telecommunications Research Institute International Differentiation device, differentiation method for depression symptoms, determination method for level of depression symptoms, stratification method for depression patients, determination method for effects of treatment of depression symptoms, and brain activity training device
JP2020106657A (ja) * 2018-12-27 2020-07-09 富士通株式会社 学習装置、学習方法および学習プログラム
JP7192492B2 (ja) 2018-12-27 2022-12-20 富士通株式会社 学習装置、学習方法および学習プログラム
CN109670030A (zh) * 2018-12-30 2019-04-23 联想(北京)有限公司 问答交互方法及装置
CN109670030B (zh) * 2018-12-30 2022-06-28 联想(北京)有限公司 问答交互方法及装置
JP2021051391A (ja) * 2019-09-20 2021-04-01 ヤフー株式会社 学習装置、学習方法、および学習プログラム
JP6998349B2 (ja) 2019-09-20 2022-01-18 ヤフー株式会社 学習装置、学習方法、および学習プログラム
US12383157B2 (en) 2020-04-06 2025-08-12 Advanced Telecommunications Research Institute International Brain functional connectivity correlation value clustering device, brain functional connectivity correlation value clustering system, brain functional connectivity correlation value clustering method, brain functional connectivity correlation value classifier program, brain activity marker classification system and clustering classifier model for brain functional connectivity correlation values
US20220272124A1 (en) * 2021-02-19 2022-08-25 Intuit Inc. Using machine learning for detecting solicitation of personally identifiable information (pii)
JPWO2023100334A1 (ja) * 2021-12-02 2023-06-08
WO2023100334A1 (ja) * 2021-12-02 2023-06-08 日本電信電話株式会社 推定方法、学習方法、推定装置及び推定プログラム
JP7622876B2 (ja) 2021-12-02 2025-01-28 日本電信電話株式会社 推定方法、学習方法、推定装置及び推定プログラム

Also Published As

Publication number Publication date
US20190392348A1 (en) 2019-12-26
JPWO2018147193A1 (ja) 2019-12-19
US11521641B2 (en) 2022-12-06
JP6780033B2 (ja) 2020-11-04

Similar Documents

Publication Publication Date Title
JP6780033B2 (ja) モデル学習装置、推定装置、それらの方法、およびプログラム
US11790896B2 (en) Detecting non-verbal, audible communication conveying meaning
JP6350148B2 (ja) 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム
US20160111112A1 (en) Speaker change detection device and speaker change detection method
JP2017097162A (ja) キーワード検出装置、キーワード検出方法及びキーワード検出用コンピュータプログラム
CN112992147A (zh) 语音处理方法、装置、计算机设备和存储介质
WO2019017462A1 (ja) 満足度推定モデル学習装置、満足度推定装置、満足度推定モデル学習方法、満足度推定方法、およびプログラム
JP2000099080A (ja) 信頼性尺度の評価を用いる音声認識方法
JP2024502946A (ja) 音声認識トランスクリプトの句読点付け及び大文字化
JP2000172295A (ja) 低複雑性スピ―チ認識器の区分ベ―スの類似性方法
Zavaliagkos et al. A hybrid continuous speech recognition system using segmental neural nets with hidden Markov models
KR100969138B1 (ko) 은닉 마코프 모델을 이용한 잡음 마스크 추정 방법 및 이를수행하는 장치
Yousfi et al. Holy Qur'an speech recognition system Imaalah checking rule for warsh recitation
CN117275458B (zh) 智能客服的语音生成方法、装置、设备及存储介质
JP2021032920A (ja) パラ言語情報推定装置、学習装置、それらの方法、およびプログラム
JP7162783B2 (ja) 情報処理装置、推定方法、及び推定プログラム
Higuchi et al. Speaker Adversarial Training of DPGMM-Based Feature Extractor for Zero-Resource Languages.
WO2023281717A1 (ja) 話者ダイアライゼーション方法、話者ダイアライゼーション装置および話者ダイアライゼーションプログラム
JP2996925B2 (ja) 音素境界検出装置及び音声認識装置
CN114822538A (zh) 重打分模型的训练和语音识别方法、装置、系统及设备
Kim et al. A non-intrusive speech intelligibility estimation method based on deep learning using autoencoder features
JP7111017B2 (ja) パラ言語情報推定モデル学習装置、パラ言語情報推定装置、およびプログラム
CN113593524A (zh) 口音识别声学模型训练、口音识别方法、装置和存储介质
Mital Speech enhancement for automatic analysis of childcentered audio recordings
Sabu et al. Improving the Noise Robustness of Prominence Detection for Children's Oral Reading Assessment

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18751070

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2018567405

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18751070

Country of ref document: EP

Kind code of ref document: A1