[go: up one dir, main page]

WO2024247848A1 - Information processing device, information processing method, program, and information processing system - Google Patents

Information processing device, information processing method, program, and information processing system Download PDF

Info

Publication number
WO2024247848A1
WO2024247848A1 PCT/JP2024/018855 JP2024018855W WO2024247848A1 WO 2024247848 A1 WO2024247848 A1 WO 2024247848A1 JP 2024018855 W JP2024018855 W JP 2024018855W WO 2024247848 A1 WO2024247848 A1 WO 2024247848A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
speaker
voice
topic
reference data
Prior art date
Application number
PCT/JP2024/018855
Other languages
French (fr)
Japanese (ja)
Inventor
和由 堀江
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2024247848A1 publication Critical patent/WO2024247848A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Definitions

  • This technology relates to information processing devices, information processing methods, programs, and information processing systems, and relates to voice synthesis processing used for, for example, narration and dialogue in content.
  • Patent Document 1 discloses a technique for selecting a male or female voice by tallying up the frequency of occurrence of each word used in a sentence to be read aloud in male and female sentences.
  • TTS speakers When the number of TTS speakers offered is small, users can listen to sample voices from all TTS speakers to choose a voice that suits their content, but this means that there are fewer options. On the other hand, if more TTS speakers are offered, it will take more time for users to listen to sample voices from all the speakers. Also, when there are voices with similar qualities, users may be unsure which voice suits their content.
  • This technology makes it possible to more accurately provide users with the audio that is most suited to the content from among the available audio options.
  • the information processing device includes a speaker search unit that performs a search based on a topic of text data to select speaker data from among a plurality of speaker data, and a voice synthesis unit that generates synthetic voice data of the text data using the speaker data selected by the speaker search unit. Speaker data with a voice quality that corresponds to the topic (topic or genre) of the text data is selected, and the reading voice of the text data is synthesized using the speaker data.
  • FIG. 1 is an explanatory diagram of a system configuration according to an embodiment of the present technology
  • FIG. 2 is an explanatory diagram of a functional configuration of an information terminal according to an embodiment.
  • FIG. 2 is an explanatory diagram of a functional configuration of a voice synthesis server according to an embodiment
  • FIG. 2 is an explanatory diagram of a functional configuration of a content analysis server according to an embodiment.
  • FIG. 2 is an explanatory diagram of a functional configuration of a database according to an embodiment.
  • FIG. 2 is an explanatory diagram of the processing of the TTS speaker suggestion system according to the embodiment
  • FIG. 2 is an explanatory diagram of an example of a topic used in the embodiment.
  • FIG. 4 is an explanatory diagram of a learning process of voice features according to an embodiment.
  • FIG. 11 is an explanatory diagram of a display example on an information terminal according to an embodiment.
  • 11 is a flowchart of a process for setting a time stamp according to a change in a feature amount of a voice according to an embodiment.
  • 11 is a flowchart of a TTS reference data generation process with reference to a time stamp according to an embodiment.
  • 11 is a flowchart of a process for selecting multiple TTS reference data from a database according to an embodiment.
  • FIG. 11 is an explanatory diagram of the number of reference data items according to distribution according to the embodiment.
  • FIG. 11 is an explanatory diagram of a display example on an information terminal according to an embodiment.
  • FIG. 1 is a block diagram of an information processing apparatus according to an embodiment.
  • System configuration 1 shows an example of the configuration of a TTS speaker suggestion system 1 according to an embodiment.
  • the TTS speaker suggestion system 1 is a system that suggests to a user 10 a TTS speaker appropriate for the text of a content CT1 being produced on an information terminal 100, for example.
  • the information terminal 100, the voice synthesis server 200, the content analysis server 300, the database 400, and the content provider 500 are connected via a network 600.
  • Content CT1 refers to a work that mainly uses audio, regardless of whether it contains video (moving images or still images).
  • Information terminal 100 has the functions shown in Figure 2 for content creation.
  • the content production application 110 is a function for producing and editing the content CT1 in response to operations by the user 10.
  • the display 120 has a function of displaying images to the user 10 .
  • the character input unit 130 is an input function for the user 10 to input text data to the content CT1, for example.
  • the speaker 140 has a function of outputting audio to the user 10 .
  • the network communication unit 150 is a function for communicating with other devices via the network 600 .
  • This information terminal 100 is connected to a network 600 such as the Internet through a network communication unit 150, and can obtain synthetic voice data AD by transmitting text data TD to a voice synthesis server 200.
  • the text data TD to be transmitted is input by the user 10 during the production process by the content production application 110.
  • the user 10 uses the character input unit 130 to input the text data TD.
  • the voice synthesis server 200 has a role of converting the text data TD transmitted from the information terminal 100 into synthetic voice data AD. For this reason, the voice synthesis server 200 comprises a text-to-phoneme symbol conversion unit 210, a reference data acquisition unit 220, a speaker search unit 230, a retained speaker data unit 240, a voice synthesis unit 250, and a network communication unit 260, as shown in FIG.
  • This voice synthesis server 200 is connected to the network 600 via the network communication unit 260.
  • the voice synthesis server 200 receives text data TD transmitted from the information terminal 100.
  • the text-to-phoneme symbol conversion unit 210 in the speech synthesis server 200 is a function that converts the text data TD into phoneme data.
  • a phoneme is a symbol that represents each individual voice sound. With this function, the speech synthesis server 200 generates phoneme data according to the text data TD transmitted from the information terminal 100.
  • the speaker search unit 230 is a function that uses the speech features RDX in the TTS reference data RD transmitted from the database 400 to search for speaker data held by the speech synthesis server 200 that has a voice similar to the speech features RDX (similar speech features).
  • the retained speaker data section 240 is a function for storing speaker data searched by the speaker search section 230.
  • the speaker data includes a speaker ID for identifying individual speaker data, and voice quality data associated with the speaker ID.
  • the speech synthesis server 200 selects one of the multiple speaker data stored in the retained speaker data section 240 and proposes it to the user 10 .
  • the voice synthesis unit 250 has a function of generating synthetic voice data AD from text data TD.
  • the voice synthesis unit 250 generates synthetic voice data AD corresponding to the text data TD based on the speaker data selected by the speaker search unit 230 and the phoneme data obtained by the text-to-phoneme symbol conversion unit 210.
  • the text-to-phoneme converter 210 is also called a grapheme-to-phoneme converter (G2P).
  • the speech synthesizer 250 generally comprises components called a "synthesizer” and a "vocoder” (not shown).
  • the voice synthesis server 200 sends the generated synthetic voice data AD to the network 600 using the network communication unit 260.
  • the synthetic voice data AD is then passed through the network communication unit 150 of the information terminal 100 and is used by the content production application 110.
  • the content analysis server 300 shown in Fig. 1 analyzes the content CT2 provided by the content provider 500.
  • the content CT2 is a content that is generally distributed or broadcast, and is referred to as "reference content CT2" to distinguish it from the content CT1.
  • This reference content CT2 also refers to a work with recorded audio, with or without video.
  • the content analysis server 300 analyzes the reference content CT2 to generate TTS reference data RD, which is then used by the voice synthesis server 200 during voice synthesis.
  • the purpose is to provide a voice quality that is suitable for the text data TD input by the user 10, that is, a synthetic voice that is suitable for the content CT1.
  • the role of the content analysis server 300 is to prepare information about a voice that is suitable for reading the text data TD.
  • the content analysis server 300 has a content acquisition unit 310, a voice extraction unit 320, a voice recognition unit 330, a storage unit 340, a topic analysis unit 350, a voice feature acquisition unit 360, and a network communication unit 370.
  • the content analysis server 300 can communicate with the content provider 500, database 400, etc. via the network communication unit 370.
  • the content acquisition unit 310 has a function for acquiring reference content CT2 to be analyzed.
  • the content acquisition unit 310 transmits an acquisition request RQ to the content provider 500 via the network communication unit 370, and acquires various reference content CT2.
  • the reference content CT2 it is conceivable to download public domain internet radio. Alternatively, this can be achieved by individually requesting the content provider 500 to provide a content acquisition API (Application Programming Interface).
  • the audio extraction unit 320 extracts the audio of the reference content CT2 obtained from the content provider 500.
  • the reference content CT2 is a video
  • audio extraction is possible using existing software.
  • the voice recognition unit 330 converts the voice of the reference content CT2 extracted by the voice extraction unit 320 into text data, that is, an utterance TR.
  • the storage unit 340 stores the spoken sentence TR.
  • the topic analysis unit 350 determines the topic vector RDT for the text data transcribed by the speech recognition unit 330.
  • the topic vector RDT is information that expresses what topic the content (text data) is about. Therefore, it can be said to be information that serves as an index for topic classification.
  • a topic is a term that indicates the type of content of the text data, such as the subject matter or genre. For example, in the case of movies, a topic can be a topic about a specific movie, a topic about the movie industry as a whole, or a genre such as "action movies" or "comedy movies.” Topics can be a general term for topics or genres of topics.
  • the content analysis server 300 determines the following for the reference content CT2: Topic vector RDT ⁇ Speech feature RDX - Content URL (RDU) These pieces of information are compiled into one TTS reference data RD, which is then transmitted via the network 600 and stored in the database 400.
  • RDU Topic vector RDT ⁇ Speech feature RDX - Content URL
  • the database 400 receives a query from the speech synthesis server 200 and searches for speech features with a voice quality suitable for reading the text data TD. For the search, the TTS reference data RD analyzed by the content analysis server 300 is used.
  • the database 400 includes a storage unit 410, a topic analysis unit 420, a topic similarity analysis unit 430, and a network communication unit 440.
  • the database 400 is capable of communicating with the content analysis server 300, the voice synthesis server 200, and the like via a network communication unit 440.
  • the storage unit 410 stores TTS reference data RD for various reference contents CT2.
  • N pieces of TTS reference data RD are stored as TTS reference data RD-1 to TTS reference data RD-N.
  • One TTS reference data RD includes a topic vector RDT, speech features RDX, and a URL (RDU) of reference content CT2.
  • the TTS speaker suggestion system 1 operates to provide a user 10 who is creating content CT1 with a voice having a voice quality suited to the content CT1. For the narration and dialogue of the content CT1, it is necessary to adopt a voice that is appropriate for the content of the content CT1. If a variety of voice qualities are provided for the text of the content CT1, the user 10 will have more options, but the selection itself will be time-consuming. Furthermore, even if the user is able to select based on the high and low frequency of the voice, the gender and age of the speaker, and the image of the voice, the voice may not necessarily match the content of the content CT1.
  • the TTS speaker suggestion system 1 generates synthetic voice with a voice quality close to that of the narrator or actor appearing in the reference content CT2 provided by the content provider 500, thereby suggesting to the user 10 a TTS speaker suitable for the content of the content CT1 being produced.
  • the content analysis server 300 As a prerequisite process for suggesting TTS speakers to the user 10, the content analysis server 300 generates a topic model TM and TTS reference data RD and stores them in the database 400 in a process ST1.
  • the speech synthesis server 200 requires TTS reference data RD to generate synthetic speech data AD by a speaker suitable for the genre and topic of the content CT1. Therefore, the content analysis server 300 analyzes the reference content CT2 and prepares the TTS reference data RD in the database 400.
  • This process ST1 only needs to be performed sequentially and continuously for various reference contents CT2. In other words, it does not need to be synchronized with the process ST2 for suggesting speakers to the user 10 (information terminal 100).
  • the content analysis server 300 sends an acquisition request RQ to the content provider 500.
  • the content provider 500 sends reference content CT2 to the content analysis server 300.
  • the content analysis server 300 After acquiring the reference content CT2, the content analysis server 300 analyzes the acquired reference content CT2 and generates a topic model TM and TTS reference data RD. These are then transmitted to the database 400 for storage.
  • the content analysis server 300 monitors the distribution of the reference content CT2 provided by the content provider 500, and can perform the above process ST1 as appropriate to generate TTS reference data RD. By focusing on analyzing popular reference content CT2, it is expected that TTS reference data RD can be obtained to suggest to the user 10 a voice quality that will be accepted by a wider range of people.
  • Process ST2 is executed in response to the user 10 transmitting text data TD from the information terminal 100.
  • the information terminal 100 transmits text data TD to the voice synthesis server 200.
  • the text data TD is, for example, data of sentences such as narration or dialogue of the content CT1 that the user 10 is creating.
  • the voice synthesis server 200 sends the received text data TD to the database 400.
  • the database 400 performs "topic analysis” and "speech feature search” on the received text data TD, and selects one or more TTS reference data RD suitable for the text data TD. The database 400 then transmits the TTS reference data RD obtained by these processes to the speech synthesis server 200.
  • the speech synthesis server 200 uses the speech features RDX in the TTS reference data RD received from the database 400 to compare it with the speech features of the retained speakers stored in the retained speaker data section 240 in the speech synthesis server 200, and selects the speaker data with the most similar voice quality.
  • the voice synthesis server 200 performs voice synthesis processing of the text data TD using the voice synthesis model of the speaker data, and generates synthetic voice data AD.
  • the voice synthesis server 200 transmits the synthetic voice data AD to the information terminal 100.
  • the user 10 uses the content production application 110 to incorporate the received synthetic voice data AD into the content CT1 being produced.
  • the TTS speaker suggestion system 1 suggests to the user 10 synthetic voice data AD with a voice quality suitable for the narration, lines, etc. of the content CT1.
  • Fig. 7 shows information (defined as a topic model) generated based on some reference contents CT2.
  • Topic #1 has a high probability of occurrence of words related to "movies.” It can be seen that words related to "smartphones" appear in topic #2. In this example, the words with the highest occurrence probability are displayed in groups of 10 in order of occurrence probability.
  • This topic model is used to find out which topic an utterance belongs to.
  • Sentence sequence of words ['last week', 'last week', 'was', 'movie', 'to', 'watched', 'came', 'made', 'made', 'made']
  • Noun word string ['last week', 'movie']
  • a topic vector is defined as a probability distribution of which topic a certain spoken text will be classified into.
  • Topic #1 0.8
  • Topic #2 0.2
  • Topic vector [0.8, 0.2] This means that the above utterance has a high probability of appearing in relation to topic #1, and the topic of the utterance can be determined to be in line with topic #1.
  • Such a topic model is generated by the content analysis server 300 and used in processing in the database 400 .
  • the voice quality of the speaker appearing in the reference content CT2 is compared with the voice quality of the speaker model stored in the speech synthesis server 200 using a feature called an "x-vector.”
  • An “x-vector” is also called “deep speaker embedding,” and is a type of “speaker identification technology” that uses deep learning technology.
  • an x-vector is a 512-dimensional vector.
  • Figure 8 shows the learning process of x-vector.
  • the voices of multiple speakers, including A, B, and C, are input to the neural network.
  • Max pooling is a process in which a fixed-size window is slid across the input data and the maximum value is selected within it, making it possible to reduce the input data.
  • the max-pooled features are subjected to speaker class determination in a classification unit, and speaker training is performed.
  • a part of the classification part obtained by this learning can be used as an x-vector.
  • the x-vector obtained when inputting the voice of person A can be thought of as a kind of voiceprint of person A.
  • This neural network can also be applied to speakers other than those used in the training. Therefore, by inputting the voices of the narrator and performers in the reference content CT2 into this neural network, the x-vectors of the speakers of each content can be obtained. Similarly, by inputting the voices of the speakers held by the voice synthesis server 200 into this neural network, the x-vectors of each speaker can be obtained. By comparing the x-vectors of two speakers, it is possible to determine whether their voices are similar. For example, the cosine similarity between vectors or matching using PLDA (Probabilistic Linear Discriminant Analysis) can be used to measure the similarity of voices.
  • PLDA Probabilistic Linear Discriminant Analysis
  • the processing of the content analysis server 300 has two model creation phases. First, there is a phase in which a topic model is created, followed by a phase in which it is determined which topic each piece of reference content CT2 corresponds to, and TTS reference data RD is created.
  • the content analysis server 300 collects a plurality of reference contents CT2 from the content provider 500, and creates a topic model from the spoken text in the reference contents CT2 by the LDA method. The purpose of this is to classify the reference contents CT2 provided by the content provider 500 into genres.
  • FIG. 9 is a flowchart of the processing performed by the processor as the content analysis server 300, in which the processing to be executed is indicated by a solid-line box, and for ease of understanding, data input or output to the processing is indicated by letters or symbols in parentheses.
  • the storage unit 340 and database 400 where the data is stored are also shown. Step numbers are assigned to the processing performed by the processor as the content analysis server 300.
  • This flowchart description format is also used in the later-described FIGS. 10, 11, 12, 14, 15, and 16 in the same manner.
  • the content analysis server 300 acquires the reference content CT 2 from the content provider 500 by the content acquisition unit 310 .
  • the audio extraction unit 320 performs an extraction process of audio data on the acquired reference content CT2.
  • step S102 the extracted voice data is subjected to voice recognition processing by the voice recognition unit 330 and converted into a spoken sentence TR, which is text data.
  • the spoken sentence TR is stored in the storage unit 340 in step S103.
  • steps S101, S102, and S103 enclosed by dashed lines are repeatedly performed for a plurality of pieces of reference content CT2. Then, the processes of steps S101, S102, and S103 are performed on a predetermined number (M pieces) of reference content CT2, and when the number of utterance sentences TR stored in the storage unit 340 reaches M pieces, topic analysis is performed by the topic analysis unit 350 using the stored M pieces of utterance sentences TR in step S110. As a result, a topic model TM is obtained.
  • the generated topic model TM is sent to the database 400 via the network communication unit 370 in step S111.
  • TTS reference data RD creation phase The purpose of this phase is to create TTS reference data RD that indicates what topic vector a particular piece of reference content CT2 has, what characteristics the voice used in the reference content CT2 has, and in which URL (Uniform Resource Locator) it exists.
  • URL Uniform Resource Locator
  • the audio extraction unit 320 extracts audio data from the reference content CT2 acquired by the content acquisition unit 310 in step S121.
  • step S123 the extracted voice data is subjected to voice recognition processing by the voice recognition unit 330, and an utterance sentence TR is obtained.
  • the utterance sentence TR is topic-analyzed by the topic analysis unit 350 in step S124. This results in a topic vector RDT.
  • the topic vector RDT is a vector representing the probability that the utterance sentence TR belongs to a particular topic.
  • the topic model TM obtained in the topic model creation phase of FIG. 9 is used.
  • the voice data extracted in step S121 is also used in step S125, and the voice feature acquisition unit 360 determines the voice feature RDX.
  • step S126 the content analysis server 300 combines the topic vector RDT obtained as described above, the speech feature RDX, and the URL (RDU) of the reference content CT2 into one TTS reference data RD, and transmits the combined data to the database 400.
  • the TTS reference data RD is additionally stored in the database 400.
  • the utterance sentence TR is extracted again from the reference content CT2 in step S123, but the utterance sentence TR generated in step S102 of the topic model creation phase in FIG. 9 may be cached and used.
  • the user 10 inputs the text data TD to be converted into synthetic speech using a content production application 110 used in the information terminal 100.
  • the text data TD is so-called natural text, and does not need to be special text prepared for the TTS speaker suggestion system 1. Therefore, the user 10 does not need to learn a special writing method in order to use the TTS speaker suggestion system 1.
  • the voice synthesis server 200 performs the process of FIG. 11 upon receiving the text data TD.
  • step S201 the voice synthesis server 200 receives the text data TD, and the text-to-phoneme symbol converter 210 converts the natural text into phoneme data for voice synthesis.
  • the voice synthesis server 200 performs a process of acquiring the TTS reference data RD by the reference data acquisition unit 220. Specifically, the voice synthesis server 200 transmits the text data TD to the database 400 and requests a search for the TTS reference data RD. In response to this, the database 400 receives the text data TD as an input, selects the TTS reference data RD whose topic vector RDT is closest to the topic vector of the text data TD from among the TTS reference data RD stored in the database 400, and transmits the selected TTS reference data RD to the voice synthesis server 200. The process of the database 400 will be described later. The speech synthesis server 200 receives the TTS reference data RD thus selected in the database 400, that is, the corresponding reference data for the text data TD.
  • the speech synthesis server 200 receives the TTS reference data RD as the relevant reference data from the database 400, and in step S203, the speaker search unit 230 searches for a speaker.
  • the speech synthesis server 200 uses the speech feature amount RDX contained in the TTS reference data RD to calculate speakers with similar voice qualities from among the speaker models held in the held speaker data unit 240 . Specifically, it is possible to obtain speakers with similar voice qualities by calculating the cosine similarity between the speech feature RDX sent from the database 400 and the speech feature of a speaker model held by the server 200. This process makes it possible to derive the speaker ID of the speaker data that is most suitable for the topic among the speaker models held by the speech synthesis server 200.
  • the voice synthesis server 200 inputs the phoneme data obtained in step S201 and the speaker ID obtained in step S203 to the voice synthesis unit 250, thereby obtaining synthetic voice data AD. Then, in step S205, the voice synthesis server 200 transmits the synthetic voice data AD, the speaker ID, and the reference URL to the information terminal 100 via the network communication unit 260.
  • the reference URL is the URL (RDU) of the reference content CT2 included in the TTS reference data RD acquired in step S202.
  • the topic analysis unit 420 When the database 400 receives the text data TD from the speech synthesis server 200, the topic analysis unit 420 performs topic analysis in step S211 of FIG. In this topic analysis, a topic analysis of the text data TD is performed using a topic model TM stored in the storage unit 410, and a topic vector TV is generated.
  • step S212 the database 400 performs a topic search using the topic similarity analysis unit 430.
  • This is a process of searching for a topic vector RDT that is similar to the topic vector TV. Specifically, this process searches for TTS reference data RD (RD-1...RD-N) generated from various reference contents CT2 stored in the storage unit 410, whose topic vector RDT is similar to the topic vector TV of the text data TD.
  • TTS reference data RD RD-1...RD-N
  • Similar topic vectors correspond to content that is in the same genre or has a similar topic.
  • searching for TTS reference data RD with similar topic vectors can be said to be searching for TTS reference data RD generated based on the content CT1 produced by the user 10 and reference content CT2 that is of a similar genre or topic.
  • Cosine similarity can be used to search for a topic vector RDT similar to the topic vector TV.
  • the TTS reference data RD having the topic vector RDT with the highest similarity to the topic vector TV is selected as the optimal topic.
  • the database 400 transmits the TTS reference data RD obtained as the optimal topic to the speech synthesis server 200 as the corresponding reference data for the current text data TD.
  • TTS reference data RD may be transmitted to the speech synthesis server 200 .
  • the data that the information terminal 100 receives from the voice synthesis server 200 is the synthetic voice data AD and the URL of the reference content CT2.
  • the URL of the reference content CT2 is provided to show the user 10 information about what content's speaker's voice was used as reference for generating the synthetic speech.
  • FIG. 13 shows an example of a display on the display 120 of the information terminal 100.
  • a text box 31, a speaker ID 32, a synthesis start button 33, a play button 34, and a reference URL 35 are displayed on the display 120.
  • the text box 31 is a box for inputting text data TD.
  • the speaker ID 32 is the speaker ID selected by the speech synthesis server 200 in step S203 of FIG.
  • the synthesis start button 33 is an operator for instructing the start of voice synthesis processing.
  • the playback button 34 is an operator for playing back the synthesized voice.
  • the reference URL 35 is the URL of the reference content CT2 that refers to the voice, and is displayed, for example, in the form of a link to the reference content CT2.
  • the user 10 can operate the playback button 34 to listen to the voice of the speaker with the speaker ID 32 suggested by the speech synthesis server 200 . Furthermore, by operating the reference URL 35, the reference content CT2 that the voice synthesis server 200 referred to when selecting the speaker ID 32 can be reproduced, and the voice of the narration or the like can be heard. Therefore, the user 10 can not only hear the text being read by the speaker ID proposed by the voice synthesis server 200, but also hear the voice in the reference content CT2 that is similar in genre, etc. to the content CT1 being produced in order to select the speaker ID.
  • each reference content CT2 will feature only one speaker. However, in actual reference content CT2, multiple speakers usually appear. For example, in television programs, different announcers are often in charge of different genres, such as field reports, weather forecasts, traffic information, and sports information.
  • x-vectors which are features that represent voices, as audio features.
  • x-vectors it is possible to detect when the speaker changes within the reference content CT2. This is a technique called “speaker diarization,” and by using this technique, it is possible for this technology to be able to handle cases where there are multiple speakers in a single piece of content.
  • step S131 the content analysis server 300 performs audio extraction on the reference content CT2 using the audio extraction unit 320, and acquires audio data.
  • step S132 the speech feature acquisition unit 360 extracts speech features RDX every unit time, for example, every 30 seconds.
  • step S133 feature change detection processing is performed on the speech features RDX for each unit time, and changes equal to or greater than a threshold value are monitored.
  • Cosine similarity can be used to detect feature changes. If there is a change equal to or greater than a threshold, this means that the speaker has changed, so a timestamp is recorded and stored in the timestamp database 341.
  • the time stamp database 341 is prepared by using, for example, a portion of the area of the storage unit 340 .
  • the content analysis server 300 monitors changes in the audio feature value RDX of the reference content CT2 and stores the points of change. This makes it possible to handle reference content CT2 featuring multiple speakers with a configuration equivalent to that of the system described in the TTS reference data creation phase of FIG.
  • FIG. 15 shows the process of the TTS reference data creation phase similar to that shown in FIG. 10. Note that the same processes as those in FIG. 10 are given the same step numbers and will not be described.
  • step S121A the time stamp database 341 is used to extract audio from the reference content CT2 for each section determined by the time stamp. Thereafter, the extracted voice data is subjected to the same process as in FIG. 10 to generate TTS reference data RD.
  • the TTS reference data RD searched by the topic similarity analysis unit 430 in step S212 is only the one with the most similar topic vector.
  • the topic similarity analysis unit 430 selects a number of TTS reference data RDs to be searched in descending order of cosine similarity. In the figure, ten pieces of TTS reference data RDs (RD#1 to RD#10) are selected.
  • the TTS reference data RD#1 with the most similar topic vector RDT is designated as the "optimal speaker” data, and the data in descending order of similarity are designated as reference data #2, ..., #10.
  • the speech synthesis server 200 obtains TTS reference data RD based on text data TD transmitted from the information terminal 100.
  • the TTS reference data RD includes speech features RDX, which are x-vectors. Since this speech feature RDX is a vector, it is possible to calculate the similarity of voice quality by calculating the cosine similarity with other speech features.
  • the cosine similarity between two vectors a and b can be expressed as (Equation 1) and ranges from “-1" to "1".
  • the angle is 0 degrees and the vectors are in the same direction. In other words, the voice qualities are completely similar.
  • the angle between the two vectors is 90 degrees, meaning that the vectors are orthogonal to each other. In other words, it is irrelevant whether the voice qualities are similar or not.
  • the cosine similarity is "-1"
  • the angle is 180 degrees and the vector is in the opposite direction. This is a relationship of completely dissimilar voice qualities.
  • the database 400 uses multiple (e.g., 10) TTS reference data RD (RD#1 to RD#10) to perform the similarity evaluation process of step S220.
  • TTS reference data RD having speech features RDX whose cosine similarity with the reference features is close to "0" is information on a speaker whose features are not dissimilar to the optimal speaker.
  • Such TTS reference data RD#x is called an "orthogonal speaker.”
  • TTS reference data RD having speech features RDX whose cosine similarity with the reference features is close to "-1" is information on a speaker whose features are not similar to those of the optimal speaker.
  • Such TTS reference data RD#y is called the "reverse speaker.”
  • the optimal speaker's TTS reference data RD#1, the orthogonal speaker's TTS reference data RD#x, and the opposite speaker's TTS reference data RD#y are combined into one data group and sent to the speech synthesis server 200.
  • Equation 2 is a matrix of the cosine similarity between the reference feature (the speech feature RDX of the optimal speaker) and the speech feature RDX of other TTS reference data RD.
  • n is the number of TTS reference data RD to be evaluated for similarity.
  • the variance is close to zero, the voice qualities of the speakers of the topic are roughly similar. In that case, it is easier to obtain the desired number of speakers by increasing the number of reference data for evaluating the similarity of the topic vectors, rather than the top 10. For example, the top 20.
  • the variance is sufficiently large, the number of TTS reference data RD to be evaluated does not need to be very large. This is expressed in the formula (4), where variance is used as the denominator. y is the number of TTS reference data RD to be evaluated.
  • Figure 17 is a graph of (Equation 4). It can be seen that the number of reference data to be evaluated changes depending on the variance value (V). When the variance is close to zero, 30 TTS reference data RD are used to examine the variation in voice quality. On the other hand, when the variance is large, a wide variety of voice qualities can be obtained from within 10 TTS reference data RD.
  • the display 120 of the information terminal 100 will display, for example, the image shown in FIG. 18.
  • “Soccer” is shown as an example of a topic.
  • a text box 31 a speaker ID 32, a synthesis start button 33, a play button 34, and a reference URL 35 are displayed on the display 120.
  • the play button 34, the speaker ID 32, and the reference URL 35 are shown as a synthetic speech list 36. In other words, a list of multiple speakers who are candidates for use in the content CT1 is displayed.
  • the speakers are displayed in the synthetic speech list 36 in descending order of cosine similarity of the topic vectors. As described above, each of these speakers has a different voice quality, including an optimal speaker, an orthogonal speaker, and an opposite speaker.
  • the topic is "soccer" which matches the topic of the text information entered in the text box 31, and when a speaker ID is selected, a link to reference content CT2 featuring speakers with a variety of voice qualities is displayed as a reference URL 35.
  • the user 10 can play back the voice of each speaker by pressing the play button 34.
  • the user 10 can also check the voice of the reference content CT2 that was referenced to select that speaker ID by operating the reference URL 35.
  • a topic analysis can be performed on each subject, thereby obtaining a voice that is characteristic of each teacher.
  • the voices of teachers of Japanese and social studies may be similar, and the user 10 may want to change the speaker for each subject to avoid monotony.
  • a topic search is performed using the Japanese language and social studies topic vector TV, and orthogonal speakers and reverse speakers are selected from the reference data with the highest cosine similarity, thereby avoiding duplication of similar voices.
  • the information processing device 70 can be configured as, for example, a dedicated workstation, a general-purpose personal computer, a mobile terminal device, or the like.
  • ROM 72 or a non-volatile memory unit 74 such as an EEPROM (Electrically Erasable Programmable Read-Only Memory), or programs loaded from a storage unit 79 to a RAM 73.
  • the RAM 73 also stores data necessary for the CPU 71 to execute various processes, as appropriate.
  • the functions of carrying out various controls and calculations shown in FIGS. 2, 3, 4 and 5 are realized by programs.
  • processors other than the CPU 71 may include a GPU (Graphics Processing Unit), a GPGPU (General-purpose computing on graphics processing units), an AI (artificial intelligence) processor, etc.
  • GPU Graphics Processing Unit
  • GPGPU General-purpose computing on graphics processing units
  • AI artificial intelligence
  • the CPU 71, ROM 72, RAM 73, and non-volatile memory unit 74 are interconnected via a bus 83.
  • the input/output interface 75 is also connected to this bus 83.
  • An input unit 76 including an operator or an operating device is connected to the input/output interface 75.
  • the input unit 76 may be various operators or operating devices such as a keyboard, a mouse, a key, a dial, a touch panel, a touch pad, or a remote controller.
  • An operation by the user 10 is detected by the input unit 76 , and a signal corresponding to the input operation is interpreted by the CPU 71 .
  • the input/output interface 75 is also connected, either integrally or separately, to a display unit 77 such as an LCD (Liquid Crystal Display) or an organic EL (Electro-Luminescence) panel, and an audio output unit 78 such as a speaker.
  • a display unit 77 such as an LCD (Liquid Crystal Display) or an organic EL (Electro-Luminescence) panel
  • an audio output unit 78 such as a speaker.
  • the display unit 77 performs various displays as a user interface.
  • the display unit 77 is, for example, a display device provided in the housing of the information processing device 70, or a separate display device connected to the information processing device 70.
  • the display unit 77 executes various image displays on the display screen based on instructions from the CPU 71.
  • the display unit 77 also displays various operation menus, icons, messages, etc., that is, GUIs (Graphical User Interfaces), based on instructions from the CPU 71.
  • the input/output interface 75 may be connected to a storage unit 79 configured with a solid state drive (SSD) or a hard disk drive (HDD) or a communication unit 80 configured with a modem or the like.
  • the storage unit 79 can be used to store various data, and a database can be constructed in the storage unit 79.
  • the retained speaker data unit 240 of the speech synthesis server 200 , the storage unit 340 of the content analysis server 300 , the storage unit 410 of the database 400 , etc. can be configured using the storage unit 79 .
  • the communication unit 80 performs communication processing via the network 600 .
  • the network communication unit 150 of the information terminal 100 the network communication unit 260 of the voice synthesis server 200 , the network communication unit 370 of the content analysis server 300 , and the network communication unit 440 of the database 400 can be configured using the communication unit 80 .
  • a drive 82 is also connected to the input/output interface 75 as required, and a removable recording medium 81 such as a flash memory, a memory card, a magnetic disk, an optical disk, or a magneto-optical disk is appropriately attached thereto.
  • the drive 82 allows data files such as image files and various computer programs to be read from the removable recording medium 81.
  • the read data files are stored in the storage unit 79, and images and sounds contained in the data files are output on the display unit 77 and the sound output unit 78.
  • the computer programs and the like read from the removable recording medium 81 are installed in the storage unit 79 as necessary.
  • software can be installed via network communication by the communication unit 80 or via a removable recording medium 81.
  • the software may be pre-stored in the ROM 72, the storage unit 79, etc.
  • the information terminal 100, the voice synthesis server 200, the content analysis server 300, and the database 400 can be configured by using such an information processing device 70.
  • the configuration of the information terminal 100 in Fig. 2, the configuration of the voice synthesis server 200 in Fig. 3, the configuration of the content analysis server 300 in Fig. 4, and the configuration of the database 400 in Fig. 5 can be realized by the hardware configuration of the information processing device 70 in Fig. 19 and software installed therein.
  • the speech synthesis server 200 of the embodiment includes a speaker search unit 230 that selects speaker data from among a plurality of speaker data by performing a search based on the topic of the text data TD, and a speech synthesis unit 250 that generates synthetic speech of the text data TD using the speaker data selected by the speaker search unit 230 (see FIG. 3). That is, speaker data with a voice quality corresponding to the topic (topic or genre) of the content of the text data TD is selected, and the reading voice of the text data TD is synthesized using the speaker data. This makes it possible to provide the user 10 with synthetic voice data AD using speaker data with a voice quality that matches the topic of the text data TD of the content CT1, rather than providing synthetic voice data AD with various voice qualities for the text data TD indiscriminately.
  • the speaker search unit 230 acquires TTS reference data RD selected based on the topic of the text data TD, and selects speaker data from among multiple speaker data based on the similarity between the voice features indicated in the TTS reference data RD and the voice features of the speaker data (see FIG. 11).
  • TTS reference data RD By acquiring the TTS reference data RD, it is possible to obtain information on speech features RDX that are generally considered to match the topic of the text data TD. Therefore, the speech synthesis server 200 can select speaker data appropriate for the topic of the text data TD to be processed from the speaker data held in the held speaker data section 240.
  • the voice synthesis server 200 of the embodiment transmits text data TD to an external database 400 and receives TTS reference data RD from the database 400 via the reference data acquisition unit 220 (see FIGS. 6 and 11). By acquiring the TTS reference data RD from the database 400, the speech synthesis server 200 does not need to store a large number of TTS reference data RD.
  • the speech synthesis server 200 can select appropriate speaker data from among the speaker data held by the server 200 based on the speech feature value RDX of the TTS reference data RD corresponding to the text data TD to be processed. In other words, the speech synthesis server 200 can select appropriate speaker data from among the speaker data stored therein without performing processes such as storing, adding, and managing the TTS reference data RD.
  • the TTS reference data RD includes a topic vector RDT that serves as an index for classifying the topics of the reference content CT2 (an index for determining similarity/dissimilarity) (see FIG. 5).
  • This allows the database 400 to compare the topic vector RDT of the TTS reference data RD with the topic vector TV of the text data TD to be processed received from the speech synthesis server 200, and select the TTS reference data RD according to the topic of the text data TD. Therefore, it is possible to select the TTS reference data RD that is suitable for the topic of the text data TD to be processed.
  • the TTS reference data RD includes speech features obtained by extracting features from the speech data of the reference content CT2 (see FIG. 5).
  • the speech synthesis server 200 can select speaker data with a voice quality similar to the speech feature RDX, which becomes speaker data with a voice quality that matches the topic of the text data TD.
  • the TTS reference data RD also includes information indicating the reference content CT2 used to create the TTS reference data RD (see FIG. 5).
  • the information indicating the reference content CT2 includes the URL (RDU) of the content. This enables a user interface that allows the user 10 to view the reference content CT2, as shown in Figures 13 and 18.
  • the user 10 can use the information about the reference content CT2 on which the synthesized voice by the voice synthesis server 200 is selected as a reference for content production.
  • the voice synthesis server 200 of the embodiment is equipped with a network communication unit 260 that performs processing to transmit information on the speaker data selected by the speaker search unit 230 and the synthetic voice generated by the voice synthesis unit 250 to the information terminal 100 that is the source of the text data (see Figure 3). 11, the voice synthesis server 200 transmits the speaker ID and the synthetic voice data AD to the information terminal 100 via the network communication unit 260.
  • This makes it possible to provide a service in which synthetic voice suited to the content CT1 is suggested to the user 10 on a display screen such as that shown in FIG.
  • the network communication unit 260 performs a process of transmitting information about the reference content CT2 contained in the TTS reference data RD to the information terminal 100 that is the source of the text data TD (see FIG. 11). This allows the reference URL 35 to be displayed on a display screen such as that shown in FIG. 13 or FIG. 18, providing a path for the user 10 to view the reference content CT2.
  • the speaker search unit 230 of the speech synthesis server 200 selects speaker data for each of multiple TTS reference data RD selected based on the topic of the text data TD, based on the similarity between the speech features indicated in the TTS reference data RD and the speech features of the speaker data to be stored.
  • the speech synthesis server 200 can obtain a plurality of pieces of information on speech features RDX that match the topic of the text data TD by acquiring a plurality of TTS reference data RD (for example, TTS reference data RD#1, RD#x, RD#y in FIG. 16).
  • the speech synthesis server 200 can select speaker data based on each of the TTS reference data RD#1, RD#x, RD#y from the speaker data held in the held speaker data section 240, thereby selecting a plurality of speaker data that match the topic of the content CT1 and proposing the voice quality of each to the user 10.
  • the network communication unit 260 transmits information on speaker data selected based on a plurality of TTS reference data RD as information displayed in a list on the information terminal 100 .
  • speaker IDs 32 and the like may be displayed as a list in the synthetic speech list 36 of Fig. 18. This allows the user 10 to preview a number of voice qualities that are selected as candidates based on whether they match the topic of the content CT1.
  • Such a plurality of TTS reference data RD are reference data further selected from the plurality of TTS reference data RD selected in descending order of similarity to the topic of the text data TD.
  • the topic of the original reference content CT2 includes a first reference data having the highest similarity to the topic of the text data TD and one or more second reference data selected based on the similarity evaluation of the first reference data.
  • multiple TTS reference data RD (RD#1 to RD#10) are selected as shown in Fig. 16.
  • the first reference data (TTS reference data RD#1) that is determined to have the highest similarity and one or more second reference data (TTS reference data RD#x, RD#y) are selected. This makes it possible to select TTS reference data RD with various voice qualities that match the topic by using a similarity evaluation method.
  • the second reference data is reference data whose similarity is evaluated as being orthogonal or opposite in cosine similarity with respect to the speech feature of the first reference data.
  • the plurality of TTS reference data RD#1, RD#x, RD#y have speech features RDX with voice qualities that are dissimilar to each other, and the speech synthesis server 200 can provide the user 10 with speaker data with variations of different voice qualities based on these.
  • the number of the multiple reference data selected in descending order of similarity to the topic of the text data TD is set according to the variance of the speech features (see, for example, FIGS. 16 and 17). In this way, if the multiple TTS reference data RD initially selected in descending order of similarity have roughly similar voice qualities, the number is increased to increase the variance, so that the TTS reference data RD#x, RD#y selected based on the similarity evaluation do not have a voice quality similar to that of the TTS reference data RD#1. In other words, by controlling the parameter for selecting TTS reference data RD according to the variance, a wide variety of voice qualities can be maintained in the end proposed to the user 10.
  • the TTS speaker suggestion system 1 of the embodiment includes a content analysis device (content analysis server 300) that analyzes reference content CT2 to generate TTS reference data RD including information on topics and information on speech features.
  • the TTS speaker suggestion system 1 also includes a database 400 that stores the TTS reference data RD generated by the content analysis server 300 and selects the TTS reference data RD based on the topic of text data TD.
  • the system further includes a speech synthesis device, a speech synthesis server 200 that includes a speaker search unit 230 and a speech synthesis unit 250 as described above.
  • the content analysis server 300 and the database 400 generate and accumulate TTS reference data RD based on various reference content CT2.
  • the voice synthesis server 200 can use such information resources to provide synthetic voice that matches the text data TD received from the information terminal 100.
  • the program of the embodiment is a program that causes, for example, a CPU, a DSP (digital signal processor), an AI processor, or an information processing device 70 including these to execute the process shown in FIG.
  • the program of the embodiment is a program that causes an information processing device to execute a speaker search process that selects speaker data from a plurality of speaker data by searching based on the topic of the text data TD, and a voice synthesis process that generates synthetic voice of the text data TD using the speaker data selected in the speaker search process.
  • an information processing device serving as the voice synthesis server 200 of the embodiment can be realized in, for example, a computer device, a mobile terminal device, or other device capable of performing information processing.
  • Such a program can be recorded in advance in a HDD serving as a recording medium built into a device such as a computer device, or in a ROM within a microcomputer having a CPU.
  • the program may be temporarily or permanently stored (recorded) on a removable recording medium such as a flexible disk, a CD-ROM (Compact Disc Read Only Memory), an MO (Magneto Optical) disk, a DVD (Digital Versatile Disc), a Blu-ray Disc (registered trademark), a magnetic disk, a semiconductor memory, a memory card, etc.
  • a removable recording medium may be provided as so-called package software.
  • such a program can be installed in a personal computer or the like from a removable recording medium, or can be downloaded from a download site via a network such as a LAN (Local Area Network) or the Internet.
  • LAN Local Area Network
  • Such a program is suitable for the widespread provision of information processing devices 70 that constitute the voice synthesis server 200 of the embodiment.
  • mobile terminal devices such as smartphones and tablets, imaging devices, mobile phones, personal computers, game devices, video devices, PDAs (Personal Digital Assistants), etc.
  • these devices can be made into information processing devices 70 that function as the voice synthesis server 200 of the present disclosure.
  • the present technology can also be configured as follows.
  • a speaker search unit that selects speaker data from among the plurality of speaker data by performing a search based on a topic of the text data; a voice synthesis unit that generates synthetic voice data of the text data using speaker data selected by the speaker search unit.
  • the speaker search unit acquires reference data selected based on a topic of the text data, and selects speaker data from among multiple speaker data based on a similarity between voice features indicated in the reference data and voice features of the speaker data.
  • the information processing device according to (2) above further comprising: transmitting the text data to an external database; and receiving the reference data from the database.
  • the reference data is The information processing device according to (2) or (3) above, including a topic vector that is an index for classifying topics of the reference content used to create the reference data.
  • the reference data is The information processing device according to any one of (2) to (4) above, including audio features obtained by extracting features of audio data of reference content used to create the reference data.
  • the reference data is The information processing device according to any one of (2) to (5) above, further comprising information indicating reference content used to create the reference data.
  • the speaker search unit acquires reference data selected based on a topic of the text data, and selects speaker data from among a plurality of speaker data based on a similarity between a voice feature indicated in the reference data and a voice feature of the speaker data;
  • the information processing device according to (7) above, wherein the communication unit performs a process of transmitting information regarding reference content used to create the reference data, which is included in the reference data, to an information terminal that is a source of the text data.
  • the speaker search unit selects speaker data for each of a plurality of reference data selected based on a topic of the text data, based on a similarity between voice characteristics indicated in the reference data and voice characteristics of the speaker data.
  • (10) a communication unit that performs processing to transmit information on the speaker data selected by the speaker search unit and the synthetic voice generated by the voice synthesis unit to an information terminal that is a source of the text data;
  • the information processing device according to (9) above, wherein information on the speaker data selected based on the plurality of reference data is transmitted as information displayed as a list on the information terminal.
  • the plurality of reference data includes a piece of reference data further selected from a plurality of pieces of reference data selected in descending order of similarity to a topic of the text data; a first reference data in which a topic of the original reference content has a highest similarity to a topic of the text data;
  • the information processing device according to (9) or (10) above, further comprising one or more second reference data selected based on a similarity evaluation with the first reference data.
  • the second reference data is reference data whose similarity is evaluated as being orthogonal or opposite in cosine similarity based on the speech feature of the first reference data.
  • the information processing device according to (11) or (12), wherein the number of the multiple reference data selected in order of similarity to the topic of the text data is set according to the variance of the speech features.
  • a speaker search process for selecting speaker data from among a plurality of speaker data by searching based on a topic of the text data; a speech synthesis process for generating synthetic speech of the text data using speaker data selected in the speaker search process;
  • the information processing method is executed by an information processing device.
  • a speaker search process for selecting speaker data from among a plurality of speaker data by searching based on a topic of the text data; a speech synthesis process for generating synthetic speech of the text data using speaker data selected in the speaker search process;
  • a program for causing an information processing device to execute the above.
  • a content analysis device for analyzing the reference content to generate reference data including information on topics and information on speech features; a database for storing the reference data generated by the content analysis device and for selecting reference data based on a topic of text data;
  • a voice synthesizer; Equipped with The speech synthesizer comprises: a speaker search unit that acquires reference data selected from the database based on a topic of text data, and selects speaker data from among a plurality of speaker data based on a similarity between a voice feature indicated by the reference data and a voice feature of the speaker data; a voice synthesis unit that generates synthetic voice data for the text data using speaker data selected by the speaker search unit.
  • TTS speaker suggestion system 70 Information processing device 71 CPU 100 Information terminal 200 Speech synthesis server 210 Text-phoneme symbol conversion unit 220 Reference data acquisition unit 230 Speaker search unit 240 Retained speaker data unit 250 Speech synthesis unit 260 Network communication unit 300 Content analysis server 400 Database 500 Content provider RDT Topic vector RDX Speech feature amount RDU Content URL TD Text data AD Synthetic speech data RD TTS reference data TM Topic model TV Topic vector XV Speech feature CT1 Content (created by user) CT2 Reference content (for analysis)

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

This information processing device is provided with: a speaker search unit that performs a search based on the topic of text data, to select speaker data from among a plurality of sets of speaker data; and a speech synthesizing unit which generates synthesized speech data relating to the text data on the basis of the speaker data selected by the speaker search unit.

Description

情報処理装置、情報処理方法、プログラム、情報処理システムInformation processing device, information processing method, program, and information processing system

 本技術は情報処理装置、情報処理方法、プログラム、情報処理システムに関し、例えばコンテンツのナレーションやセリフ等に用いる音声合成処理に関する。 This technology relates to information processing devices, information processing methods, programs, and information processing systems, and relates to voice synthesis processing used for, for example, narration and dialogue in content.

 近年、配信サービスにおいて、音声合成(TTS:Text To Speech)をナレーションに用いたコンテンツが増えている。利用される音声合成ソフトウェアや音声合成サービスには複数のTTS話者が提供されていて、利用者は自分のコンテンツに合う声質を選ぶことが可能とされている。
 下記特許文献1には、読み上げる文章内に使われる各単語について、男性文、女性文における出現度合いを集計して男性声か女性声を選択する技術が開示されている。
In recent years, the number of contents using text-to-speech (TTS) narration has been increasing in distribution services. The speech synthesis software and speech synthesis services used provide multiple TTS speakers, allowing users to select the voice quality that best suits their content.
The following Patent Document 1 discloses a technique for selecting a male or female voice by tallying up the frequency of occurrence of each word used in a sentence to be read aloud in male and female sentences.

特開平11-296193号公報Japanese Patent Application Publication No. 11-296193

 提供されるTTS話者の数が少ない場合には、利用者は、すべてのTTS話者のサンプル音声などを試聴することで、自分のコンテンツに合う声を選ぶことができるが、逆に選択肢が少ないということになる。一方で、提供するTTS話者を増やすと、利用者がすべての話者のサンプル音声を試聴することに時間が掛かるようになる。また、似たイメージの声質がある場合には、どの声が自分のコンテンツに合うのか迷うことも考えられる。 When the number of TTS speakers offered is small, users can listen to sample voices from all TTS speakers to choose a voice that suits their content, but this means that there are fewer options. On the other hand, if more TTS speakers are offered, it will take more time for users to listen to sample voices from all the speakers. Also, when there are voices with similar qualities, users may be unsure which voice suits their content.

 ユーザが声を選びやすくするために、TTS話者の声の周波数の高低で段階的に区別する方法、TTS話者の性別や年齢で区別する方法、TTS話者の声のイメージ(例えば「大人っぽい声」「元気な声」など)で区別する方法などがある。
 しかしながら、例えば話者を「中程度の声の周波数を持つ男性」で選んだとしても、コンテンツがドキュメント番組なのか、スポーツ番組なのかによって、所望される声質は異なると考えられる。
 また特許文献1の技術では、読み上げるテキストが「話し言葉」に限定される。そのため、コンテンツ内容に応じた声の提案をするにはまだ不十分である。
To make it easier for users to select a voice, there are methods for distinguishing between voices based on the high and low frequency of the TTS speaker's voice, methods for distinguishing between voices based on the gender or age of the TTS speaker, and methods for distinguishing between voices based on the image of the TTS speaker's voice (for example, "mature voice" or "energetic voice").
However, even if a speaker is selected as "a male with a medium voice frequency," the desired voice quality is likely to differ depending on whether the content is a documentary program or a sports program.
In addition, the technology of Patent Document 1 limits the text to be read aloud to "spoken language." Therefore, it is still insufficient to suggest a voice according to the content.

 そこで本技術は、選択可能な音声の中でコンテンツ内容に適した音声をより的確に利用者に提供できるようにする。 This technology makes it possible to more accurately provide users with the audio that is most suited to the content from among the available audio options.

 本技術に係る情報処理装置は、複数の話者データのうちで、テキストデータのトピックに基づいた検索を行って話者データを選択する話者検索部と、前記話者検索部で選択された話者データにより前記テキストデータの合成音声データを生成する音声合成部と、を備える。
 テキストデータの内容としてのトピック(話題やそのジャンル)に応じた声質の話者データが選択されるようにし、その話者データでテキストデータの読み上げ音声が合成されるようにする。
The information processing device according to the present technology includes a speaker search unit that performs a search based on a topic of text data to select speaker data from among a plurality of speaker data, and a voice synthesis unit that generates synthetic voice data of the text data using the speaker data selected by the speaker search unit.
Speaker data with a voice quality that corresponds to the topic (topic or genre) of the text data is selected, and the reading voice of the text data is synthesized using the speaker data.

本技術の実施の形態のシステム構成の説明図である。FIG. 1 is an explanatory diagram of a system configuration according to an embodiment of the present technology; 実施の形態の情報端末の機能構成の説明図である。FIG. 2 is an explanatory diagram of a functional configuration of an information terminal according to an embodiment. 実施の形態の音声合成サーバの機能構成の説明図である。FIG. 2 is an explanatory diagram of a functional configuration of a voice synthesis server according to an embodiment; 実施の形態のコンテンツ解析サーバの機能構成の説明図である。FIG. 2 is an explanatory diagram of a functional configuration of a content analysis server according to an embodiment. 実施の形態のデータベースの機能構成の説明図である。FIG. 2 is an explanatory diagram of a functional configuration of a database according to an embodiment. 実施の形態のTTS話者提案システムの処理の説明図である。FIG. 2 is an explanatory diagram of the processing of the TTS speaker suggestion system according to the embodiment; 実施の形態で用いるトピックの例の説明図である。FIG. 2 is an explanatory diagram of an example of a topic used in the embodiment. 実施の形態の声の特徴量の学習過程の説明図である。FIG. 4 is an explanatory diagram of a learning process of voice features according to an embodiment. 実施の形態のトピックモデル生成処理のフローチャートである。1 is a flowchart of a topic model generation process according to an embodiment. 実施の形態のTTS参照データ生成処理のフローチャートである。11 is a flowchart of a TTS reference data generation process according to an embodiment. 実施の形態の音声合成サーバの処理のフローチャートである。13 is a flowchart of a process of a voice synthesis server according to an embodiment. 実施の形態のデータベースの処理のフローチャートである。11 is a flowchart of database processing according to an embodiment. 実施の形態の情報端末での表示例の説明図である。FIG. 11 is an explanatory diagram of a display example on an information terminal according to an embodiment. 実施の形態の音声の特徴量変化に応じたタイムスタンプ設定のフローチャートである。11 is a flowchart of a process for setting a time stamp according to a change in a feature amount of a voice according to an embodiment. 実施の形態のタイムスタンプを参照したTTS参照データ生成処理のフローチャートである。11 is a flowchart of a TTS reference data generation process with reference to a time stamp according to an embodiment. 実施の形態のデータベースで複数のTTS参照データを選択する処理のフローチャートである。11 is a flowchart of a process for selecting multiple TTS reference data from a database according to an embodiment. 実施の形態の分散に応じた参照データ数の説明図である。FIG. 11 is an explanatory diagram of the number of reference data items according to distribution according to the embodiment. 実施の形態の情報端末での表示例の説明図である。FIG. 11 is an explanatory diagram of a display example on an information terminal according to an embodiment. 実施の形態の情報処理装置のブロック図である。FIG. 1 is a block diagram of an information processing apparatus according to an embodiment.

 以下、実施の形態を次の順序で説明する。
<1.システム構成>
<2.TTS話者提案システムの動作>
<3.コンテンツ解析サーバの処理>
<4.音声合成サーバの処理>
<5.データベースの処理>
<6.情報端末での表示>
<7.参照コンテンツに複数の話者がいる場合の対応>
<8.複数の話者候補の提案>
<9.情報処理装置の構成>
<10.まとめ及び変形例>
The embodiments will be described below in the following order.
1. System configuration
2. Operation of the TTS speaker suggestion system
<3. Processing of Content Analysis Server>
4. Processing of the voice synthesis server
5. Database Processing
<6. Display on information terminal>
7. How to handle cases where there are multiple speakers in the reference content
8. Proposing multiple speaker candidates
9. Configuration of information processing device
10. Summary and Modifications

<1.システム構成>
 図1に実施の形態のTTS話者提案システム1の構成例を示す。TTS話者提案システム1は、ユーザ10に対して、例えば情報端末100で制作しているコンテンツCT1のテキストに適切なTTS話者を提案するシステムである。
1. System configuration
1 shows an example of the configuration of a TTS speaker suggestion system 1 according to an embodiment. The TTS speaker suggestion system 1 is a system that suggests to a user 10 a TTS speaker appropriate for the text of a content CT1 being produced on an information terminal 100, for example.

 TTS話者提案システム1では、情報端末100、音声合成サーバ200、コンテンツ解析サーバ300、データベース400、コンテンツプロバイダ500の各装置がネットワーク600を介して接続されている。 In the TTS speaker suggestion system 1, the information terminal 100, the voice synthesis server 200, the content analysis server 300, the database 400, and the content provider 500 are connected via a network 600.

 ユーザ10はコンテンツCT1を制作するために、情報端末100の操作を行う。なお本開示において「コンテンツCT1」とは、主に音声を用いた作品ことで、映像(動画・静止画)の有無を問わない。情報端末100はコンテンツ制作のために図2に示す機能を備えている。 User 10 operates information terminal 100 to create content CT1. In this disclosure, "content CT1" refers to a work that mainly uses audio, regardless of whether it contains video (moving images or still images). Information terminal 100 has the functions shown in Figure 2 for content creation.

 コンテンツ制作アプリケーション110は、ユーザ10の操作に応じてコンテンツCT1の制作及び編集を行う機能である。
 ディスプレイ120はユーザ10に対して映像表示を行う機能である。
 文字入力部130はユーザ10が例えばコンテンツCT1に対してテキストデータ入力を行うための入力機能である。
 スピーカ140はユーザ10に対して音声出力を行う機能である。
 ネットワーク通信部150はネットワーク600を介して他の装置と通信を行う機能である。
The content production application 110 is a function for producing and editing the content CT1 in response to operations by the user 10.
The display 120 has a function of displaying images to the user 10 .
The character input unit 130 is an input function for the user 10 to input text data to the content CT1, for example.
The speaker 140 has a function of outputting audio to the user 10 .
The network communication unit 150 is a function for communicating with other devices via the network 600 .

 この情報端末100は、ネットワーク通信部150を通じてインターネット等のネットワーク600に接続されており、テキストデータTDを音声合成サーバ200に送信することで合成音声データADを得ることができる。
 送信するテキストデータTDはコンテンツ制作アプリケーション110による制作処理過程でユーザ10により入力される。例えばユーザ10は文字入力部130を用いてテキストデータTDを入力する。
This information terminal 100 is connected to a network 600 such as the Internet through a network communication unit 150, and can obtain synthetic voice data AD by transmitting text data TD to a voice synthesis server 200.
The text data TD to be transmitted is input by the user 10 during the production process by the content production application 110. For example, the user 10 uses the character input unit 130 to input the text data TD.

 音声合成サーバ200は、情報端末100から送信されてきたテキストデータTD を合成音声データADに変換する役割を持つ。
 このため音声合成サーバ200は、図3に示すように、テキスト-音素記号変換部210、参照データ取得部220、話者検索部230、保有話者データ部240、音声合成部250、ネットワーク通信部260を備える。
The voice synthesis server 200 has a role of converting the text data TD transmitted from the information terminal 100 into synthetic voice data AD.
For this reason, the voice synthesis server 200 comprises a text-to-phoneme symbol conversion unit 210, a reference data acquisition unit 220, a speaker search unit 230, a retained speaker data unit 240, a voice synthesis unit 250, and a network communication unit 260, as shown in FIG.

 この音声合成サーバ200は、ネットワーク通信部260を通じてネットワーク600に接続されている。音声合成サーバ200は、情報端末100から送信されてくるテキストデータTDを受信する。 This voice synthesis server 200 is connected to the network 600 via the network communication unit 260. The voice synthesis server 200 receives text data TD transmitted from the information terminal 100.

 音声合成サーバ200におけるテキスト-音素記号変換部210はテキストデータTDを音素データに変換する機能である。音素とは、声の音のひとつひとつを表す記号である。音声合成サーバ200は、この機能により、情報端末100から送信されてきたテキストデータTDに応じた音素データを生成する。 The text-to-phoneme symbol conversion unit 210 in the speech synthesis server 200 is a function that converts the text data TD into phoneme data. A phoneme is a symbol that represents each individual voice sound. With this function, the speech synthesis server 200 generates phoneme data according to the text data TD transmitted from the information terminal 100.

 参照データ取得部220は、データベース400からTTS参照データRDを取得する機能である。TTS参照データRDは、コンテンツCT1に合った合成音声データADを生成するために利用するデータである。参照データ取得部220は、情報端末100から送信されてきたテキストデータTDをデータベース400に送信し、コンテンツCT1に合ったTTS参照データRDをデータベース400に要求する。 The reference data acquisition unit 220 is a function that acquires TTS reference data RD from the database 400. The TTS reference data RD is data used to generate synthetic voice data AD that matches the content CT1. The reference data acquisition unit 220 transmits the text data TD sent from the information terminal 100 to the database 400, and requests the database 400 for TTS reference data RD that matches the content CT1.

 話者検索部230は、データベース400より送信されたTTS参照データRD内の音声特徴量RDXを用いて、音声合成サーバ200が保有する話者データのうち、音声特徴量RDXと似た声(似た音声特徴量)の話者データを検索する機能である。 The speaker search unit 230 is a function that uses the speech features RDX in the TTS reference data RD transmitted from the database 400 to search for speaker data held by the speech synthesis server 200 that has a voice similar to the speech features RDX (similar speech features).

 保有話者データ部240は、話者検索部230が検索する話者データを保存する機能である。話者データは、個々の話者データを識別する話者IDと、話者IDに対応づけられた声質のデータを含む。
 音声合成サーバ200は、この保有話者データ部240に保存された複数の話者データの内のいずれかを選択して、ユーザ10に対して提案することになる。
The retained speaker data section 240 is a function for storing speaker data searched by the speaker search section 230. The speaker data includes a speaker ID for identifying individual speaker data, and voice quality data associated with the speaker ID.
The speech synthesis server 200 selects one of the multiple speaker data stored in the retained speaker data section 240 and proposes it to the user 10 .

 音声合成部250は、テキストデータTDから合成音声データADを生成する機能である。音声合成部250は、話者検索部230によって選択された話者データと、テキスト-音素記号変換部210により得られた音素データに基づいて、テキストデータTDに対応する合成音声データADを生成する。
 なお、テキスト-音素記号変換部210は、書記素-音素変換(G2P)とも呼ばれる。音声合成部250は一般に、「合成器」および「ボコーダー」(図示しない)という部品から構成される。
The voice synthesis unit 250 has a function of generating synthetic voice data AD from text data TD. The voice synthesis unit 250 generates synthetic voice data AD corresponding to the text data TD based on the speaker data selected by the speaker search unit 230 and the phoneme data obtained by the text-to-phoneme symbol conversion unit 210.
The text-to-phoneme converter 210 is also called a grapheme-to-phoneme converter (G2P). The speech synthesizer 250 generally comprises components called a "synthesizer" and a "vocoder" (not shown).

 音声合成サーバ200は、生成した合成音声データADを、ネットワーク通信部260を用いてネットワーク600に送出する。合成音声データADはその後、情報端末100のネットワーク通信部150を経て、コンテンツ制作アプリケーション110にて利用されることになる。 The voice synthesis server 200 sends the generated synthetic voice data AD to the network 600 using the network communication unit 260. The synthetic voice data AD is then passed through the network communication unit 150 of the information terminal 100 and is used by the content production application 110.

 図1に示したコンテンツ解析サーバ300は、コンテンツプロバイダ500が提供するコンテンツCT2の解析を行う。コンテンツCT2は、一般に配信、放送されているコンテンツであり、コンテンツCT1との区別のため「参照コンテンツCT2」と表記する。この参照コンテンツCT2も音声が記録された作品を指し、映像の有無は問わない。
 コンテンツ解析サーバ300による参照コンテンツCT2の解析によりTTS参照データRDが生成され、音声合成サーバ200が音声合成時にTTS参照データRDを利用することになる。
The content analysis server 300 shown in Fig. 1 analyzes the content CT2 provided by the content provider 500. The content CT2 is a content that is generally distributed or broadcast, and is referred to as "reference content CT2" to distinguish it from the content CT1. This reference content CT2 also refers to a work with recorded audio, with or without video.
The content analysis server 300 analyzes the reference content CT2 to generate TTS reference data RD, which is then used by the voice synthesis server 200 during voice synthesis.

 本実施の形態では、ユーザ10が入力したテキストデータTDにふさわしい声質、つまり、コンテンツCT1の内容にふさわしい合成音声の提供を目的としている。その実現のため、テキストデータTDを読み上げる声質として適した声に関する情報を準備するのがコンテンツ解析サーバ300の役割である。 In this embodiment, the purpose is to provide a voice quality that is suitable for the text data TD input by the user 10, that is, a synthetic voice that is suitable for the content CT1. To achieve this, the role of the content analysis server 300 is to prepare information about a voice that is suitable for reading the text data TD.

 コンテンツ解析サーバ300は図4に示すように、コンテンツ取得部310、音声抽出部320、音声認識部330、ストレージ部340、トピック分析部350、音声特徴量取得部360、ネットワーク通信部370を有する。 As shown in FIG. 4, the content analysis server 300 has a content acquisition unit 310, a voice extraction unit 320, a voice recognition unit 330, a storage unit 340, a topic analysis unit 350, a voice feature acquisition unit 360, and a network communication unit 370.

 コンテンツ解析サーバ300は、ネットワーク通信部370を介して、コンテンツプロバイダ500やデータベース400等と通信可能とされる。 The content analysis server 300 can communicate with the content provider 500, database 400, etc. via the network communication unit 370.

 コンテンツ取得部310は解析対象の参照コンテンツCT2を取得する機能である。コンテンツ取得部310はネットワーク通信部370を介して、コンテンツプロバイダ500に取得リクエストRQを送信し、様々な参照コンテンツCT2を取得する。参照コンテンツCT2としては例えば、パブリックドメインのインターネットラジオをダウンロードすることが考えられる。あるいは、個別にコンテンツ取得API(Application Programming Interface)の提供をコンテンツプロバイダ500に依頼することでも実現できる。 The content acquisition unit 310 has a function for acquiring reference content CT2 to be analyzed. The content acquisition unit 310 transmits an acquisition request RQ to the content provider 500 via the network communication unit 370, and acquires various reference content CT2. As an example of the reference content CT2, it is conceivable to download public domain internet radio. Alternatively, this can be achieved by individually requesting the content provider 500 to provide a content acquisition API (Application Programming Interface).

 音声抽出部320は、コンテンツプロバイダ500から取得した参照コンテンツCT2の音声を抽出する。参照コンテンツCT2が動画の場合の音声の抽出は、既存のソフトウェアを使うことで可能である。 The audio extraction unit 320 extracts the audio of the reference content CT2 obtained from the content provider 500. When the reference content CT2 is a video, audio extraction is possible using existing software.

 音声認識部330は音声抽出部320が抽出した参照コンテンツCT2の音声をテキストデータ、即ち発話文TRに変換する。
 ストレージ部340は発話文TRを記憶する。
The voice recognition unit 330 converts the voice of the reference content CT2 extracted by the voice extraction unit 320 into text data, that is, an utterance TR.
The storage unit 340 stores the spoken sentence TR.

 トピック分析部350は、音声認識部330により文字起こしされたテキストデータについてトピックベクトルRDTの判別を行う。トピックベクトルRDTとは、コンテンツ(テキストデータ)が、どのようなトピックのコンテンツなのかを表現する情報である。従ってトピックの分類の指標となる情報といえる。
 なお、トピックとは、そのテキストデータの話題やジャンルなど、内容がどのようなものかを示す用語とする。例えば、映画を例に挙げて言えば、特定の映画の話題、映画界全体の話題、ジャンルとしての「アクション映画」「コメディ映画」等など、話題や話題のジャンル等を総括してトピックと呼ぶ。
The topic analysis unit 350 determines the topic vector RDT for the text data transcribed by the speech recognition unit 330. The topic vector RDT is information that expresses what topic the content (text data) is about. Therefore, it can be said to be information that serves as an index for topic classification.
A topic is a term that indicates the type of content of the text data, such as the subject matter or genre. For example, in the case of movies, a topic can be a topic about a specific movie, a topic about the movie industry as a whole, or a genre such as "action movies" or "comedy movies." Topics can be a general term for topics or genres of topics.

 音声特徴量取得部360は音声抽出部320が抽出した参照コンテンツCT2の音声データについて、「x-vector」と呼ばれる、音声特徴量RDXに変換する。 The audio feature acquisition unit 360 converts the audio data of the reference content CT2 extracted by the audio extraction unit 320 into an audio feature RDX called an "x-vector."

 以上の機能によりコンテンツ解析サーバ300は、参照コンテンツCT2について、
・トピックベクトルRDT
・音声特徴量RDX
・コンテンツのURL(RDU)
 が得られる。これらの情報はまとめられて、1つのTTS参照データRDとされ、ネットワーク600経由で、データベース400に格納される。
With the above functions, the content analysis server 300 determines the following for the reference content CT2:
Topic vector RDT
・Speech feature RDX
- Content URL (RDU)
These pieces of information are compiled into one TTS reference data RD, which is then transmitted via the network 600 and stored in the database 400.

 データベース400は、音声合成サーバ200からの問い合わせを受けて、テキストデータTDの読み上げにふさわしい声質の音声特徴量の検索を行う。検索には、コンテンツ解析サーバ300によって解析されたTTS参照データRDを利用する。 The database 400 receives a query from the speech synthesis server 200 and searches for speech features with a voice quality suitable for reading the text data TD. For the search, the TTS reference data RD analyzed by the content analysis server 300 is used.

 データベース400は図5のように、ストレージ部410、トピック分析部420、トピック類似度分析部430、ネットワーク通信部440を有する。
 データベース400は、ネットワーク通信部440を介して、コンテンツ解析サーバ300や音声合成サーバ200等と通信可能とされる。
As shown in FIG. 5, the database 400 includes a storage unit 410, a topic analysis unit 420, a topic similarity analysis unit 430, and a network communication unit 440.
The database 400 is capable of communicating with the content analysis server 300, the voice synthesis server 200, and the like via a network communication unit 440.

 ストレージ部410は、各種の参照コンテンツCT2についてのTTS参照データRDを記憶する。図ではTTS参照データRD-1からTTS参照データRD-NとしてN個のTTS参照データRDを記憶している状態を示している。
 1つのTTS参照データRDは、トピックベクトルRDT、音声特徴量RDX、参照コンテンツCT2のURL(RDU)を含んでいる。
The storage unit 410 stores TTS reference data RD for various reference contents CT2. In the figure, N pieces of TTS reference data RD are stored as TTS reference data RD-1 to TTS reference data RD-N.
One TTS reference data RD includes a topic vector RDT, speech features RDX, and a URL (RDU) of reference content CT2.

 トピック分析部420は、音声合成サーバ200から送信されてきたテキストデータTDをトピックベクトルTVに変換する機能である。
 トピック類似度分析部430は、トピックベクトルTVとストレージ部410に保管されているTTS参照データRDのトピックベクトルRDTのうち、もっとも類似性の高いTTS参照データRDを検索する機能である。
The topic analysis unit 420 has a function of converting the text data TD transmitted from the speech synthesis server 200 into a topic vector TV.
The topic similarity analysis unit 430 is a function for searching for the TTS reference data RD having the highest similarity among the topic vector TV and the topic vector RDT of the TTS reference data RD stored in the storage unit 410 .

 図1に示すコンテンツプロバイダ500は、参照コンテンツCT2の提供を行うプロバイダである。例えば動画投稿サイトなどがコンテンツプロバイダ500に該当する。コンテンツプロバイダ500はひとつに限定されるものではなく、複数の企業やサービスなどから構成される場合もある。また、提供する参照コンテンツCT2は、動画とは限らず、インターネットラジオの提供する、音声のみのコンテンツでも構わない。
The content provider 500 shown in Fig. 1 is a provider that provides the reference content CT2. For example, a video posting site corresponds to the content provider 500. The content provider 500 is not limited to one, and may be composed of a plurality of companies, services, etc. Furthermore, the reference content CT2 provided is not limited to a video, and may be audio-only content provided by an Internet radio station.

<2.TTS話者提案システムの動作>
 以上の構成のTTS話者提案システム1の動作について説明する。
 まず実施の形態のTTS話者提案システム1の動作目的について述べる。
2. Operation of the TTS speaker suggestion system
The operation of the TTS speaker suggestion system 1 configured as above will now be described.
First, the purpose of the operation of the TTS speaker suggestion system 1 according to the embodiment will be described.

 TTS話者提案システム1は、コンテンツCT1の制作を行うユーザ10にコンテンツCT1に合った声質の音声を提供するための動作を行う。
 コンテンツCT1のナレーションやセリフには、そのコンテンツCT1の内容に応じた声を採用する必要がある。コンテンツCT1のテキストについて、多数の声質の音声を提供すれば、ユーザ10の選択肢が広がるが、選択自体が手間のかかるものとなる。また声の周波数の高低、話者の性別や年齢、声のイメージなどで選択できるようにしても、必ずしもコンテンツCT1の内容に合致しないことがある。
The TTS speaker suggestion system 1 operates to provide a user 10 who is creating content CT1 with a voice having a voice quality suited to the content CT1.
For the narration and dialogue of the content CT1, it is necessary to adopt a voice that is appropriate for the content of the content CT1. If a variety of voice qualities are provided for the text of the content CT1, the user 10 will have more options, but the selection itself will be time-consuming. Furthermore, even if the user is able to select based on the high and low frequency of the voice, the gender and age of the speaker, and the image of the voice, the voice may not necessarily match the content of the content CT1.

 そこで本実施の形態のTTS話者提案システム1では、コンテンツプロバイダ500によって提供されている参照コンテンツCT2に出演しているナレーターや俳優に近い声質の合成音声を生成することで、制作中のコンテンツCT1の内容にふさわしいTTS話者をユーザ10に提案するようにする。
 世間で広く試聴されている参照コンテンツCT2に出演している話者に近い声で、コンテンツCT1のナレーションやセリフを読み上げることで、合成音声の声の雰囲気に対する違和感を視聴者に与えないことが期待できる。
Therefore, in the present embodiment, the TTS speaker suggestion system 1 generates synthetic voice with a voice quality close to that of the narrator or actor appearing in the reference content CT2 provided by the content provider 500, thereby suggesting to the user 10 a TTS speaker suitable for the content of the content CT1 being produced.
By reading the narration and lines of the content CT1 in a voice similar to that of the speaker appearing in the reference content CT2 that is widely listened to, it is expected that the audience will not feel uncomfortable with the atmosphere of the synthetic voice.

 図6により、TTS話者提案システム1の各装置の動作の流れを説明する。
 まずユーザ10へのTTS話者の提案のための前提の処理として、コンテンツ解析サーバ300がトピックモデルTMやTTS参照データRDを生成し、データベース400に記憶させる処理ST1が行われる。
The flow of operations of each device in the TTS speaker suggestion system 1 will be described with reference to FIG.
First, as a prerequisite process for suggesting TTS speakers to the user 10, the content analysis server 300 generates a topic model TM and TTS reference data RD and stores them in the database 400 in a process ST1.

 音声合成サーバ200がコンテンツCT1のジャンル・トピックにふさわしい話者による合成音声データADを生成するには、TTS参照データRDが必要となる。そのため、コンテンツ解析サーバ300が参照コンテンツCT2の解析を行い、TTS参照データRDをデータベース400に準備する。この処理ST1は、多様な参照コンテンツCT2に対して逐次継続的に行われればよい。つまりユーザ10(情報端末100)への話者提案のための処理ST2とは同期している必要はない。 The speech synthesis server 200 requires TTS reference data RD to generate synthetic speech data AD by a speaker suitable for the genre and topic of the content CT1. Therefore, the content analysis server 300 analyzes the reference content CT2 and prepares the TTS reference data RD in the database 400. This process ST1 only needs to be performed sequentially and continuously for various reference contents CT2. In other words, it does not need to be synchronized with the process ST2 for suggesting speakers to the user 10 (information terminal 100).

 処理ST1として、コンテンツ解析サーバ300はコンテンツプロバイダ500に対して取得リクエストRQを送付する。これに応じてコンテンツプロバイダ500はコンテンツ解析サーバ300に参照コンテンツCT2を送信する。 In process ST1, the content analysis server 300 sends an acquisition request RQ to the content provider 500. In response, the content provider 500 sends reference content CT2 to the content analysis server 300.

 コンテンツ解析サーバ300は参照コンテンツCT2を取得したら、その取得した参照コンテンツCT2を解析し、トピックモデルTMおよびTTS参照データRDを生成する。そして、これらをデータベース400に送信して記憶させる。 After acquiring the reference content CT2, the content analysis server 300 analyzes the acquired reference content CT2 and generates a topic model TM and TTS reference data RD. These are then transmitted to the database 400 for storage.

 コンテンツ解析サーバ300は、コンテンツプロバイダ500によって提供される参照コンテンツCT2の配信をモニタし、適宜、以上の処理ST1を行ってTTS参照データRDを生成することができる。人気のある参照コンテンツCT2を中心に解析することで、より広い人々に受け入れられる声質をユーザ10に提案するためのTTS参照データRDを得ることが期待できる。 The content analysis server 300 monitors the distribution of the reference content CT2 provided by the content provider 500, and can perform the above process ST1 as appropriate to generate TTS reference data RD. By focusing on analyzing popular reference content CT2, it is expected that TTS reference data RD can be obtained to suggest to the user 10 a voice quality that will be accepted by a wider range of people.

 次に処理ST2を説明する。処理ST2は、ユーザ10によって情報端末100からテキストデータTDの送信が行われることに応じて実行される。 Next, process ST2 will be described. Process ST2 is executed in response to the user 10 transmitting text data TD from the information terminal 100.

 情報端末100は、音声合成サーバ200に向けてテキストデータTDを送信する。テキストデータTDは、例えばユーザ10が制作しているコンテンツCT1のナレーションやセリフとしての文章のデータである。 The information terminal 100 transmits text data TD to the voice synthesis server 200. The text data TD is, for example, data of sentences such as narration or dialogue of the content CT1 that the user 10 is creating.

 音声合成サーバ200は、受信したテキストデータTDをデータベース400に向けて送信する。 The voice synthesis server 200 sends the received text data TD to the database 400.

 データベース400は、受信したテキストデータTDに対して、「トピック分析」、「音声特徴量検索」を行い、テキストデータTDに適した1又は複数のTTS参照データRDを選択する。そしてデータベース400は、これらの処理により得られたTTS参照データRDを音声合成サーバ200に送信する。 The database 400 performs "topic analysis" and "speech feature search" on the received text data TD, and selects one or more TTS reference data RD suitable for the text data TD. The database 400 then transmits the TTS reference data RD obtained by these processes to the speech synthesis server 200.

 音声合成サーバ200は、データベース400より受信した、TTS参照データRD 内の音声特徴量RDXを用いて、音声合成サーバ200内の保有話者データ部240に保有する、保有話者の音声特徴量と比較し、最も声質の似ている話者データを選択する。 The speech synthesis server 200 uses the speech features RDX in the TTS reference data RD received from the database 400 to compare it with the speech features of the retained speakers stored in the retained speaker data section 240 in the speech synthesis server 200, and selects the speaker data with the most similar voice quality.

 そして音声合成サーバ200は、その話者データの音声合成モデルを用いてテキストデータTDの音声合成処理を行い、合成音声データADを生成する。音声合成サーバ200は、合成音声データADを情報端末100に向けて送信する。 Then, the voice synthesis server 200 performs voice synthesis processing of the text data TD using the voice synthesis model of the speaker data, and generates synthetic voice data AD. The voice synthesis server 200 transmits the synthetic voice data AD to the information terminal 100.

 情報端末100では、コンテンツ制作アプリケーション110を用いて、ユーザ10 が受信した合成音声データADを制作中のコンテンツCT1に組み込む作業を進める。 In the information terminal 100, the user 10 uses the content production application 110 to incorporate the received synthetic voice data AD into the content CT1 being produced.

 以上のように、TTS話者提案システム1によって、ユーザ10に対してコンテンツCT1のナレーションやセリフ等に適した声質の合成音声データADが提案されることになる。 As described above, the TTS speaker suggestion system 1 suggests to the user 10 synthetic voice data AD with a voice quality suitable for the narration, lines, etc. of the content CT1.

 ここで、トピック分析と音声特徴量について説明しておく。
 まずトピック分析について説明する。図7は、いくつかの参照コンテンツCT2をもとに生成された情報(トピックモデルと定義する)を示している。
Here, topic analysis and speech features will be explained.
First, the topic analysis will be described. Fig. 7 shows information (defined as a topic model) generated based on some reference contents CT2.

 図7の例では、説明を簡単にするため、ふたつのトピック#1,#2でジャンル分けを行っている。ジャンル分けには、「潜在的ディリクレ配分法(LDA)」を用いた。トピック#1は「映画」に関する単語の出現確率が高い。トピック#2は「スマートフォン」に関する単語が出現していることが分かる。この例では、出現確率の高い単語を出現確率の順に10個ずつ表示している。
 このトピックモデルを用いて、ある発話がどのトピックに属するのかを調べる。
In the example of FIG. 7, for ease of explanation, the genre is divided into two topics #1 and #2. The "Latent Dirichlet Allocation (LDA)" was used for the genre division. Topic #1 has a high probability of occurrence of words related to "movies." It can be seen that words related to "smartphones" appear in topic #2. In this example, the words with the highest occurrence probability are displayed in groups of 10 in order of occurrence probability.
This topic model is used to find out which topic an utterance belongs to.

 例えば発話が「先週末は映画を観てきました」であったとする。
 この発話に対して、わかち書きを行なうと以下のようなわかち書き単語列が得られる。この単語列のうち名詞だけを残すと、名詞単語列が得られる。
For example, suppose the utterance was "I went to the movies last weekend."
If we split this utterance into words, we get the following word sequence: If we leave only the nouns in this word sequence, we get a noun word sequence.

 わかち書き単語列=[’先週’,’末’,’は’,’映画’,’を’,’観’,’て’,’き’,’まし’,’た’]
 名詞単語列=[’先週’,’映画’]
Sentence sequence of words = ['last week', 'last week', 'was', 'movie', 'to', 'watched', 'came', 'made', 'made', 'made']
Noun word string = ['last week', 'movie']

 この名詞単語列に対してLDA法を使ってトピック分析すると、以下のトピックベクトルが得られる。ここでトピックベクトルとは、ある発話テキストがどのトピックに分類されるかの確率分布を表すものであると定義する。 When topic analysis is performed on this string of noun words using the LDA method, the following topic vector is obtained. Here, a topic vector is defined as a probability distribution of which topic a certain spoken text will be classified into.

 トピック#1:0.8、トピック#2:0.2
 トピックベクトル=[0.8,0.2]
 これは、上記の発話は、トピック#1に関する出現確率が高く、発話の話題はトピック#1の方に沿うと判断できるものとなる。
 このようなトピックモデルがコンテンツ解析サーバ300によって生成され、データベース400での処理で用いられる。
Topic #1: 0.8, Topic #2: 0.2
Topic vector = [0.8, 0.2]
This means that the above utterance has a high probability of appearing in relation to topic #1, and the topic of the utterance can be determined to be in line with topic #1.
Such a topic model is generated by the content analysis server 300 and used in processing in the database 400 .

 次に音声特徴量について説明する。
 参照コンテンツCT2に出演している話者の声質と、音声合成サーバ200内に保有している話者モデルの声質とは、“x-vector”と呼ばれる特徴量を用いて比べられる。“x-vector”は「深層話者埋め込み」とも呼ばれ、ディープラーニング技術を用いた「話者識別技術」の一種である。通常、x-vectorは512次元のベクトルである。
Next, the speech feature will be described.
The voice quality of the speaker appearing in the reference content CT2 is compared with the voice quality of the speaker model stored in the speech synthesis server 200 using a feature called an "x-vector." An "x-vector" is also called "deep speaker embedding," and is a type of "speaker identification technology" that uses deep learning technology. Typically, an x-vector is a 512-dimensional vector.

 x-vectorをどのように利用するか説明する。
 図8はx-vectorの学習過程を示す。Aさん、Bさん、Cさんら複数の話者の声をニューラルネットワークに入力する。それぞれの声はt=1からt=Tまでの単位時間幅毎に、声の特徴量が抽出される。
We will explain how to use x-vector.
Figure 8 shows the learning process of x-vector. The voices of multiple speakers, including A, B, and C, are input to the neural network. For each voice, voice features are extracted for each unit time interval from t=1 to t=T.

 これらの特徴量はマックスプーリング(Max Pooling)される。マックスプーリングとは、入力データから一定のサイズのウインドウをスライドさせながら、その中で最大値を選び出す処理で、これにより、入力データの縮小を行うことができるようになる。 These features are then max pooled. Max pooling is a process in which a fixed-size window is slid across the input data and the maximum value is selected within it, making it possible to reduce the input data.

 マックスプーリングされた特徴量は、識別部にて、話者クラス判定され、話者の学習が行われる。
 この学習により得た識別部の一部をx-vectorとして利用することができる。たとえば、Aさんの声を入力した際に得られるx-vectorは一種のAさんの声紋のように考えることができる。
The max-pooled features are subjected to speaker class determination in a classification unit, and speaker training is performed.
A part of the classification part obtained by this learning can be used as an x-vector. For example, the x-vector obtained when inputting the voice of person A can be thought of as a kind of voiceprint of person A.

 また、このニューラルネットワークは、学習に用いられた話者以外にも応用可能である。したがって、参照コンテンツCT2内でのナレーターや出演者の声をこのニューラルネットワークに入力することで、各コンテンツの話者のx-vectorを得ることができる。同様に、音声合成サーバ200が有する話者の声を、このニューラルネットワークに入力することで、各話者のx-vectorを得ることができる。
 ふたりの話者のx-vectorを比較することで、声が似ているかどうかの判断が可能となる。声の類似性はたとえば、ベクトル間のコサイン類似度やPLDA(確率的線形判別分析)による照合などを用いることができる。
This neural network can also be applied to speakers other than those used in the training. Therefore, by inputting the voices of the narrator and performers in the reference content CT2 into this neural network, the x-vectors of the speakers of each content can be obtained. Similarly, by inputting the voices of the speakers held by the voice synthesis server 200 into this neural network, the x-vectors of each speaker can be obtained.
By comparing the x-vectors of two speakers, it is possible to determine whether their voices are similar. For example, the cosine similarity between vectors or matching using PLDA (Probabilistic Linear Discriminant Analysis) can be used to measure the similarity of voices.

<3.コンテンツ解析サーバの解析処理>
 図6の処理ST1におけるコンテンツ解析サーバ300の処理について説明する。
 コンテンツ解析サーバ300の処理としては2つのモデル作成フェーズがある。
 まずトピックモデルを作成するフェーズがある。次に各参照コンテンツCT2がどのトピックに該当するのかを調べ、TTS参照データRDを作成するフェーズがある。
3. Analysis process of the content analysis server
The process of the content analysis server 300 in step ST1 of FIG. 6 will be described.
The processing of the content analysis server 300 has two model creation phases.
First, there is a phase in which a topic model is created, followed by a phase in which it is determined which topic each piece of reference content CT2 corresponds to, and TTS reference data RD is created.

 トピックモデル作成フェーズについて説明する。
 コンテンツ解析サーバ300は、コンテンツプロバイダ500から複数の参照コンテンツCT2の収集を行い、参照コンテンツCT2内の発話テキストからLDA法により、トピックモデルを作成しておく。これはコンテンツプロバイダ500の提供する参照コンテンツCT2のジャンル分けをするのが目的である。
Explain the topic model creation phase.
The content analysis server 300 collects a plurality of reference contents CT2 from the content provider 500, and creates a topic model from the spoken text in the reference contents CT2 by the LDA method. The purpose of this is to classify the reference contents CT2 provided by the content provider 500 into genres.

 図4および図9を用いて説明する。
 なお、図9はコンテンツ解析サーバ300としてのプロセッサが行う処理のフローチャートであるが、実行する処理を実線のボックスで示しつつ、理解の容易化のため、処理に対して入力又は出力されるデータを( )内に文字又は符号で示している。またデータの記憶先のストレージ部340やデータベース400も加えて示している。コンテンツ解析サーバ300としてのプロセッサが行う処理についてはステップ番号を付している。
 このようなフローチャートの記載形式は、後述の図10、図11、図12、図14、図15、図16でも同様に用いる。
This will be described with reference to FIG. 4 and FIG.
9 is a flowchart of the processing performed by the processor as the content analysis server 300, in which the processing to be executed is indicated by a solid-line box, and for ease of understanding, data input or output to the processing is indicated by letters or symbols in parentheses. The storage unit 340 and database 400 where the data is stored are also shown. Step numbers are assigned to the processing performed by the processor as the content analysis server 300.
This flowchart description format is also used in the later-described FIGS. 10, 11, 12, 14, 15, and 16 in the same manner.

 コンテンツ解析サーバ300は、コンテンツ取得部310により、コンテンツプロバイダ500から参照コンテンツCT2を取得する。
 取得された参照コンテンツCT2に対してはステップS101で音声抽出部320により、音声データの抽出処理が行われる。
The content analysis server 300 acquires the reference content CT 2 from the content provider 500 by the content acquisition unit 310 .
In step S101, the audio extraction unit 320 performs an extraction process of audio data on the acquired reference content CT2.

 抽出された音声データについては、ステップS102で音声認識部330により音声認識処理が行われ、テキストデータである発話文TRに変換される。
 発話文TRはステップS103でストレージ部340に保存される。
In step S102, the extracted voice data is subjected to voice recognition processing by the voice recognition unit 330 and converted into a spoken sentence TR, which is text data.
The spoken sentence TR is stored in the storage unit 340 in step S103.

 なお、一点鎖線で囲ったステップS101,S102,S103の処理は、複数の参照コンテンツCT2に対して繰り返し行われる。
 そして所定数(M個)の参照コンテンツCT2に対してステップS101,S102,S103の処理が行われ、ストレージ部340に保存される発話文TRがM個になると、その保存されたM個の発話文TRを用いて、ステップS110でトピック分析部350によるトピック分析が行われる。その結果としてトピックモデルTMが得られる。
The processes of steps S101, S102, and S103 enclosed by dashed lines are repeatedly performed for a plurality of pieces of reference content CT2.
Then, the processes of steps S101, S102, and S103 are performed on a predetermined number (M pieces) of reference content CT2, and when the number of utterance sentences TR stored in the storage unit 340 reaches M pieces, topic analysis is performed by the topic analysis unit 350 using the stored M pieces of utterance sentences TR in step S110. As a result, a topic model TM is obtained.

 生成されたトピックモデルTMは、ステップS111でネットワーク通信部370 を通じてデータベース400に送信される。 The generated topic model TM is sent to the database 400 via the network communication unit 370 in step S111.

 次にTTS参照データRD作成フェーズについて説明する。
 このフェーズでは、あるひとつの参照コンテンツCT2が、どのようなトピックベクトルを持ち、参照コンテンツCT2内で使われている音声はどんな特徴のある声で、どのURL(Uniform Resource Locator)に存在するのかを示す、TTS参照データRDを作成することが目的である。
Next, the TTS reference data RD creation phase will be described.
The purpose of this phase is to create TTS reference data RD that indicates what topic vector a particular piece of reference content CT2 has, what characteristics the voice used in the reference content CT2 has, and in which URL (Uniform Resource Locator) it exists.

 図4および図10を用いて説明する。
 コンテンツ解析サーバ300では、コンテンツ取得部310により取得された参照コンテンツCT2について、ステップS121で音声抽出部320により音声データの抽出を行う。
This will be described with reference to FIG. 4 and FIG.
In the content analysis server 300, the audio extraction unit 320 extracts audio data from the reference content CT2 acquired by the content acquisition unit 310 in step S121.

 抽出された音声データに対しては、ステップS123で音声認識部330による音声認識処理が行われ、発話文TRが得られる。
 発話文TRは、ステップS124でトピック分析部350によりトピック分析される。これによりトピックベクトルRDTが得られる。トピックベクトルRDTは、発話文TRがどのトピックに属するかの確率をベクトルにしたものである。
 このトピック分析処理の際には、図9のトピックモデル作成フェーズで求めたトピックモデルTMが用いられる。
In step S123, the extracted voice data is subjected to voice recognition processing by the voice recognition unit 330, and an utterance sentence TR is obtained.
The utterance sentence TR is topic-analyzed by the topic analysis unit 350 in step S124. This results in a topic vector RDT. The topic vector RDT is a vector representing the probability that the utterance sentence TR belongs to a particular topic.
In this topic analysis process, the topic model TM obtained in the topic model creation phase of FIG. 9 is used.

 ステップS121で抽出された音声データは、ステップS125においても用いられ、音声特徴量取得部360により音声特徴量RDXが求められる。 The voice data extracted in step S121 is also used in step S125, and the voice feature acquisition unit 360 determines the voice feature RDX.

 コンテンツ解析サーバ300は、ステップS126では、以上のように求められたトピックベクトルRDTと、音声特徴量RDXと、この参照コンテンツCT2のURL(RDU)を組み合わせて1つのTTS参照データRDとし、データベース400送信する。これによりデータベース400においては、TTS参照データRDが追加記憶される。
 なお、ここでの説明では、ステップS123で発話文TRを参照コンテンツCT2から再度抽出したが、図9のトピックモデル作成フェーズのステップS102で生成した発話文TRをキャッシュしておいて用いても良い。
In step S126, the content analysis server 300 combines the topic vector RDT obtained as described above, the speech feature RDX, and the URL (RDU) of the reference content CT2 into one TTS reference data RD, and transmits the combined data to the database 400. As a result, the TTS reference data RD is additionally stored in the database 400.
In the description here, the utterance sentence TR is extracted again from the reference content CT2 in step S123, but the utterance sentence TR generated in step S102 of the topic model creation phase in FIG. 9 may be cached and used.

<4.音声合成サーバの処理>
 次に音声合成サーバ200の処理、特に音声合成時にTTS参照データRDをどのように使用するかを、図3および図11を用いて説明する。
4. Processing of the voice synthesis server
Next, the processing of the voice synthesis server 200, particularly how the TTS reference data RD is used during voice synthesis, will be described with reference to FIG. 3 and FIG.

 ユーザ10は情報端末100内で利用しているコンテンツ制作アプリケーション110を用いて、合成音声化するテキストデータTDを入力する。テキストデータTDは、いわゆる自然文であり、TTS話者提案システム1用に準備された特別な文章である必要はない。したがってユーザ10は、TTS話者提案システム1を利用するために特別な記述法を学習する必要はない。 The user 10 inputs the text data TD to be converted into synthetic speech using a content production application 110 used in the information terminal 100. The text data TD is so-called natural text, and does not need to be special text prepared for the TTS speaker suggestion system 1. Therefore, the user 10 does not need to learn a special writing method in order to use the TTS speaker suggestion system 1.

 音声合成サーバ200はテキストデータTDを受信することで図11の処理を行う。
 テキストデータTDを受信した音声合成サーバ200は、ステップS201でテキスト-音素記号変換部210により、自然文から音声合成用の音素データに変換する処理を行う。
The voice synthesis server 200 performs the process of FIG. 11 upon receiving the text data TD.
In step S201, the voice synthesis server 200 receives the text data TD, and the text-to-phoneme symbol converter 210 converts the natural text into phoneme data for voice synthesis.

 また音声合成サーバ200は、ステップS202で参照データ取得部220によりTTS参照データRDの取得処理を行う。具体的には、音声合成サーバ200はテキストデータTDをデータベース400に向けて送信し、TTS参照データRDの検索依頼を行う。これに応じてデータベース400では、テキストデータTDを入力とし、データベース400に記憶されているTTS参照データRDの内のうちで、トピックベクトルRDTが最もテキストデータTDのトピックベクトルに近いTTS参照データRDを選択し、音声合成サーバ200に送信する。このデータベース400の処理は後述する。
 音声合成サーバ200は、データベース400においてこのように選択されたTTS参照データRD、即ちテキストデータTDに対する該当参照データを受信する。
In step S202, the voice synthesis server 200 performs a process of acquiring the TTS reference data RD by the reference data acquisition unit 220. Specifically, the voice synthesis server 200 transmits the text data TD to the database 400 and requests a search for the TTS reference data RD. In response to this, the database 400 receives the text data TD as an input, selects the TTS reference data RD whose topic vector RDT is closest to the topic vector of the text data TD from among the TTS reference data RD stored in the database 400, and transmits the selected TTS reference data RD to the voice synthesis server 200. The process of the database 400 will be described later.
The speech synthesis server 200 receives the TTS reference data RD thus selected in the database 400, that is, the corresponding reference data for the text data TD.

 データベース400より該当参照データとしてのTTS参照データRDを受信した音声合成サーバ200は、ステップS203で話者検索部230により話者検索を行う。
 この場合、音声合成サーバ200は、そのTTS参照データRDに含まれる、音声特徴量RDXを用いて、保有話者データ部240に保有する話者モデルのうちで声質の似ている話者の算出を行う。
 具体的には、データベース400より送られてきた音声特徴量RDXと保有する話者モデルの音声特徴量とのコサイン類似度を算出することで、声質の似ている話者を得ることができる。この処理により、音声合成サーバ200が保有する話者モデルのうち、最も本トピックに適切な話者データの話者IDを導出することが可能となる。
The speech synthesis server 200 receives the TTS reference data RD as the relevant reference data from the database 400, and in step S203, the speaker search unit 230 searches for a speaker.
In this case, the speech synthesis server 200 uses the speech feature amount RDX contained in the TTS reference data RD to calculate speakers with similar voice qualities from among the speaker models held in the held speaker data unit 240 .
Specifically, it is possible to obtain speakers with similar voice qualities by calculating the cosine similarity between the speech feature RDX sent from the database 400 and the speech feature of a speaker model held by the server 200. This process makes it possible to derive the speaker ID of the speaker data that is most suitable for the topic among the speaker models held by the speech synthesis server 200.

 音声合成サーバ200は、ステップS201で得た音素データと、ステップS203で得た話者IDを音声合成部250に入力することで、合成音声データADを得る。
 そして音声合成サーバ200はステップS205で、ネットワーク通信部260により、合成音声データADや、話者IDや、参照URLを情報端末100へ送信する処理を行う。参照URLは、ステップS202で取得したTTS参照データRDに含まれる参照コンテンツCT2のURL(RDU)である。
The voice synthesis server 200 inputs the phoneme data obtained in step S201 and the speaker ID obtained in step S203 to the voice synthesis unit 250, thereby obtaining synthetic voice data AD.
Then, in step S205, the voice synthesis server 200 transmits the synthetic voice data AD, the speaker ID, and the reference URL to the information terminal 100 via the network communication unit 260. The reference URL is the URL (RDU) of the reference content CT2 included in the TTS reference data RD acquired in step S202.

<5.データベースの処理>
 データベース400の処理を図5および図12を用いて説明する。これは上述の図11のステップS202での音声合成サーバ200からの検索依頼に応じた処理である。
5. Database Processing
The processing of the database 400 will be described with reference to Fig. 5 and Fig. 12. This is processing in response to a search request from the speech synthesis server 200 in step S202 of Fig. 11 described above.

 データベース400は、音声合成サーバ200からテキストデータTDを受信すると、図12のステップS211でトピック分析部420によるトピック分析を行う。
 このトピック分析では、ストレージ部410に記憶しているトピックモデルTMを用いて、テキストデータTDのトピック分析を行い、トピックベクトルTVを生成する。
When the database 400 receives the text data TD from the speech synthesis server 200, the topic analysis unit 420 performs topic analysis in step S211 of FIG.
In this topic analysis, a topic analysis of the text data TD is performed using a topic model TM stored in the storage unit 410, and a topic vector TV is generated.

 次にデータベース400はステップS212で、トピック類似度分析部430により、トピック検索を行う。これはトピックベクトルTVに似たトピックベクトルRDTを検索する処理である。具体的にはストレージ部410に保存されている、さまざまな参照コンテンツCT2から生成されたTTS参照データRD(RD-1・・・RD-N)のうちで、トピックベクトルRDTが、テキストデータTDのトピックベクトルTVに似ているものを検索する処理である。 Next, in step S212, the database 400 performs a topic search using the topic similarity analysis unit 430. This is a process of searching for a topic vector RDT that is similar to the topic vector TV. Specifically, this process searches for TTS reference data RD (RD-1...RD-N) generated from various reference contents CT2 stored in the storage unit 410, whose topic vector RDT is similar to the topic vector TV of the text data TD.

 トピックベクトルが似ているということは、コンテンツ内容として、ジャンルが同じであるとか、話題が似ているということに相当する。
 つまりトピックベクトルが似ているTTS参照データRDを探すということは、ユーザ10が制作しているコンテンツCT1と、ジャンルや話題が似ている参照コンテンツCT2に基づいて生成されたTTS参照データRDを検索することであるともいえる。
Similar topic vectors correspond to content that is in the same genre or has a similar topic.
In other words, searching for TTS reference data RD with similar topic vectors can be said to be searching for TTS reference data RD generated based on the content CT1 produced by the user 10 and reference content CT2 that is of a similar genre or topic.

 トピックベクトルTVと似ているトピックベクトルRDTの検索には、コサイン類似度を用いることができる。これにより、複数のTTS参照データRDの内で、トピックベクトルTVと最も類似度が高いトピックベクトルRDTを持つTTS参照データRDを最適トピックとして選択する。
 そしてデータベース400は、最適トピックとして得られたTTS参照データRDを、今回のテキストデータTDに対する該当参照データとして音声合成サーバ200に送信する。
Cosine similarity can be used to search for a topic vector RDT similar to the topic vector TV. As a result, among multiple TTS reference data RD, the TTS reference data RD having the topic vector RDT with the highest similarity to the topic vector TV is selected as the optimal topic.
Then, the database 400 transmits the TTS reference data RD obtained as the optimal topic to the speech synthesis server 200 as the corresponding reference data for the current text data TD.

 なお、類似度にしきい値を設け、類似度がしきい値を超えない場合は、複数のTTS参照データRDを音声合成サーバ200に送信するようにしてもよい。
It is also possible to provide a threshold value for the degree of similarity, and if the degree of similarity does not exceed the threshold value, multiple pieces of TTS reference data RD may be transmitted to the speech synthesis server 200 .

<6.情報端末での表示>
 以上の処理の結果として情報端末100でユーザ10に対して行われる表示例を説明する。
<6. Display on information terminal>
An example of a display shown to the user 10 on the information terminal 100 as a result of the above processing will now be described.

 情報端末100が音声合成サーバ200より受信するデータは、合成音声データAD と、参照コンテンツCT2のURLである。
 参照コンテンツCT2のURLは、合成音声の生成に、どんなコンテンツの話者の声を参考にしたのかという情報をユーザ10に示すために提供される。
The data that the information terminal 100 receives from the voice synthesis server 200 is the synthetic voice data AD and the URL of the reference content CT2.
The URL of the reference content CT2 is provided to show the user 10 information about what content's speaker's voice was used as reference for generating the synthetic speech.

 図13に情報端末100のディスプレイ120での表示例を示す。ディスプレイ120上にはテキストボックス31、話者ID32、合成開始ボタン33、再生ボタン34、参照URL35が表示される。 FIG. 13 shows an example of a display on the display 120 of the information terminal 100. A text box 31, a speaker ID 32, a synthesis start button 33, a play button 34, and a reference URL 35 are displayed on the display 120.

 テキストボックス31は、テキストデータTDを入力するためのボックスである。
 話者ID32は、音声合成サーバ200によって図11のステップS203で選ばれた話者IDである。
 合成開始ボタン33は、音声合成処理の開始を指示する操作子である。
 再生ボタン34は合成音声を再生するための操作子である。
 参照URL35は声を参考にした参照コンテンツCT2のURLであり、例えば参照コンテンツCT2へのリンクという形で表示される。
The text box 31 is a box for inputting text data TD.
The speaker ID 32 is the speaker ID selected by the speech synthesis server 200 in step S203 of FIG.
The synthesis start button 33 is an operator for instructing the start of voice synthesis processing.
The playback button 34 is an operator for playing back the synthesized voice.
The reference URL 35 is the URL of the reference content CT2 that refers to the voice, and is displayed, for example, in the form of a link to the reference content CT2.

 ユーザ10は、この画面により、再生ボタン34を操作して、音声合成サーバ200から提案された話者ID32の話者の声を聞くことができる。
 また参照URL35を操作することで、音声合成サーバ200が話者ID32の選択の際に参考にした参照コンテンツCT2を再生させ、そのナレーション等の声を聞くことができる。
 従ってユーザ10は、音声合成サーバ200から提案された話者IDによるテキストの読み上げ音声を聞くだけでなく、その話者IDの選択のために、制作しているコンテンツCT1とジャンル等が似ている参照コンテンツCT2における声を聞くことができる。
On this screen, the user 10 can operate the playback button 34 to listen to the voice of the speaker with the speaker ID 32 suggested by the speech synthesis server 200 .
Furthermore, by operating the reference URL 35, the reference content CT2 that the voice synthesis server 200 referred to when selecting the speaker ID 32 can be reproduced, and the voice of the narration or the like can be heard.
Therefore, the user 10 can not only hear the text being read by the speaker ID proposed by the voice synthesis server 200, but also hear the voice in the reference content CT2 that is similar in genre, etc. to the content CT1 being produced in order to select the speaker ID.

<7.参照コンテンツに複数の話者がいる場合の対応>
 ここまでは、各参照コンテンツCT2にはひとりの話者だけが出演する場合を想定して説明してきた。しかしながら、実際の参照コンテンツCT2には、複数の話者が出演することが普通である。例えばテレビ番組などでは、現場からの報告や天気予報、交通情報、スポーツ情報などそれぞれのジャンルに別のアナウンサーが担当することが多い。
7. How to handle cases where there are multiple speakers in the reference content
Up to this point, we have assumed that each reference content CT2 will feature only one speaker. However, in actual reference content CT2, multiple speakers usually appear. For example, in television programs, different announcers are often in charge of different genres, such as field reports, weather forecasts, traffic information, and sports information.

 音声特徴量に関して声を表わす特徴量であるx-vectorを説明したが、x-vectorを用いることで、参照コンテンツCT2内で話者が交代したことを検出することができる。これは「話者ダイアライゼーション」と呼ばれる技術で、この技術を用いることで、ひとつのコンテンツに複数人の話者がいる場合にも本技術は対応することが可能となる。 We have explained x-vectors, which are features that represent voices, as audio features. By using x-vectors, it is possible to detect when the speaker changes within the reference content CT2. This is a technique called "speaker diarization," and by using this technique, it is possible for this technology to be able to handle cases where there are multiple speakers in a single piece of content.

 図14を用いて説明する。
 コンテンツ解析サーバ300は、参照コンテンツCT2についてステップS131で音声抽出部320による音声抽出を行い、音声データを取得する。
 次に、ステップS132で音声特徴量取得部360にて、ある単位時間、例えば30秒ごとに音声特徴量RDXの抽出を行う。この単位時間ごとの音声特徴量RDXについて、ステップS133で特徴量変化検出処理を行い、しきい値以上の変化をモニタする。
This will be explained using FIG.
In step S131, the content analysis server 300 performs audio extraction on the reference content CT2 using the audio extraction unit 320, and acquires audio data.
Next, in step S132, the speech feature acquisition unit 360 extracts speech features RDX every unit time, for example, every 30 seconds. In step S133, feature change detection processing is performed on the speech features RDX for each unit time, and changes equal to or greater than a threshold value are monitored.

 特徴量変化の検出にはコサイン類似度を用いることができる。しきい値以上の変化があれば、それは話者が変わったことを意味するので、タイムスタンプを記録し、タイムスタンプデータベース341で保管する。
 タイムスタンプデータベース341は、例えばストレージ部340の一部の領域を用いて用意する。
Cosine similarity can be used to detect feature changes. If there is a change equal to or greater than a threshold, this means that the speaker has changed, so a timestamp is recorded and stored in the timestamp database 341.
The time stamp database 341 is prepared by using, for example, a portion of the area of the storage unit 340 .

 例えばこのようにコンテンツ解析サーバ300は、参照コンテンツCT2について音声特徴量RDXの変化を監視し、変化点を記憶しておく。
 これにより、図10のTTS参照データ作成フェーズで説明したシステムと同等の構成で、複数話者の出演する参照コンテンツCT2にも対応することができる。
For example, in this manner, the content analysis server 300 monitors changes in the audio feature value RDX of the reference content CT2 and stores the points of change.
This makes it possible to handle reference content CT2 featuring multiple speakers with a configuration equivalent to that of the system described in the TTS reference data creation phase of FIG.

 例えば図15に、図10と同様のTTS参照データ作成フェーズの処理を示している。なお図10と同一の処理については同一のステップ番号を付して説明を省略する。 For example, FIG. 15 shows the process of the TTS reference data creation phase similar to that shown in FIG. 10. Note that the same processes as those in FIG. 10 are given the same step numbers and will not be described.

 図15の場合、ステップS121Aとして、タイムスタンプデータベース341を用いて、参照コンテンツCT2についてタイムスタンプで判定される区間毎ごとに音声抽出を行うようにする。
 その後、抽出した音声データについて図10と同様の処理を行い、TTS参照データRDを生成する。
In the case of FIG. 15, in step S121A, the time stamp database 341 is used to extract audio from the reference content CT2 for each section determined by the time stamp.
Thereafter, the extracted voice data is subjected to the same process as in FIG. 10 to generate TTS reference data RD.

<8.複数の話者候補の提案>
 これまでの説明では、コンテンツCT1で話される言葉(テキストデータTD)から、そのコンテンツCT1に最適なひとりの話者を提案するものとして説明してきた。
 一方でユーザ10の中には、ほかの話者を選択肢として試してみたい場合もあると考えられる。そのようなユーザ10を想定し、複数話者を提供する処理例を、図16を用いて説明する。なお図16において図12と同じ処理は同じステップ番号を付して重複説明を避ける。
8. Proposing multiple speaker candidates
In the above explanation, it has been explained that one speaker best suited to the content CT1 is proposed based on the words (text data TD) spoken in the content CT1.
On the other hand, it is considered that some users 10 may want to try other speakers as options. Assuming such a user 10, an example of a process for providing multiple speakers will be described with reference to Fig. 16. Note that in Fig. 16, the same processes as those in Fig. 12 are assigned the same step numbers to avoid duplication of explanation.

 先の図12において、ステップS212でトピック類似度分析部430が検索するTTS参照データRDは、トピックベクトルが最も類似するひとつだけであった。
 図16のステップS212Aでは、提案する声の種類を増やすために、トピック類似度分析部430が検索するTTS参照データRDの数を、コサイン類似度の高い順に複数個選出するものとする。図では10個を選出するものとし、10個のTTS参照データRD(RD#1からRD#10)を示している。
In FIG. 12, the TTS reference data RD searched by the topic similarity analysis unit 430 in step S212 is only the one with the most similar topic vector.
16, in order to increase the number of voices proposed, the topic similarity analysis unit 430 selects a number of TTS reference data RDs to be searched in descending order of cosine similarity. In the figure, ten pieces of TTS reference data RDs (RD#1 to RD#10) are selected.

 最も類似度の高いトピックベクトルRDTを持つTTS参照データRD#1を「最適話者」のデータとし、類似度の高い順に、参照データ#2、・・・、参照データ#10とする。 The TTS reference data RD#1 with the most similar topic vector RDT is designated as the "optimal speaker" data, and the data in descending order of similarity are designated as reference data #2, ..., #10.

 ここでコサイン類似度について改めて説明する。
 先に音声特徴量の説明では、話者の声紋としてx-vectorを利用できることを述べた。そして似た声を調べるのにコサイン類似度を用いた。図11では、音声合成サーバ200が、情報端末100から送信されてきたテキストデータTDをもとにTTS参照データRDを得ることを述べた。そしてTTS参照データRDには、x-vectorである音声特徴量RDXが含まれている。
 この音声特徴量RDXはベクトルであるので、他の音声特徴量とコサイン類似度を計算すれば、声質の類似度を計算することが可能である。
Here, the cosine similarity will be explained again.
In the previous explanation of speech features, it was mentioned that x-vectors can be used as the voiceprint of a speaker. Cosine similarity is used to check for similar voices. In Fig. 11, it was mentioned that the speech synthesis server 200 obtains TTS reference data RD based on text data TD transmitted from the information terminal 100. The TTS reference data RD includes speech features RDX, which are x-vectors.
Since this speech feature RDX is a vector, it is possible to calculate the similarity of voice quality by calculating the cosine similarity with other speech features.

 例えば2つのベクトルa、bのコサイン類似度は(数1)で表わすことができ、“-1”から“1”の範囲をとる。 For example, the cosine similarity between two vectors a and b can be expressed as (Equation 1) and ranges from "-1" to "1".

Figure JPOXMLDOC01-appb-M000001
Figure JPOXMLDOC01-appb-M000001

 コサイン類似度が“1”のときは、なす角が0度で、同じ向きのベクトルである。つまり完全に似ている声質の関係である。
 コサイン類似度が“0”のときは、なす角が90度で、直交した向きのベクトルである。つまり声質が似ている/似ていない、のどちらにも無関係と言える。
 コサイン類似度が“-1”のときは、なす角が180度で、反対(逆)向きのベクトルである。これは完全に似ていない声質の関係である。
When the cosine similarity is "1", the angle is 0 degrees and the vectors are in the same direction. In other words, the voice qualities are completely similar.
When the cosine similarity is "0", the angle between the two vectors is 90 degrees, meaning that the vectors are orthogonal to each other. In other words, it is irrelevant whether the voice qualities are similar or not.
When the cosine similarity is "-1", the angle is 180 degrees and the vector is in the opposite direction. This is a relationship of completely dissimilar voice qualities.

 図16の処理ではデータベース400は、複数(例えば10個)のTTS参照データRD(RD#1からRD#10)を用いて、ステップS220の類似度評価処理を行うようにする。 In the process of FIG. 16, the database 400 uses multiple (e.g., 10) TTS reference data RD (RD#1 to RD#10) to perform the similarity evaluation process of step S220.

 この類似度評価処理は、最適話者のTTS参照データRD#1の音声特徴量RDXを「基準特徴量」として、TTS参照データRD#2からTTS参照データRD#10に含まれる、各音声特徴量RDXとのコサイン類似度を求める。 This similarity evaluation process uses the speech feature RDX of the optimal speaker's TTS reference data RD#1 as the "reference feature" and calculates the cosine similarity between this and each speech feature RDX contained in TTS reference data RD#2 to TTS reference data RD#10.

 この場合に、基準特徴量とのコサイン類似度が“0”に近い音声特徴量RDXを持つTTS参照データRDは、最適話者と似ても似てなくもない特徴をもつ話者の情報となる。このようなTTS参照データRD#xを「直交話者」とする。 In this case, TTS reference data RD having speech features RDX whose cosine similarity with the reference features is close to "0" is information on a speaker whose features are not dissimilar to the optimal speaker. Such TTS reference data RD#x is called an "orthogonal speaker."

 基準特徴量とのコサイン類似度が“-1”に近い音声特徴量RDXを持つTTS参照データRDは、最適話者とは似ていない特徴を持つ話者の情報となる。このようなTTS参照データRD#yを「逆向き話者」とする。 TTS reference data RD having speech features RDX whose cosine similarity with the reference features is close to "-1" is information on a speaker whose features are not similar to those of the optimal speaker. Such TTS reference data RD#y is called the "reverse speaker."

 最適話者のTTS参照データRD#1、直交話者のTTS参照データRD#x、逆向き話者のTTS参照データRD#yは、ひとつのデータ群としてまとめられて、音声合成サーバ200に送信される。 The optimal speaker's TTS reference data RD#1, the orthogonal speaker's TTS reference data RD#x, and the opposite speaker's TTS reference data RD#y are combined into one data group and sent to the speech synthesis server 200.

 音声合成サーバ200では、図11のステップS203で、保有話者データ部240に保有する話者データのうちで、TTS参照データRDに似た話者データを検索するが、この場合は、TTS参照データRD#1、RD#x、RD#yのそれぞれに対して似た話者データを検索することになる。
 従って、最適話者に似た話者ID、直交話者に似た話者ID、逆向き話者に似た話者IDが求められる。
 これにより、声質の異なる3つの声がユーザ10に提案されることになる。
In the speech synthesis server 200, in step S203 of FIG. 11, the speaker data stored in the stored speaker data section 240 is searched for speaker data similar to the TTS reference data RD. In this case, similar speaker data is searched for for each of the TTS reference data RD#1, RD#x, and RD#y.
Therefore, a speaker ID similar to the optimal speaker, a speaker ID similar to the orthogonal speaker, and a speaker ID similar to the backward speaker are obtained.
In this way, three voices with different voice qualities are proposed to the user 10.

 なお、以上の例では、コサイン類似度が“0”と“-1”に近いふたつの音声特徴量RDXを求めたが、コサイン類似度が“-1”から“1”までの複数の音声特徴量を求めることも可能である。
 このように、トピックベクトルの類似度が上位の参照データのうちから、コサイン類似度が直交または反対向きの参照データをユーザ10に提案するということは、似たトピックでありながら話者の声質が異なる参照コンテンツCT2を検索し、それらの声質に似た声質をユーザ10に提案することを意味する。
In the above example, two speech features RDX with cosine similarities close to "0" and "-1" are obtained, but it is also possible to obtain multiple speech features with cosine similarities ranging from "-1" to "1".
In this way, proposing to user 10 reference data with orthogonal or opposite cosine similarities from among reference data with top topic vector similarities means searching for reference content CT2 that has a similar topic but different speaker voice qualities, and proposing to user 10 voice qualities similar to those reference content CT2.

 また、ユーザ10に提案する話者の数を音声特徴量の分散によって変えることも考えられる。
 次の(数2)は、基準特徴量(最適話者の音声特徴量RDX)と、他のTTS参照データRDの音声特徴量RDXとのコサイン類似度を行列にしたものである。
It is also possible to change the number of speakers suggested to the user 10 depending on the variance of the speech features.
The following (Equation 2) is a matrix of the cosine similarity between the reference feature (the speech feature RDX of the optimal speaker) and the speech feature RDX of other TTS reference data RD.

Figure JPOXMLDOC01-appb-M000002
  
Figure JPOXMLDOC01-appb-M000002
  

 ここで、s1,iは基準特徴量とi番目の特徴量とのコサイン類似度を表す。
 この行列の分散σを(数3)に示す。μは平均値である。
Here, s1,i represents the cosine similarity between the reference feature and the i-th feature.
The variance σ 2 of this matrix is shown in Equation 3, where μ is the average value.

Figure JPOXMLDOC01-appb-M000003
Figure JPOXMLDOC01-appb-M000003

 分散を求めることで、提案された話者がひとつの音声特徴量に収束しているのか、あるいは、複数の話者にちらばっているのかの目安を得ることができる。
 ここで、nは類似度を評価するTTS参照データRDの数である。(数2)の場合は、n=9である。最初に10個のTTS参照データRD(RD#1からRD#10)を選択した場合、TTS参照データRD#1に対して、TTS参照データRD#2からRD#10の類似度を評価するので、n=9となる。
By calculating the variance, we can get an indication of whether the proposed speakers converge to a single speech feature or are spread across multiple speakers.
Here, n is the number of TTS reference data RD to be evaluated for similarity. In the case of (Equation 2), n = 9. When 10 TTS reference data RD (RD#1 to RD#10) are initially selected, the similarity of TTS reference data RD#2 to RD#10 is evaluated with respect to TTS reference data RD#1, so n = 9.

 例えば分散がゼロに近い場合には、そのトピックの話者たちの声質は、凡そ似たものである。その場合には、トピックベクトルの類似度を上位10個ではなく、類似度を評価する参照データの数を増やすことで、所望の話者の数を得やすくなる。例えば上位20個などとする。
 あるいは逆に、分散が十分大きい場合には、評価するTTS参照データRDの数は、さほど多くは必要ない。
 その様子を数式にしたものが(数4)で、分散を分母にとっている。yは評価するTTS参照データRDの数である。
For example, if the variance is close to zero, the voice qualities of the speakers of the topic are roughly similar. In that case, it is easier to obtain the desired number of speakers by increasing the number of reference data for evaluating the similarity of the topic vectors, rather than the top 10. For example, the top 20.
Conversely, if the variance is sufficiently large, the number of TTS reference data RD to be evaluated does not need to be very large.
This is expressed in the formula (4), where variance is used as the denominator. y is the number of TTS reference data RD to be evaluated.

Figure JPOXMLDOC01-appb-M000004
Figure JPOXMLDOC01-appb-M000004

 図17は(数4)をグラフ化したものである。分散の値(V)に応じて、評価する参照データの数が変わることが分る。分散がゼロに近いときには、30個のTTS参照データRDを用いて、声質のバリエーションを調べる。一方、分散が大きい場合には、10個以内のTTS参照データRDの中からバリエーションに富んだ声質を得ることができる。 Figure 17 is a graph of (Equation 4). It can be seen that the number of reference data to be evaluated changes depending on the variance value (V). When the variance is close to zero, 30 TTS reference data RD are used to examine the variation in voice quality. On the other hand, when the variance is large, a wide variety of voice qualities can be obtained from within 10 TTS reference data RD.

 以上のようにすることで、似たトピックでありながら話者の声質のバリエーションをもって複数の話者をユーザ10に提案できるが、その場合、情報端末100のディスプレイ120では例えば図18のような表示を行うことが考えられる。 By doing the above, multiple speakers with variations in the voice quality of the speakers can be suggested to the user 10 while covering similar topics. In this case, it is conceivable that the display 120 of the information terminal 100 will display, for example, the image shown in FIG. 18.

 トピックとしては「サッカー」を例に示した。図13と同様にディスプレイ120上にはテキストボックス31、話者ID32、合成開始ボタン33、再生ボタン34、参照URL35が表示される。但し、再生ボタン34、話者ID32、参照URL35は、合成音声リスト36として示される。即ちコンテンツCT1に用いる候補となる複数の話者が一覧表示される。 "Soccer" is shown as an example of a topic. As in FIG. 13, a text box 31, a speaker ID 32, a synthesis start button 33, a play button 34, and a reference URL 35 are displayed on the display 120. However, the play button 34, the speaker ID 32, and the reference URL 35 are shown as a synthetic speech list 36. In other words, a list of multiple speakers who are candidates for use in the content CT1 is displayed.

 合成音声リスト36には、トピックベクトルのコサイン類似度の高い順に、話者が上から表示される。かつ上述したように、これらの各話者は、最適話者、直交話者、逆向き話者を含む、声質の異なる話者である。
 各話者については、テキストボックス31に入力されたテキスト情報のトピックに一致する「サッカー」のトピックであり、話者IDを選ぶ際に、変化に富んだ声質の話者が出演する参照コンテンツCT2へのリンクが参照URL35として表示される。
The speakers are displayed in the synthetic speech list 36 in descending order of cosine similarity of the topic vectors. As described above, each of these speakers has a different voice quality, including an optimal speaker, an orthogonal speaker, and an opposite speaker.
For each speaker, the topic is "soccer" which matches the topic of the text information entered in the text box 31, and when a speaker ID is selected, a link to reference content CT2 featuring speakers with a variety of voice qualities is displayed as a reference URL 35.

 例えば図18の例では、5つの話者が提示されており、ユーザ10は再生ボタン34でそれぞれの話者の声を再生させることができる。またユーザ10は参照URL35の操作で、その話者IDを選択するために参照した参照コンテンツCT2の声を確認することができる。 For example, in the example of FIG. 18, five speakers are presented, and the user 10 can play back the voice of each speaker by pressing the play button 34. The user 10 can also check the voice of the reference content CT2 that was referenced to select that speaker ID by operating the reference URL 35.

 ここで1つのコンテンツCT1に対して複数の話者候補を提案することの利点を考える。
 例えば小学生向けのオンライン授業のような動画コンテンツに本技術を応用する場合を想定する。
Here, the advantage of proposing multiple speaker candidates for one piece of content CT1 will be considered.
For example, consider the case where this technology is applied to video content such as online lessons for elementary school students.

 国語、算数、理科、社会などの教科がある場合、これらの4教科のテキストデータTDをまとめてトピック分析するのではなく、教科毎にトピック分析することで、それぞれの教師らしい声を得ることができる。
 テキストデータTDのトピックベクトルだけで考慮した場合、例えば国語と社会の教師の声が似ていることもある。ユーザ10としては、単調となることを避けるために、各教科の話者を変えたいと考えることもあり得る。
In the case of subjects such as Japanese, arithmetic, science, and social studies, instead of conducting a topic analysis on the text data TD of these four subjects together, a topic analysis can be performed on each subject, thereby obtaining a voice that is characteristic of each teacher.
When only the topic vectors of the text data TD are considered, for example, the voices of teachers of Japanese and social studies may be similar, and the user 10 may want to change the speaker for each subject to avoid monotony.

 そのような場合には、国語、社会のトピックベクトルTVによるトピック検索を行い、コサイン類似度上位の参照データの中から、直交話者、逆向き話者を選ぶことで、似た声の重複を避けることができる。 In such cases, a topic search is performed using the Japanese language and social studies topic vector TV, and orthogonal speakers and reverse speakers are selected from the reference data with the highest cosine similarity, thereby avoiding duplication of similar voices.

 また長い文章を自動的に複数のトピックに分割し、話者を変えることも考えられる。
 例えば国語の動画コンテンツであっても、単元が、「小説」「評論」「詩」など様々なトピックがある。例えば「詩」などは感情豊かに読んで欲しい。
 このような場合には、文章の段落単位でのトピック分析を行うことで、あるひとつのまとまりで話者を提案することが可能となる。文章の段落の検出手法としては、インデントや空白行を検出することで行うことができる。
It is also possible to automatically split long pieces of text into multiple topics and change the speaker.
For example, even in the case of video content for Japanese language classes, there are various topics such as "novels,""criticisms," and "poetry." For example, I would like students to read "poetry" with emotion.
In such cases, it is possible to suggest speakers as a group by performing topic analysis on a paragraph-by-paragraph basis. Paragraph detection can be done by detecting indents and blank lines.

<9.情報処理装置の構成>
 以上のTTS話者提案システム1における音声合成サーバ200、コンテンツ解析サーバ300、データベース400、情報端末100として用いることのできる情報処理装置70の構成例を図19で説明する。
 情報処理装置70は、例えば専用のワークステーションや、汎用のパーソナルコンピュータ、モバイル端末装置等として構成することができる。
9. Configuration of information processing device
An example of the configuration of an information processing device 70 that can be used as the speech synthesis server 200, the content analysis server 300, the database 400, and the information terminal 100 in the above-mentioned TTS speaker suggestion system 1 will be described with reference to FIG.
The information processing device 70 can be configured as, for example, a dedicated workstation, a general-purpose personal computer, a mobile terminal device, or the like.

 図19に示す情報処理装置70のCPU71は、ROM72や例えばEEP-ROM(Electrically Erasable Programmable Read-Only Memory)などの不揮発性メモリ部74に記憶されているプログラム、または記憶部79からRAM73にロードされたプログラムに従って各種の処理を実行する。RAM73にはまた、CPU71が各種の処理を実行する上において必要なデータなども適宜記憶される。
 CPU71において、プログラムによって、図2,図3,図4,図5における各種の制御・演算を行う機能が実現される。
19 executes various processes according to programs stored in a ROM 72 or a non-volatile memory unit 74 such as an EEPROM (Electrically Erasable Programmable Read-Only Memory), or programs loaded from a storage unit 79 to a RAM 73. The RAM 73 also stores data necessary for the CPU 71 to execute various processes, as appropriate.
In the CPU 71, the functions of carrying out various controls and calculations shown in FIGS. 2, 3, 4 and 5 are realized by programs.

 なおCPU71とは別のプロセッサとして、GPU(Graphics Processing Unit)、GPGPU(General-purpose computing on graphics processing units)、AI(artificial intelligence)プロセッサ等を備える場合もある。 In addition, processors other than the CPU 71 may include a GPU (Graphics Processing Unit), a GPGPU (General-purpose computing on graphics processing units), an AI (artificial intelligence) processor, etc.

 CPU71、ROM72、RAM73、不揮発性メモリ部74は、バス83を介して相互に接続されている。このバス83にはまた、入出力インタフェース75も接続されている。 The CPU 71, ROM 72, RAM 73, and non-volatile memory unit 74 are interconnected via a bus 83. The input/output interface 75 is also connected to this bus 83.

 入出力インタフェース75には、操作子や操作デバイスよりなる入力部76が接続される。例えば入力部76としては、キーボード、マウス、キー、ダイヤル、タッチパネル、タッチパッド、リモートコントローラ等の各種の操作子や操作デバイスが想定される。
 入力部76によりユーザ10の操作が検知され、入力された操作に応じた信号はCPU71によって解釈される。
An input unit 76 including an operator or an operating device is connected to the input/output interface 75. For example, the input unit 76 may be various operators or operating devices such as a keyboard, a mouse, a key, a dial, a touch panel, a touch pad, or a remote controller.
An operation by the user 10 is detected by the input unit 76 , and a signal corresponding to the input operation is interpreted by the CPU 71 .

 また入出力インタフェース75には、LCD(Liquid Crystal Display)或いは有機EL(Electro-Luminescence)パネルなどよりなる表示部77や、スピーカなどよりなる音声出力部78が一体又は別体として接続される。 The input/output interface 75 is also connected, either integrally or separately, to a display unit 77 such as an LCD (Liquid Crystal Display) or an organic EL (Electro-Luminescence) panel, and an audio output unit 78 such as a speaker.

 表示部77はユーザインタフェースとして各種表示を行う。表示部77は例えば情報処理装置70の筐体に設けられるディスプレイデバイスや、情報処理装置70に接続される別体のディスプレイデバイス等により構成される。
 表示部77は、CPU71の指示に基づいて表示画面上に各種の画像表示を実行する。また表示部77はCPU71の指示に基づいて、各種操作メニュー、アイコン、メッセージ等、即ちGUI(Graphical User Interface)としての表示を行う。
The display unit 77 performs various displays as a user interface. The display unit 77 is, for example, a display device provided in the housing of the information processing device 70, or a separate display device connected to the information processing device 70.
The display unit 77 executes various image displays on the display screen based on instructions from the CPU 71. The display unit 77 also displays various operation menus, icons, messages, etc., that is, GUIs (Graphical User Interfaces), based on instructions from the CPU 71.

 入出力インタフェース75には、SSD(Solid State Drive)やHDD(Hard Disk Drive)などより構成される記憶部79や、モデムなどより構成される通信部80が接続される場合もある。
 記憶部79は各種データのストレージに用いることができる。また記憶部79においてデータベースを構築することができる。
 例えば音声合成サーバ200の保有話者データ部240、コンテンツ解析サーバ300のストレージ部340、データベース400のストレージ部410等は記憶部79を使用して構成できる。
The input/output interface 75 may be connected to a storage unit 79 configured with a solid state drive (SSD) or a hard disk drive (HDD) or a communication unit 80 configured with a modem or the like.
The storage unit 79 can be used to store various data, and a database can be constructed in the storage unit 79.
For example, the retained speaker data unit 240 of the speech synthesis server 200 , the storage unit 340 of the content analysis server 300 , the storage unit 410 of the database 400 , etc. can be configured using the storage unit 79 .

 通信部80は、ネットワーク600を介した通信処理を行う。
 例えば情報端末100のネットワーク通信部150、音声合成サーバ200のネットワーク通信部260、コンテンツ解析サーバ300のネットワーク通信部370、データベース400のネットワーク通信部440は通信部80を使用して構成できる。
The communication unit 80 performs communication processing via the network 600 .
For example, the network communication unit 150 of the information terminal 100 , the network communication unit 260 of the voice synthesis server 200 , the network communication unit 370 of the content analysis server 300 , and the network communication unit 440 of the database 400 can be configured using the communication unit 80 .

 入出力インタフェース75にはまた、必要に応じてドライブ82が接続され、フラッシュメモリ、メモリカード、磁気ディスク、光ディスク、光磁気ディスクなどのリムーバブル記録媒体81が適宜装着される。
 ドライブ82により、リムーバブル記録媒体81からは画像ファイル等のデータファイルや、各種のコンピュータプログラムなどを読み出すことができる。読み出されたデータファイルは記憶部79に記憶されたり、データファイルに含まれる画像や音声が表示部77や音声出力部78で出力されたりする。またリムーバブル記録媒体81から読み出されたコンピュータプログラム等は必要に応じて記憶部79にインストールされる。
A drive 82 is also connected to the input/output interface 75 as required, and a removable recording medium 81 such as a flash memory, a memory card, a magnetic disk, an optical disk, or a magneto-optical disk is appropriately attached thereto.
The drive 82 allows data files such as image files and various computer programs to be read from the removable recording medium 81. The read data files are stored in the storage unit 79, and images and sounds contained in the data files are output on the display unit 77 and the sound output unit 78. In addition, the computer programs and the like read from the removable recording medium 81 are installed in the storage unit 79 as necessary.

 この情報処理装置70では、ソフトウェアを、通信部80によるネットワーク通信やリムーバブル記録媒体81を介してインストールすることができる。或いは当該ソフトウェアは予めROM72や記憶部79等に記憶されていてもよい。 In this information processing device 70, software can be installed via network communication by the communication unit 80 or via a removable recording medium 81. Alternatively, the software may be pre-stored in the ROM 72, the storage unit 79, etc.

 このような情報処理装置70により、情報端末100、音声合成サーバ200、コンテンツ解析サーバ300、データベース400を構成することができる。そして、情報端末100としての図2の構成、音声合成サーバ200としての図3の構成、コンテンツ解析サーバ300としての図4の構成、データベース400としての図5の構成は、図19の情報処理装置70のハードウェア構成と、それにインストールされたソフトウェアにより実現可能である。
The information terminal 100, the voice synthesis server 200, the content analysis server 300, and the database 400 can be configured by using such an information processing device 70. The configuration of the information terminal 100 in Fig. 2, the configuration of the voice synthesis server 200 in Fig. 3, the configuration of the content analysis server 300 in Fig. 4, and the configuration of the database 400 in Fig. 5 can be realized by the hardware configuration of the information processing device 70 in Fig. 19 and software installed therein.

<10.まとめ及び変形例>
 以上の実施の形態では次のような効果が得られる。
10. Summary and Modifications
The above embodiment provides the following advantages.

 実施の形態の音声合成サーバ200は、複数の話者データのうちで、テキストデータTDのトピックに基づいた検索を行って話者データを選択する話者検索部230と、話者検索部230で選択された話者データによりテキストデータTDの合成音声を生成する音声合成部250を備える(図3参照)。
 即ちテキストデータTDの内容としてのトピック(話題やそのジャンル)に応じた声質の話者データが選択されるようにし、その話者データでテキストデータTDの読み上げ音声が合成されるようにする。これにより、テキストデータTDに対して、むやみに各種の声質の合成音声データADを提供するのではなく、そのコンテンツCT1のテキストデータTDのトピックに合致した声質の話者データによる合成音声データADをユーザ10に提供することができる。
The speech synthesis server 200 of the embodiment includes a speaker search unit 230 that selects speaker data from among a plurality of speaker data by performing a search based on the topic of the text data TD, and a speech synthesis unit 250 that generates synthetic speech of the text data TD using the speaker data selected by the speaker search unit 230 (see FIG. 3).
That is, speaker data with a voice quality corresponding to the topic (topic or genre) of the content of the text data TD is selected, and the reading voice of the text data TD is synthesized using the speaker data. This makes it possible to provide the user 10 with synthetic voice data AD using speaker data with a voice quality that matches the topic of the text data TD of the content CT1, rather than providing synthetic voice data AD with various voice qualities for the text data TD indiscriminately.

 実施の形態の音声合成サーバ200は、話者検索部230が、テキストデータTDのトピックに基づいて選択されたTTS参照データRDを取得し、TTS参照データRDで示される音声の特徴と話者データの音声の特徴の類似度に基づいて複数の話者データのうちで話者データを選択する例を挙げた(図11参照)。
 TTS参照データRDを取得することで、テキストデータTDのトピックに合っていると一般的にイメージされる音声特徴量RDXの情報を得ることができる。従って、音声合成サーバ200は、保有話者データ部240に保有する話者データのうちで処理対象のテキストデータTDのトピックに適切な話者データを選択することができる。
In the embodiment of the speech synthesis server 200, the speaker search unit 230 acquires TTS reference data RD selected based on the topic of the text data TD, and selects speaker data from among multiple speaker data based on the similarity between the voice features indicated in the TTS reference data RD and the voice features of the speaker data (see FIG. 11).
By acquiring the TTS reference data RD, it is possible to obtain information on speech features RDX that are generally considered to match the topic of the text data TD. Therefore, the speech synthesis server 200 can select speaker data appropriate for the topic of the text data TD to be processed from the speaker data held in the held speaker data section 240.

 実施の形態の音声合成サーバ200は、参照データ取得部220により、テキストデータTDを外部のデータベース400に送信し、データベース400からTTS参照データRDを受信するものとした(図6、図11参照)。
 TTS参照データRDをデータベース400から取得することで、音声合成サーバ200が多数のTTS参照データRDを保存しておく必要はない。そして音声合成サーバ200は、処理対象のテキストデータTDに応じたTTS参照データRDの音声特徴量RDXに基づいて、保有する話者データのうちで適切な話者データを選択することができる。つまり、TTS参照データRDの保存、追加、管理等の処理を行わずに、音声合成サーバ200が保存する話者データの中で適切な話者データを選択できる。
The voice synthesis server 200 of the embodiment transmits text data TD to an external database 400 and receives TTS reference data RD from the database 400 via the reference data acquisition unit 220 (see FIGS. 6 and 11).
By acquiring the TTS reference data RD from the database 400, the speech synthesis server 200 does not need to store a large number of TTS reference data RD. The speech synthesis server 200 can select appropriate speaker data from among the speaker data held by the server 200 based on the speech feature value RDX of the TTS reference data RD corresponding to the text data TD to be processed. In other words, the speech synthesis server 200 can select appropriate speaker data from among the speaker data stored therein without performing processes such as storing, adding, and managing the TTS reference data RD.

 実施の形態では、TTS参照データRDは、参照コンテンツCT2のトピックの分類の指標(類似・非類似の判定の指標)となるトピックベクトルRDTを含むものとした(図5参照)。
 これによりデータベース400はTTS参照データRDのトピックベクトルRDTと、音声合成サーバ200から受信した処理対象のテキストデータTDのトピックベクトルTVとを比較して、テキストデータTDのトピックに応じたTTS参照データRDを選択することができる。従って処理対象のテキストデータTDのトピックに適したTTS参照データRDを選択できる。
In this embodiment, the TTS reference data RD includes a topic vector RDT that serves as an index for classifying the topics of the reference content CT2 (an index for determining similarity/dissimilarity) (see FIG. 5).
This allows the database 400 to compare the topic vector RDT of the TTS reference data RD with the topic vector TV of the text data TD to be processed received from the speech synthesis server 200, and select the TTS reference data RD according to the topic of the text data TD. Therefore, it is possible to select the TTS reference data RD that is suitable for the topic of the text data TD to be processed.

 またTTS参照データRDは、参照コンテンツCT2の音声データの特徴量抽出により得られる音声特徴量を含むものとした(図5参照)。
 TTS参照データRDに音声特徴量RDXが含まれることで、音声合成サーバ200は、音声特徴量RDXに類似する声質の話者データを選択でき、これはテキストデータTDのトピックに合致した声質の話者データとなる。
The TTS reference data RD includes speech features obtained by extracting features from the speech data of the reference content CT2 (see FIG. 5).
By including the speech feature RDX in the TTS reference data RD, the speech synthesis server 200 can select speaker data with a voice quality similar to the speech feature RDX, which becomes speaker data with a voice quality that matches the topic of the text data TD.

 またTTS参照データRDは、その作成のために用いた参照コンテンツCT2を示す情報を含むものとした(図5参照)。例えば参照コンテンツCT2を示す情報としてコンテンツのURL(RDU)を含む。
 これにより図13や図18のように、ユーザ10に参照コンテンツCT2を視聴可能とするユーザインタフェースが可能となる。ユーザ10は、音声合成サーバ200による合成音声が、どのような参照コンテンツCT2に基づいて選択されかを知ることで、コンテンツ制作の参考とすることができる。
The TTS reference data RD also includes information indicating the reference content CT2 used to create the TTS reference data RD (see FIG. 5). For example, the information indicating the reference content CT2 includes the URL (RDU) of the content.
This enables a user interface that allows the user 10 to view the reference content CT2, as shown in Figures 13 and 18. The user 10 can use the information about the reference content CT2 on which the synthesized voice by the voice synthesis server 200 is selected as a reference for content production.

 実施の形態の音声合成サーバ200は、話者検索部230が選択した話者データの情報と、音声合成部250が生成した合成音声を前記テキストデータの送信元の情報端末100に送信する処理を行うネットワーク通信部260を備えている(図3参照)。
 図11で説明したように、音声合成サーバ200はネットワーク通信部260により話者IDや合成音声データADを情報端末100に送信する。これにより図13や図18のような表示画面で、ユーザ10にコンテンツCT1に合った合成音声を提案するという形のサービスを行うことができる。
The voice synthesis server 200 of the embodiment is equipped with a network communication unit 260 that performs processing to transmit information on the speaker data selected by the speaker search unit 230 and the synthetic voice generated by the voice synthesis unit 250 to the information terminal 100 that is the source of the text data (see Figure 3).
11, the voice synthesis server 200 transmits the speaker ID and the synthetic voice data AD to the information terminal 100 via the network communication unit 260. This makes it possible to provide a service in which synthetic voice suited to the content CT1 is suggested to the user 10 on a display screen such as that shown in FIG.

 実施の形態の音声合成サーバ200は、ネットワーク通信部260は、TTS参照データRDに含まれている、参照コンテンツCT2に関する情報をテキストデータTDの送信元の情報端末100に送信する処理を行うものとした(図11参照)。
 これにより図13や図18のような表示画面で参照URL35を表示させ、ユーザ10に参照コンテンツCT2を視聴させる導線を提供できる。
In the embodiment of the speech synthesis server 200, the network communication unit 260 performs a process of transmitting information about the reference content CT2 contained in the TTS reference data RD to the information terminal 100 that is the source of the text data TD (see FIG. 11).
This allows the reference URL 35 to be displayed on a display screen such as that shown in FIG. 13 or FIG. 18, providing a path for the user 10 to view the reference content CT2.

 実施の形態では、音声合成サーバ200の話者検索部230が、テキストデータTDのトピックに基づいて選択された複数のTTS参照データRDのそれぞれについて、TTS参照データRDで示される音声の特徴と、保存する話者データの音声の特徴の類似度に基づいて話者データを選択する例を挙げた。
 音声合成サーバ200は、複数のTTS参照データRD(例えば図16のTTS参照データRD#1、RD#x、RD#y)を取得することで、テキストデータTDのトピックに合っている音声特徴量RDXの情報を複数得ることができる。従って、音声合成サーバ200は、保有話者データ部240に保有する話者データのうちで、それぞれのTTS参照データRD#1、RD#x、RD#yに基づいて話者データを選択することで、コンテンツCT1のトピックに合った複数の話者データを選択し、ユーザ10にそれぞれの声質を提案できる。
In the embodiment, an example is given in which the speaker search unit 230 of the speech synthesis server 200 selects speaker data for each of multiple TTS reference data RD selected based on the topic of the text data TD, based on the similarity between the speech features indicated in the TTS reference data RD and the speech features of the speaker data to be stored.
The speech synthesis server 200 can obtain a plurality of pieces of information on speech features RDX that match the topic of the text data TD by acquiring a plurality of TTS reference data RD (for example, TTS reference data RD#1, RD#x, RD#y in FIG. 16). Therefore, the speech synthesis server 200 can select speaker data based on each of the TTS reference data RD#1, RD#x, RD#y from the speaker data held in the held speaker data section 240, thereby selecting a plurality of speaker data that match the topic of the content CT1 and proposing the voice quality of each to the user 10.

 実施の形態では、ネットワーク通信部260が、複数のTTS参照データRDに基づいて選択された話者データの情報を、情報端末100において一覧表示される情報として送信する例を挙げた。
 例えば図18の合成音声リスト36として話者ID32等が一覧表示されるようにする。これによりユーザ10はコンテンツCT1のトピックに合ったという条件の中で候補とされた複数の声質の音声を試聴できる。
In the embodiment, an example has been given in which the network communication unit 260 transmits information on speaker data selected based on a plurality of TTS reference data RD as information displayed in a list on the information terminal 100 .
For example, speaker IDs 32 and the like may be displayed as a list in the synthetic speech list 36 of Fig. 18. This allows the user 10 to preview a number of voice qualities that are selected as candidates based on whether they match the topic of the content CT1.

 そのような複数のTTS参照データRDは、テキストデータTDのトピックとの類似度の高い順に選択された複数のTTS参照データRDのうちからさらに選択された参照データであるとした。そして元となった参照コンテンツCT2のトピックが、テキストデータTDのトピックと最も高い類似度とされた第1の参照データと、第1の参照データとの類似度評価に基づいて選択された1又は複数の第2の参照データを含む例を挙げた。
 例えば図16のように複数のTTS参照データRD(RD#1からRD#10)を選択する。その中で最も高い類似度とされた第1の参照データ(TTS参照データRD#1)と、1又は複数の第2の参照データ(TTS参照データRD#x、RD#y)を選択する。これにより類似度評価の方式により、トピックに合致しつつ、多様な声質のTTS参照データRDを選択できる。
Such a plurality of TTS reference data RD are reference data further selected from the plurality of TTS reference data RD selected in descending order of similarity to the topic of the text data TD. An example is given in which the topic of the original reference content CT2 includes a first reference data having the highest similarity to the topic of the text data TD and one or more second reference data selected based on the similarity evaluation of the first reference data.
For example, multiple TTS reference data RD (RD#1 to RD#10) are selected as shown in Fig. 16. Among them, the first reference data (TTS reference data RD#1) that is determined to have the highest similarity and one or more second reference data (TTS reference data RD#x, RD#y) are selected. This makes it possible to select TTS reference data RD with various voice qualities that match the topic by using a similarity evaluation method.

 また、この場合の第2の参照データは、第1の参照データの音声特徴量を基準としてコサイン類似度が直交または反対向きであると類似度評価された参照データであるとした。
 これにより、複数のTTS参照データRD#1、RD#x、RD#yは互いに似ていない声質の音声特徴量RDXを持つものとなる。従って音声合成サーバ200はこれらに基づいて声質の異なるバリエーションとして話者データをユーザ10に提供できる。
In this case, the second reference data is reference data whose similarity is evaluated as being orthogonal or opposite in cosine similarity with respect to the speech feature of the first reference data.
As a result, the plurality of TTS reference data RD#1, RD#x, RD#y have speech features RDX with voice qualities that are dissimilar to each other, and the speech synthesis server 200 can provide the user 10 with speaker data with variations of different voice qualities based on these.

 また、テキストデータTDのトピックとの類似度の高い順に選択された複数の参照データの数は、音声特徴量の分散に応じて設定されたものとした(図16,図17等参照)。
 これにより、最初に類似度の高い順に選択された複数のTTS参照データRDが、おおむね似通った声質の場合は、数を多くして分散を大きくし、類似度評価に基づいて選択されるTTS参照データRD#x,RD#yが、TTS参照データRD#1と似た声質とならないようにすることができる。つまり分散に応じてTTS参照データRDの選択の母数が制御されることで、最終的にユーザ10に提案される声質のバリエーションを広くする状態を維持できる。
The number of the multiple reference data selected in descending order of similarity to the topic of the text data TD is set according to the variance of the speech features (see, for example, FIGS. 16 and 17).
In this way, if the multiple TTS reference data RD initially selected in descending order of similarity have roughly similar voice qualities, the number is increased to increase the variance, so that the TTS reference data RD#x, RD#y selected based on the similarity evaluation do not have a voice quality similar to that of the TTS reference data RD#1. In other words, by controlling the parameter for selecting TTS reference data RD according to the variance, a wide variety of voice qualities can be maintained in the end proposed to the user 10.

 実施の形態のTTS話者提案システム1は、参照コンテンツCT2を解析してトピックに関する情報と音声の特徴に関する情報を含むTTS参照データRDを生成するコンテンツ解析装置(コンテンツ解析サーバ300)を備える。またTTS話者提案システム1は、コンテンツ解析サーバ300が生成したTTS参照データRDを記憶するとともに、テキストデータTDのトピックに基づいてTTS参照データRDを選択するデータベース400を備える。さらに音声合成装置として、上述してきたように話者検索部230と音声合成部250を備える音声合成サーバ200を備える。
 このTTS話者提案システム1では、コンテンツ解析サーバ300とデータベース400により、各種の参照コンテンツCT2に基づいてTTS参照データRDが生成、蓄積されていく。音声合成サーバ200はそのような情報資源を用いて、情報端末100から受信したテキストデータTDに合致する合成音声を提供できることになる。TTS参照データRDの質や量が充実するほど、音声合成サーバ200は、よりテキストデータTDに合致した声質の合成音声をユーザ10に提供できるようになる。
The TTS speaker suggestion system 1 of the embodiment includes a content analysis device (content analysis server 300) that analyzes reference content CT2 to generate TTS reference data RD including information on topics and information on speech features. The TTS speaker suggestion system 1 also includes a database 400 that stores the TTS reference data RD generated by the content analysis server 300 and selects the TTS reference data RD based on the topic of text data TD. The system further includes a speech synthesis device, a speech synthesis server 200 that includes a speaker search unit 230 and a speech synthesis unit 250 as described above.
In this TTS speaker suggestion system 1, the content analysis server 300 and the database 400 generate and accumulate TTS reference data RD based on various reference content CT2. The voice synthesis server 200 can use such information resources to provide synthetic voice that matches the text data TD received from the information terminal 100. The more the quality and quantity of the TTS reference data RD is improved, the more the voice synthesis server 200 can provide the user 10 with synthetic voice whose voice quality matches the text data TD.

 実施の形態のプログラムは、図11のような処理を、例えばCPU、DSP(digital signal processor)、AIプロセッサ等、或いはこれらを含む情報処理装置70に実行させるプログラムである。
 即ち実施の形態のプログラムは、複数の話者データのうちで、テキストデータTDのトピックに基づいた検索を行って話者データを選択する話者検索処理と、話者検索処理で選択された話者データによりテキストデータTDの合成音声を生成する音声合成処理とを情報処理装置に実行させるプログラムである。
The program of the embodiment is a program that causes, for example, a CPU, a DSP (digital signal processor), an AI processor, or an information processing device 70 including these to execute the process shown in FIG.
In other words, the program of the embodiment is a program that causes an information processing device to execute a speaker search process that selects speaker data from a plurality of speaker data by searching based on the topic of the text data TD, and a voice synthesis process that generates synthetic voice of the text data TD using the speaker data selected in the speaker search process.

 このようなプログラムにより、実施の形態の音声合成サーバ200としての情報処理装置を、例えばコンピュータ装置、携帯端末装置、その他の情報処理が実行できる機器において実現できる。 With such a program, an information processing device serving as the voice synthesis server 200 of the embodiment can be realized in, for example, a computer device, a mobile terminal device, or other device capable of performing information processing.

 このようなプログラムは、コンピュータ装置等の機器に内蔵されている記録媒体としてのHDDや、CPUを有するマイクロコンピュータ内のROM等に予め記録しておくことができる。
 あるいはまたプログラムは、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory)、MO(Magneto Optical)ディスク、DVD(Digital Versatile Disc)、ブルーレイディスク(Blu-ray Disc(登録商標))、磁気ディスク、半導体メモリ、メモリカードなどのリムーバブル記録媒体に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウェアとして提供することができる。
 また、このようなプログラムは、リムーバブル記録媒体からパーソナルコンピュータ等にインストールする他、ダウンロードサイトから、LAN(Local Area Network)、インターネットなどのネットワークを介してダウンロードすることもできる。
Such a program can be recorded in advance in a HDD serving as a recording medium built into a device such as a computer device, or in a ROM within a microcomputer having a CPU.
Alternatively, the program may be temporarily or permanently stored (recorded) on a removable recording medium such as a flexible disk, a CD-ROM (Compact Disc Read Only Memory), an MO (Magneto Optical) disk, a DVD (Digital Versatile Disc), a Blu-ray Disc (registered trademark), a magnetic disk, a semiconductor memory, a memory card, etc. Such removable recording media may be provided as so-called package software.
Furthermore, such a program can be installed in a personal computer or the like from a removable recording medium, or can be downloaded from a download site via a network such as a LAN (Local Area Network) or the Internet.

 またこのようなプログラムによれば、実施の形態の音声合成サーバ200を構成する情報処理装置70の広範な提供に適している。例えばスマートフォンやタブレット等の携帯端末装置、撮像装置、携帯電話機、パーソナルコンピュータ、ゲーム機器、ビデオ機器、PDA(Personal Digital Assistant)等にプログラムをダウンロードすることで、これらの機器を、本開示の音声合成サーバ200として機能する情報処理装置70とすることができる。 Furthermore, such a program is suitable for the widespread provision of information processing devices 70 that constitute the voice synthesis server 200 of the embodiment. For example, by downloading the program to mobile terminal devices such as smartphones and tablets, imaging devices, mobile phones, personal computers, game devices, video devices, PDAs (Personal Digital Assistants), etc., these devices can be made into information processing devices 70 that function as the voice synthesis server 200 of the present disclosure.

 なお、本明細書に記載された効果はあくまでも例示であって限定されるものではなく、また他の効果があってもよい。 Note that the effects described in this specification are merely examples and are not limiting, and other effects may also be present.

 なお本技術は以下のような構成も採ることができる。
 (1)
 複数の話者データのうちで、テキストデータのトピックに基づいた検索を行って話者データを選択する話者検索部と、
 前記話者検索部で選択された話者データにより前記テキストデータの合成音声データを生成する音声合成部と、を備えた
 情報処理装置。
 (2)
 前記話者検索部は、前記テキストデータのトピックに基づいて選択された参照データを取得し、前記参照データで示される音声の特徴と話者データの音声の特徴の類似度に基づいて複数の話者データのうちで話者データを選択する
 上記(1)に記載の情報処理装置。
 (3)
 前記テキストデータを外部のデータベースに送信し、前記データベースから前記参照データを受信する
 上記(2)に記載の情報処理装置。
 (4)
 前記参照データは、
 参照データ作成のために用いた参照コンテンツのトピックの分類の指標となるトピックベクトルを含む
 上記(2)又は(3)に記載の情報処理装置。
 (5)
 前記参照データは、
 参照データ作成のために用いた参照コンテンツの音声データの特徴量抽出により得られる音声特徴量を含む
 上記(2)から(4)のいずれかに記載の情報処理装置。
 (6)
 前記参照データは、
 参照データ作成のために用いた参照コンテンツを示す情報を含む
 上記(2)から(5)のいずれかに記載の情報処理装置。
 (7)
 前記話者検索部が選択した話者データの情報と、前記音声合成部が生成した合成音声データを前記テキストデータの送信元の情報端末に送信する処理を行う通信部を備えた
 上記(1)から(6)のいずれかに記載の情報処理装置。
 (8)
 前記話者検索部は、前記テキストデータのトピックに基づいて選択された参照データを取得し、前記参照データで示される音声の特徴と話者データの音声の特徴の類似度に基づいて複数の話者データのうち話者データを選択し、
 前記通信部は、前記参照データに含まれている、前記参照データ作成のために用いた参照コンテンツに関する情報を前記テキストデータの送信元の情報端末に送信する処理を行う
 上記(7)に記載の情報処理装置。
 (9)
 前記話者検索部は、前記テキストデータのトピックに基づいて選択された複数の参照データのそれぞれについて、前記参照データで示される音声の特徴と、話者データの音声の特徴の類似度に基づいて話者データを選択する
 上記(1)から(8)のいずれかに記載の情報処理装置。
 (10)
 前記話者検索部が選択した話者データの情報と、前記音声合成部が生成した合成音声を前記テキストデータの送信元の情報端末に送信する処理を行う通信部を備え、
 複数の前記参照データに基づいて選択された話者データの情報は、前記情報端末において一覧表示される情報として送信される
 上記(9)に記載の情報処理装置。
 (11)
 前記複数の参照データは、
 前記テキストデータのトピックとの類似度の高い順に選択された複数の参照データのうちからさらに選択された参照データであり、
 元となった参照コンテンツのトピックが、前記テキストデータのトピックと最も高い類似度とされた第1の参照データと、
 前記第1の参照データとの類似度評価に基づいて選択された1又は複数の第2の参照データを含む
 上記(9)又は(10)に記載の情報処理装置。
 (12)
 前記第2の参照データは、前記第1の参照データの音声特徴量を基準としてコサイン類似度が直交または反対向きであると類似度評価された参照データである
 上記(11)に記載の情報処理装置。
 (13)
 前記テキストデータのトピックとの類似度の高い順に選択された複数の参照データの数は、音声特徴量の分散に応じて設定されたものである
 上記(11)又は(12)に記載の情報処理装置。
 (14)
 複数の話者データのうちで、テキストデータのトピックに基づいた検索を行って話者データを選択する話者検索処理と、
 前記話者検索処理で選択された話者データにより前記テキストデータの合成音声を生成する音声合成処理と、
 を情報処理装置が実行する情報処理方法。
 (15)
 複数の話者データのうちで、テキストデータのトピックに基づいた検索を行って話者データを選択する話者検索処理と、
 前記話者検索処理で選択された話者データにより前記テキストデータの合成音声を生成する音声合成処理と、
 を情報処理装置に実行させるプログラム。
 (16)
 参照コンテンツを解析してトピックに関する情報と音声の特徴に関する情報を含む参照データを生成するコンテンツ解析装置と、
 前記コンテンツ解析装置が生成した前記参照データを記憶するとともに、テキストデータのトピックに基づいて参照データを選択するデータベースと、
 音声合成装置と、
 を備え、
 前記音声合成装置は、
 テキストデータのトピックに基づいて前記データベースで選択された参照データを取得し、前記参照データで示される音声の特徴と話者データの音声の特徴の類似度に基づいて複数の話者データのうちで話者データを選択する話者検索部と、
 前記話者検索部で選択された話者データにより前記テキストデータの合成音声データを生成する音声合成部と、を備える
 情報処理システム。
The present technology can also be configured as follows.
(1)
a speaker search unit that selects speaker data from among the plurality of speaker data by performing a search based on a topic of the text data;
a voice synthesis unit that generates synthetic voice data of the text data using speaker data selected by the speaker search unit.
(2)
The information processing device described in (1) above, wherein the speaker search unit acquires reference data selected based on a topic of the text data, and selects speaker data from among multiple speaker data based on a similarity between voice features indicated in the reference data and voice features of the speaker data.
(3)
The information processing device according to (2) above, further comprising: transmitting the text data to an external database; and receiving the reference data from the database.
(4)
The reference data is
The information processing device according to (2) or (3) above, including a topic vector that is an index for classifying topics of the reference content used to create the reference data.
(5)
The reference data is
The information processing device according to any one of (2) to (4) above, including audio features obtained by extracting features of audio data of reference content used to create the reference data.
(6)
The reference data is
The information processing device according to any one of (2) to (5) above, further comprising information indicating reference content used to create the reference data.
(7)
The information processing device according to any one of (1) to (6) above, further comprising a communication unit that performs processing to transmit information on the speaker data selected by the speaker search unit and synthetic voice data generated by the voice synthesis unit to an information terminal that is a source of the text data.
(8)
the speaker search unit acquires reference data selected based on a topic of the text data, and selects speaker data from among a plurality of speaker data based on a similarity between a voice feature indicated in the reference data and a voice feature of the speaker data;
The information processing device according to (7) above, wherein the communication unit performs a process of transmitting information regarding reference content used to create the reference data, which is included in the reference data, to an information terminal that is a source of the text data.
(9)
The information processing device according to any one of (1) to (8) above, wherein the speaker search unit selects speaker data for each of a plurality of reference data selected based on a topic of the text data, based on a similarity between voice characteristics indicated in the reference data and voice characteristics of the speaker data.
(10)
a communication unit that performs processing to transmit information on the speaker data selected by the speaker search unit and the synthetic voice generated by the voice synthesis unit to an information terminal that is a source of the text data;
The information processing device according to (9) above, wherein information on the speaker data selected based on the plurality of reference data is transmitted as information displayed as a list on the information terminal.
(11)
The plurality of reference data includes
a piece of reference data further selected from a plurality of pieces of reference data selected in descending order of similarity to a topic of the text data;
a first reference data in which a topic of the original reference content has a highest similarity to a topic of the text data;
The information processing device according to (9) or (10) above, further comprising one or more second reference data selected based on a similarity evaluation with the first reference data.
(12)
The information processing device according to (11) above, wherein the second reference data is reference data whose similarity is evaluated as being orthogonal or opposite in cosine similarity based on the speech feature of the first reference data.
(13)
The information processing device according to (11) or (12), wherein the number of the multiple reference data selected in order of similarity to the topic of the text data is set according to the variance of the speech features.
(14)
a speaker search process for selecting speaker data from among a plurality of speaker data by searching based on a topic of the text data;
a speech synthesis process for generating synthetic speech of the text data using speaker data selected in the speaker search process;
The information processing method is executed by an information processing device.
(15)
a speaker search process for selecting speaker data from among a plurality of speaker data by searching based on a topic of the text data;
a speech synthesis process for generating synthetic speech of the text data using speaker data selected in the speaker search process;
A program for causing an information processing device to execute the above.
(16)
a content analysis device for analyzing the reference content to generate reference data including information on topics and information on speech features;
a database for storing the reference data generated by the content analysis device and for selecting reference data based on a topic of text data;
A voice synthesizer;
Equipped with
The speech synthesizer comprises:
a speaker search unit that acquires reference data selected from the database based on a topic of text data, and selects speaker data from among a plurality of speaker data based on a similarity between a voice feature indicated by the reference data and a voice feature of the speaker data;
a voice synthesis unit that generates synthetic voice data for the text data using speaker data selected by the speaker search unit.

1 TTS話者提案システム
70 情報処理装置
71 CPU
100 情報端末
200 音声合成サーバ
210 テキスト-音素記号変換部
220 参照データ取得部
230 話者検索部
240 保有話者データ部
250 音声合成部
260 ネットワーク通信部
300 コンテンツ解析サーバ
400 データベース
500 コンテンツプロバイダ
RDT トピックベクトル
RDX 音声特徴量
RDU コンテンツのURL
TD テキストデータ
AD 合成音声データ
RD TTS参照データ
TM トピックモデル
TV トピックベクトル
XV 音声特徴量
CT1 コンテンツ(ユーザが作る)
CT2 参照コンテンツ(分析用)
1 TTS speaker suggestion system 70 Information processing device 71 CPU
100 Information terminal 200 Speech synthesis server 210 Text-phoneme symbol conversion unit 220 Reference data acquisition unit 230 Speaker search unit 240 Retained speaker data unit 250 Speech synthesis unit 260 Network communication unit 300 Content analysis server 400 Database 500 Content provider RDT Topic vector RDX Speech feature amount RDU Content URL
TD Text data AD Synthetic speech data RD TTS reference data TM Topic model TV Topic vector XV Speech feature CT1 Content (created by user)
CT2 Reference content (for analysis)

Claims (16)

 複数の話者データのうちで、テキストデータのトピックに基づいた検索を行って話者データを選択する話者検索部と、
 前記話者検索部で選択された話者データにより前記テキストデータの合成音声データを生成する音声合成部と、を備えた
 情報処理装置。
a speaker search unit that selects speaker data from among the plurality of speaker data by performing a search based on a topic of the text data;
a voice synthesis unit that generates synthetic voice data of the text data using speaker data selected by the speaker search unit.
 前記話者検索部は、前記テキストデータのトピックに基づいて選択された参照データを取得し、前記参照データで示される音声の特徴と話者データの音声の特徴の類似度に基づいて複数の話者データのうちで話者データを選択する
 請求項1に記載の情報処理装置。
The information processing device according to claim 1 , wherein the speaker search unit acquires reference data selected based on a topic of the text data, and selects speaker data from among a plurality of speaker data based on a similarity between voice characteristics indicated in the reference data and voice characteristics of the speaker data.
 前記テキストデータを外部のデータベースに送信し、前記データベースから前記参照データを受信する
 請求項2に記載の情報処理装置。
The information processing apparatus according to claim 2 , further comprising: transmitting the text data to an external database; and receiving the reference data from the database.
 前記参照データは、
 参照データ作成のために用いた参照コンテンツのトピックの分類の指標となるトピックベクトルを含む
 請求項2に記載の情報処理装置。
The reference data is
The information processing device according to claim 2 , further comprising a topic vector that is an index for classifying topics of the reference content used for creating the reference data.
 前記参照データは、
 参照データ作成のために用いた参照コンテンツの音声データの特徴量抽出により得られる音声特徴量を含む
 請求項2に記載の情報処理装置。
The reference data is
The information processing device according to claim 2 , further comprising: an audio feature quantity obtained by extracting a feature quantity of audio data of the reference content used to create the reference data.
 前記参照データは、
 参照データ作成のために用いた参照コンテンツを示す情報を含む
 請求項2に記載の情報処理装置。
The reference data is
The information processing apparatus according to claim 2 , further comprising information indicating a reference content used to create the reference data.
 前記話者検索部が選択した話者データの情報と、前記音声合成部が生成した合成音声データを前記テキストデータの送信元の情報端末に送信する処理を行う通信部を備えた
 請求項1に記載の情報処理装置。
The information processing device according to claim 1 , further comprising a communication unit configured to transmit information on the speaker data selected by the speaker search unit and synthetic voice data generated by the voice synthesis unit to an information terminal that is a source of the text data.
 前記話者検索部は、前記テキストデータのトピックに基づいて選択された参照データを取得し、前記参照データで示される音声の特徴と話者データの音声の特徴の類似度に基づいて複数の話者データのうち話者データを選択し、
 前記通信部は、前記参照データに含まれている、前記参照データ作成のために用いた参照コンテンツに関する情報を前記テキストデータの送信元の情報端末に送信する処理を行う
 請求項7に記載の情報処理装置。
the speaker search unit acquires reference data selected based on a topic of the text data, and selects speaker data from among a plurality of speaker data based on a similarity between a voice feature indicated by the reference data and a voice feature of the speaker data;
The information processing device according to claim 7 , wherein the communication unit performs a process of transmitting information about a reference content used to create the reference data, the information being included in the reference data, to an information terminal that is a source of the text data.
 前記話者検索部は、前記テキストデータのトピックに基づいて選択された複数の参照データのそれぞれについて、前記参照データで示される音声の特徴と、話者データの音声の特徴の類似度に基づいて話者データを選択する
 請求項1に記載の情報処理装置。
The information processing device according to claim 1 , wherein the speaker search unit selects speaker data for each of a plurality of reference data selected based on a topic of the text data based on a similarity between voice characteristics indicated in the reference data and voice characteristics of the speaker data.
 前記話者検索部が選択した話者データの情報と、前記音声合成部が生成した合成音声を前記テキストデータの送信元の情報端末に送信する処理を行う通信部を備え、
 複数の前記参照データに基づいて選択された話者データの情報は、前記情報端末において一覧表示される情報として送信される
 請求項9に記載の情報処理装置。
a communication unit that performs processing to transmit information on the speaker data selected by the speaker search unit and the synthetic voice generated by the voice synthesis unit to an information terminal that is a source of the text data;
The information processing apparatus according to claim 9 , wherein the information on the speaker data selected based on the plurality of reference data is transmitted as information to be displayed as a list on the information terminal.
 前記複数の参照データは、
 前記テキストデータのトピックとの類似度の高い順に選択された複数の参照データのうちからさらに選択された参照データであり、
 元となった参照コンテンツのトピックが、前記テキストデータのトピックと最も高い類似度とされた第1の参照データと、
 前記第1の参照データとの類似度評価に基づいて選択された1又は複数の第2の参照データを含む
 請求項9に記載の情報処理装置。
The plurality of reference data includes
a piece of reference data further selected from a plurality of pieces of reference data selected in descending order of similarity to a topic of the text data;
a first reference data in which a topic of the original reference content has a highest similarity to a topic of the text data;
The information processing apparatus according to claim 9 , further comprising one or more second reference data selected based on a similarity evaluation with the first reference data.
 前記第2の参照データは、前記第1の参照データの音声特徴量を基準としてコサイン類似度が直交または反対向きであると類似度評価された参照データである
 請求項11に記載の情報処理装置。
The information processing apparatus according to claim 11 , wherein the second reference data is reference data whose similarity is evaluated as being orthogonal or opposite in cosine similarity with respect to the speech feature quantity of the first reference data.
 前記テキストデータのトピックとの類似度の高い順に選択された複数の参照データの数は、音声特徴量の分散に応じて設定されたものである
 請求項11に記載の情報処理装置。
The information processing device according to claim 11 , wherein the number of the plurality of reference data selected in order of similarity to the topic of the text data is set according to a variance of the speech feature.
 複数の話者データのうちで、テキストデータのトピックに基づいた検索を行って話者データを選択する話者検索処理と、
 前記話者検索処理で選択された話者データにより前記テキストデータの合成音声を生成する音声合成処理と、
 を情報処理装置が実行する情報処理方法。
a speaker search process for selecting speaker data from among a plurality of speaker data by searching based on a topic of the text data;
a speech synthesis process for generating synthetic speech of the text data using speaker data selected in the speaker search process;
The information processing method is executed by an information processing device.
 複数の話者データのうちで、テキストデータのトピックに基づいた検索を行って話者データを選択する話者検索処理と、
 前記話者検索処理で選択された話者データにより前記テキストデータの合成音声を生成する音声合成処理と、
 を情報処理装置に実行させるプログラム。
a speaker search process for selecting speaker data from among a plurality of speaker data by searching based on a topic of the text data;
a speech synthesis process for generating synthetic speech of the text data using speaker data selected in the speaker search process;
A program for causing an information processing device to execute the above.
 参照コンテンツを解析してトピックに関する情報と音声の特徴に関する情報を含む参照データを生成するコンテンツ解析装置と、
 前記コンテンツ解析装置が生成した前記参照データを記憶するとともに、テキストデータのトピックに基づいて参照データを選択するデータベースと、
 音声合成装置と、
 を備え、
 前記音声合成装置は、
 テキストデータのトピックに基づいて前記データベースで選択された参照データを取得し、前記参照データで示される音声の特徴と話者データの音声の特徴の類似度に基づいて複数の話者データのうちで話者データを選択する話者検索部と、
 前記話者検索部で選択された話者データにより前記テキストデータの合成音声データを生成する音声合成部と、を備える
 情報処理システム。
a content analysis device for analyzing the reference content to generate reference data including information on topics and information on speech features;
a database for storing the reference data generated by the content analysis device and for selecting reference data based on a topic of text data;
A voice synthesizer;
Equipped with
The speech synthesizer comprises:
a speaker search unit that acquires reference data selected from the database based on a topic of text data, and selects speaker data from among a plurality of speaker data based on a similarity between a voice feature indicated by the reference data and a voice feature of the speaker data;
a voice synthesis unit that generates synthetic voice data for the text data using speaker data selected by the speaker search unit.
PCT/JP2024/018855 2023-06-01 2024-05-22 Information processing device, information processing method, program, and information processing system WO2024247848A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2023-090677 2023-06-01
JP2023090677 2023-06-01

Publications (1)

Publication Number Publication Date
WO2024247848A1 true WO2024247848A1 (en) 2024-12-05

Family

ID=93657331

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2024/018855 WO2024247848A1 (en) 2023-06-01 2024-05-22 Information processing device, information processing method, program, and information processing system

Country Status (1)

Country Link
WO (1) WO2024247848A1 (en)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002023777A (en) * 2000-06-26 2002-01-25 Internatl Business Mach Corp <Ibm> Voice synthesizing system, voice synthesizing method, server, storage medium, program transmitting device, voice synthetic data storage medium and voice outputting equipment
JP2002358092A (en) * 2001-06-01 2002-12-13 Sony Corp Voice synthesizing system
JP2003122387A (en) * 2001-10-11 2003-04-25 Matsushita Electric Ind Co Ltd Speaking system
JP2020154050A (en) * 2019-03-18 2020-09-24 日本電信電話株式会社 Audio output method, audio output system and program
WO2022259522A1 (en) * 2021-06-11 2022-12-15 ソニーグループ株式会社 Information processing device, information processing method, and program
US20230148275A1 (en) * 2021-11-09 2023-05-11 Lg Electronics Inc. Speech synthesis device and speech synthesis method

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002023777A (en) * 2000-06-26 2002-01-25 Internatl Business Mach Corp <Ibm> Voice synthesizing system, voice synthesizing method, server, storage medium, program transmitting device, voice synthetic data storage medium and voice outputting equipment
JP2002358092A (en) * 2001-06-01 2002-12-13 Sony Corp Voice synthesizing system
JP2003122387A (en) * 2001-10-11 2003-04-25 Matsushita Electric Ind Co Ltd Speaking system
JP2020154050A (en) * 2019-03-18 2020-09-24 日本電信電話株式会社 Audio output method, audio output system and program
WO2022259522A1 (en) * 2021-06-11 2022-12-15 ソニーグループ株式会社 Information processing device, information processing method, and program
US20230148275A1 (en) * 2021-11-09 2023-05-11 Lg Electronics Inc. Speech synthesis device and speech synthesis method

Similar Documents

Publication Publication Date Title
US12210560B2 (en) Content summarization leveraging systems and processes for key moment identification and extraction
US8862615B1 (en) Systems and methods for providing information discovery and retrieval
US8321414B2 (en) Hybrid audio-visual categorization system and method
CN103956169B (en) A kind of pronunciation inputting method, device and system
CN109920409B (en) Sound retrieval method, device, system and storage medium
US8972265B1 (en) Multiple voices in audio content
US20090326947A1 (en) System and method for spoken topic or criterion recognition in digital media and contextual advertising
JP5359534B2 (en) Information processing apparatus and method, and program
US9576050B1 (en) Generating a playlist based on input acoustic information
CN109165302A (en) Multimedia file recommendation method and device
US11321639B1 (en) Automated evaluation of acting performance using cloud services
CN105224581A (en) The method and apparatus of picture is presented when playing music
CN111859008B (en) A method and terminal for recommending music
KR101634068B1 (en) Method and device for generating educational contents map
US20090132508A1 (en) System and method for associating a category label of one user with a category label defined by another user
JP2006018551A (en) Information processing apparatus and method, and program
JP7230085B2 (en) Method and device, electronic device, storage medium and computer program for processing sound
US9412395B1 (en) Narrator selection by comparison to preferred recording features
WO2024247848A1 (en) Information processing device, information processing method, program, and information processing system
KR20250048809A (en) Audio synthesis for synchronous communication
Liu et al. Adaptive music resizing with stretching, cropping and insertion: A generic content-aware music resizing framework
CN110232911A (en) With singing recognition methods, device, storage medium and electronic equipment
US20250147720A1 (en) System and method for generating audio during traversing of a user interface
US20240184515A1 (en) Vocal Attenuation Mechanism in On-Device App
WO2025046794A1 (en) Information processing device, information processing method, and program

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 24815332

Country of ref document: EP

Kind code of ref document: A1