WO2019177101A1 - Ai speaker system, method for controlling ai speaker system, and program - Google Patents
Ai speaker system, method for controlling ai speaker system, and program Download PDFInfo
- Publication number
- WO2019177101A1 WO2019177101A1 PCT/JP2019/010551 JP2019010551W WO2019177101A1 WO 2019177101 A1 WO2019177101 A1 WO 2019177101A1 JP 2019010551 W JP2019010551 W JP 2019010551W WO 2019177101 A1 WO2019177101 A1 WO 2019177101A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- user
- speaker
- service
- user account
- account
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
Definitions
- the present invention relates to a technique for controlling an AI speaker system.
- AI Artificial Intelligence speakers have been developed that accept user voice instructions and perform actions desired by the user.
- Patent Document 1 when performing a voice conversation with a user, it is more effective when the voice conversation is made into a natural content according to the user or when the conversation is used as a means for achieving a certain purpose.
- a technique for promoting dialogue is disclosed.
- An object of the present invention is to realize an AI speaker system that can easily provide a pay service desired by a user.
- the present invention relates to a correspondence relationship between a speaker user account that identifies a user who speaks in an AI speaker, a service user account that identifies a user in a service providing apparatus that provides a service, and a settlement user account that identifies a user in a settlement system.
- It may be configured to include a determination unit that determines the priority order of the plurality of service providing devices, and a presentation unit that presents the service providing device to the user who has spoken according to the determined priority order.
- the determination unit may determine the priority based on an analysis result obtained by analyzing the meaning of the input user's voice.
- the determination unit selects one or more service providing devices from a plurality of the service providing devices based on the analysis result, and the one or more selected service providing devices correspond to the specified speaker user account.
- the priority order may be determined according to user attributes.
- the specifying unit may specify the speaker user account corresponding to the input voice print by referring to a database in which each user's voice print is associated with the speaker user account of the user. .
- the learning unit may perform learning related to the priority order, and the determination unit may determine the priority order using the learning result.
- the learning unit may perform the learning according to a date and time or a place where a user's voice is input through the AI speaker.
- the learning means may perform the learning according to the user's emotion estimated from the input user's voice.
- the payment account notification means may notify the payment system of the value of service provided by the service providing device.
- the present invention relates to a correspondence relationship between a speaker user account that identifies a user who speaks in an AI speaker, a service user account that identifies a user in a service providing apparatus that provides a service, and a settlement user account that identifies a user in a settlement system.
- a learning step of learning, a specifying step of specifying the speaker user account based on a user's voice input in the AI speaker, and the service user account associated with the specified speaker user account, the service user account A service account notifying step for notifying the providing apparatus, and a settlement account notifying step for notifying the settlement system of the settlement user account associated with the identified speaker user account.
- the present invention provides a computer with a speaker user account for identifying a user who has spoken at an AI speaker, a service user account for identifying a user at a service providing apparatus that provides a service, and a payment user account for identifying a user at a payment system.
- a learning step of learning correspondence a specifying step of specifying the speaker user account based on a user's voice input in the AI speaker, and the service user account associated with the specified speaker user account
- an AI speaker system that can easily provide various services desired by a user can be realized.
- FIG. The sequence chart which shows the flow of learning operation
- FIG. 1 is a diagram showing a configuration of an AI speaker system 9 according to the present embodiment.
- the AI speaker system 9 includes an AI speaker 1, a service providing device group 2, a settlement system 3, and a network 4 that connects these devices so that they can communicate with each other.
- the AI speaker system 9 may include a plurality of AI speakers 1, a service providing device 2, a payment system 3, and a network 4.
- the AI speaker 1 is a device that inputs a user's voice through a microphone or the like and outputs a voice through a dynamic speaker or an electrostatic speaker.
- an information processing device called a smart speaker or a home speaker It is.
- the service providing apparatus group 2 is one or more information processing apparatuses that provide a service requested from the AI speaker 1 via the network 4.
- the service providing device group 2 provides a service for selling products to the user.
- the payment system 3 includes, for example, a credit company and bank system, and performs a payment process related to the consideration of selling a product to a user. In the service providing apparatus 2 and the payment system 3, a user account is individually assigned to one user.
- the network 4 is a communication line that connects the AI speaker 1, the service providing device group 2, and the payment system 3 so as to be communicable, and is, for example, the Internet.
- FIG. 2 is a diagram illustrating an example of the configuration of the AI speaker 1.
- the AI speaker 1 includes a control unit 11, a storage unit 12, a communication unit 13, an input unit 14, and an output unit 15.
- the control unit 11 includes a CPU (Central Processing Unit), a ROM (Read Only Memory), and a RAM (Random Access Memory), and a computer program (hereinafter simply referred to as a program) in which the CPU is stored in the ROM and the storage unit 12. Are read out and executed to control each part of the AI speaker 1.
- a CPU Central Processing Unit
- ROM Read Only Memory
- RAM Random Access Memory
- the communication unit 13 is a communication circuit connected to the network 4 by wire or wireless.
- the AI speaker 1 exchanges information with the service providing apparatus 2 connected to the network 4 by the communication unit 13.
- the input unit 14 is a microphone or the like for inputting sound, and sends a sound signal indicating the input sound to the control unit 11.
- the output unit 15 is, for example, a dynamic speaker or an electrostatic speaker, and emits sound according to a signal instructed by the control unit 11.
- the storage unit 12 is a large-capacity storage unit such as a solid state drive or a hard disk drive, and stores various programs and data read by the CPU of the control unit 11.
- the storage unit 12 stores, for example, a voiceprint database (hereinafter referred to as DB), a user account DB, and a user attribute DB.
- DB voiceprint database
- user account DB user account database
- user attribute DB user attribute database
- FIG. 3 is a diagram showing the voiceprint DB stored in the storage unit 12.
- the voiceprint DB stores each user's voiceprint data in association with a speaker user account that is identification information for identifying the user in the AI speaker 1.
- FIG. 4 is a diagram showing the account DB stored in the storage unit 12.
- the account DB identifies a speaker user account that is identification information for identifying the user in the AI speaker 1, a service (services A, B, and C) of each service providing device 2, and a service of the payment system 3.
- Service user accounts (service A user account, service B user account, service C user account, settlement user account), which are identification information to be stored, are stored in association with each other. That is, in the account DB, a speaker user account of a certain user, one or more service user accounts of the user, and a settlement user account of the user are associated with each other.
- the payment user account includes information for identifying a user and performing a payment process in the payment system 3, such as a credit card number or a bank account number. .
- FIG. 5 is a diagram showing the user attribute DB stored in the storage unit 12.
- the user attribute DB stores a speaker user account, which is identification information for identifying the user in the AI speaker 1, and a user attribute of the user in association with each other.
- User attributes include, for example, age, sex, hobbies, search history in the network 4, browsing history in the network 4, purchase history of products or services in mail order sales via the network 4, and the like.
- FIG. 6 is a diagram showing a functional configuration of the AI speaker 1.
- the AI speaker 1 When the control unit 11 of the AI speaker 1 reads and executes the program stored in the storage unit 12, the AI speaker 1 has the input unit 111, the analysis unit 112, the identification unit 113, the determination unit 114, the presentation unit 115, the service.
- Functions such as an account notification unit 116, a settlement account notification unit 117, a storage unit 118, and a learning unit 119 are realized.
- the input unit 111 inputs a user's voice.
- the analysis unit 112 analyzes the meaning of the user's voice input to the input unit 111 using, for example, a hidden Markov model.
- the storage unit 118 stores a voice print DB in which each user's voice print data is associated with a speaker user account that is identification information for identifying the user in the AI speaker 1.
- the storage unit 118 has a learning result by the learning unit 119, which will be described later, specifically, a speaker user account for identifying a user who speaks in the AI speaker 1, and a service user for identifying a user in the service providing apparatus 2 that provides a service.
- An account DB including a correspondence relationship between an account and a settlement user account for identifying a user in the settlement system 3 is stored.
- the storage unit 118 stores a user attribute DB in which a speaker user account that is identification information for identifying the user in the AI speaker 1 and a user attribute of the user are associated with each other.
- the identifying unit 113 identifies a speaker user account that identifies a user who has emitted the voice based on the voice input to the input unit 111. More specifically, the specifying unit 113 refers to the voice print DB in the storage unit 118 and specifies a speaker user account corresponding to the voice print of the input voice.
- the determination unit 114 determines the priority order of the plurality of service providing apparatuses 2 based on the analysis result obtained by the analysis unit 112 analyzing the meaning of the input user's voice. More specifically, the determination unit 114 selects one or more service providing apparatuses 2 from the plurality of service providing apparatuses 2 based on the analysis result. Then, the determination unit 114 refers to the user attribute DB of the storage unit 118 and determines the priority order of the selected one or more service providing apparatuses 2 according to the user attribute corresponding to the speaker user account specified by the specifying unit 113. Determine.
- the presentation unit 115 presents the service providing apparatus 2 to the uttered user according to the priority order determined by the determination unit 114.
- the settlement account notifying unit 117 refers to the account DB of the storage unit 118, identifies the settlement user account associated with the speaker user account identified by the identifying unit 113, and notifies the settlement system 3 of the identified settlement user account. Further, the settlement account notifying unit 117 notifies the settlement system 3 of the price of service provision by the service providing apparatus 2.
- the service account notifying unit 116 refers to the account DB in the storage unit 118, identifies the service user account associated with the speaker user account identified by the identifying unit 113, and notifies the service providing apparatus 2 of it.
- the learning unit 119 uses a learning algorithm such as machine learning to identify a user who speaks at the AI speaker 1, a service user account that identifies the user at the service providing apparatus 2 that provides the service, and a payment system 3 Learn the correspondence with the payment user account that identifies the user.
- a learning algorithm such as machine learning to identify a user who speaks at the AI speaker 1, a service user account that identifies the user at the service providing apparatus 2 that provides the service, and a payment system 3 Learn the correspondence with the payment user account that identifies the user.
- the operation of the AI speaker is roughly classified into a learning operation for performing learning and a basic operation performed based on the learning.
- the basic operation will be described first, and then the learning operation will be described.
- FIG. 7 is a sequence chart showing a flow of basic operations of the AI speaker system 9.
- the input unit 111 receives an input of voice spoken by the user (step S11). This voice is, for example, “I want to buy a battery”, “I want to buy a T-shirt”, “I want to go to a resort”, or “I want to move”.
- the analysis unit 112 analyzes the meaning of the input user's voice (step S12).
- speech semantic analysis various known semantic analysis algorithms may be used.
- the specifying unit 113 analyzes the input voice, generates voice print data, and collates it with the voice print data included in the voice print DB (step S13).
- voiceprint generation various known voiceprint generation algorithms may be used. If there is a voice print DB that matches the voice print data input by the user, the identifying unit 113 refers to the speaker user account corresponding to the voice print data in the voice print DB, so that the user who emitted the voice Identify the speaker user account for. If there is no voice print DB that matches the voice print data input by the user, the specifying unit 113 performs a predetermined error process, and the process shown in FIG. 7 ends.
- the determination unit 114 selects the service providing apparatus 2 that provides a service corresponding to the meaning of the analyzed voice (step S14). For example, if the user's voice is “I want to buy a battery”, the determination unit 114 determines that the user wants to purchase a battery, and provides one or more services that provide a service for mail-ordering daily commodities. The providing device 2 is selected. For example, if the user's voice is “I want to buy a T-shirt”, the determination unit 114 determines that the user wants to purchase a T-shirt, and provides a service for mail-ordering clothes. One or more service providing apparatuses 2 are selected.
- the determination unit 114 determines that the user wants to travel to a resort, and provides one or more services related to travel. The service providing device 2 is selected. Also, for example, if the user's voice is “I want to ask for moving”, the determination unit 114 determines that the user is looking for a moving company, and determines one or more service providing apparatuses 2 that provide the moving service. select.
- the determination unit 114 determines the priority order of the selected one or more service providing apparatuses 2 according to the user attribute corresponding to the specified speaker user account (step S15). For example, if the selected service is a daily commodities mail order and the user is a housewife, the determination unit 114 gives higher priority to the service providing apparatus 2 that provides the daily commodities mail order service in descending order of evaluation that the price is lower. Give. Further, for example, if the selected service is mail order of clothes and the user is a teenage male, the determination unit 114 performs the mail order sales service of clothes in descending order of evaluation from the male teenager. Is given a high priority.
- the determination unit 114 gives higher priority to the service providing apparatus 2 that provides services related to travel in descending order of evaluation from women in their 20s. Give a ranking. For example, if the selected service is a moving service and the user is a single living man, the determination unit 114 provides the moving service to the service providing apparatus 2 that performs the moving service in ascending order of the cost of the moving pack for living alone. Give high priority.
- the presenting unit 115 presents the service providing device to the user according to the determined priority (Step S16). Specifically, artificial speech that explains the service contents of the selected service providing apparatus 2 is generated and emitted in descending order of priority. For this reason, the presentation unit 115 obtains in advance the service contents of the service providing apparatus 2 from each service providing apparatus 2 or the like via the network 4.
- the service account notifying unit 116 makes a request to the designated service providing apparatus 2 (step S17).
- This request includes a service user count for identifying the user in the service providing apparatus 2.
- the service providing apparatus 2 performs processing according to this request (step S18). For example, the service providing apparatus 2 that performs mail order sales of daily commodities confirms that the service user account included in the request is included in the account database in the own apparatus, and then uses the voice regarding the order of the product by the voice from the user. Are exchanged via the AI speaker 1. At this time, the presentation unit 115 of the AI speaker 1 performs sound emission processing according to the audio data transmitted from the service providing apparatus 2.
- the settlement account notification unit 117 makes a request to the settlement system 3 (step S19).
- This request includes a payment user account for identifying a user in the payment system 3 and a service provision price by the service providing apparatus 2.
- the settlement system 3 performs a settlement process according to this request (step S20). That is, a process for withdrawing the consideration from the user's bank account at a predetermined time using the settlement user account is performed.
- FIG. 8 is a sequence chart showing the flow of the learning operation of the AI speaker system 9. The process shown in the figure is executed over an initial period in which the user starts using the AI speaker 1, for example, and over a period in which the user uses the AI speaker 1, for example.
- the input unit 111 receives an input of voice spoken by the user (step S111). As in step S11 of FIG. 7, this voice includes, for example, “I want to buy a battery”, “I want to buy a T-shirt”, “I want to go to a resort”, and “I want to move”.
- the analysis unit 112 analyzes the meaning of the input user's voice using a well-known semantic analysis algorithm, similarly to step S12 (step S112).
- the specifying unit 113 analyzes the input voice using a known voiceprint generation algorithm to generate voiceprint data, and collates it with the voiceprint data included in the voiceprint DB (step S113). If there is a voice print DB that matches the voice print data input by the user, the identifying unit 113 refers to the speaker user account corresponding to the voice print data in the voice print DB, so that the user who emitted the voice Identify the speaker user account for. If there is no voice print DB that matches the voice print data input by the user, the specifying unit 113 performs a predetermined error process, and the process shown in FIG. 8 ends.
- step S14 the determination unit 114 selects the service providing apparatus 2 that provides a service corresponding to the meaning of the analyzed voice (step S114).
- step S15 the determination unit 114 determines the priority order of the selected one or more service providing apparatuses 2 according to the user attribute corresponding to the specified speaker user account (step S15).
- the presentation unit 115 presents the service providing apparatus to the user according to the determined priority order, similarly to step S16 (step S16).
- the service account notifying unit 116 When the user who listens to the presentation content designates any one of the service providing apparatuses 2 by voice, the service account notifying unit 116 prompts the user to input a service user account in the designated service providing apparatus 2. When the user inputs a service user account in the specified service providing apparatus 2, the service account notifying unit 116 receives this input (step S117).
- the service account notification unit 116 makes a request to the designated service providing apparatus 2 (step S118).
- This request includes a service user count for identifying the user in the service providing apparatus 2.
- the learning unit 119 learns the correspondence between the speaker user account specified in step S113 and the service user account input in step S117, and stores the correspondence in the storage unit 118 (account DB). (Step S119).
- the service providing apparatus 2 performs processing according to the request (Step S120).
- the service providing apparatus 2 that performs mail order sales of daily commodities confirms that the service user account included in the request is included in the account database in the own apparatus, and then uses the voice regarding the order of the product by the voice from the user. Are exchanged via the AI speaker 1.
- the presentation unit 115 of the AI speaker 1 performs sound emission processing according to the audio data transmitted from the service providing apparatus 2.
- the settlement account notifying unit 117 prompts the user to input a settlement user account in the settlement system 3.
- the payment account notification unit 117 accepts this input (step S121).
- the settlement account notification unit 117 makes a request to the settlement system 3 (step S122).
- This request includes a payment user account for identifying a user in the payment system 3 and a service provision price by the service providing apparatus 2.
- the learning unit 119 learns the correspondence between the speaker user account specified in step S113 and the settlement user account input in step S121, and stores the correspondence in the storage unit 118 (account DB). (Step S123).
- the payment system 3 performs a payment process in response to this request (step S124). That is, a process for withdrawing the consideration from the user's bank account at a predetermined time using the settlement user account is performed.
- a speaker user account for identifying a user who has spoken in the AI speaker 1 a service user account for identifying a user in the service providing apparatus 2 that provides the service, and a settlement user account for identifying the user in the settlement system 3 Is learned and stored in the storage unit 118 (account DB).
- each process is executed based on the contents of the storage unit 118 (account DB) as the learning result.
- the user desires via the AI speaker system without inputting the service user account each time.
- Service can be provided. Furthermore, it is possible to provide a pay service desired by the user via the AI speaker system without inputting the settlement user account each time. Furthermore, since these processes are automatically learned, high usability is realized.
- the learning unit 119 has learned the correspondence relationship between the speaker user account, the service user account, and the settlement user account, but may further learn about the priority order used by the determination unit. As described above, for example, if the user's voice is “I want to buy a battery”, the determination unit 114 determines that the user wants to purchase a battery, and provides a service for mail-ordering daily commodities. One or more service providing apparatuses 2 are selected. And the priority according to the attribute of the user was determined with respect to these one or more service providing apparatuses 2. The learning unit 119 learns the relationship between the user attribute and the priority of the service providing apparatus 2 using a learning algorithm such as machine learning.
- the learning unit 119 determines the user attribute of the user and the service providing device 2. It learns that there is a strong relevance between and, in that user attribute, the service providing apparatus 2 is associated with a high priority and stored. Thereby, for example, when the user attribute is a housewife and the user's voice is “I want to buy a battery”, a service that provides a service that sells daily commodities cheaper than others by learning of the learning unit 119 An example in which the priority order of the providing device 2 becomes higher can be considered. Further, when the user attribute is a single male and the user's voice is “I want to buy sneakers”, the learning of the learning unit 119 increases the priority of the service providing apparatus 2 with many types of shoe sales. Examples are possible.
- the learning unit 119 may perform learning related to the above priority order according to the date and time or place where the user's voice is input in the AI speaker 1. That is, the above learning is performed for each certain time zone or certain area.
- learning for example, when a user utters “I want to buy a book” at home, a comprehensive book sales service in which books according to the user's hobbies are sold by learning of the learning unit 119.
- An example in which the priority order of the service providing apparatus 2 that provides the service is high can be considered.
- the learning of the learning unit 119 provides a book sales service in which a more specialized book is sold.
- the priority is higher is conceivable. For example, when the user utters “I want to eat something” in the middle of the day, the learning unit 119 learns and the priority of the service providing apparatus 2 that provides a delivery service of, for example, pizza and noodles suitable for lunch is high. An example can be considered. On the other hand, for example, when the user speaks “I want to eat something” at night, the priority of the service providing apparatus 2 that provides a food delivery service with a food and drink menu including alcoholic beverages is high due to the learning of the learning unit 119. An example can be considered.
- the learning unit 119 may perform learning related to the priority order according to the emotion of the user estimated from the input user's voice. Specifically, the learning unit 119 stores an algorithm for estimating an emotion from the user's voice, and estimates the emotion from the user's voice using the algorithm. And the learning part 119 performs said learning for every user's emotion. With such learning, for example, if the emotion when the user utters “I want to go on a trip” is “pleasant”, the learning unit 119 learns mainly a trip with a resort or a downtown area. An example in which the priority order of the service providing apparatuses 2 sold in the market is higher is conceivable.
- the learning unit 119 learns mainly to travel to a region with a lot of nature or a small population.
- An example in which the priority order of the service providing apparatuses 2 sold in the market is higher is conceivable.
- a part of the functional configuration of the AI speaker 1 illustrated in FIG. 6 may be omitted, or another function may be added.
- the functions of the AI speaker 1 shown in FIG. 6 may be implemented by any device or terminal belonging to the AI speaker system 9.
- a computer device group consisting of a plurality of devices may cooperate to implement a function equivalent to the AI speaker 1 shown in FIG.
- the processing executed by the control unit 11 of the AI speaker 1 can be considered as a method for controlling the AI speaker 1. That is, the present invention provides a specific step of identifying the speaker user account based on the input user's voice, a speaker user account for identifying a user who has spoken at an AI speaker, and a service providing apparatus that provides a service.
- the service user account that is associated with the identified speaker user account is identified by referring to a storage unit that stores the service user account to be identified and the settlement user account that identifies the user in the settlement system in association with each other.
- a service account notifying step for notifying the service providing device, and a payment account for referring to the storage unit and identifying the settlement user account associated with the identified speaker user account and notifying the settlement system It may be provided as a control method for AI speaker system comprising a cement notification step. Note that the steps of processing performed in the AI speaker system 9 are not limited to the example described in the above-described embodiment. The steps of this process may be interchanged as long as there is no contradiction.
- the program executed by the control unit 11 of the AI speaker 1 is a recording medium readable by a computer device, such as a magnetic recording medium such as a magnetic tape and a magnetic disk, an optical recording medium such as an optical disk, a magneto-optical recording medium, or a semiconductor memory. Can be provided in a stored state.
- the program may be downloaded via a communication line such as the Internet.
- various devices other than the CPU may be applied as the control means exemplified by the control unit 11 described above. For example, a dedicated processor or the like is used.
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
本発明は、AIスピーカーシステムを制御する技術に関する。 The present invention relates to a technique for controlling an AI speaker system.
ユーザの音声による指示を受け付けてユーザが望む動作を行うAI(Artificial Intelligence)スピーカーが開発されている。特許文献1には、ユーザと音声対話を行うに際して、その音声対話をそのユーザに応じた自然な内容にすることや、ある目的を達成するための手段として対話を使う場合に、より効果的に対話を進める技術が開示されている。
AI (Artificial Intelligence) speakers have been developed that accept user voice instructions and perform actions desired by the user. In
AIスピーカーの普及に伴い、ユーザが望むあらゆるサービスがAIスピーカーシステム経由で実現されることが期待されている。しかしながら、ユーザが望むサービスはサードパーティのものも含めて様々なものがあり、これらの各サービスにおいてユーザのアカウントが個別に設定されている。このため、ユーザが各サービスを利用するときには、それぞれ個別にアカウントを入力しなければならない。このようなアカウントの入力の煩わしさは、ユーザが利用したサービスの対価を決済する決済サービスを行う場合においても同様である。従って、有料のサービスをAIスピーカーシステム経由でユーザが簡便に利用することは、現実的には難しいという問題があった。 With the spread of AI speakers, it is expected that all services desired by users will be realized via the AI speaker system. However, there are various services desired by users including those of third parties, and user accounts are individually set for these services. For this reason, when a user uses each service, an account must be individually input. The troublesome input of such an account is the same in the case of performing a settlement service that settles the price of the service used by the user. Therefore, it is practically difficult for a user to easily use a paid service via an AI speaker system.
本発明の目的は、ユーザが望む有料サービスを容易に提供し得るAIスピーカーシステムを実現することにある。 An object of the present invention is to realize an AI speaker system that can easily provide a pay service desired by a user.
本発明は、AIスピーカーにおいて発話したユーザを識別するスピーカーユーザアカウントと、サービスを提供するサービス提供装置においてユーザを識別するサービスユーザアカウントと、決済システムにおいてユーザを識別する決済ユーザアカウントとの対応関係を学習する学習手段と、前記AIスピーカーにおいて入力されたユーザの音声に基づいて前記スピーカーユーザアカウントを特定する特定手段と、特定された前記スピーカーユーザアカウントに対応付けられた前記サービスユーザアカウントを、前記サービス提供装置に通知するサービスアカウント通知手段と、特定された前記スピーカーユーザアカウントに対応付けられた前記決済ユーザアカウントを、前記決済システムに通知する決済アカウント通知手段とを備えるAIスピーカーシステムを提供する。 The present invention relates to a correspondence relationship between a speaker user account that identifies a user who speaks in an AI speaker, a service user account that identifies a user in a service providing apparatus that provides a service, and a settlement user account that identifies a user in a settlement system. Learning means for learning; specifying means for specifying the speaker user account based on a user's voice input in the AI speaker; and the service user account associated with the specified speaker user account, the service user account A service account notifying means for notifying the providing apparatus, and a payment account notifying means for notifying the payment system of the payment user account associated with the specified speaker user account A To provide a speaker system.
複数の前記サービス提供装置の優先順位を判定する判定手段と、発話したユーザに対し、判定された前記優先順位に応じて前記サービス提供装置の提示を行う提示手段とを備えるようにしてもよい。 It may be configured to include a determination unit that determines the priority order of the plurality of service providing devices, and a presentation unit that presents the service providing device to the user who has spoken according to the determined priority order.
前記判定手段は、入力されたユーザの音声の意味を解析した解析結果に基づいて前記優先順位を判定するようにしてもよい。 The determination unit may determine the priority based on an analysis result obtained by analyzing the meaning of the input user's voice.
前記判定手段は、前記解析結果に基づいて複数の前記サービス提供装置から1以上のサービス提供装置を選択し、選択した1以上の前記サービス提供装置について、特定された前記スピーカーユーザアカウントに対応する前記ユーザ属性に応じて前記優先順位を判定するようにしてもよい。 The determination unit selects one or more service providing devices from a plurality of the service providing devices based on the analysis result, and the one or more selected service providing devices correspond to the specified speaker user account. The priority order may be determined according to user attributes.
前記特定手段は、それぞれのユーザの声紋と当該ユーザの前記スピーカーユーザアカウントとを対応付けたデータベースを参照し、入力された前記音声の声紋に対応する前記スピーカーユーザアカウントを特定するようにしてもよい。 The specifying unit may specify the speaker user account corresponding to the input voice print by referring to a database in which each user's voice print is associated with the speaker user account of the user. .
前記学習手段は、前記優先順位に関する学習を行い、前記判定手段は、前記学習結果を用いて前記優先順位を判定するようにしてもよい。 The learning unit may perform learning related to the priority order, and the determination unit may determine the priority order using the learning result.
前記学習手段は、前記AIスピーカーにおいてユーザの音声が入力された日時又は場所に応じて前記学習を行うようにしてもよい。 The learning unit may perform the learning according to a date and time or a place where a user's voice is input through the AI speaker.
前記学習手段は、入力されたユーザの音声から推定される当該ユーザの感情に応じて前記学習を行うようにしてもよい。 The learning means may perform the learning according to the user's emotion estimated from the input user's voice.
前記決済アカウント通知手段は、前記サービス提供装置によるサービス提供の対価を前記決済システムに通知するようにしてもよい。 The payment account notification means may notify the payment system of the value of service provided by the service providing device.
本発明は、AIスピーカーにおいて発話したユーザを識別するスピーカーユーザアカウントと、サービスを提供するサービス提供装置においてユーザを識別するサービスユーザアカウントと、決済システムにおいてユーザを識別する決済ユーザアカウントとの対応関係を学習する学習ステップと、前記AIスピーカーにおいて入力されたユーザの音声に基づいて前記スピーカーユーザアカウントを特定する特定ステップと、特定された前記スピーカーユーザアカウントに対応付けられた前記サービスユーザアカウントを、前記サービス提供装置に通知するサービスアカウント通知ステップと、特定された前記スピーカーユーザアカウントに対応付けられた前記決済ユーザアカウントを、前記決済システムに通知する決済アカウント通知ステップとを備えるAIスピーカーシステムの制御方法を提供する。 The present invention relates to a correspondence relationship between a speaker user account that identifies a user who speaks in an AI speaker, a service user account that identifies a user in a service providing apparatus that provides a service, and a settlement user account that identifies a user in a settlement system. A learning step of learning, a specifying step of specifying the speaker user account based on a user's voice input in the AI speaker, and the service user account associated with the specified speaker user account, the service user account A service account notifying step for notifying the providing apparatus, and a settlement account notifying step for notifying the settlement system of the settlement user account associated with the identified speaker user account. To provide a control method for AI speaker system and a flop.
本発明は、コンピュータに、AIスピーカーにおいて発話したユーザを識別するスピーカーユーザアカウントと、サービスを提供するサービス提供装置においてユーザを識別するサービスユーザアカウントと、決済システムにおいてユーザを識別する決済ユーザアカウントとの対応関係を学習する学習ステップと、前記AIスピーカーにおいて入力されたユーザの音声に基づいて前記スピーカーユーザアカウントを特定する特定ステップと、特定された前記スピーカーユーザアカウントに対応付けられた前記サービスユーザアカウントを、前記サービス提供装置に通知するサービスアカウント通知ステップと、特定された前記スピーカーユーザアカウントに対応付けられた前記決済ユーザアカウントを、前記決済システムに通知する決済アカウント通知ステップととを実行させるためのプログラムを提供する。 The present invention provides a computer with a speaker user account for identifying a user who has spoken at an AI speaker, a service user account for identifying a user at a service providing apparatus that provides a service, and a payment user account for identifying a user at a payment system. A learning step of learning correspondence, a specifying step of specifying the speaker user account based on a user's voice input in the AI speaker, and the service user account associated with the specified speaker user account A service account notifying step for notifying the service providing apparatus, and a settlement account for notifying the settlement system of the settlement user account associated with the identified speaker user account. It provides a program for executing a count notification step Toto.
本発明によれば、ユーザが望む様々なサービスを容易に提供し得るAIスピーカーシステムを実現することができる。 According to the present invention, an AI speaker system that can easily provide various services desired by a user can be realized.
1…AIスピーカー、11…制御部、12…記憶部、12…通信部、14…入力部、15…出力部、111…入力部、112…解析部、113…特定部、114…判定部、115…提示部、116…サービスアカウント通知部、117…決済アカウント通知部、118…記憶部、119…学習部、2…サービス提供装置、3…決済システム、4…ネットワーク、9…AIスピーカーシステム。
DESCRIPTION OF
<実施形態>
<AIスピーカーシステムの全体構成>
図1は、本実施形態に係るAIスピーカーシステム9の構成を示す図である。AIスピーカーシステム9は、AIスピーカー1と、サービス提供装置群2と、決済システム3と、これらを通信可能に接続するネットワーク4とを有する。なお、AIスピーカーシステム9は、AIスピーカー1、サービス提供装置2、決済システム3、ネットワーク4のそれぞれを複数有してもよい。
<Embodiment>
<Overall configuration of AI speaker system>
FIG. 1 is a diagram showing a configuration of an AI speaker system 9 according to the present embodiment. The AI speaker system 9 includes an
AIスピーカー1は、マイクロフォン等によってユーザの音声を入力し、ダイナミックスピーカーや静電スピーカー等によって音声を出力する装置であり、AIスピーカーという呼称以外にも、例えばスマートスピーカーとかホームスピーカーと呼ばれる情報処理装置である。サービス提供装置群2は、ネットワーク4を介してAIスピーカー1から要求されたサービスを提供する1以上の情報処理装置である。例えば、サービス提供装置群2は、ユーザに商品を販売するサービスを提供する。決済システム3は、例えばクレジット会社及び銀行のシステムを含み、ユーザに商品を販売することの対価に関する決済処理を行う。これらのサービス提供装置2や決済システム3においては、1のユーザに対して個別にユーザアカウントが付与されている。つまり、或るサービスにおいて付与されたユーザアカウントは、そのサービスにおいてのみそのユーザを識別することが可能となっている。ネットワーク4は、AIスピーカー1、サービス提供装置群2及び決済システム3を通信可能に接続する通信回線であり、例えばインターネット等である。
The
<AIスピーカーの構成>
図2は、AIスピーカー1の構成の一例を示す図である。AIスピーカー1は、制御部11、記憶部12、通信部13、入力部14、及び出力部15を有する。
<Configuration of AI speaker>
FIG. 2 is a diagram illustrating an example of the configuration of the
制御部11は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)を有し、CPUがROM及び記憶部12に記憶されているコンピュータプログラム(以下、単にプログラムという)を読み出して実行することによりAIスピーカー1の各部を制御する。
The
通信部13は、有線又は無線によりネットワーク4に接続する通信回路である。AIスピーカー1は、通信部13によりネットワーク4に接続されたサービス提供装置2と情報をやり取りする。
The
入力部14は、音声を入力するマイクロフォン等であり、入力した音声を示す音声信号を制御部11に送る。
The
出力部15は、例えばダイナミックスピーカーや静電スピーカー等であり、制御部11により指示された信号に応じて放音する。
The
記憶部12は、例えばソリッドステートドライブ、ハードディスクドライブ等の大容量の記憶手段であり、制御部11のCPUに読み込まれる各種のプログラム、データ等を記憶する。この、記憶部12は、例えば声紋データベース(以下、DBという)と、ユーザアカウントDBと、ユーザ属性DBとを記憶する。
The
図3は、記憶部12に記憶されている声紋DBを示す図である。声紋DBは、それぞれのユーザの声紋データと、AIスピーカー1において当該ユーザを識別する識別情報であるスピーカーユーザアカウントとを対応付けて記憶している。
FIG. 3 is a diagram showing the voiceprint DB stored in the
図4は、記憶部12に記憶されているアカウントDBを示す図である。アカウントDBは、AIスピーカー1において当該ユーザを識別する識別情報であるスピーカーユーザアカウントと、それぞれのサービス提供装置2のサービス(サービスA,B,C)及び決済システム3のサービスにおいてそれぞれ当該ユーザを識別する識別情報であるサービスユーザアカウント(サービスAユーザアカウント、サービスBユーザアカウント、サービスCユーザアカウント、決済ユーザアカウント)とを対応付けて記憶している。つまり、アカウントDBにおいては、或るユーザのスピーカーユーザアカウントと、そのユーザの1以上のサービスユーザアカウントと、そのユーザの決済ユーザアカウントとが対応付けられている。決済ユーザアカウントは、例えばクレジットカードの番号や銀行の口座番号等の、決済システム3においてユーザを識別して決済処理を行うための情報を含む。
FIG. 4 is a diagram showing the account DB stored in the
図5は、記憶部12に記憶されているユーザ属性DBを示す図である。ユーザ属性DBは、AIスピーカー1において当該ユーザを識別する識別情報であるスピーカーユーザアカウントと、当該ユーザのユーザ属性とを対応付けて記憶している。ユーザ属性は、例えば年齢、性別、趣味嗜好のほか、ネットワーク4における検索履歴、ネットワーク4における閲覧履歴、ネットワーク4を介した通信販売における商品またはサービスの購入履歴等を含む。
FIG. 5 is a diagram showing the user attribute DB stored in the
<AIスピーカーの機能的構成>
図6は、AIスピーカー1の機能的構成を示す図である。AIスピーカー1の制御部11が記憶部12に記憶されているプログラムを読み出して実行することにより、AIスピーカー1は入力部111、解析部112、特定部113、判定部114、提示部115、サービスアカウント通知部116、決済アカウント通知部117、記憶部118及び学習部119といった機能を実現する。
<Functional configuration of AI speaker>
FIG. 6 is a diagram showing a functional configuration of the
入力部111は、ユーザの音声を入力する。
The
解析部112は、例えば隠れマルコフモデル等を用いて、入力部111に入力されたユーザの音声の意味を解析する。
The
記憶部118は、それぞれのユーザの声紋データと、AIスピーカー1において当該ユーザを識別する識別情報であるスピーカーユーザアカウントとを対応付けた声紋DBを記憶する。また、記憶部118は、後述する学習部119による学習結果、具体的にはAIスピーカー1において発話したユーザを識別するスピーカーユーザアカウントと、サービスを提供するサービス提供装置2においてユーザを識別するサービスユーザアカウントと、決済システム3においてユーザを識別する決済ユーザアカウントとの対応関係を含むアカウントDBを記憶する。また、記憶部118は、AIスピーカー1において当該ユーザを識別する識別情報であるスピーカーユーザアカウントと、当該ユーザのユーザ属性とを対応付けたユーザ属性DBと記憶する。
The
特定部113は、入力部111に入力された音声に基づいて、当該音声を発したユーザを識別するスピーカーユーザアカウントを特定する。より具体的には、特定部113は、記憶部118の声紋DBを参照し、入力された音声の声紋に対応するスピーカーユーザアカウントを特定する。
The identifying
判定部114は、入力されたユーザの音声の意味を解析部112が解析した解析結果に基づいて複数のサービス提供装置2の優先順位を判定する。より具体的には、判定部114は、上記解析結果に基づいて複数のサービス提供装置2から1以上のサービス提供装置2を選択する。そして、判定部114は、記憶部118のユーザ属性DBを参照し、選択した1以上のサービス提供装置2について、特定部113により特定されたスピーカーユーザアカウントに対応するユーザ属性に応じて、優先順位を判定する。
The
提示部115は、発話したユーザに対し、判定部114により判定された優先順位に応じてサービス提供装置2の提示を行う。
The
決済アカウント通知部117は、記憶部118のアカウントDBを参照し、特定部113により特定されたスピーカーユーザアカウントに対応付けられた決済ユーザアカウントを特定して決済システム3に通知する。さらに、決済アカウント通知部117は、サービス提供装置2によるサービス提供の対価を決済システム3に通知する。
The settlement
サービスアカウント通知部116は、記憶部118のアカウントDBを参照し、特定部113により特定されたスピーカーユーザアカウントに対応付けられたサービスユーザアカウントを特定してサービス提供装置2に通知する。
The service
学習部119は、機械学習等の学習アルゴリズムによって、AIスピーカー1において発話したユーザを識別するスピーカーユーザアカウントと、サービスを提供するサービス提供装置2においてユーザを識別するサービスユーザアカウントと、決済システム3においてユーザを識別する決済ユーザアカウントとの対応関係を学習する。
The
<AIスピーカーの動作>
AIスピーカーの動作は、大別して、学習を行う学習動作と、その学習に基づいて行い基本動作とがある。以下では、わかりやすく説明するため、最初に基本動作を説明し、次に学習動作を説明する。
<Operation of AI speaker>
The operation of the AI speaker is roughly classified into a learning operation for performing learning and a basic operation performed based on the learning. In the following, for easy understanding, the basic operation will be described first, and then the learning operation will be described.
<AIスピーカーの基本動作>
図7は、AIスピーカーシステム9の基本動作の流れを示すシーケンスチャートである。まず、入力部111はユーザが発話した音声の入力を受付ける(ステップS11)。この音声は、例えば「電池が買いたい」とか、「Tシャツが買いたい」とか、「リゾートに行きたい」とか、「引っ越しを頼みたい」といった内容である。
<Basic operation of AI speaker>
FIG. 7 is a sequence chart showing a flow of basic operations of the AI speaker system 9. First, the
次に、解析部112は、入力されたユーザの音声の意味を解析する(ステップS12)。この音声の意味解析においては、周知の様々な意味解析アルゴリズムを用いればよい。
Next, the
次に、特定部113は、入力された音声を解析してその声紋データを生成し、声紋DBに含まれる声紋データと照合する(ステップS13)。この声紋生成においては、周知の様々な声紋生成アルゴリズムを用いればよい。声紋DBにおいて、ユーザにより入力された音声の声紋データと合致するものがあれば、特定部113は、声紋DBにおいてその声紋データと対応するスピーカーユーザアカウントを参照することで、その音声を発したユーザのスピーカーユーザアカウントを特定する。なお、声紋DBにおいて、ユーザにより入力された音声の声紋データと合致するものがなければ、特定部113は所定のエラー処理を行って、図7に示す処理は終了する。
Next, the specifying
次に、判定部114は、解析された音声の意味に対応するサービスを行うサービス提供装置2を選択する(ステップS14)。例えば、ユーザの音声が「電池が買いたい」であれば、判定部114は、ユーザが電池の購入を希望しているという意味に判断し、日用品を通信販売するサービスを提供する1以上のサービス提供装置2を選択する。また、例えば、ユーザの音声が「Tシャツが買いたい」であれば、判定部114は、ユーザがTシャツの購入を希望しているという意味に判断し、衣類を通信販売するサービスを提供する1以上のサービス提供装置2を選択する。また、例えば、ユーザの音声が「リゾートに行きたい」であれば、判定部114は、ユーザがリゾート地への旅行を希望しているという意味に判断し、旅行に関するサービスを提供する1以上のサービス提供装置2を選択する。また、例えば、ユーザの音声が「引っ越しを頼みたい」であれば、判定部114は、ユーザが引っ越し業者を探しているという意味に判断し、引っ越しサービスを提供する1以上のサービス提供装置2を選択する。
Next, the
次に、判定部114は、選択した1以上のサービス提供装置2について、特定されたスピーカーユーザアカウントに対応するユーザ属性に応じて優先順位を判定する(ステップS15)。例えば選択されたサービスが日用品の通信販売であり、ユーザが主婦であれば、判定部114は、価格が安いという評価が多い順に、日用品の通信販売サービスを行うサービス提供装置2に高い優先順位を付与する。また、例えば選択されたサービスが衣類の通信販売であり、ユーザが10代男性であれば、判定部114は、10代男性からの評価が高い順に、衣類の通信販売サービスを行うサービス提供装置2に高い優先順位を付与する。また、例えば選択されたサービスが旅行に関するサービスであり、ユーザが20代女性であれば、判定部114は、20代女性からの評価が高い順に、旅行に関するサービスを行うサービス提供装置2に高い優先順位を付与する。また、例えば選択されたサービスが引っ越しサービスであり、ユーザが1人暮らし男性であれば、判定部114は、1人暮らし用の引っ越しパックの費用が安い順に、引っ越しサービスを行うサービス提供装置2に高い優先順位を付与する。
Next, the
次に、提示部115は、ユーザに対し、判定された優先順位に応じてサービス提供装置の提示を行う(ステップS16)。具体的には、優先順位が高い順に、選択されたサービス提供装置2のサービス内容を説明する人工音声を生成して放音する。このため、提示部115は、サービス提供装置2のサービス内容をネットワーク4経由で各サービス提供装置2等から予め入手しておく。
Next, the presenting
提示内容を聞いたユーザがいずれか1のサービス提供装置2を音声で指定すると、サービスアカウント通知部116は、指定されたサービス提供装置2に対するリクエストを行う(ステップS17)。このリクエストには、そのサービス提供装置2においてユーザを識別するサービスユーザカウントが含まれている。
When the user who has heard the presentation content specifies any one of the
サービス提供装置2は、このリクエストに応じた処理を行う(ステップS18)。例えば日用品の通信販売を行うサービス提供装置2は、リクエストに含まれるサービスユーザアカウントが自装置内のアカウントデータベースに含まれていることを確認したうえで、ユーザからの音声による商品の注文に関する音声でのやり取りをAIスピーカー1経由で行う。このときAIスピーカー1の提示部115は、サービス提供装置2から送信されてくる音声データに応じた放音処理を行う。
The
ユーザにより購入対象の商品が音声で指定され、さらにその対価の決済が音声で指示されると、決済アカウント通知部117は、決済システム3に対するリクエストを行う(ステップS19)。このリクエストには、決済システム3においてユーザを識別する決済ユーザアカウントと、サービス提供装置2によるサービス提供の対価とが含まれている。
When the user designates the product to be purchased by voice, and when the payment of the price is instructed by voice, the settlement
決済システム3は、このリクエストに応じた決済処理を行う(ステップS20)。つまり、決済ユーザアカウントを用いてユーザの銀行口座から所定の時期に上記対価を引き落とすための処理を行う。
The
<AIスピーカーの学習動作>
図8は、AIスピーカーシステム9の学習動作の流れを示すシーケンスチャートである。同図に示す処理は、ユーザが例えばAIスピーカー1を利用し始めた初期の期間や、ユーザが例えばAIスピーカー1を利用している期間にわたって実行される。入力部111はユーザが発話した音声の入力を受付ける(ステップS111)。この音声は、図7のステップS11と同様に、例えば「電池が買いたい」とか、「Tシャツが買いたい」とか、「リゾートに行きたい」とか、「引っ越しを頼みたい」といった内容である。
<AI speaker learning operation>
FIG. 8 is a sequence chart showing the flow of the learning operation of the AI speaker system 9. The process shown in the figure is executed over an initial period in which the user starts using the
次に、解析部112は、ステップS12と同様に、周知の意味解析アルゴリズムを用いて、入力されたユーザの音声の意味を解析する(ステップS112)。
Next, the
次に、特定部113は、ステップS13と同様に、周知の声紋生成アルゴリズムを用いて、入力された音声を解析してその声紋データを生成し、声紋DBに含まれる声紋データと照合する(ステップS113)。声紋DBにおいて、ユーザにより入力された音声の声紋データと合致するものがあれば、特定部113は、声紋DBにおいてその声紋データと対応するスピーカーユーザアカウントを参照することで、その音声を発したユーザのスピーカーユーザアカウントを特定する。ここで、声紋DBにおいて、ユーザにより入力された音声の声紋データと合致するものがなければ、特定部113は所定のエラー処理を行って、図8に示す処理は終了する。
Next, as in step S13, the specifying
次に、判定部114は、ステップS14と同様に、解析された音声の意味に対応するサービスを行うサービス提供装置2を選択する(ステップS114)。
Next, as in step S14, the
次に、判定部114は、ステップS15と同様に、選択した1以上のサービス提供装置2について、特定されたスピーカーユーザアカウントに対応するユーザ属性に応じて優先順位を判定する(ステップS15)。
Next, as in step S15, the
次に、提示部115は、ステップS16と同様に、ユーザに対し、判定された優先順位に応じてサービス提供装置の提示を行う(ステップS16)。
Next, the
提示内容を聞いたユーザがいずれか1のサービス提供装置2を音声で指定すると、サービスアカウント通知部116は、ユーザに対して、指定されたサービス提供装置2におけるサービスユーザアカウントの入力を促す。ユーザが指定されたサービス提供装置2におけるサービスユーザアカウントを入力すると、サービスアカウント通知部116はこの入力を受け付ける(ステップS117)。
When the user who listens to the presentation content designates any one of the
次に、サービスアカウント通知部116は、指定されたサービス提供装置2に対するリクエストを行う(ステップS118)。このリクエストには、そのサービス提供装置2においてユーザを識別するサービスユーザカウントが含まれている。
Next, the service
ここで、学習部119は、ステップS113にて特定したスピーカーユーザアカウントとステップS117にて入力されたサービスユーザアカウントとの対応関係を学習し、その対応関係を記憶部118(アカウントDB)に記憶させる(ステップS119)。
Here, the
一方、サービス提供装置2は、上記リクエストに応じた処理を行う(ステップS120)。例えば日用品の通信販売を行うサービス提供装置2は、リクエストに含まれるサービスユーザアカウントが自装置内のアカウントデータベースに含まれていることを確認したうえで、ユーザからの音声による商品の注文に関する音声でのやり取りをAIスピーカー1経由で行う。このときAIスピーカー1の提示部115は、サービス提供装置2から送信されてくる音声データに応じた放音処理を行う。
Meanwhile, the
ユーザにより購入対象の商品が音声で指定され、さらにその対価の決済が音声で指示されると、決済アカウント通知部117は、ユーザに対して、決済システム3における決済ユーザアカウントの入力を促す。ユーザが決済ユーザアカウントを入力すると、決済アカウント通知部117はこの入力を受け付ける(ステップS121)。
When the product to be purchased is designated by voice and the payment for the price is instructed by voice, the settlement
次に、決済アカウント通知部117は、決済システム3に対するリクエストを行う(ステップS122)。このリクエストには、決済システム3においてユーザを識別する決済ユーザアカウントと、サービス提供装置2によるサービス提供の対価とが含まれている。
Next, the settlement
ここで、学習部119は、ステップS113にて特定したスピーカーユーザアカウントとステップS121にて入力された決済ユーザアカウントとの対応関係を学習し、その対応関係を記憶部118(アカウントDB)に記憶させる(ステップS123)。
Here, the
一方、決済システム3は、このリクエストに応じた決済処理を行う(ステップS124)。つまり、決済ユーザアカウントを用いてユーザの銀行口座から所定の時期に上記対価を引き落とすための処理を行う。
On the other hand, the
以上の学習動作により、AIスピーカー1において発話したユーザを識別するスピーカーユーザアカウントと、サービスを提供するサービス提供装置2においてユーザを識別するサービスユーザアカウントと、決済システム3においてユーザを識別する決済ユーザアカウントとの対応関係が学習され、記憶部118(アカウントDB)に記憶されることになる。前述した基本動作においては、この学習結果である記憶部118(アカウントDB)の内容に基づいて各処理が実行される。
Through the above learning operation, a speaker user account for identifying a user who has spoken in the
以上の実施形態によれば、各サービスにおいてユーザのサービスユーザアカウントが個別に設定されている場合であっても、そのサービスユーザアカウントをユーザが都度入力することなく、AIスピーカーシステム経由でユーザが望むサービスを提供することが可能となる。さらに、決済ユーザアカウントをユーザが都度入力することなく、AIスピーカーシステム経由でユーザが望む有料サービスを提供することが可能となる。さらに、これらの処理が自動で学習されるから、高いユーザビリティが実現される。 According to the above embodiment, even if the service user account of the user is individually set in each service, the user desires via the AI speaker system without inputting the service user account each time. Service can be provided. Furthermore, it is possible to provide a pay service desired by the user via the AI speaker system without inputting the settlement user account each time. Furthermore, since these processes are automatically learned, high usability is realized.
<変形例>
以上が実施形態の説明であるが、この実施形態の内容は以下のように変形し得る。また、以下の変形例を組合せてもよい。
<Modification>
The above is the description of the embodiment, but the contents of this embodiment can be modified as follows. Further, the following modifications may be combined.
実施形態では、学習部119は、スピーカーユーザアカウントと、サービスユーザアカウントと、決済ユーザアカウントとの対応関係を学習していたが、さらに、判定部が用いる優先順位に関する学習を行ってもよい。前述したとおり、例えば、ユーザの音声が「電池が買いたい」であれば、判定部114は、ユーザが電池の購入を希望しているという意味に判断し、日用品を通信販売するサービスを提供する1以上のサービス提供装置2を選択する。そして、そのユーザの属性に応じた優先順位をこれら1以上のサービス提供装置2に対して判定していた。学習部119は、このようなユーザの属性とサービス提供装置2の優先順位との関係を機械学習等の学習アルゴリズムによって学習する。例えば、ユーザに提示された複数のサービス提供装置2のうちそのユーザが選択する頻度が高いサービス提供装置2が存在する場合には、学習部119は、そのユーザのユーザ属性とそのサービス提供装置2との間に強い関連性があると学習して、そのユーザ属性においてそのサービス提供装置2に高い優先順位を対応付けて記憶する。これにより、例えばユーザ属性が主婦であってそのユーザの音声が「電池が買いたい」である場合に、学習部119の学習により、日用品を他よりも安く通信販売しているサービスを提供するサービス提供装置2の優先順位が高くなるという例が考えられる。また、ユーザ属性が独身男性であってそのユーザの音声が「スニーカーが買いたい」である場合に、学習部119の学習により、靴の販売種類が多いサービス提供装置2の優先順位が高くなるという例が考えられる。
In the embodiment, the
さらに、学習部119は、AIスピーカー1においてユーザの音声が入力された日時又は場所に応じて、上記の優先順位に関する学習を行うようにしてもよい。つまり、或る時間帯や或るエリアごとに上記の学習が行われる。このような学習により、例えばユーザが自宅で「本を買いたい」と発話した場合に、学習部119の学習により、そのユーザの趣味嗜好にあった本が販売されている総合的な書籍販売サービスを提供するサービス提供装置2の優先順位が高くなるという例が考えられる。一方、例えばユーザが勤務先や学校で「本を買いたい」と発話した場合に、学習部119の学習により、より専門的な本が販売されている書籍販売サービスを提供するサービス提供装置2の優先順位が高くなるという例が考えられる。また、例えばユーザが昼頃に「何か食べたい」と発話した場合に、学習部119の学習により、昼食に適した例えばピザや麺類の出前サービスを提供するサービス提供装置2の優先順位が高くなるという例が考えられる。一方、例えばユーザが夜に「何か食べたい」と発話した場合に、学習部119の学習により、アルコール飲料を含む飲食メニューがある飲食物出前サービスを提供するサービス提供装置2の優先順位が高くなるという例が考えられる。
Furthermore, the
また、学習部119は、入力されたユーザの音声から推定される当該ユーザの感情に応じて上記の優先順位に関する学習を行うようにしてもよい。具体的には、学習部119は、ユーザの音声から感情を推定するためのアルゴリズムを記憶しており、そのアルゴリズムを用いてユーザの音声から感情を推定する。そして、学習部119は、ユーザの感情ごとに上記の学習を行う。このような学習により、例えばユーザが「旅行に行きたい」と発話した場合の感情が「楽しい」という感情であれば、学習部119の学習により、リゾート地や繁華街があるような旅行を主に販売しているサービス提供装置2の優先順位が高くなるという例が考えられる。一方、例えばユーザが「旅行に行きたい」と発話した場合の感情が「疲れている」という感情であれば、学習部119の学習により、自然が多い地域や人口が少ない地域への旅行を主に販売しているサービス提供装置2の優先順位が高くなるという例が考えられる。
Further, the
例えば図6で例示したAIスピーカー1の機能構成の一部は省略されてもよいし、さらに別の機能が追加されてもよい。図6に示したAIスピーカー1が備える機能は、AIスピーカーシステム9に属するいずれかの装置又は端末が実装していればよい。また、物理的に複数の装置からなるコンピュータ装置群が連携して、図6に示したAIスピーカー1と同等の機能を実装してもよい。
For example, a part of the functional configuration of the
AIスピーカー1の制御部11が実行する処理は、AIスピーカー1の制御方法として観念され得る。すなわち、本発明は、入力されたユーザの音声に基づいて前記スピーカーユーザアカウントを特定する特定ステップと、AIスピーカーにおいて発話したユーザを識別するスピーカーユーザアカウントと、サービスを提供するサービス提供装置においてユーザを識別するサービスユーザアカウントと、決済システムにおいてユーザを識別する決済ユーザアカウントとを対応付けて記憶する記憶部を参照し、特定された前記スピーカーユーザアカウントに対応付けられた前記サービスユーザアカウントを特定して前記サービス提供装置に通知するサービスアカウント通知ステップと、前記記憶部を参照し、特定された前記スピーカーユーザアカウントに対応付けられた前記決済ユーザアカウントを特定して前記決済システムに通知する決済アカウント通知ステップとを備えるAIスピーカーシステムの制御方法として提供されてもよい。なお、AIスピーカーシステム9において行われる処理のステップは、上述した実施形態で説明した例に限定されない。この処理のステップは、矛盾のない限り、入れ替えられてもよい。
The processing executed by the
AIスピーカー1の制御部11によって実行されるプログラムは、磁気テープ及び磁気ディスク等の磁気記録媒体、光ディスク等の光記録媒体、光磁気記録媒体、半導体メモリ等の、コンピュータ装置が読取り可能な記録媒体に記憶された状態で提供し得る。また、このプログラムを、インターネット等の通信回線経由でダウンロードさせてもよい。なお、上述した制御部11によって例示した制御手段としてはCPU以外にも種々の装置が適用される場合があり、例えば、専用のプロセッサ等が用いられる。
The program executed by the
Claims (11)
前記AIスピーカーにおいて入力されたユーザの音声に基づいて前記スピーカーユーザアカウントを特定する特定手段と、
特定された前記スピーカーユーザアカウントに対応付けられた前記サービスユーザアカウントを、前記サービス提供装置に通知するサービスアカウント通知手段と、
特定された前記スピーカーユーザアカウントに対応付けられた前記決済ユーザアカウントを、前記決済システムに通知する決済アカウント通知手段と
を備えるAIスピーカーシステム。 Learning means for learning a correspondence relationship between a speaker user account for identifying a user who speaks in an AI speaker, a service user account for identifying a user in a service providing apparatus that provides a service, and a payment user account for identifying a user in a payment system When,
Identifying means for identifying the speaker user account based on a user's voice input at the AI speaker;
Service account notification means for notifying the service providing device of the service user account associated with the identified speaker user account;
An AI speaker system comprising: a payment account notification means for notifying the payment system of the payment user account associated with the specified speaker user account.
発話したユーザに対し、判定された前記優先順位に応じて前記サービス提供装置の提示を行う提示手段と
を備える請求項1記載のAIスピーカーシステム。 Determining means for determining a priority order of a plurality of the service providing devices;
The AI speaker system according to claim 1, further comprising: a presentation unit that presents the service providing apparatus to the user who has spoken according to the determined priority order.
請求項2記載のAIスピーカーシステム。 The AI speaker system according to claim 2, wherein the determination unit determines the priority order based on an analysis result obtained by analyzing a meaning of an input user's voice.
選択した1以上の前記サービス提供装置について、特定された前記スピーカーユーザアカウントに対応する前記ユーザ属性に応じて前記優先順位を判定する
請求項3記載のAIスピーカーシステム。 The determination means selects one or more service providing devices from the plurality of service providing devices based on the analysis result,
The AI speaker system according to claim 3, wherein the priority order of the selected one or more service providing devices is determined according to the user attribute corresponding to the specified speaker user account.
請求項1~4のいずれか1項に記載のAIスピーカーシステム。 The identifying means refers to a database in which each user's voiceprint and the user's speaker user account are associated with each other, and identifies the speaker user account corresponding to the input voiceprint. The AI speaker system according to any one of the above.
前記判定手段は、前記学習結果を用いて前記優先順位を判定する
請求項2~5のいずれか1項に記載のAIスピーカーシステム。 The learning means performs learning related to the priority order,
The AI speaker system according to any one of claims 2 to 5, wherein the determination unit determines the priority using the learning result.
請求項6のいずれか1項に記載のAIスピーカーシステム。 The AI speaker system according to claim 6, wherein the learning unit performs the learning according to a date and time or a place where a user's voice is input to the AI speaker.
請求項6のいずれか1項に記載のAIスピーカーシステム。 The AI speaker system according to claim 6, wherein the learning unit performs the learning according to the user's emotion estimated from the input user's voice.
請求項1~8のいずれか1項に記載のAIスピーカーシステム。 The AI speaker system according to any one of claims 1 to 8, wherein the payment account notification means notifies the payment system of a value for service provision by the service providing device.
前記AIスピーカーにおいて入力されたユーザの音声に基づいて前記スピーカーユーザアカウントを特定する特定ステップと、
特定された前記スピーカーユーザアカウントに対応付けられた前記サービスユーザアカウントを、前記サービス提供装置に通知するサービスアカウント通知ステップと、
特定された前記スピーカーユーザアカウントに対応付けられた前記決済ユーザアカウントを、前記決済システムに通知する決済アカウント通知ステップと
を備えるAIスピーカーシステムの制御方法。 A learning step of learning a correspondence relationship between a speaker user account for identifying a user who speaks in an AI speaker, a service user account for identifying a user in a service providing apparatus that provides a service, and a payment user account for identifying a user in a payment system When,
A specifying step of specifying the speaker user account based on a user voice input at the AI speaker;
A service account notification step of notifying the service providing apparatus of the service user account associated with the identified speaker user account;
A method for controlling an AI speaker system, comprising: a payment account notification step of notifying the payment system of the payment user account associated with the specified speaker user account.
AIスピーカーにおいて発話したユーザを識別するスピーカーユーザアカウントと、サービスを提供するサービス提供装置においてユーザを識別するサービスユーザアカウントと、決済システムにおいてユーザを識別する決済ユーザアカウントとの対応関係を学習して記憶する学習ステップと、
前記AIスピーカーにおいて入力されたユーザの音声に基づいて前記スピーカーユーザアカウントを特定する特定ステップと、
特定された前記スピーカーユーザアカウントに対応付けられた前記サービスユーザアカウントを、前記サービス提供装置に通知するサービスアカウント通知ステップと、
特定された前記スピーカーユーザアカウントに対応付けられた前記決済ユーザアカウントを、前記決済システムに通知する決済アカウント通知ステップと を実行させるためのプログラム。 On the computer,
Learning and storing a correspondence relationship between a speaker user account for identifying a user who has spoken in an AI speaker, a service user account for identifying a user in a service providing apparatus that provides a service, and a payment user account for identifying a user in a payment system Learning steps to
A specifying step of specifying the speaker user account based on a user voice input at the AI speaker;
A service account notification step of notifying the service providing apparatus of the service user account associated with the identified speaker user account;
A payment account notification step of notifying the payment system of the payment user account associated with the specified speaker user account.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/JP2018/010007 WO2019176017A1 (en) | 2018-03-14 | 2018-03-14 | Ai speaker system, ai speaker system control method, and program |
| JPPCT/JP2018/010007 | 2018-03-14 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2019177101A1 true WO2019177101A1 (en) | 2019-09-19 |
Family
ID=67907702
Family Applications (2)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/JP2018/010007 Ceased WO2019176017A1 (en) | 2018-03-14 | 2018-03-14 | Ai speaker system, ai speaker system control method, and program |
| PCT/JP2019/010551 Ceased WO2019177101A1 (en) | 2018-03-14 | 2019-03-14 | Ai speaker system, method for controlling ai speaker system, and program |
Family Applications Before (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/JP2018/010007 Ceased WO2019176017A1 (en) | 2018-03-14 | 2018-03-14 | Ai speaker system, ai speaker system control method, and program |
Country Status (1)
| Country | Link |
|---|---|
| WO (2) | WO2019176017A1 (en) |
Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002279245A (en) * | 2001-03-19 | 2002-09-27 | Ntt Docomo Inc | Service center and order receiving method |
| JP2002304379A (en) * | 2001-04-05 | 2002-10-18 | Sharp Corp | Personal authentication method and personal authentication system |
| JP2002334241A (en) * | 2001-05-11 | 2002-11-22 | Mitsubishi Electric Corp | Sales support system and method associated with navigation system |
| JP2008204151A (en) * | 2007-02-20 | 2008-09-04 | Nec Corp | Electronic disbursement selection system, method and program |
| JP2009237774A (en) * | 2008-03-26 | 2009-10-15 | Advanced Media Inc | Authentication server, service providing server, authentication method, communication terminal, and log-in method |
| WO2015029379A1 (en) * | 2013-08-29 | 2015-03-05 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | Device control method, display control method, and purchase payment method |
| JP6254726B1 (en) * | 2017-02-10 | 2017-12-27 | ヤフー株式会社 | Generating device, generating method, and generating program |
-
2018
- 2018-03-14 WO PCT/JP2018/010007 patent/WO2019176017A1/en not_active Ceased
-
2019
- 2019-03-14 WO PCT/JP2019/010551 patent/WO2019177101A1/en not_active Ceased
Patent Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002279245A (en) * | 2001-03-19 | 2002-09-27 | Ntt Docomo Inc | Service center and order receiving method |
| JP2002304379A (en) * | 2001-04-05 | 2002-10-18 | Sharp Corp | Personal authentication method and personal authentication system |
| JP2002334241A (en) * | 2001-05-11 | 2002-11-22 | Mitsubishi Electric Corp | Sales support system and method associated with navigation system |
| JP2008204151A (en) * | 2007-02-20 | 2008-09-04 | Nec Corp | Electronic disbursement selection system, method and program |
| JP2009237774A (en) * | 2008-03-26 | 2009-10-15 | Advanced Media Inc | Authentication server, service providing server, authentication method, communication terminal, and log-in method |
| WO2015029379A1 (en) * | 2013-08-29 | 2015-03-05 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | Device control method, display control method, and purchase payment method |
| JP6254726B1 (en) * | 2017-02-10 | 2017-12-27 | ヤフー株式会社 | Generating device, generating method, and generating program |
Also Published As
| Publication number | Publication date |
|---|---|
| WO2019176017A1 (en) | 2019-09-19 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11625425B2 (en) | Dialogue management system with hierarchical classification and progression | |
| US20220130387A1 (en) | User-programmable automated assistant | |
| US12217759B2 (en) | Voice to text conversion based on third-party agent content | |
| KR102224500B1 (en) | System and method for providing interactive customer response service using virtual host character based on artificial intelligence | |
| US11900928B2 (en) | System and method for adapted interactive experiences | |
| US20140013202A1 (en) | Web page display system | |
| CN112071302A (en) | Synthetic Speech Selection for Computational Agents | |
| KR102284912B1 (en) | Method and appratus for providing counseling service | |
| JP2016103270A (en) | Information processing system, receiving server, information processing method, and program | |
| US11011176B1 (en) | Voice synthesis for virtual agents | |
| CN114117012A (en) | Intelligent recommendation method, device, equipment and readable storage medium | |
| JP6572354B1 (en) | Sales proposal system, sales proposal program, and sales proposal method | |
| CN114971137A (en) | Collaborating multiple chat robots in a single conversation system | |
| JP2019125357A (en) | Natural language grammar adapted to interactive experience | |
| CN119129646A (en) | Information interaction method, device, electronic device and storage medium | |
| WO2019177102A1 (en) | Ai speaker system, method for controlling ai speaker system, and program | |
| WO2019177101A1 (en) | Ai speaker system, method for controlling ai speaker system, and program | |
| JP6929960B2 (en) | Information processing device and information processing method | |
| US20250308547A1 (en) | Method for escalation by detecting health traits of a user based on audio analysis of audio stream of the user | |
| WO2020008881A1 (en) | Information processing device and information processing method | |
| JP7018002B2 (en) | Information processing equipment, information processing methods, and information processing programs | |
| EP3502923A1 (en) | Natural language grammars adapted for interactive experiences |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 19768169 Country of ref document: EP Kind code of ref document: A1 |
|
| NENP | Non-entry into the national phase |
Ref country code: DE |
|
| 122 | Ep: pct application non-entry in european phase |
Ref document number: 19768169 Country of ref document: EP Kind code of ref document: A1 |
|
| NENP | Non-entry into the national phase |
Ref country code: JP |