WO2024154626A1 - Electronic apparatus and program - Google Patents
Electronic apparatus and program Download PDFInfo
- Publication number
- WO2024154626A1 WO2024154626A1 PCT/JP2024/000328 JP2024000328W WO2024154626A1 WO 2024154626 A1 WO2024154626 A1 WO 2024154626A1 JP 2024000328 W JP2024000328 W JP 2024000328W WO 2024154626 A1 WO2024154626 A1 WO 2024154626A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- interlocutor
- electronic device
- unit
- candidate
- information
- Prior art date
Links
Images
Classifications
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63H—TOYS, e.g. TOPS, DOLLS, HOOPS OR BUILDING BLOCKS
- A63H11/00—Self-movable toy figures
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63H—TOYS, e.g. TOPS, DOLLS, HOOPS OR BUILDING BLOCKS
- A63H5/00—Musical or noise- producing devices for additional toy effects other than acoustical
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J13/00—Controls for manipulators
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
Definitions
- This disclosure relates to electronic devices and programs.
- remote conferences such as web conferences or video conferences
- electronic devices or systems including electronic devices
- audio and/or video of the conference in the office is acquired by, for example, an electronic device installed in the office, and transmitted to, for example, an electronic device installed in the participant's home.
- audio and/or video at the participant's home is acquired by, for example, an electronic device installed in the participant's home, and transmitted to, for example, an electronic device installed in the office.
- Such electronic devices allow participants to communicate with each other without having to all gather in the same place.
- Patent Document 1 learns in advance from image information and finds the face of a familiar person. If it determines that the person is calling out to it, it faces the direction of the sound source.
- Patent Document 2 proposes a technology that generates behavior patterns according to the relative distance from the user, and generates different behavior patterns for each artificial creature model even when the same external information is given.
- Patent Document 3 discloses a robot that communicates with the nearest person by recognizing people in the vicinity or surrounding area using RFID technology.
- Patent Document 4 discloses a communication robot that approaches nearby people and requests permission to identify them, and if permission is granted, identifies them individually and extracts and presents information of common interest.
- An electronic device includes: An acquisition unit that acquires information regarding at least one interlocutor candidate; a detection unit that detects the at least one candidate interlocutor based on information about the at least one candidate interlocutor; a control unit that executes a predetermined process for at least one interlocutor selected from the at least one interlocutor candidate, and does not execute the predetermined process for the interlocutor candidate who is not selected as the interlocutor; Equipped with.
- An electronic device includes: An acquisition unit that acquires information regarding at least one interlocutor candidate; A selection unit that selects at least one interlocutor from the at least one interlocutor candidate; a control unit that executes a predetermined process for the at least one interlocutor and does not execute the predetermined process for the interlocutor candidates who are not selected as the interlocutor; Equipped with.
- An electronic device includes: an acquisition unit that acquires information about at least one interlocutor candidate from the first electronic device; a detection unit that detects the at least one candidate interlocutor based on information about the at least one candidate interlocutor; a control unit that controls at least one of the first electronic device and the second electronic device so as to execute a predetermined process for at least one interlocutor selected by the second electronic device from the at least one interlocutor candidate, and not to execute the predetermined process for the interlocutor candidate not selected as the interlocutor; Equipped with.
- a program includes: On the computer, obtaining information about at least one potential interlocutor; detecting the at least one candidate interlocutor based on information about the at least one candidate interlocutor; executing a predetermined process for at least one interlocutor selected from the at least one interlocutor candidate, and not executing the predetermined process for the interlocutor candidate who is not selected as the interlocutor; Execute the command.
- FIG. 1 is a diagram illustrating an example of a usage mode of a system according to an embodiment.
- FIG. 2 is a functional block diagram illustrating a schematic configuration of a first electronic device according to an embodiment.
- 6A and 6B are diagrams illustrating an example of driving by a driving unit of the first electronic device according to an embodiment.
- FIG. 4 is a functional block diagram illustrating a schematic configuration of a second electronic device according to an embodiment.
- FIG. 4 is a functional block diagram illustrating a configuration of a third electronic device according to an embodiment.
- FIG. 2 is a sequence diagram illustrating a basic operation of a system according to an embodiment.
- FIG. 1 is a diagram illustrating an example of the operation of a system according to an embodiment.
- FIG. 1 is a diagram illustrating an example of the operation of a system according to an embodiment.
- FIG. 1 is a diagram illustrating an example of the operation of a system according to an embodiment.
- FIG. 1 is a diagram illustrating an example of the operation of a system according to an embodiment.
- FIG. 11 is a sequence diagram illustrating a basic operation of a system according to another embodiment.
- the term “electronic device” may be, for example, a device that is driven by power supplied from a power system or a battery.
- the term “information processing device” may be, for example, a form of electronic device.
- the term “information processing device” may be, for example, any device that performs a predetermined process by a computer executing a program, such as a personal computer (PC), a notebook PC, a server, or a smartphone.
- the term “system” may include, for example, at least an electronic device and/or an information processing device.
- the term "user” may be, for example, a person who uses or may use an electronic device and/or an information processing device according to an embodiment (typically a human), as well as a person who uses or may use a system including an electronic device and/or an information processing device according to an embodiment.
- the term "user” may be, for example, a person who may enjoy the benefits of an electronic device, an information processing device, and/or a system according to an embodiment.
- a conference in which at least one participant participates by communication from a location different from the other participants is collectively referred to as a "remote conference".
- An object of the present disclosure is to provide an electronic device and program that facilitates communication.
- an electronic device and program that facilitates communication can be provided.
- FIG. 1 is a diagram showing an example of how the system according to one embodiment is used.
- the following description assumes a situation in which interlocutor Mg remotely participates in a conference held in a conference room MR from his/her home RL, as shown in FIG. 1.
- the conference room MR may be a closed space or may be a space such as an open space.
- the interlocutor candidates Ma, Mb, Mc, Md, Me, and Mf may participate in the conference as an interlocutor.
- the interlocutor candidates Ma, Mb, Mc, and Md are seated around the desk in the conference room MR.
- the interlocutor candidates Me and Mf are standing in a position slightly away from the desk in the conference room MR (for example, at a position farther away from the desk than the interlocutor candidates Ma, Mb, Mc, and Md).
- the interlocutor candidates who may become participants in the conference are not limited to the interlocutor candidates Ma, Mb, Mc, Md, Me, and Mf, and may include, for example, other interlocutor candidates.
- the interlocutor candidates Me and Mf may be seated.
- the interlocutor candidates may be any number of at least one person. Additionally, interlocutors other than interlocutor Mg may also participate in the conference remotely from their own homes.
- an "interlocutor” may be a person who is expected to have a dialogue and/or a person who is permitted to have a dialogue, for example, in a situation such as the remote conference shown in FIG. 1. That is, an "interlocutor” may be a person who participates in a conference, for example, in a situation such as the remote conference shown in FIG. 1. Also, an “interlocutor candidate” may be a person who has not yet been permitted or set as the above-mentioned interlocutor, but who can become an interlocutor. That is, an "interlocutor candidate" may be a person who can participate in a conference, for example, in a situation such as the remote conference shown in FIG.
- an "interlocutor” may be permitted and/or set from among the "interlocutor candidates".
- a "dialogue” may include, for example, a dialogue between an interlocutor Mg and at least one of the interlocutor candidates Ma, Mb, Mc, Md, Me, and Mf.
- the system according to an embodiment may include, for example, a first electronic device 1, a second electronic device 100, and a third electronic device 300.
- the first electronic device 1, the second electronic device 100, and the third electronic device 300 are shown only in schematic form.
- the system according to an embodiment may not include at least any of the first electronic device 1, the second electronic device 100, and the third electronic device 300, and may include devices other than the electronic devices mentioned above.
- the first electronic device 1 may be installed in the conference room MR.
- the second electronic device 100 may be installed in the home RL of the interlocutor Mg.
- the first electronic device 1 and the second electronic device 100 may be configured to be able to communicate with each other.
- the location of the home RL of the interlocutor Mg may be a location different from the location of the conference room MR.
- the location of the home RL of the interlocutor Mg may be far away from the location of the conference room MR, or may be close to the location of the conference room MR (for example, a room adjacent to the conference room MR).
- the location of the home RL of the interlocutor Mg may be within the conference room MR.
- the first electronic device 1 according to an embodiment may be connected to the second electronic device 100 according to an embodiment, for example, via a network N.
- the third electronic device 300 according to an embodiment may be connected to at least one of the first electronic device 1 and the second electronic device 100, for example, via a network N.
- the first electronic device 1 according to an embodiment may be connected to the second electronic device 100 according to an embodiment, by at least one of wireless and wired.
- the third electronic device 300 according to an embodiment may be connected to at least one of the first electronic device 1 and the second electronic device 100, by at least one of wireless and wired.
- the first electronic device 1, the second electronic device 100, and the third electronic device 300 are shown by dashed lines as being connected wirelessly and/or wired via the network N.
- the first electronic device 1 and the second electronic device 100 may be included in a remote conference system according to an embodiment.
- the third electronic device 300 may be included in a remote conference system according to an embodiment.
- the network N as shown in FIG. 1 may include various electronic devices and/or devices such as a server as appropriate.
- the network N as shown in FIG. 1 may also include devices such as a base station and/or a repeater as appropriate.
- the first electronic device 1 and the second electronic device 100 may communicate directly.
- the first electronic device 1 and the second electronic device 100 may communicate via at least one of other devices such as the third electronic device 300, a repeater, and/or a base station.
- the communication unit of the first electronic device 1 and the communication unit of the second electronic device 100 may communicate.
- the above-mentioned notation may include the same intention as above not only when the first electronic device 1 and the second electronic device 100 "communicate” with each other, but also when one "sends” information to the other and/or when the other "receives” information sent by one. Furthermore, the above-mentioned notation may include the same intention as above not only when the first electronic device 1 and the second electronic device 100 "communicate” with each other, but also when any electronic device, including the third electronic device 300, communicates with any other electronic device.
- the first electronic device 1 may be arranged in the conference room MR, for example, as shown in FIG. 1.
- the first electronic device 1 may be arranged in a position where it can acquire the voice and/or image of at least one of the interlocutor candidates Ma, Mb, Mc, Md, Me, and Mf.
- the first electronic device 1 outputs the voice and/or image of the interlocutor Mg, as described later. Therefore, the first electronic device 1 may be arranged so that the voice and/or image of the interlocutor Mg output from the first electronic device 1 reaches at least one of the interlocutor candidates Ma, Mb, Mc, Md, Me, and Mf.
- the first electronic device 1 may acquire information on the gaze of the interlocutor candidates or interlocutors, such as the gaze, the direction of the gaze, and/or the movement of the gaze, of at least one of the interlocutor candidates Ma, Mb, Mc, Md, Me, and Mf, as described later.
- the acquisition of gaze information by the first electronic device 1 will be described further below.
- the second electronic device 100 may be arranged in the home RL of the interlocutor Mg, for example, in a manner as shown in FIG. 1. In this case, the second electronic device 100 may be arranged in a position where it is possible to acquire the voice and/or image of the interlocutor Mg.
- the second electronic device 100 may acquire the voice and/or image of the interlocutor Mg by a microphone, a headset, and/or a camera connected to the second electronic device 100.
- the second electronic device 100 may acquire information on the line of sight of the interlocutor Mg, such as the line of sight of the interlocutor Mg, the direction of the line of sight, and/or the movement of the line of sight, as described below.
- the acquisition of line of sight information by the second electronic device 100 will be described further below.
- the second electronic device 100 outputs the voice and/or image of at least one of the interlocutor candidates Ma, Mb, Mc, Md, Me, and Mf in the conference room MR, as described below. For this reason, the second electronic device 100 may be positioned so that the voice and/or image output from the second electronic device 100 reaches the interlocutor Mg.
- the voice output from the second electronic device 100 may be positioned so that it reaches the ears of the interlocutor Mg, for example, via headphones, earphones, speakers, or a headset.
- the image output from the second electronic device 100 may be positioned so that it is visually recognized by the interlocutor Mg, for example, via a display.
- the third electronic device 300 may be, for example, a server-like device that relays between the first electronic device 1 and the second electronic device 100. Also, the system according to one embodiment may not include the third electronic device 300.
- FIG. 1 shows only one example of a usage mode of the first electronic device 1, the second electronic device 100, and the third embodiment 300 according to an embodiment.
- the first electronic device 1, the second electronic device 100, and the third embodiment 300 according to an embodiment may be used in various other modes.
- the remote conference system including the first electronic device 1 and the second electronic device 100 shown in FIG. 1 allows the interlocutor Mg to behave as if he or she were participating in a conference held in the conference room MR while staying at home RL. Furthermore, this remote conference system allows at least one of the interlocutor candidates Ma, Mb, Mc, Md, Me, and Mf to feel as if the interlocutor Mg is actually participating in the conference held in the conference room MR. That is, in the remote conference system including the first electronic device 1 and the second electronic device 100, the first electronic device 1 arranged in the conference room MR can play a role like an avatar of the interlocutor Mg.
- the first electronic device 1 may function as a physical avatar (such as a telepresence robot or a communication robot) that resembles the interlocutor Mg. Furthermore, the first electronic device 1 may function as a virtual avatar that displays an image of the interlocutor Mg or an image that resembles, for example, a character of the interlocutor Mg on the first electronic device 1.
- the image of the interlocutor Mg or the image of the interlocutor Mg displayed by the first electronic device 1 may be, for example, a display provided in the first electronic device 1 itself, an external display, or a 3D hologram projected by the first electronic device 1.
- FIG. 2 is a block diagram showing a schematic configuration of the functions of the first electronic device 1 shown in FIG. 1.
- the first electronic device 1 may be used in the conference room MR by at least one of the interlocutor candidates Ma, Mb, Mc, Md, Me, and Mf.
- the second electronic device 100 described later has a function of outputting the voice, video, and/or gaze information of the interlocutor Mg acquired by the second electronic device 100 to the first electronic device 1 when the interlocutor Mg speaks.
- the first electronic device 1 has a function of outputting the voice and/or video of at least one of the interlocutor candidates Ma, Mb, Mc, Md, Me, and Mf acquired by the first electronic device 1 to the second electronic device 100 when the interlocutor speaks.
- the first electronic device 1 allows at least one of the interlocutor candidates Ma, Mb, Mc, Md, Me, and Mf to hold a remote conference or video conference in the conference room MR even if the interlocutor Mg is in a remote location. Therefore, the first electronic device 1 is also referred to as an electronic device that is "used locally" as appropriate.
- the first electronic device 1 may be configured to reproduce the direction of gaze of interlocutor Mg. That is, the first electronic device 1 may be capable of performing an operation that simulates the direction of gaze of interlocutor Mg. Specifically, the first electronic device 1 can cause interlocutor candidates Ma, Mb, Mc, Md, Me, Mf, and the like in the conference room MR to recognize in which direction interlocutor Mg is looking.
- the first electronic device 1 can cause people around the first electronic device 1 in the conference room MR to recognize whether interlocutor Mg is looking at interlocutor Ma, whether interlocutor Mg is looking at interlocutor Mb, or whether interlocutor Mg is not looking at any of the other interlocutors.
- the first electronic device 1 may be various devices, but may be, for example, a device designed specifically for the device.
- the first electronic device 1 may have a housing with an exterior on which an illustration of a human or the like is drawn, or may have a doll-like or robot-like shape that imitates at least a part of a human or the like.
- the first electronic device 1 may be, for example, a general-purpose smartphone, tablet, phablet, notebook computer (notebook PC or laptop), or computer (desktop).
- the first electronic device 1 may draw at least a part of an image of a human or robot on, for example, the display of a notebook PC.
- the first electronic device 1 may project at least a part of a human or robot as a 3D hologram.
- the direction of the gaze of the interlocutor Mg may be simulated by the movement of the eyes and/or head of the robot.
- the first electronic device 1 is configured to include a display that draws an image of a robot
- the direction of the gaze of the interlocutor Mg may be simulated by the movement of the eyes and/or head of the drawn image of the robot.
- the first electronic device 1 may include a control unit 10, a memory unit 20, a communication unit 30, an imaging unit 40, an audio input unit 50, an audio output unit 60, a display unit 70, a drive unit 80, an input unit 90, and a gaze information acquisition unit 92.
- the control unit 10 may also include, for example, an acquisition unit 12, a detection unit 14, a selection unit 16, and an identification unit 18.
- the first electronic device 1 may not include at least some of the functional units shown in FIG. 2, or may include components other than the functional units shown in FIG. 2.
- the control unit 10 may have the function of controlling and/or managing the entire first electronic device 1, including each functional unit constituting the first electronic device 1.
- the control unit 10 may include at least one processor, such as a CPU (Central Processing Unit) or a DSP (Digital Signal Processor), to provide control and processing power for executing various functions.
- the control unit 10 may be realized as a single processor, or as several processors, or as individual processors.
- the processor may be realized as a single integrated circuit (IC).
- the processor may be realized as multiple communicatively connected integrated circuits and discrete circuits.
- the processor may be realized based on various other known technologies.
- the control unit 10 may include one or more processors and memories.
- the processor may include a general-purpose processor that loads a specific program to execute a specific function, and a dedicated processor specialized for a specific process.
- the dedicated processor may include an application specific integrated circuit (ASIC).
- the processor may include a programmable logic device (PLD).
- the PLD may include a field-programmable gate array (FPGA).
- the control unit 10 may be either a system-on-a-chip (SoC) or a system in a package (SiP) in which one or more processors work together.
- SoC system-on-a-chip
- SiP system in a package
- the control unit 10 may be configured to include, for example, at least one of software and hardware resources. Furthermore, in the first electronic device 1 according to one embodiment, the control unit 10 may be configured by specific means in which software and hardware resources work together. Furthermore, in the first electronic device 1 according to one embodiment, at least one of the other functional units may also be configured by specific means in which software and hardware resources work together.
- control unit 10 performs various operations such as control, which will be described later.
- the acquisition unit 12 of the control unit 10 can perform various acquisition processes.
- the detection unit 14 can perform various detection processes.
- the selection unit 16 can perform various selection processes.
- the identification unit 14 can perform various identification processes. The operations performed by each of these functional units will be described later.
- the storage unit 20 may function as a memory that stores various information.
- the storage unit 20 may store, for example, a program executed in the control unit 10 and the results of processing executed in the control unit 10.
- the storage unit 20 may also function as a work memory for the control unit 10.
- the storage unit 20 may be connected to the control unit 10 by wire and/or wirelessly.
- the storage unit 20 may include, for example, at least one of a RAM (Random Access Memory) and a ROM (Read Only Memory).
- the storage unit 20 may be configured, for example, by a semiconductor memory or the like, but is not limited to this, and may be any storage device.
- the storage unit 20 may be a storage medium such as a memory card inserted into the first electronic device 1 according to one embodiment.
- the storage unit 20 may also be an internal memory of a CPU used as the control unit 10, or may be connected to the control unit 10 as a separate unit.
- the communication unit 30 has an interface function for wireless and/or wired communication with, for example, an external device.
- the communication method performed by the communication unit 30 in one embodiment may be a wireless communication standard.
- the wireless communication standard includes cellular phone communication standards such as 2G, 3G, 4G, and 5G.
- the cellular phone communication standards include LTE (Long Term Evolution), W-CDMA (Wideband Code Division Multiple Access), CDMA2000, PDC (Personal Digital Cellular), GSM (Registered Trademark) (Global System for Mobile communications), and PHS (Personal Handy-phone System), etc.
- wireless communication standards include WiMAX (Worldwide Interoperability for Microwave Access), IEEE 802.11, WiFi, Bluetooth (registered trademark), IrDA (Infrared Data Association), and NFC (Near Field Communication).
- the communication unit 30 may include, for example, a modem whose communication method is standardized by ITU-T (International Telecommunication Union Telecommunication Standardization Sector).
- ITU-T International Telecommunication Union Telecommunication Standardization Sector
- the communication unit 30 may be configured to include, for example, an antenna for transmitting and receiving radio waves and an appropriate RF unit.
- the communication unit 30 may wirelessly communicate with, for example, a communication unit of another electronic device via an antenna.
- the communication unit 30 may have a function of transmitting any information from the first electronic device 1 to another device, and/or a function of receiving any information from another device in the first electronic device 1.
- the communication unit 30 may wirelessly communicate with the second electronic device 100 shown in FIG. 1.
- the communication unit 30 may wirelessly communicate with a communication unit 130 (described later) of the second electronic device 100.
- the communication unit 30 has a function of communicating with the second electronic device 100.
- the communication unit 30 may wirelessly communicate with the third electronic device 300 shown in FIG. 1.
- the communication unit 30 may wirelessly communicate with a communication unit 330 (described later) of the third electronic device 300.
- the communication unit 30 may have a function of communicating with the third electronic device 300.
- the communication unit 30 may also be configured as an interface such as a connector for wired connection to the outside.
- the communication unit 30 can be configured using known technology for wireless communication, so a detailed description of the hardware and the like is omitted.
- the communication unit 30 may be connected to the control unit 10 via a wired and/or wireless connection.
- Various information received by the communication unit 30 may be supplied to, for example, the storage unit 20 and/or the control unit 10.
- Various information received by the communication unit 30 may be stored in, for example, a memory built into the control unit 10.
- the communication unit 30 may transmit, for example, the results of processing by the control unit 10 and/or information stored in the storage unit 20 to the outside.
- the imaging unit 40 may be configured to include an image sensor that captures images electronically, such as a digital camera.
- the imaging unit 40 may be configured to include an imaging element that performs photoelectric conversion, such as a CCD (Charge Coupled Device Image Sensor) or a CMOS (Complementary Metal Oxide Semiconductor) sensor.
- the imaging unit 40 can capture an image of the surroundings of the first electronic device 1, for example.
- the imaging unit 40 may capture an image of the inside of the conference room MR shown in FIG. 1, for example.
- the imaging unit 40 may capture images of potential interlocutors Ma, Mb, Mc, Md, Me, and Mf of a conference held in the conference room MR shown in FIG. 1, for example.
- the imaging unit 40 may be configured to capture an image having a predetermined range of angle of view centered on a specific direction.
- the imaging unit 40 may capture an image centered on interlocutor candidate Mb in FIG. 1, and in which interlocutor candidate Ma and/or interlocutor candidate Md are not included in the angle of view.
- the imaging unit 40 may also be configured to simultaneously capture images in all directions (e.g., 360 degrees), such as the horizontal direction.
- the imaging unit 40 may capture an omnidirectional image in FIG. 1 that includes interlocutor candidates Ma, Mb, Mc, Md, Me, and Mf.
- the imaging unit 40 may convert the captured image into a signal and transmit it to the control unit 10. For this reason, the imaging unit 40 may be connected to the control unit 10 via a wired and/or wireless connection. Furthermore, a signal based on the image captured by the imaging unit 40 may be supplied to any functional unit of the first electronic device 1, such as the memory unit 20 and/or the display unit 70.
- the imaging unit 40 is not limited to an imaging device such as a digital camera, and may be any device that captures an image of the state inside the conference room MR shown in FIG. 1.
- the imaging unit 40 may capture images of the state inside the conference room MR as still images at predetermined time intervals (e.g., 15 frames per second). Also, in one embodiment, the imaging unit 40 may capture images of the state inside the conference room MR as a continuous video. Furthermore, the imaging unit 40 may be configured to include a fixed camera, or may be configured to include a movable camera.
- the voice input unit 50 detects (acquires) sounds or voices around the first electronic device 1, including human voices.
- the voice input unit 50 may convert sounds or voices detected as air vibrations, for example, by a diaphragm, into an electrical signal.
- the voice input unit 50 may include an acoustic device that converts sounds into an electrical signal, such as a microphone.
- the voice input unit 50 may detect (acquire) the voices of at least one of the interlocutor candidates Ma, Mb, Mc, Md, Me, and Mf in the conference room MR shown in FIG. 1, for example.
- the voices (electrical signals) detected by the voice input unit 50 may be input to the control unit 10, for example. For this reason, the voice input unit 50 may be connected to the control unit 10 by wire and/or wirelessly.
- the audio input unit 50 may be configured to include, for example, a stereo microphone or a microphone array.
- An audio input unit 50 including multiple channels, such as a stereo microphone or a microphone array can identify (or estimate) the direction and/or position of a sound source. With such an audio input unit 50, it can be identified (or estimated) from which direction and/or position a sound detected in, for example, a conference room MR originates, based on the first electronic device 1 equipped with the audio input unit 50.
- the audio input unit 50 may convert the acquired sound or voice into an electrical signal and supply it to the control unit 10.
- the audio input unit 50 may also supply the electrical signal (audio signal) into which the sound or voice has been converted to a functional unit of the first electronic device 1, such as the memory unit 20.
- the audio input unit 50 may be any device that detects (acquires) sound or voice within the conference room MR shown in FIG. 1.
- the audio output unit 60 converts an electrical signal (audio signal) of sound or voice supplied from the control unit 10 into sound, and outputs the audio signal as sound or voice.
- the audio output unit 60 may be connected to the control unit 10 by wire and/or wirelessly.
- the audio output unit 60 may be configured to include a device having a function of outputting sound, such as an arbitrary speaker (loudspeaker).
- the audio output unit 60 may be configured to include a directional speaker that transmits sound in a specific direction.
- the audio output unit 60 may also be configured to be able to change the directionality of the sound.
- the audio output unit 60 may include an amplifier or an amplification circuit that appropriately amplifies the electrical signal (audio signal).
- the audio output unit 60 may amplify the audio signal that the communication unit 30 receives from the second electronic device 100.
- the audio signal received from the second electronic device 100 may be, for example, the audio signal of a speaker (e.g., interlocutor Mg shown in FIG. 1) who is speaking (currently speaking) that is received by the communication unit 30 from the second electronic device 100 of that speaker.
- the audio output unit 60 may output the audio signal of a speaker (e.g., interlocutor Mg shown in FIG. 1) as the voice of that speaker.
- the display unit 70 may be any display device, such as a Liquid Crystal Display (LCD), an Organic Electro-Luminescence panel, or an Inorganic Electro-Luminescence panel.
- the display unit 70 may also be, for example, a projector that projects a 3D hologram.
- the display unit 70 may display various types of information, such as characters, figures, or symbols.
- the display unit 70 may also display objects and/or icon images that constitute various GUIs, for example, to prompt the user to operate the first electronic device 1.
- the display unit 70 may be, for example, a touch screen display equipped with a touch panel function that detects input by contact with a finger or stylus of at least one of the interlocutor candidates Ma, Mb, Mc, Md, Me, and Mf.
- the display unit 70 may be connected to the control unit 10 or the like by wire and/or wirelessly.
- the display unit 70 may be configured to include a backlight, etc., as appropriate.
- the display unit 70 may display an image based on a video signal transmitted from the second electronic device 100. As described later, the second electronic device 100 acquires, for example, the voice, video, and/or gaze information of the interlocutor Mg shown in FIG. 1 and outputs it to the first electronic device 1. The control unit 10 of the first electronic device 1 may then display, on the display unit 70, a video and/or image based on the information acquired from the second electronic device 100. For example, the display unit 70 may display an image representing the gaze direction of the interlocutor Mg based on the video and/or gaze information of the interlocutor Mg input from the control unit 10.
- interlocutor candidates Ma, Mb, Mc, Md, Me, and Mf shown in FIG. 1 can visually know the gaze state of the interlocutor Mg who is located away from the conference room MR.
- the display unit 70 may directly display an image of the interlocutor Mg captured by the second electronic device 100, for example.
- the display unit 70 may display an image of a character (e.g., the gaze of an avatar or robot) that represents the direction of the gaze of the interlocutor Mg, for example.
- the display unit 70 may represent the gaze direction of the user of the second electronic device 100 by an image.
- the display unit 70 may also represent the gaze direction and/or gaze movement of the user of the second electronic device 100 by an image.
- the first electronic device 1 may include a display unit 70 that represents the gaze and/or gaze direction of the user of the second electronic device 100 by an image.
- the driving unit 80 drives a specific moving part in the first electronic device 1.
- the driving unit 80 may be configured to include a power source such as a servo motor that drives any moving part in the first electronic device 1.
- the driving unit 80 may drive any moving part in the first electronic device 1 under the control of the control unit 10. For this reason, the driving unit 80 may be connected to the control unit 10 by wire and/or wirelessly.
- the driving unit 80 may drive, for example, at least a part of the housing of the first electronic device 1. Furthermore, for example, when the first electronic device 1 has a shape like a doll imitating at least a part of a human or the like, or a shape like a robot, the driving unit 80 may drive at least a part of a doll or a robot. In particular, when the first electronic device 1 has a shape imitating at least a part of a human face or a shape like a robot face, the driving unit 80 may express the line of sight, line of sight direction, and/or line of sight movement of the interlocutor Mg by the physical configuration (shape) and/or movement of the doll or robot.
- the second electronic device 100 acquires, for example, the voice, video, and/or gaze information of interlocutor Mg shown in FIG. 1 (by the gaze information acquisition unit 192) and outputs it to the first electronic device 1.
- the drive unit 80 may represent the gaze of the image of interlocutor Mg by a physical configuration (shape) and/or movement based on the video and/or gaze information of interlocutor Mg input from the first electronic device 1, as shown in FIG. 1.
- the drive unit 80 of the first electronic device 1 representing the gaze of interlocutor Mg, for example, interlocutor candidates Ma, Mb, Mc, Md, Me, and Mf shown in FIG. 1 can visually know the state of the gaze of interlocutor Mg who is in a location away from the conference room MR.
- the driving unit 80 may reproduce, for example, the direction and/or movement of the gaze of the interlocutor Mg captured by the second electronic device 100 as is.
- the driving unit 80 may express, for example, the direction and/or movement of the gaze of the interlocutor Mg by the shape of a doll or robot possessed by the first electronic device 1.
- the driving unit 80 may express the gaze, the direction of the gaze, and/or the movement of the gaze of the user of the second electronic device 100 by a physical configuration (shape) and/or movement.
- the first electronic device 1 may include a driving unit 80 that expresses the gaze and/or the direction of the gaze of the user of the second electronic device 100 by driving a mechanical structure.
- FIG. 3 is a diagram illustrating an example of the operation of the driving unit 80 in the first electronic device 1 according to one embodiment.
- the driving unit 80 may realize driving about at least one of the driving axes ⁇ , ⁇ , ⁇ , ⁇ , ⁇ , and ⁇ in the first electronic device 1 having the shape of a doll or robot.
- the driving unit 80 may express a negative movement (shaking the head from side to side) of the user of the second electronic device 100 (e.g., interlocutor Mg) by performing driving about the driving axis ⁇ in the first electronic device 1.
- the driving unit 80 may express a positive movement (nodding movement) of the user of the second electronic device 100 (e.g., interlocutor Mg) by performing driving about the driving axis ⁇ in the first electronic device 1.
- the driving unit 80 may express an undecided movement (tilting the head) of the user of the second electronic device 100 (e.g., interlocutor Mg) by performing driving about the driving axis ⁇ in the first electronic device 1. Also, for example, the driving unit 80 may express a negative or rejection behavior (such as shaking the body from side to side) of the user of the second electronic device 100 (e.g., interlocutor Mg) by performing driving about the driving axis ⁇ in the first electronic device 1.
- a negative or rejection behavior such as shaking the body from side to side
- the driving unit 80 may express the movement of the eye E1 and/or the eye E2 in the face portion Fc of the first electronic device 1 shown in FIG. 3, that is, the line of sight of the user of the second electronic device 100 (e.g., the interlocutor Mg).
- the driving unit 80 may express the line of sight of the user of the second electronic device 100 (e.g., the interlocutor Mg) by driving at least one of the eye E1 and the eye E2 in the face portion Fc of the first electronic device 1.
- the driving unit 80 may express the line of sight of the user of the second electronic device 100 (e.g., the interlocutor Mg) by driving the movement of at least one of the eye E1 and the eye E2 in the face portion Fc of the first electronic device 1.
- the driving unit 80 may express the line of sight of the user of the second electronic device 100 (e.g., the interlocutor Mg) by, for example, moving at least one of the eye E1 and the eye E2 in the face portion Fc of the first electronic device 1 in any direction of the arrows shown in FIG. 3.
- the direction in which the driving unit 80 moves at least one of the eyes E1 and E2 in the face portion Fc of the first electronic device 1 is not limited to any of the directions of the arrows shown in Fig. 3.
- the driving unit 80 may move at least one of the eyes E1 and E2 in the face portion Fc of the first electronic device 1 in a diagonal direction other than any of the directions of the arrows shown in Fig. 3.
- the display unit 70 may represent the gaze of the user of the second electronic device 100 (e.g., interlocutor Mg) by displaying, for example, the eye E1 and/or the eye E2 in the face portion Fc shown in FIG. 3.
- at least one of the display unit 70 and the drive unit 80 may represent the gaze of the user of the second electronic device 100 (e.g., interlocutor Mg) by displaying at least one of the eye E1 and the eye E2 of the first electronic device 1.
- various operations expressing the emotions and/or behavior of a human being can be expressed by displaying the display unit 70 and/or driving the drive unit 80.
- Various known technologies may be used for the operations expressing the emotions and/or behavior of a human being, such as the interlocutor Mg, by displaying the display unit 70 and/or driving the drive unit 80.
- the first electronic device 1 can perform various operations expressing the emotions and/or behavior of the interlocutor Mg by displaying the display unit 70 and/or driving the drive unit 80.
- the input unit 90 shown in FIG. 2 may be configured to include any device for detecting input by a user of the first electronic device 1.
- the input unit 90 may be configured to include at least one of various switches, various sliders, various faders, a joystick, a pad, a keyboard, a mouse, a trackball, and a touch panel.
- the input unit 90 may use various known technologies, so a more detailed description of the hardware, etc. will be omitted.
- the input unit 90 may detect input by interlocutor candidates Ma, Mb, Mc, Md, Me, and Mf shown in FIG. 1, for example.
- the gaze information acquisition unit 92 acquires gaze information of the user of the first electronic device 1 (e.g., at least one of the interlocutor candidates Ma, Mb, Mc, Md, Me, and Mf).
- the gaze information acquisition unit 92 may acquire gaze information of the user of the first electronic device 1, such as the gaze of the user of the first electronic device 1, the direction of the gaze, and/or the movement of the gaze.
- the gaze information acquisition unit 92 may have a function of tracking the movement of the gaze of the user of the first electronic device 1 (e.g., at least one of the interlocutor candidates Ma, Mb, Mc, Md, Me, and Mf), such as an eye tracker.
- the gaze information acquisition unit 92 may be any component capable of acquiring gaze information of the user of the first electronic device 1, such as the gaze of the user of the first electronic device 1, the direction of the gaze, and/or the movement of the gaze.
- the first electronic device 1 may acquire gaze information of a user of the first electronic device 1 (e.g., at least one of the interlocutor candidates Ma, Mb, Mc, Md, Me, and Mf) based on the eye movement of the user captured by the imaging unit 40.
- the first electronic device 1 may not include a gaze information acquisition unit 92, and the imaging unit 40 may also function as the gaze information acquisition unit 92.
- the gaze information acquired by the gaze information acquisition unit 92 may be input to the control unit 10, for example. For this reason, the gaze information acquisition unit 92 may be connected to the control unit 10 via a wired and/or wireless connection.
- the first electronic device 1 may be a dedicated device as described above. Meanwhile, in one embodiment, the first electronic device 1 may include at least one of the functional units shown in FIG. 2, such as the audio output unit 60, the drive unit 80, the input unit 92, and the gaze information acquisition unit 92. In this case, the first electronic device 1 may be connected to another electronic device to supplement at least a part of the functions of the other functional units shown in FIG. 2.
- the other electronic device may be, for example, a general-purpose smartphone, tablet, phablet, notebook computer (notebook PC or laptop), or computer (desktop).
- the manner in which various actions expressing the emotions and/or behavior of a human being such as interlocutor Mg are expressed by the display unit 70 and/or the drive unit 80 in the first electronic device 1 shown in FIG. 3 may be merely considered as examples that can be envisioned.
- the first electronic device 1 may express various actions expressing the emotions and/or behavior of a human being such as interlocutor Mg by using various configurations and/or operating modes.
- FIG. 4 is a block diagram showing a schematic configuration of the second electronic device 100 shown in FIG. 1.
- the second electronic device 100 may be, for example, a device used by the interlocutor Mg at his/her home RL.
- the above-mentioned first electronic device 1 has a function of outputting the voice and/or image of at least one of the interlocutor candidates Ma, Mb, Mc, Md, Me, and Mf acquired by the first electronic device 1 to the second electronic device 100 when at least one of the interlocutor candidates Ma, Mb, Mc, Md, Me, and Mf speaks.
- the first electronic device 1 can express the gaze of the interlocutor Mg.
- the second electronic device 100 has a function of outputting the voice and/or image of the interlocutor Mg acquired by the second electronic device 100 to the first electronic device 1 when the interlocutor Mg speaks.
- the second electronic device 100 has a function of outputting the gaze information of the interlocutor Mg acquired by the second electronic device 100 to the first electronic device 1.
- the second electronic device 100 allows the interlocutor Mg to hold a remote conference or a video conference even when the interlocutor Mg is in a location away from the conference room MR. Therefore, the second electronic device 100 is also referred to as an electronic device "used remotely" as appropriate.
- the second electronic device 100 may include a control unit 110, a memory unit 120, a communication unit 130, an imaging unit 140, an audio input unit 150, an audio output unit 160, a display unit 170, an input unit 190, and a gaze information acquisition unit 192.
- the control unit 110 may also include, for example, an acquisition unit 112, a detection unit 114, a selection unit 116, and an identification unit 118.
- the second electronic device 100 may not include at least some of the functional units shown in FIG. 4, or may include components other than the functional units shown in FIG. 4.
- the control unit 110 may have the function of controlling and/or managing the entire second electronic device 100, including each functional unit constituting the second electronic device 100.
- the control unit 110 may basically be configured based on the same concept as the control unit 10 shown in FIG. 2, for example.
- the acquisition unit 112, detection unit 114, selection unit 116, and identification unit 118 of the control unit 110 may also be configured based on the same concept as the acquisition unit 12, detection unit 14, selection unit 16, and identification unit 18 of the control unit 10 shown in FIG. 2, for example.
- the storage unit 120 may function as a memory that stores various types of information.
- the storage unit 120 may store, for example, programs executed in the control unit 110 and results of processing executed in the control unit 110.
- the storage unit 120 may also function as a work memory for the control unit 110.
- the storage unit 120 may be connected to the control unit 110 via a wired and/or wireless connection.
- the storage unit 120 may basically be configured based on the same concept as the storage unit 20 shown in FIG. 2, for example.
- the communication unit 130 has an interface function for wireless and/or wired communication.
- the communication unit 130 may wirelessly communicate with, for example, a communication unit of another electronic device, for example, via an antenna.
- the communication unit 130 may wirelessly communicate with the first electronic device 1 shown in FIG. 1.
- the communication unit 130 may wirelessly communicate with the communication unit 30 of the first electronic device 1.
- the communication unit 130 has a function of communicating with the first electronic device 1.
- the communication unit 130 may wirelessly communicate with the third electronic device 300 shown in FIG. 1.
- the communication unit 130 may wirelessly communicate with the communication unit 330 (described later) of the third electronic device 300.
- the communication unit 130 may have a function of communicating with the third electronic device 300.
- the communication unit 130 may be connected to the control unit 110 in a wired and/or wireless manner.
- the communication unit 130 may basically have a configuration based on the same idea as the communication unit 30 shown in FIG. 2, for example.
- the imaging unit 140 may be configured to include an image sensor that electronically captures images, such as a digital camera.
- the imaging unit 140 may capture images of the interior of the home RL shown in FIG. 1, for example.
- the imaging unit 140 may capture images of the interlocutor Mg who participates in the conference from the home RL shown in FIG. 1, for example.
- the imaging unit 140 may convert the captured image into a signal and transmit it to the control unit 110. For this reason, the imaging unit 140 may be connected to the control unit 110 by wire and/or wirelessly.
- the imaging unit 140 may basically be configured based on the same concept as the imaging unit 40 shown in FIG. 2, for example.
- the voice input unit 150 detects (acquires) sounds or voices around the second electronic device 100, including human voices.
- the voice input unit 150 may convert sounds or voices detected as air vibrations, for example, by a diaphragm, into an electrical signal.
- the voice input unit 150 may include an acoustic device that converts sounds into an electrical signal, such as an arbitrary microphone.
- the voice input unit 150 may detect (acquire) the voice of the interlocutor Mg in the home RL shown in FIG. 1, for example.
- the voice (electrical signal) detected by the voice input unit 150 may be input to the control unit 110, for example. For this reason, the voice input unit 150 may be connected to the control unit 110 by wire and/or wirelessly.
- the voice input unit 150 may basically be configured based on the same concept as the voice input unit 50 shown in FIG. 2, for example.
- the audio output unit 160 converts an electric signal (audio signal) supplied from the control unit 110 into sound, and outputs the audio signal as sound or voice.
- the audio output unit 160 may be connected to the control unit 110 by wire and/or wirelessly.
- the audio output unit 160 may be configured to include a device having a function of outputting sound, such as an arbitrary speaker (loudspeaker).
- the audio output unit 160 may output a voice detected by the audio input unit 50 of the first electronic device 1.
- the voice detected by the audio input unit 50 of the first electronic device 1 may be at least one of the voices of the interlocutor candidates Ma, Mb, Mc, Md, Me, and Mf in the conference room MR shown in FIG. 1.
- the audio output unit 160 may basically be configured based on the same idea as the audio output unit 60 shown in FIG. 2, for example.
- the display unit 170 may be any display device, such as a Liquid Crystal Display (LCD), an Organic Electro-Luminescence panel, or an Inorganic Electro-Luminescence panel.
- the display unit 170 may basically be configured based on the same concept as the display unit 70 shown in FIG. 2, for example.
- Various data required for display on the display unit 170 may be supplied from, for example, the control unit 110 or the memory unit 120. For this reason, the display unit 170 may be connected to the control unit 110, etc., via a wired and/or wireless connection.
- the display unit 170 may be, for example, a touch screen display equipped with a touch panel function that detects input by contact with the interlocutor Mg's finger or stylus.
- the display unit 170 may display an image based on the video signal transmitted from the first electronic device 1.
- the display unit 170 may display images of interlocutor candidates Ma, Mb, Mc, Md, Me, and Mf, etc., captured by the first electronic device 1 (its imaging unit 40), as an image based on the video signal transmitted from the first electronic device 1.
- images of interlocutor candidates Ma, Mb, Mc, Md, Me, and Mf, etc. on the display unit 170 of the second electronic device 100, for example, interlocutor Mg shown in FIG. 1 can visually know the state of the interlocutor candidates in a conference room MR away from their home RL.
- the display unit 170 may directly display images of the interlocutor candidates Ma, Mb, Mc, Md, Me, and Mf, for example, captured by the first electronic device 1.
- the display unit 170 may display images (e.g., avatars) that characterize the interlocutor candidates Ma, Mb, Mc, Md, Me, and Mf, for example.
- the input unit 190 may be configured to include any device for detecting an input by a user of the second electronic device 100.
- the input unit 190 may be configured to include at least one of various switches, various sliders, various faders, a joystick, a pad, a keyboard, a mouse, a trackball, and a touch panel.
- the input unit 190 may detect, for example, an input by the interlocutor Mg shown in FIG. 1.
- the gaze information acquisition unit 192 acquires gaze information of the user of the second electronic device 100 (e.g., interlocutor Mg).
- the gaze information acquisition unit 192 may acquire gaze information of the user of the second electronic device 100, such as the gaze of the user of the second electronic device 100, the direction of the gaze, and/or the movement of the gaze.
- the gaze information acquisition unit 192 may have a function of tracking the movement of the gaze of the user of the second electronic device 100 (e.g., interlocutor Mg), such as an eye tracker.
- the gaze information acquisition unit 192 may be any component capable of acquiring gaze information of the user of the second electronic device 100, such as the gaze of the user of the second electronic device 100, the direction of the gaze, and/or the movement of the gaze.
- the second electronic device 100 may acquire gaze information of a user (e.g., interlocutor Mg) of the second electronic device 100 based on the eye movement of the user captured by the imaging unit 140.
- the second electronic device 100 may not include a gaze information acquisition unit 192, or the imaging unit 140 may also function as the gaze information acquisition unit 192.
- the gaze information acquired by the gaze information acquisition unit 192 may be input to the control unit 110, for example. For this reason, the gaze information acquisition unit 192 may be connected to the control unit 110 via a wired and/or wireless connection.
- the second electronic device 100 may be a dedicated device as described above. Meanwhile, in one embodiment, the second electronic device 100 may include some of the functional units shown in FIG. 4, for example. In this case, the second electronic device 100 may be connected to another electronic device to supplement at least some of the functions of the other functional units shown in FIG. 4.
- the other electronic device may be, for example, a general-purpose smartphone, tablet, phablet, notebook computer (notebook PC or laptop), or computer (desktop), etc.
- the second electronic device 100 may be a smartphone or a laptop computer.
- the second electronic device 100 may be a smartphone or a laptop computer on which an application (program) for linking with the first electronic device 1 is installed.
- FIG. 5 is a block diagram showing a schematic configuration of the third electronic device 300 shown in FIG. 1. An example of the configuration of the third electronic device 300 according to an embodiment will be described below.
- the third electronic device 300 may be installed in a location other than the home RL and the conference room MR of the interlocutor Mg, as shown in FIG. 1.
- the third electronic device 300 may be installed in or near the home RL of the interlocutor Mg, or in or near the conference room MR.
- the first electronic device 1 has a function of transmitting audio and/or video data of the interlocutor candidates Ma, Mb, Mc, Md, Me, Mf, etc. acquired by the first electronic device 1 to the third electronic device 300 when the interlocutor candidates Ma, Mb, Mc, Md, Me, Mf, etc. speak.
- the third electronic device 300 may transmit the audio and/or video data received from the first electronic device 1 to the second electronic device 100.
- the second electronic device 100 also has a function of transmitting audio and/or video data of the interlocutor Mg acquired by the second electronic device 100 to the third electronic device 300 when the interlocutor Mg speaks.
- the third electronic device 300 may transmit the audio and/or video data received from the second electronic device 100 to the first electronic device 1. In this way, the third electronic device 300 may have a function of relaying between the first electronic device 1 and the second electronic device 100.
- the third electronic device 100 is also referred to as a "server" as appropriate.
- the third electronic device 300 may include a control unit 310, a storage unit 320, and a communication unit 330.
- the control unit 310 may also include, for example, an identification unit 312 and an estimation unit 314.
- the third electronic device 300 may not include at least some of the functional units shown in FIG. 5, or may include components other than the functional units shown in the figure.
- the control unit 310 may have a function of controlling and/or managing the entire third electronic device 300, including each functional unit constituting the third electronic device 300.
- the control unit 310 may basically be configured based on the same concept as the control unit 10 shown in FIG. 2 or the control unit 110 shown in FIG. 4.
- the acquisition unit 312, detection unit 314, selection unit 316, and identification unit 318 of the control unit 310 may also be configured based on the same concept as the acquisition unit 12, detection unit 14, selection unit 16, and identification unit 18 of the control unit 10 shown in FIG. 2.
- the acquisition unit 312, detection unit 314, selection unit 316, and identification unit 318 of the control unit 310 may also be configured based on the same concept as the acquisition unit 112, detection unit 114, selection unit 116, and identification unit 118 shown in FIG. 4.
- the storage unit 320 may function as a memory that stores various types of information.
- the storage unit 320 may store, for example, programs executed in the control unit 310 and results of processing executed in the control unit 310.
- the storage unit 320 may also function as a work memory for the control unit 310.
- the storage unit 320 may be connected to the control unit 310 by wire and/or wirelessly.
- the storage unit 320 may basically be configured based on the same concept as, for example, the storage unit 20 shown in FIG. 2 or the storage unit 120 shown in FIG. 4.
- the communication unit 330 has an interface function for wireless and/or wired communication.
- the communication unit 330 may wirelessly communicate with, for example, a communication unit of another electronic device, for example, via an antenna.
- the communication unit 330 may wirelessly communicate with the first electronic device 1 shown in FIG. 1.
- the communication unit 330 may wirelessly communicate with the communication unit 30 of the first electronic device 1.
- the communication unit 330 has a function of communicating with the first electronic device 1.
- the communication unit 330 may wirelessly communicate with the second electronic device 100 shown in FIG. 1. In this case, the communication unit 330 may wirelessly communicate with the communication unit 130 of the second electronic device 100.
- the communication unit 330 may have a function of communicating with the second electronic device 100. As shown in FIG. 5, the communication unit 330 may be connected to the control unit 310 in a wired and/or wireless manner.
- the communication unit 330 may basically be configured based on the same concept as, for example, the communication unit 30 shown in FIG. 2 or the communication unit 130 shown in FIG. 4.
- the third electronic device 300 may be, for example, a specially designed device.
- the third electronic device 300 may include, for example, some of the functional units shown in FIG. 5.
- the third electronic device 300 may be connected to other electronic devices to supplement at least some of the functions of the other functional units shown in FIG. 5.
- the other electronic devices may be, for example, devices such as a general-purpose computer or server.
- the third electronic device 300 may be, for example, a relay server, a web server, or an application server.
- the first electronic device 1 is installed in the conference room MR and acquires video and/or audio of at least one of the interlocutor candidates Ma, Mb, Mc, Md, Me, and Mf.
- the video and/or audio acquired by the first electronic device 1 is transmitted to the second electronic device 100 installed in the interlocutor Mg's home RL.
- the second electronic device 100 outputs the video and/or audio of at least one of the interlocutor candidates Ma, Mb, Mc, Md, Me, and Mf acquired by the first electronic device 1. This allows the interlocutor Mg to recognize the video and/or audio of at least one of the interlocutor candidates Ma, Mb, Mc, Md, Me, and Mf.
- the second electronic device 100 is installed in the home RL of the interlocutor Mg and acquires the voice of the interlocutor Mg.
- the second electronic device 100 also acquires information on the line of sight of the interlocutor Mg.
- the voice and/or line of sight information acquired by the second electronic device 100 is transmitted to the first electronic device 1 installed in the conference room MR.
- the first electronic device 1 outputs the voice of the interlocutor Mg received from the second electronic device 100.
- at least one of the interlocutor candidates Ma, Mb, Mc, Md, Me, and Mf can hear the voice of the interlocutor Mg.
- the first electronic device 1 also expresses the line of sight of the interlocutor Mg based on the line of sight information of the interlocutor Mg received from the second electronic device 100.
- the second electronic device 100 may acquire an image of the interlocutor Mg.
- the video captured by the second electronic device 100 may be transmitted to the first electronic device 1 installed in the conference room MR. In this case, the first electronic device 1 may output the video of the interlocutor Mg received from the second electronic device 100.
- FIG. 6 is a sequence diagram explaining the basic operation of the system according to the embodiment described above.
- FIG. 6 is a diagram showing the exchange of data and the like between the first electronic device 1, the second electronic device 100, and the third electronic device 300.
- the basic operation when a remote conference or video conference is held using the system according to the embodiment will be explained with reference to FIG. 6.
- the first electronic device 1 used locally may be used by the first user.
- the first user may be, for example, at least one of the interlocutor candidates Ma, Mb, Mc, Md, Me, and Mf shown in FIG. 1 (hereinafter also referred to as the local user).
- the second electronic device 100 used remotely may be used by the second user.
- the second user may be, for example, the interlocutor Mg shown in FIG. 1 (hereinafter also referred to as the remote user).
- the operation performed by the first electronic device 1 may be, in more detail, performed by, for example, the control unit 10 of the first electronic device 1.
- the operation performed by the control unit 10 of the first electronic device 1 may be described as the operation performed by the first electronic device 1.
- the operation performed by the second electronic device 100 may be, in more detail, performed by, for example, the control unit 110 of the second electronic device 100.
- the operation performed by the control unit 110 of the second electronic device 100 may be referred to as the operation performed by the second electronic device 100.
- the operation performed by the third electronic device 300 may be more specifically, for example, performed by the control unit 310 of the third electronic device 300.
- the operation performed by the control unit 310 of the third electronic device 300 may be referred to as the operation performed by the third electronic device 300.
- the operation shown in FIG. 6 may be initiated, for example, at the start of a remote conference as shown in FIG. 1. Alternatively, the operation shown in FIG. 6 may be initiated, for example, at the start of the first electronic device 1 and/or the second electronic device 100.
- the first electronic device 1 acquires information about at least one interlocutor candidate (step S11).
- the first electronic device 1 may acquire at least one of the video and audio of the first user (e.g., at least one of the interlocutor candidates Ma, Mb, Mc, Md, Me, and Mf).
- the acquisition unit 12 of the first electronic device 1 may capture the video of the first user by the imaging unit 40 and acquire (or detect) the audio of the first user by the audio input unit 50.
- the first electronic device 1 may acquire information about the video and/or audio of at least one of the interlocutor candidates Ma, Mb, Mc, Md, Me, and Mf shown in FIG. 1, for example. In this way, in the first electronic device 1, the acquisition unit 12 may acquire information about at least one interlocutor candidate.
- the first electronic device 1 transmits information (e.g., video information and/or audio information) about the candidate interlocutor to the third electronic device 300 (step S12). Specifically, in step S12, the first electronic device 1 transmits video and/or audio data from the communication unit 30 to the communication unit 330 of the third electronic device 300. Also, in step S12, the third electronic device 300 may receive (acquire) the video and/or audio data transmitted from the communication unit 30 of the first electronic device 1 via the communication unit 330.
- information e.g., video information and/or audio information
- the control unit 10 of the first electronic device 1 may encode at least one of the video and audio of the first user before transmitting it.
- encoding may mean compressing the video and/or audio data according to a predetermined rule and converting it into a format according to the purpose, including encryption.
- the first electronic device 1 may perform various known encoding methods, such as software encoding or hardware encoding.
- the third electronic device 300 may decode the encoded video and/or audio data received from the communication unit 30.
- decoding may mean returning the format of the encoded video and/or audio data to the original format.
- the third electronic device 300 may perform various known decoding methods, such as software encoding or hardware encoding.
- the third electronic device 300 detects at least one interlocutor candidate based on the information on the at least one interlocutor candidate acquired in step S12 (step S13).
- the detection unit 114 of the third electronic device 300 may detect at least one interlocutor candidate based on video and/or audio information on the at least one interlocutor candidate acquired in step S12.
- the detection unit 114 of the third electronic device 300 may detect at least one interlocutor candidate by person recognition or face recognition based on video of the at least one interlocutor candidate.
- the detection unit 114 of the third electronic device 300 may detect at least one interlocutor candidate by audio recognition of the at least one interlocutor candidate.
- the third electronic device 300 may detect interlocutor candidates that are present at a predetermined distance from the first electronic device 1. For example, the third electronic device 300 may detect, as interlocutor candidates, persons Ma, Mb, Mc, and Md that are present within 2 m of the first electronic device 1 shown in FIG. 1. In this case, persons Me and Mf shown in FIG. 1 may not be detected as interlocutor candidates.
- the third electronic device 300 may detect interlocutor candidates based on various conditions. For example, the third electronic device 300 may detect, as interlocutor candidates, a person whose gaze information indicating a predetermined intensity or higher is detected based on the gaze information of surrounding people acquired by the gaze information acquisition unit 92 of the first electronic device 1. That is, the third electronic device 300 may detect, as interlocutor candidates, a person who is relatively gazing at the first electronic device 1 around the first electronic device 1. Also, the third electronic device 300 may detect, as interlocutor candidates, a person who is looking toward the first electronic device 1 based on the face orientation and/or gaze direction of the surrounding people acquired by the imaging unit 40 and/or the gaze information acquisition unit 92 of the first electronic device 1.
- the third electronic device 300 may detect, as interlocutor candidates, a person who is looking toward the first electronic device 1 around the first electronic device 1 and/or a person who is looking toward the first electronic device 1. Also, for example, the third electronic device 300 may detect a person as a candidate interlocutor based on information acquired by the imaging unit 40 (and/or the line of sight information acquisition unit 92) and the voice input unit 50 of the first electronic device 1. That is, the third electronic device 300 may detect, for example, a person who is relatively gazing at the first electronic device 1 or facing the first electronic device 1 and speaking to the first electronic device 1 as a candidate interlocutor.
- the third electronic device 300 may detect a candidate interlocutor based on the positions of surrounding people acquired by the imaging unit 40 of the first electronic device 1. For example, the third electronic device 300 may detect a person within a predetermined distance range (for example, within 5 meters) from the first electronic device 1 as a candidate interlocutor. Also, for example, the third electronic device 300 may detect a person within a predetermined distance from the person detected as a candidate interlocutor based on the above-mentioned line of sight and/or face direction as a candidate interlocutor. The third electronic device 300 may detect interlocutor candidates by recognizing face images of surrounding people acquired by the imaging unit 40 of the first electronic device 1.
- the third electronic device 300 may identify a person who is registered in advance as a participant of the conference by face recognition and detect the person as an interlocutor candidate.
- the third electronic device 300 may detect interlocutor candidates by the actions of surrounding people acquired by the imaging unit 40 of the first electronic device 1.
- the third electronic device 300 may detect as interlocutor candidates a person who performs a predetermined action (e.g., raising a hand, waving, etc.) that the person wishes to be recognized as an interlocutor.
- the third electronic device 300 may detect as interlocutor candidates a person who performs a predetermined action (e.g., raising a hand, waving, etc.) that the person wishes to be recognized as an interlocutor.
- the third electronic device 300 may detect as interlocutor candidates a person who utters a predetermined utterance (e.g., "Hello,” “(user name of the first electronic device 1),” “Hey,” “Can you hear me,” “Excuse me,” etc.) that the person wishes to be recognized as an interlocutor.
- a predetermined utterance e.g., "Hello,” “(user name of the first electronic device 1),” “Hey,” “Can you hear me,” “Excuse me,” etc.
- the acquisition unit 312 of the third electronic device 300 may acquire information about at least one interlocutor candidate from the first electronic device 1. Furthermore, the detection unit 314 of the third electronic device 300 may detect at least one interlocutor candidate based on the information about the at least one interlocutor candidate.
- the third electronic device 300 transmits information about the detected interlocutor candidates to the second electronic device 100 (step S14).
- the third electronic device 300 may transmit information about interlocutor candidates Ma, Mb, Mc, and Md as the detected interlocutor candidates to the second electronic device 100.
- the third electronic device 300 may transmit information about the detected interlocutor candidates from the communication unit 330 to the communication unit 130 of the second electronic device 100.
- the second electronic device 100 may receive the information about the interlocutor candidates transmitted from the communication unit 330 of the third electronic device 300 via the communication unit 130.
- the second electronic device 100 may present the information about the interlocutor candidates to the second user (e.g., interlocutor Mg).
- the second electronic device 100 may present at least one of the video and audio of the interlocutor candidates Ma, Mb, Mc, and Md to the second user (e.g., interlocutor Mg) from at least one of the display unit 170 and the audio output unit 160.
- the second electronic device 100 may display the image of each person on the display unit 170 as shown in FIG. 7.
- the display unit 170 displays the persons Ma, Mb, Mc, and Md seated around the desk in the conference room MR.
- the display unit 170 displays the persons Me and Mf standing at a location a little away from the desk in the conference room MR.
- the third electronic device 300 detects the persons Ma, Mb, Mc, and Md as interlocutor candidates, and does not detect the persons Me and Mf shown in FIG. 1 as interlocutor candidates.
- the second electronic device 100 displays the persons detected as interlocutor candidates and the persons not detected as interlocutor candidates in a manner that allows them to be distinguished from each other by the image displayed on the display unit 170.
- the second electronic device 100 may indicate that the persons Ma, Mb, Mc, and Md have been detected as interlocutor candidates by displaying, for example, an object Ob1 around or near the persons Ma, Mb, Mc, and Md, as shown in FIG. 8.
- the object Ob1 is not displayed around or near the persons Me and Mf, indicating that the persons Me and Mf have not been detected as interlocutor candidates.
- object Ob1 is displayed around or near persons Ma, Mb, Mc, and Md to indicate that the persons have been detected as interlocutor candidates.
- the second electronic device 100 may indicate, for example, by audio guidance, that persons Ma, Mb, Mc, and Md have been detected as interlocutor candidates.
- the second electronic device 100 may indicate, for example, by audio guidance, that persons Me and Mf have not been detected as interlocutor candidates.
- the audio guidance may read out the names of persons detected as interlocutor candidates or persons not detected as interlocutor candidates.
- the selection unit 116 of the second electronic device 100 selects at least one interlocutor from the at least one interlocutor candidate (step S15).
- the selection unit 116 of the second electronic device 100 may select at least one interlocutor based on an input by the user of the second electronic device 100. That is, the user of the second electronic device 100 can perform an input to select an interlocutor from the detected interlocutor candidates.
- the acquisition unit 112 may acquire information on at least one interlocutor candidate.
- the selection unit 116 may select at least one interlocutor from the at least one interlocutor candidate detected.
- the selection unit 116 may select at least one interlocutor based on an input by the user of the second electronic device 100.
- the second electronic device 100 may select an interlocutor in various ways. For example, as shown in FIG. 9, the second electronic device 100 may prompt the user to input by displaying a context menu Cm near an object Ob1 indicating an interlocutor candidate on the display unit 170. For example, the second electronic device 100 may display the context menu Cm for the interlocutor candidate Mb by, for example, moving the pointer Pt near the interlocutor candidate Mb or by inputting a click near the interlocutor candidate Mb.
- the second electronic device 100 may set all the people detected as interlocutor candidates as interlocutors at once. In this case, the second electronic device 100 may then exclude people who are not required as interlocutors from the interlocutors by user input.
- the second electronic device 100 may select the candidate interlocutor Mb as an interlocutor by selecting "Add” based on user input in the context menu Cm shown in FIG. 9. On the other hand, the second electronic device 100 may remove person Mb from interlocutors or interlocutor candidates by selecting "Remove” based on user input in the context menu Cm shown in FIG. 9. Also, the second electronic device 100 may suspend the selection of person Mb as an interlocutor by selecting "Suspend” based on user input in the context menu Cm shown in FIG. 9.
- FIG. 9 shows an example in which an interlocutor is selected by detecting an input (e.g., a mouse operation and/or a click) by a user to the input unit 190 of the second electronic device 100.
- an input e.g., a mouse operation and/or a click
- the second electronic device 100 may automatically select an interlocutor candidate that is determined by the imaging unit 140 (and/or the gaze information acquisition unit 192) to be gazed at by the user for a predetermined time (e.g., 3 seconds) as an interlocutor.
- the second electronic device 100 may select an interlocutor candidate as an interlocutor based on the detection of a predetermined command.
- the predetermined command may be, for example, the user's voice utterance of "add" to the voice input unit 150.
- the second electronic device 100 may select an interlocutor candidate identified by the name of a person input by the user to the voice input unit 150 as an interlocutor.
- the second electronic device 100 may display one of the interlocutor candidates in a display mode different from the other interlocutor candidates, for example by highlighting the person on the display unit 170, and may ask the user from the voice output unit 160, for example, "Do you want to add this person to the speakers?" In this case, the second electronic device 100 may select the person as an interlocutor by detecting the user's utterance of "yes" or "add” by the voice input unit 160.
- the second electronic device 100 may exclude a person from interlocutors or interlocutor candidates based on the user's gaze on a certain person for a certain period of time and/or input to the input unit 190, as well as the detection of a certain command.
- the certain command may be, for example, the user's voice utterance of "exclude” or "delete” to the voice input unit 150.
- the second electronic device 100 may display one of the interlocutor candidates in a display mode different from the other interlocutor candidates, such as highlighting the person on the display unit 170, and ask the user from the voice output unit 160, "Do you want to exclude this person from speakers?"
- the second electronic device 100 may exclude the person from interlocutors or interlocutor candidates by detecting the user's voice utterance of "yes” or "exclude” by the voice input unit 160.
- the person may be excluded from interlocutors or interlocutor candidates, for example, based on the passage of a predetermined time.
- the second electronic device 100 may exclude a person who is a predetermined distance or more away from the first electronic device 1 from interlocutors or interlocutor candidates.
- the second electronic device 100 may exclude a person who behaves inappropriately in light of a predetermined standard (for example, who uses abusive language, etc.) from interlocutors or interlocutor candidates.
- the second electronic device 100 may display one of the candidate interlocutors in a display mode different from the other candidate interlocutors, such as highlighting the candidate on the display unit 170, and ask the user from the voice output unit 160, "Do you want to add this person to the speakers?" In this case, the second electronic device 100 may put off adding the person to the interlocutors by detecting the user's utterance of "no" or "hold” by the voice input unit 160.
- the second electronic device 100 may put off adding the person to the interlocutors, for example, based on the passage of a predetermined time.
- the second electronic device 100 transmits information indicating the selected interlocutor to the third electronic device 300 (step S16).
- the identification unit 318 of the third electronic device 300 identifies the interlocutor from the interlocutor candidates based on the information indicating the selected interlocutor (step S17). For example, among the persons Ma, Mb, Mc, and Md detected as interlocutor candidates in step S13, persons Mc and Md are selected as interlocutors based on an input by the user of the second electronic device 100.
- step S16 the second electronic device 100 transmits information indicating that the selected interlocutors are persons Mc and Md to the third electronic device 300. Then, in step S17, the third electronic device 300 identifies interlocutors Mc and Md from the interlocutor candidates Ma, Mb, Mc, and Md.
- the third electronic device 300 can execute different processes for the selected interlocutor and for the interlocutor candidates other than the selected interlocutor.
- "A person other than the selected interlocutor among the interlocutor candidates" may be an interlocutor candidate who is not selected as an interlocutor.
- the third electronic device 300 can execute a specific process only for the selected interlocutor. Therefore, hereafter, the third electronic device 300 executes a predetermined process for the selected interlocutor regarding the dialogue with the selected interlocutor (step S18).
- step S18 The operation performed in step S18 is also referred to as "a predetermined process performed on the interlocutor" or "a predetermined process on the interlocutor".
- the third electronic device 300 can control the first electronic device 1 and/or the second electronic device 200 to execute different processes for the selected interlocutor and for the interlocutor candidates other than the selected interlocutor. Therefore, the third electronic device 300 may control the second electronic device 100 based on the predetermined process for the selected interlocutor (step S19). The third electronic device 300 may also control the first electronic device 1 based on a predetermined process for the selected interlocutor (step S20).
- control unit 310 may control at least one of the first electronic device 1 and the second electronic device 200 to execute a predetermined process for a conversation with at least one interlocutor selected by the second electronic device 100 from at least one interlocutor candidate.
- the control unit 310 may also control at least one of the first electronic device 1 and the second electronic device 200 not to execute a predetermined process for an interlocutor candidate not selected as an interlocutor.
- control unit 10 of the first electronic device 1 executes a predetermined process related to a dialogue with at least one interlocutor selected from at least one interlocutor candidate.
- control unit 10 may execute a predetermined process related to a dialogue with an interlocutor selected by another electronic device (the second electronic device 100) as at least one interlocutor.
- control unit 110 of the second electronic device 100 executes a predetermined process related to a dialogue with at least one interlocutor.
- the third electronic device 300 may control the second electronic device 100 so that interlocutors Mc and Md are displayed on the display unit 170 in a display mode different from that of other interlocutor candidates.
- the second electronic device 100 may indicate that persons Mc and Md have been selected as interlocutors from interlocutor candidates Ma, Mb, Mc, and Md by attaching an object Ob1 or the like different from the others to interlocutors Mc and Md.
- interlocutors Mc and Md may be displayed in a display mode different from that of other interlocutor candidates Ma, Mb, etc., for example, by highlighting interlocutors Mc and Md on the display unit 170.
- the user of the second electronic device 100 can see on the display unit 170 that persons Mc and Md have been selected as interlocutors.
- the second electronic device 100 may enlarge and display interlocutors Mc and Md on the display unit 170 as a predetermined process.
- the second electronic device 100 may, for example, cut out only images of interlocutors Mc and Md and display them on the display unit 170.
- the second electronic device 100 may display only interlocutors Mc and Md on, for example, a sub-display installed separately from the display unit 170.
- the second electronic device 100 may blur interlocutor candidates other than persons Mc and Md and display them on the display unit 170. Furthermore, when persons Mc and Md are selected as interlocutors from among interlocutor candidates Ma, Mb, Mc, and Md, the second electronic device 100 may remove interlocutor candidates other than persons Mc and Md from the display of the display unit 170. In this manner, the second electronic device 100 may include a display unit 170 that displays information about at least one interlocutor candidate.
- control unit 110 of the second electronic device 100 may execute a process of displaying information about the interlocutor in a different manner from information about interlocutor candidates other than the interlocutor, as a predetermined process related to the dialogue with the interlocutor.
- the second electronic device 100 may display on the display unit 170 that the interlocutor Mc or Md is speaking, based on the speech of the interlocutor Mc or Md. In this case, when a person other than interlocutors Mc or Md speaks, the second electronic device 100 may not display on the display unit 170 that the person is speaking.
- the second electronic device 100 may output from the audio output unit 160 a voice indicating that interlocutors Mc and Md have been selected when persons Mc and Md are selected from among interlocutor candidates Ma, Mb, Mc, and Md.
- the second electronic device 100 may be provided with an audio output unit 160 that outputs information about at least one interlocutor candidate by audio.
- the control unit 110 of the second electronic device 100 may execute a process of outputting information about the interlocutor in a voice that is different from information about persons other than the interlocutor among the interlocutor candidates, as a predetermined process related to the dialogue with the interlocutor.
- the third electronic device 300 may control the first electronic device 1.
- the first electronic device 1 may cause the doll or robot to perform a predetermined action toward the persons Mc or Md as a predetermined process.
- the first electronic device 1 may drive the driving unit 80 to move the face or look toward the interlocutors Mc and Md.
- the first electronic device 1 may be configured not to look toward or look toward the interlocutors Mc or Md even if the person Mg speaks or looks toward a person other than the person Mc or Md.
- the control unit 310 of the third electronic device 300 may execute a process of controlling the other electronic device (the first electronic device 1) as a predetermined process related to the dialogue with the interlocutor, so that the interlocutor behaves differently from the interlocutor candidates other than the interlocutor.
- control unit 310 of the third electronic device 300 may execute a process of controlling the other electronic device (the second electronic device 100) as a predetermined process related to the dialogue with the interlocutor, so that the interlocutor behaves differently from the interlocutor candidates other than the interlocutor.
- the operation shown in FIG. 6 may be repeatedly executed from the start at an appropriate timing. Also, for example, in a situation as shown in FIG. 10, it is assumed that interlocutor Mg is conversing with interlocutors Mc and Md. Then, for example, it is assumed that person Me and/or Mf shown in FIG. 10 approaches the first electronic device 1. In such a situation, it is assumed that the operation shown in FIG. 6 is started. In this case, for example, in step S13, if person Me and/or Mf exists within a predetermined distance from the first electronic device 1, they are detected as interlocutor candidates. In this case, in step S14, the third electronic device 300 transmits information about the new interlocutor candidate Me and/or Mf to the second electronic device 100.
- the user of the second electronic device 100 can select whether or not to select the new interlocutor candidate Me and/or Mf as an interlocutor.
- the second electronic device 100 may inform the user of the second electronic device 100 of the existence of the new interlocutor candidate Me and/or Mf.
- the second electronic device 100 may output a predetermined voice or sound from the audio output unit 160 to notify the presence of the new interlocutor candidate Me and/or Mf.
- the second electronic device 100 may highlight or display a pop-up on the display unit 170 to notify the presence of the new interlocutor candidate Me and/or Mf.
- a user in communication between an electronic device used remotely and an electronic device used locally, a user can select an interlocutor with whom he or she intends to communicate.
- humans perform turn-taking almost unconsciously based on cultural background, etc.
- humans can focus conscious resources on turn-taking with an interlocutor by mutually recognizing one or more interlocutors with whom they share turn-taking.
- it is difficult to distinguish whether a detected person is an interlocutor or not. For this reason, it is expected that physical and/or processing resources will be allocated to a person who would not be recognized as an interlocutor by a human being by determining that the person is a speaker.
- a user can select an interlocutor from interlocutor candidates presented by the system, and physical and/or processing resources can be concentrated only on the person the user recognizes as an interlocutor. Therefore, according to the system of one embodiment, communication can be performed smoothly.
- the embodiments of the present disclosure can also be realized as a method, a program executed by a processor or the like included in the device, or a storage medium or storage medium on which a program is recorded. It should be understood that these are also included in the scope of the present disclosure.
- the above-described embodiments are not limited to implementation as a system.
- the above-described embodiments may be implemented as a control method for a system, or as a program executed in a system.
- the above-described embodiments may be implemented as at least one of the first electronic device 1, the second electronic device 100, and the third electronic device 300.
- the above-described embodiments may be implemented as a control method for at least one of the first electronic device 1, the second electronic device 100, and the third electronic device 300.
- the above-described embodiments may be implemented as a program executed by at least one of the first electronic device 1, the second electronic device 100, and the third electronic device 300, or as a storage medium or recording medium on which the program is recorded.
- the second electronic device 100 selected an interlocutor from the interlocutor candidates (step S15). Also, an example was described in which, when selecting an interlocutor from the interlocutor candidates, the second electronic device 100 prompts the user to select from among “add,” “remove,” and “reserve” the interlocutor. On the other hand, as shown in FIG. 11, after step S14, the second electronic device 100 may select a "non-interlocutor" from the interlocutor candidates (step S21) and transmit information indicating the "non-interlocutor" to the third electronic device 300 (step S22).
- the third electronic device 300 may identify the "non-interlocutor" from the interlocutor candidates. Thereafter, a predetermined process related to the dialogue with the interlocutor may be performed on the interlocutor without performing it on the "non-interlocutor.”
- the third electronic device 300 relays the communication between the first electronic device 1 and the second electronic device 100.
- at least one of the first electronic device 1 and the second electronic device 100 may execute some or all of the functions executed by the third electronic device 300.
- the detection unit 14 of the first electronic device 1 may detect at least one interlocutor candidate based on information about at least one interlocutor candidate.
- the control unit 10 of the first electronic device 1 may transmit information about at least one interlocutor candidate detected by the detection unit 14 to another electronic device (e.g., the second electronic device 100).
- the identification unit 18 of the first electronic device 1 may identify an interlocutor selected by the other electronic device (e.g., the second electronic device 100) as at least one interlocutor from the at least one interlocutor candidate detected by the detection unit 14.
- the control unit 10 of the first electronic device 1 may transmit information about an interlocutor identified by the identification unit 18 as at least one interlocutor to the other electronic device (e.g., the second electronic device 100).
- the control unit 10 of the first electronic device 1 may execute a predetermined process related to a dialogue with the interlocutor identified by the identification unit 18 as at least one interlocutor.
- the detection unit 14 of the first electronic device 1 may detect at least one interlocutor candidate based on information regarding the line of sight of the at least one interlocutor candidate acquired by the line of sight information acquisition unit 92.
- the selection unit 116 of the second electronic device 100 may select at least one non-interlocutor from at least one candidate interlocutor based on input by the user. In this case, the control unit 110 of the second electronic device 100 may not execute a predetermined process for at least one non-interlocutor.
- the second electronic device 100 may also include a gaze information acquisition unit 192 that acquires information regarding the gaze of the user of the second electronic device 100. In this case, the selection unit 116 of the second electronic device 100 may select at least one interlocutor based on information regarding the user's gaze.
- the first electronic device 1 according to the above-described embodiment has been described as being operated by the user of the second electronic device 100.
- the system according to the above-described embodiment has been described as an aspect in which an interlocutor is selected from interlocutor candidates by the user of the second electronic device 100.
- the first electronic device 1 may perform at least partially autonomous operations without the intervention of partial or full operations by the user of the second electronic device 100.
- the first electronic device 1 (or the third electronic device 300) may autonomously (for example, according to a predetermined algorithm) select an interlocutor from interlocutor candidates.
- First electronic device 10 Control unit 12 Acquisition unit 14 Detection unit 16 Selection unit 18 Identification unit 20 Memory unit 30 Communication unit 40 Imaging unit 50 Audio input unit 60 Audio output unit 70 Display unit 80 Driving unit 90 Input unit 92 Line-of-sight information acquisition unit 100 Second electronic device 110 Control unit 112 Acquisition unit 114 Detection unit 116 Selection unit 118 Identification unit 120 Memory unit 130 Communication unit 140 Imaging unit 150 Audio input unit 160 Audio output unit 170 Display unit 190 Input unit 192 Line-of-sight information acquisition unit 300 Third electronic device 310 Control unit 312 Acquisition unit 314 Detection unit 316 Selection unit 318 Identification unit 320 Memory unit 330 Communication unit N Network
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
本出願は、2023年1月16日に日本国に特許出願された特願2023-4631の優先権を主張するものであり、この先の出願の開示全体を、ここに参照のために取り込む。 This application claims priority to patent application No. 2023-4631, filed in Japan on January 16, 2023, the entire disclosure of which is incorporated herein by reference.
本開示は、電子機器及びプログラムに関する。 This disclosure relates to electronic devices and programs.
近年、Web会議又はビデオ会議などのような、いわゆるリモート会議が普及している。リモート会議においては、複数の場所に存在する参加者のコミュニケーションを実現する電子機器(又は電子機器を含むシステム)が使用される。例えば、あるオフィスにおいて会議が行われる際に、会議の参加者の少なくとも1人が、遠隔地の自宅でリモート会議に参加する場面を想定する。この場合、オフィスにおける会議の音声及び/又は映像は、例えばオフィスに設置された電子機器によって取得されて、例えば参加者の自宅に設置された電子機器に送信される。また、参加者の自宅における音声及び/又は映像は、例えば参加者の自宅に設置された電子機器によって取得されて、例えばオフィスに設置された電子機器に送信される。このような電子機器によれば、参加者全員が同じ場所に参集しなくても、互いにコミュニケーションを行うことができる。 In recent years, so-called remote conferences, such as web conferences or video conferences, have become widespread. In remote conferences, electronic devices (or systems including electronic devices) are used to enable communication between participants in multiple locations. For example, consider a situation in which a conference is held in an office, and at least one of the conference participants joins the remote conference at a remote home. In this case, audio and/or video of the conference in the office is acquired by, for example, an electronic device installed in the office, and transmitted to, for example, an electronic device installed in the participant's home. Also, audio and/or video at the participant's home is acquired by, for example, an electronic device installed in the participant's home, and transmitted to, for example, an electronic device installed in the office. Such electronic devices allow participants to communicate with each other without having to all gather in the same place.
上述のようなリモート会議に応用され得る技術は、種々提案されている。例えば特許文献1に開示のロボット装置は、画像情報から予め学習して知っている人の顔を発見し、その人に呼びかけられたと判断すると、音源の方向に正対する。また、例えば特許文献2は、ユーザとの相対的な距離に応じた行動パターンを生成したり、同一の外部情報が与えられても人工生物モデルごとに異なる行動パターンを生成したりする技術を提案している。また、例えば特許文献3は、RFIDの技術を用いて近傍又は周囲の人物を認識することにより、最も近傍の人物とコミュニケーションを取るロボットを開示している。また、例えば特許文献4は、近くの人間に近づいて個人識別の許可を要求し、許可されれば個々に識別を行って、共通して興味を持つ情報を抽出して提示するコミュニケーションロボットを開示している。
Various technologies that can be applied to remote conferences such as those described above have been proposed. For example, a robot device disclosed in Patent Document 1 learns in advance from image information and finds the face of a familiar person. If it determines that the person is calling out to it, it faces the direction of the sound source. For example, Patent Document 2 proposes a technology that generates behavior patterns according to the relative distance from the user, and generates different behavior patterns for each artificial creature model even when the same external information is given. For example,
一実施形態に係る電子機器(第1電子機器)は、
少なくとも1人の対話者候補に関する情報を取得する取得部と、
前記少なくとも1人の対話者候補に関する情報に基づいて、前記少なくとも1人の対話者候補を検出する検出部と、
前記少なくとも1人の対話者候補から選出された少なくとも1人の対話者に対して所定の処理を実行し、前記対話者に選出されない前記対話者候補に対しては前記所定の処理を実行しない制御部と、
を備える。
An electronic device (first electronic device) according to an embodiment includes:
An acquisition unit that acquires information regarding at least one interlocutor candidate;
a detection unit that detects the at least one candidate interlocutor based on information about the at least one candidate interlocutor;
a control unit that executes a predetermined process for at least one interlocutor selected from the at least one interlocutor candidate, and does not execute the predetermined process for the interlocutor candidate who is not selected as the interlocutor;
Equipped with.
一実施形態に係る電子機器(第2電子機器)は、
少なくとも1人の対話者候補に関する情報を取得する取得部と、
前記少なくとも1人の対話者候補から少なくとも1人の対話者を選出する選出部と、
前記少なくとも1人の対話者に対して所定の処理を実行し、前記対話者に選出されない前記対話者候補に対しては前記所定の処理を実行しない制御部と、
を備える。
An electronic device (second electronic device) according to an embodiment includes:
An acquisition unit that acquires information regarding at least one interlocutor candidate;
A selection unit that selects at least one interlocutor from the at least one interlocutor candidate;
a control unit that executes a predetermined process for the at least one interlocutor and does not execute the predetermined process for the interlocutor candidates who are not selected as the interlocutor;
Equipped with.
一実施形態に係る電子機器(第3電子機器)は、
少なくとも1人の対話者候補に関する情報を第1電子機器から取得する取得部と、
前記少なくとも1人の対話者候補に関する情報に基づいて、前記少なくとも1人の対話者候補を検出する検出部と、
前記少なくとも1人の対話者候補から第2電子機器によって選出された少なくとも1人の対話者に対して所定の処理を実行し、前記対話者に選出されない前記対話者候補に対しては前記所定の処理を実行しないように、前記第1電子機器及び前記第2電子機器の少なくとも一方を制御する制御部と、
を備える。
An electronic device (third electronic device) according to an embodiment includes:
an acquisition unit that acquires information about at least one interlocutor candidate from the first electronic device;
a detection unit that detects the at least one candidate interlocutor based on information about the at least one candidate interlocutor;
a control unit that controls at least one of the first electronic device and the second electronic device so as to execute a predetermined process for at least one interlocutor selected by the second electronic device from the at least one interlocutor candidate, and not to execute the predetermined process for the interlocutor candidate not selected as the interlocutor;
Equipped with.
一実施形態に係るプログラムは、
コンピュータに、
少なくとも1人の対話者候補に関する情報を取得するステップと、
前記少なくとも1人の対話者候補に関する情報に基づいて、前記少なくとも1人の対話者候補を検出するステップと、
前記少なくとも1人の対話者候補から選出された少なくとも1人の対話者に対して所定の処理を実行し、前記対話者に選出されない前記対話者候補に対しては前記所定の処理を実行しないステップと、
を実行させる。
A program according to an embodiment includes:
On the computer,
obtaining information about at least one potential interlocutor;
detecting the at least one candidate interlocutor based on information about the at least one candidate interlocutor;
executing a predetermined process for at least one interlocutor selected from the at least one interlocutor candidate, and not executing the predetermined process for the interlocutor candidate who is not selected as the interlocutor;
Execute the command.
本開示において、「電子機器」とは、例えば電力系統又はバッテリなどから供給される電力により駆動する機器としてよい。本開示において、「情報処理装置」とは、電子機器の一形態としてよい。また、「情報処理装置」とは、例えばパソコン(PC)、ノートPC、サーバ、又はスマートフォンなどのような、コンピュータがプログラムを実行することにより、所定の処理を行う任意の装置としてよい。本開示において、「システム」とは、例えば、少なくとも電子機器及び/又は情報処理装置を含むものとしてよい。本開示において、「ユーザ」とは、一実施形態に係る電子機器及び/又は情報処理装置を使用する者又は使用し得る者(典型的には人間)、並びに、一実施形態に係る電子機器及び/又は情報処理装置を含むシステムを使用する者又は使用し得る者としてよい。また、「ユーザ」とは、一実施形態に係る電子機器、情報処理装置、及び/又はシステムによる恩恵を享受し得るものとしてもよい。また、本開示において、Web会議又はビデオ会議などのように、参加者の少なくとも1人が他の参加者と異なる場所から通信により参加する方式の会議を、「リモート会議」と総称する。 In the present disclosure, the term "electronic device" may be, for example, a device that is driven by power supplied from a power system or a battery. In the present disclosure, the term "information processing device" may be, for example, a form of electronic device. In addition, the term "information processing device" may be, for example, any device that performs a predetermined process by a computer executing a program, such as a personal computer (PC), a notebook PC, a server, or a smartphone. In the present disclosure, the term "system" may include, for example, at least an electronic device and/or an information processing device. In the present disclosure, the term "user" may be, for example, a person who uses or may use an electronic device and/or an information processing device according to an embodiment (typically a human), as well as a person who uses or may use a system including an electronic device and/or an information processing device according to an embodiment. In addition, the term "user" may be, for example, a person who may enjoy the benefits of an electronic device, an information processing device, and/or a system according to an embodiment. In the present disclosure, a conference in which at least one participant participates by communication from a location different from the other participants, such as a Web conference or a video conference, is collectively referred to as a "remote conference".
例えばリモート会議などにおいてコミュニケーションを実現する電子機器について、コミュニケーションの円滑化のため、さらなる機能の向上が望まれている。本開示の目的は、コミュニケーションを円滑にする電子機器及びプログラムを提供することにある。一実施形態によれば、コミュニケーションを円滑にする電子機器及びプログラムを提供することができる。以下、一実施形態に係る電子機器を含むシステムについて、図面を参照して詳細に説明する。 For example, in order to facilitate communication in remote conferences and the like, further improvements in functionality are desired for electronic devices that enable communication. An object of the present disclosure is to provide an electronic device and program that facilitates communication. According to one embodiment, an electronic device and program that facilitates communication can be provided. Below, a system including an electronic device according to one embodiment will be described in detail with reference to the drawings.
図1は、一実施形態に係るシステムの使用態様の例を示す図である。以下、図1に示すように、会議室MRにおいて行われる会議に、対話者Mgが自宅RLからリモートで参加する場面を想定して説明する。ここで、会議室MRは、クローズドな空間であってもよいし、オープンスペースのような空間であってもよい。 FIG. 1 is a diagram showing an example of how the system according to one embodiment is used. The following description assumes a situation in which interlocutor Mg remotely participates in a conference held in a conference room MR from his/her home RL, as shown in FIG. 1. Here, the conference room MR may be a closed space or may be a space such as an open space.
図1に示すように、会議室MRにおいて、対話者候補Ma,Mb,Mc,Md,Me,及びMfのうち少なくとも1人が、対話者として会議に参加し得るものとする。ここでは、会議室MRにおいて、対話者候補Ma,Mb,Mc,及びMdは、会議室MRのデスクの周囲に着席している場面を想定する。また、会議室MRにおいて、対話者候補Me及びMfは、会議室MRのデスクから少し離れた場所(例えば、対話者候補Ma,Mb,Mc,及びMdよりもデスクから離れた位置)で立っている場面を想定する。会議室MRにおいて、会議の参加者となり得る対話者候補は、対話者候補Ma,Mb,Mc,Md,Me,及びMfなどに限定されず、例えばさらに他の対話者候補を含んでもよい。対話者候補Me及びMfは、着座していてもよい。会議室MRにおいて、対話者候補は、少なくとも1人の任意の数としてよい。また、対話者Mg以外の対話者も、それぞれの自宅から、当該会議にリモートで参加してもよい。 As shown in FIG. 1, in the conference room MR, at least one of the interlocutor candidates Ma, Mb, Mc, Md, Me, and Mf may participate in the conference as an interlocutor. Here, it is assumed that the interlocutor candidates Ma, Mb, Mc, and Md are seated around the desk in the conference room MR. It is also assumed that the interlocutor candidates Me and Mf are standing in a position slightly away from the desk in the conference room MR (for example, at a position farther away from the desk than the interlocutor candidates Ma, Mb, Mc, and Md). In the conference room MR, the interlocutor candidates who may become participants in the conference are not limited to the interlocutor candidates Ma, Mb, Mc, Md, Me, and Mf, and may include, for example, other interlocutor candidates. The interlocutor candidates Me and Mf may be seated. In the conference room MR, the interlocutor candidates may be any number of at least one person. Additionally, interlocutors other than interlocutor Mg may also participate in the conference remotely from their own homes.
本開示において、「対話者」とは、例えば図1に示すリモート会議のような場面において、対話が想定される者、及び/又は、対話が許可された者としてよい。すなわち、「対話者」とは、例えば図1に示すリモート会議のような場面において、会議に参加する者としてよい。また、「対話者候補」とは、まだ上述の対話者として許可されていない、又は設定されていないが、対話者になり得る者としてよい。すなわち、「対話者候補」とは、例えば図1に示すリモート会議のような場面において、会議に参加し得る者、又は会議に参加することができる者であって、まだ会議に参加していない者としてよい。要するに、一実施形態において、「対話者」は、「対話者候補」の中から許可及び/又は設定されるものとしてよい。ここで、「対話」とは、例えば、対話者Mgと、対話者候補Ma,Mb,Mc,Md,Me,及びMfのうち少なくとも1人との間で行われる対話を含むものとしてよい。 In the present disclosure, an "interlocutor" may be a person who is expected to have a dialogue and/or a person who is permitted to have a dialogue, for example, in a situation such as the remote conference shown in FIG. 1. That is, an "interlocutor" may be a person who participates in a conference, for example, in a situation such as the remote conference shown in FIG. 1. Also, an "interlocutor candidate" may be a person who has not yet been permitted or set as the above-mentioned interlocutor, but who can become an interlocutor. That is, an "interlocutor candidate" may be a person who can participate in a conference, for example, in a situation such as the remote conference shown in FIG. 1, or a person who can participate in a conference but has not yet participated in the conference. In short, in one embodiment, an "interlocutor" may be permitted and/or set from among the "interlocutor candidates". Here, a "dialogue" may include, for example, a dialogue between an interlocutor Mg and at least one of the interlocutor candidates Ma, Mb, Mc, Md, Me, and Mf.
図1に示すように、一実施形態に係るシステムは、例えば、第1電子機器1と、第2電子機器100と、第3電子機器300と、を含んで構成されてよい。図1において、第1電子機器1、第2電子機器100、及び第3電子機器300は、それぞれ概略的な形状のみを示している。一実施形態に係るシステムは、第1電子機器1、第2電子機器100、及び第3電子機器300の少なくともいずれかを含まなくてもよいし、前述の電子機器以外の機器を含んでもよい。
As shown in FIG. 1, the system according to an embodiment may include, for example, a first electronic device 1, a second
一実施形態に係る第1電子機器1は、会議室MRに設置されてよい。一方、一実施形態に係る第2電子機器100は、対話者Mgの自宅RLに設置されてよい。第1電子機器1と、第2電子機器100とは、互いに通信可能に構成されてよい。対話者Mgの自宅RLの場所は、会議室MRの場所とは異なる場所としてよい。対話者Mgの自宅RLの場所は、会議室MRの場所から遠く離れていてもよいし、会議室MRの場所の近く(例えば会議室MRに隣接する部屋など)としてもよい。さらに、対話者Mgの自宅RLの場所は、会議室MR内にあるものとしてもよい。
The first electronic device 1 according to one embodiment may be installed in the conference room MR. Meanwhile, the second
図1に示すように、一実施形態に係る第1電子機器1は、例えばネットワークNを介して、一実施形態に係る第2電子機器100と接続されてよい。また、図1に示すように、一実施形態に係る第3電子機器300は、例えばネットワークNを介して、第1電子機器1及び第2電子機器100の少なくとも一方と接続されてよい。一実施形態に係る第1電子機器1は、無線及び有線の少なくとも一方により、一実施形態に係る第2電子機器100と接続されてよい。一実施形態に係る第3電子機器300は、無線及び有線の少なくとも一方により、第1電子機器1及び第2電子機器100の少なくとも一方と接続されてよい。図1において、第1電子機器1、第2電子機器100、及び第3電子機器300がネットワークNを介して無線及び/又は有線により接続されている様子を、破線によって示してある。一実施形態において、第1電子機器1及び第2電子機器100は、一実施形態に係るリモート会議システムに含まれるものとしてよい。また、第3電子機器300も、一実施形態に係るリモート会議システムに含まれるものとしてもよい。
1, the first electronic device 1 according to an embodiment may be connected to the second
本開示において、図1に示すようなネットワークNは、例えば各種の電子機器及び/又はサーバのような機器を、適宜含んでもよい。また、図1に示すようなネットワークNは、例えば基地局及び/又は中継器のような機器も、適宜含んでもよい。また、本開示において、例えば第1電子機器1と第2電子機器100とが「通信する」場合、第1電子機器1と第2電子機器100とが直接通信するものとしてもよい。また、例えば第1電子機器1と第2電子機器100とが「通信する」場合、第1電子機器1と第2電子機器100とが例えば第3電子機器300のような他の機器、中継器、及び/又は基地局などの少なくともいずれかを介して通信するものとしてもよい。また、例えば第1電子機器1と第2電子機器100とが「通信する」場合、より詳細には、第1電子機器1が備える通信部と、第2電子機器100が備える通信部とが通信を行うものとしてよい。
In the present disclosure, the network N as shown in FIG. 1 may include various electronic devices and/or devices such as a server as appropriate. The network N as shown in FIG. 1 may also include devices such as a base station and/or a repeater as appropriate. In the present disclosure, for example, when the first electronic device 1 and the second
以上のような表記は、第1電子機器1と第2電子機器100とが「通信する」場合のみならず、一方が他方に情報を「送信する」場合、及び/又は、一方が送信した情報を他方が「受信する」場合にも、上述同様の意図を含んでもよい。さらに、以上のような表記は、第1電子機器1と第2電子機器100とが「通信する」場合のみならず、例えば第3電子機器300を含む任意の電子機器が、他の任意の電子機器と通信する場合にも、上述同様の意図を含んでもよい。
The above-mentioned notation may include the same intention as above not only when the first electronic device 1 and the second
一実施形態に係る第1電子機器1は、会議室MRにおいて、例えば図1に示すように配置されてよい。この場合、第1電子機器1は、対話者候補Ma,Mb,Mc,Md,Me,及びMfの少なくとも1人の音声及び/又は映像を取得可能な位置に配置されてよい。また、第1電子機器1は、後述のように、対話者Mgの音声及び/又は映像を出力する。このため、第1電子機器1は、第1電子機器1から出力される対話者Mgの音声及び/又は映像が対話者候補Ma,Mb,Mc,Md,Me,及びMfの少なくとも1人に届くように配置されてよい。また、一実施形態に係る第1電子機器1は、後述のように、対話者候補Ma,Mb,Mc,Md,Me,及びMfの少なくとも1人の視線、当該視線の向き、及び/又は、当該視線の動きなど、対話者候補又は対話者の視線の情報を取得してもよい。第1電子機器1による視線の情報の取得については、さらに後述する。 The first electronic device 1 according to one embodiment may be arranged in the conference room MR, for example, as shown in FIG. 1. In this case, the first electronic device 1 may be arranged in a position where it can acquire the voice and/or image of at least one of the interlocutor candidates Ma, Mb, Mc, Md, Me, and Mf. The first electronic device 1 outputs the voice and/or image of the interlocutor Mg, as described later. Therefore, the first electronic device 1 may be arranged so that the voice and/or image of the interlocutor Mg output from the first electronic device 1 reaches at least one of the interlocutor candidates Ma, Mb, Mc, Md, Me, and Mf. The first electronic device 1 according to one embodiment may acquire information on the gaze of the interlocutor candidates or interlocutors, such as the gaze, the direction of the gaze, and/or the movement of the gaze, of at least one of the interlocutor candidates Ma, Mb, Mc, Md, Me, and Mf, as described later. The acquisition of gaze information by the first electronic device 1 will be described further below.
一実施形態に係る第2電子機器100は、対話者Mgの自宅RLにおいて、例えば図1に示すような態様で配置されてよい。この場合、第2電子機器100は、対話者Mgの音声及び/又は映像を取得可能な位置に配置されてよい。第2電子機器100は、第2電子機器100に接続されたマイク若しくはヘッドセット及び/又はカメラなどによって、対話者Mgの音声及び/又は映像を取得してもよい。また、一実施形態に係る第2電子機器100は、後述のように、対話者Mgの視線、当該視線の向き、及び/又は、当該視線の動きなど、対話者Mgの視線の情報を取得してもよい。第2電子機器100による視線の情報の取得については、さらに後述する。
The second
また、第2電子機器100は、後述のように、会議室MRにおける対話者候補Ma,Mb,Mc,Md,Me,及びMfの少なくとも1人の音声及び/又は映像を出力する。このため、第2電子機器100は、第2電子機器100から出力される音声及び/又は映像が対話者Mgに届くように配置されてよい。第2電子機器100から出力される音声は、例えばヘッドフォン、イヤフォン、スピーカ、又はヘッドセットなどを介して、対話者Mgの耳に届くように配置されてもよい。また、第2電子機器100から出力される映像は、例えばディスプレイなどを介して、対話者Mgに視覚的に認識されるように配置されてもよい。
Furthermore, the second
第3電子機器300は、第1電子機器1と第2電子機器100とを中継する例えばサーバのような機器としてよい。また、一実施形態に係るシステムは、第3電子機器300を含まなくてもよい。
The third
図1は、一実施形態に係る第1電子機器1、第2電子機器100、及び第3実施形態300の使用態様の単なる一例を示すものである。一実施形態に係る第1電子機器1、第2電子機器100、及び第3実施形態300は、他の種々の態様で使用されてもよい。
FIG. 1 shows only one example of a usage mode of the first electronic device 1, the second
図1に示す第1電子機器1及び第2電子機器100を含むリモート会議システムにより、対話者Mgは、自宅RLに居ながら、あたかも会議室MRにおいて実施される会議に参加しているように振る舞うことができる。また、このリモート会議システムにより、対話者候補Ma,Mb,Mc,Md,Me,及びMfのうち少なくとも1人の対話者は、会議室MRにおいて実施される会議にあたかも対話者Mgが現実に参加しているかのような感覚を得ることができる。すなわち、第1電子機器1及び第2電子機器100を含むリモート会議システムにおいて、会議室MRに配置された第1電子機器1は、対話者Mgのアバターのような役割を担うことができる。この場合、第1電子機器1は、当該第1電子機器1を対話者Mgに見立てたフィジカルアバター(例えばテレプレゼンスロボット又はコミュニケーションロボットのような)として機能するようにしてもよい。また、第1電子機器1は、当該第1電子機器1に対話者Mgの画像又は対話者Mgを例えばキャラクタ化したような画像を表示させたバーチャルアバターとして機能するようにしてもよい。第1電子機器1による、対話者Mgの画像又は対話者Mgの画像の表示は、例えば、第1電子機器1自身が備えるディスプレイ、外部のディスプレイ、又は第1電子機器1が投影する3Dホログラムなどであってよい。
The remote conference system including the first electronic device 1 and the second
次に、一実施形態に係る第1電子機器1、第2電子機器100、及び第3電子機器300の機能的な構成について、それぞれ説明する。
Next, the functional configurations of the first electronic device 1, the second
図2は、図1に示した第1電子機器1の機能の構成を概略的に示すブロック図である。以下、一実施形態に係る第1電子機器1の構成の一例について説明する。第1電子機器1は、図1に示したように、例えば対話者候補Ma,Mb,Mc,Md,Me,及びMfのうち少なくとも1人などが、会議室MRにおいて使用する機器としてよい。後述する第2電子機器100は、対話者Mgが発話する際に、第2電子機器100が取得した対話者Mgの音声、映像、及び/又は視線の情報を、第1電子機器1に出力する機能を有する。また、第1電子機器1は、対話者候補Ma,Mb,Mc,Md,Me,及びMfのうち少なくとも1人などが発話する際に、第1電子機器1が取得した当該対話者候補のうち少なくとも1人などの音声及び/又は映像を、第2電子機器100に出力する機能を有する。第1電子機器1により、対話者候補Ma,Mb,Mc,Md,Me,及びMfなどのうち少なくとも1人の対話者は、会議室MRにおいて、対話者Mgが離れた場所にいても、リモート会議又はビデオ会議を行うことができる。したがって、第1電子機器1は、適宜、「ローカルで使用される」電子機器とも記す。
FIG. 2 is a block diagram showing a schematic configuration of the functions of the first electronic device 1 shown in FIG. 1. An example of the configuration of the first electronic device 1 according to one embodiment will be described below. As shown in FIG. 1, the first electronic device 1 may be used in the conference room MR by at least one of the interlocutor candidates Ma, Mb, Mc, Md, Me, and Mf. The second
一実施形態に係る第1電子機器1は、対話者Mgの視線の向きを再現するように構成されてよい。すなわち、第1電子機器1は、対話者Mgの視線の向きを模擬するような動作を行うことができるようにしてよい。具体的には、第1電子機器1は、対話者Mgがどの方向を見ているのかを、会議室MRにおいて、対話者候補Ma,Mb,Mc,Md,Me,及びMfなどに認識させることができる。例えば、第1電子機器1は、対話者Mgが対話者Maの方を見ているか、対話者Mgが対話者Mbの方を見ているか、又は、対話者Mgがいずれの他の対話者の方も見ていないのかなどを、会議室MRにおいて第1電子機器1の周囲の者に認識させることができる。 The first electronic device 1 according to one embodiment may be configured to reproduce the direction of gaze of interlocutor Mg. That is, the first electronic device 1 may be capable of performing an operation that simulates the direction of gaze of interlocutor Mg. Specifically, the first electronic device 1 can cause interlocutor candidates Ma, Mb, Mc, Md, Me, Mf, and the like in the conference room MR to recognize in which direction interlocutor Mg is looking. For example, the first electronic device 1 can cause people around the first electronic device 1 in the conference room MR to recognize whether interlocutor Mg is looking at interlocutor Ma, whether interlocutor Mg is looking at interlocutor Mb, or whether interlocutor Mg is not looking at any of the other interlocutors.
一実施形態に係る第1電子機器1は、各種の機器を想定することができるが、例えば、専用に設計された機器としてもよい。例えば、一実施形態に係る第1電子機器1は、人間などのイラストが描かれた外観の筐体を有してもよいし、人間などの少なくとも一部を模した人形のような形状又はロボットのような形状を有してもよい。また、一実施形態に係る第1電子機器1は、例えば、汎用のスマートフォン、タブレット、ファブレット、ノートパソコン(ノートPC若しくはラップトップ)、又はコンピュータ(デスクトップ)などの機器としてもよい。一実施形態に係る第1電子機器1は、例えばノートPCのディスプレイに、人間又はロボットなどの少なくとも一部の画像を描画してもよい。また、一実施形態に係る第1電子機器1は、例えば、人間又はロボットなどの少なくとも一部を3Dホログラムとして投影してもよい。例えば、第1電子機器1がロボットのような形状を有する場合、ロボットの目及び/又は頭部の動きによって、対話者Mgの視線の向きを模擬してよい。例えば、第1電子機器1が、ロボットの画像を描画するディスプレイを含んで構成される場合、描画されるロボットの画像の目及び/又は頭部の動きによって、対話者Mgの視線の向きを模擬してよい。 The first electronic device 1 according to one embodiment may be various devices, but may be, for example, a device designed specifically for the device. For example, the first electronic device 1 according to one embodiment may have a housing with an exterior on which an illustration of a human or the like is drawn, or may have a doll-like or robot-like shape that imitates at least a part of a human or the like. The first electronic device 1 according to one embodiment may be, for example, a general-purpose smartphone, tablet, phablet, notebook computer (notebook PC or laptop), or computer (desktop). The first electronic device 1 according to one embodiment may draw at least a part of an image of a human or robot on, for example, the display of a notebook PC. The first electronic device 1 according to one embodiment may project at least a part of a human or robot as a 3D hologram. For example, when the first electronic device 1 has a shape like a robot, the direction of the gaze of the interlocutor Mg may be simulated by the movement of the eyes and/or head of the robot. For example, when the first electronic device 1 is configured to include a display that draws an image of a robot, the direction of the gaze of the interlocutor Mg may be simulated by the movement of the eyes and/or head of the drawn image of the robot.
図2に示すように、一実施形態に係る第1電子機器1は、制御部10、記憶部20、通信部30、撮像部40、音声入力部50、音声出力部60、表示部70、駆動部80、入力部90、及び視線情報取得部92などを備えてよい。また、制御部10は、例えば、取得部12、検出部14、選出部16、及び特定部18などを含んでもよい。一実施形態において、第1電子機器1は、図2に示す機能部の少なくとも一部を備えなくてもよいし、図2に示す機能部以外の構成要素を備えてもよい。
As shown in FIG. 2, the first electronic device 1 according to one embodiment may include a
制御部10は、第1電子機器1を構成する各機能部をはじめとして、第1電子機器1の全体を制御及び/又は管理する機能を有してよい。制御部10は、種々の機能を実行するための制御及び処理能力を提供するために、例えばCPU(Central Processing Unit)又はDSP(Digital Signal Processor)のような、少なくとも1つのプロセッサを含んでよい。制御部10は、まとめて1つのプロセッサで実現してもよいし、いくつかのプロセッサで実現してもよいし、それぞれ個別のプロセッサで実現してもよい。プロセッサは、単一の集積回路(IC;Integrated Circuit)として実現されてよい。プロセッサは、複数の通信可能に接続された集積回路及びディスクリート回路として実現されてよい。プロセッサは、他の種々の既知の技術に基づいて実現されてよい。
The
制御部10は、1以上のプロセッサ及びメモリを含んでもよい。プロセッサは、特定のプログラムを読み込ませて特定の機能を実行する汎用のプロセッサ、及び特定の処理に特化した専用のプロセッサを含んでよい。専用のプロセッサは、特定用途向けIC(ASIC;Application Specific Integrated Circuit)を含んでよい。プロセッサは、プログラマブルロジックデバイス(PLD;Programmable Logic Device)を含んでよい。PLDは、FPGA(Field-Programmable Gate Array)を含んでよい。制御部10は、1つ又は複数のプロセッサが協働するSoC(System-on-a-Chip)、及びSiP(System In a Package)のいずれかであってもよい。制御部10は、第1電子機器1の各構成要素の動作を制御する。
The
制御部10は、例えば、ソフトウェア及びハードウェア資源の少なくとも一方を含んで構成されてよい。また、一実施形態に係る第1電子機器1において、制御部10は、ソフトウェアとハードウェア資源とが協働した具体的手段によって構成されてもよい。また、一実施形態に係る第1電子機器1において、他の機能部の少なくともいずれかも、ソフトウェアとハードウェア資源とが協働した具体的手段によって構成されてもよい。
The
一実施形態に係る第1電子機器1において、制御部10が行う制御などの動作については、さらに後述する。また、制御部10の取得部12は、各種の取得処理を行うことができる。検出部14は、各種の検出処理を行うことができる。選出部16は、各種の選出処理を行うことができる。特定部14は、各種の特定処理を行うことができる。これらの各機能部が行う動作についても、さらに後述する。
In the first electronic device 1 according to one embodiment, the
記憶部20は、各種の情報を記憶するメモリとしての機能を有してよい。記憶部20は、例えば制御部10において実行されるプログラム、及び、制御部10において実行された処理の結果などを記憶してよい。また、記憶部20は、制御部10のワークメモリとして機能してもよい。図2に示すように、記憶部20は、制御部10に有線及び/又は無線で接続されてよい。記憶部20は、例えば、RAM(Random Access Memory)及びROM(Read Only Memory)の少なくとも一方を含んでもよい。記憶部20は、例えば半導体メモリ等により構成することができるが、これに限定されず、任意の記憶装置とすることができる。例えば、記憶部20は、一実施形態に係る第1電子機器1に挿入されたメモリカードのような記憶媒体としてもよい。また、記憶部20は、制御部10として用いられるCPUの内部メモリであってもよいし、制御部10に別体として接続されるものとしてもよい。
The
通信部30は、例えば外部の機器などと無線及び/又は有線により通信するためのインタフェースの機能を有する。一実施形態の通信部30によって行われる通信方式は、無線通信規格としてよい。例えば、無線通信規格は、2G、3G、4G、及び5G等のセルラーフォンの通信規格を含む。例えば、セルラーフォンの通信規格は、LTE(Long Term Evolution)、W-CDMA(Wideband Code Division Multiple Access)、CDMA2000、PDC(Personal Digital Cellular)、GSM(登録商標)(Global System for Mobile communications)、及びPHS(Personal Handy-phone System)等を含む。例えば、無線通信規格は、WiMAX(Worldwide Interoperability for Microwave Access)、IEEE802.11、WiFi、Bluetooth(登録商標)、IrDA(Infrared Data Association)、及びNFC(Near Field Communication)等を含む。通信部30は、例えばITU-T(International Telecommunication Union Telecommunication Standardization Sector)において通信方式が標準化されたモデムを含んでよい。通信部30は、上記の通信規格の1つ又は複数をサポートすることができる。
The
通信部30は、例えば電波を送受信するアンテナ及び適当なRF部などを含めて構成してよい。通信部30は、例えばアンテナを介して、例えば他の電子機器の通信部と無線通信してもよい。通信部30は、第1電子機器1から他の機器に任意の情報を送信する機能、及び/又は、第1電子機器1において他の機器から任意の情報を受信する機能を備えてよい。例えば、通信部30は、図1に示した第2電子機器100と無線通信してよい。この場合、通信部30は、第2電子機器100の通信部130(後述)と無線通信してよい。このように、一実施形態において、通信部30は、第2電子機器100と通信する機能を有する。また、例えば、通信部30は、図1に示した第3電子機器300と無線通信してよい。この場合、通信部30は、第3電子機器300の通信部330(後述)と無線通信してよい。このように、一実施形態において、通信部30は、第3電子機器300と通信する機能を有してよい。また、通信部30は、外部に有線接続するためのコネクタなどのようなインタフェースとして構成してもよい。通信部30は、無線通信を行うための既知の技術により構成することができるため、より詳細なハードウェアなどの説明は省略する。
The
図2に示すように、通信部30は、制御部10に有線及び/又は無線で接続されてよい。通信部30が受信する各種の情報は、例えば記憶部20及び/又は制御部10に供給されてよい。通信部30が受信する各種の情報は、例えば制御部10に内蔵されたメモリに記憶してもよい。また、通信部30は、例えば制御部10による処理結果、及び/又は、記憶部20に記憶された情報などを外部に送信してもよい。
As shown in FIG. 2, the
撮像部40は、例えばデジタルカメラのような、電子的に画像を撮像するイメージセンサを含んで構成されてよい。撮像部40は、CCD(Charge Coupled Device Image Sensor)又はCMOS(Complementary Metal Oxide Semiconductor)センサ等のように、光電変換を行う撮像素子を含んで構成されてよい。撮像部40は、例えば第1電子機器1の周囲の画像を撮像することができる。撮像部40は、例えば図1に示す会議室MR内の様子を撮像してよい。一実施形態において、撮像部40は、例えば図1に示す会議室MRにおいて行われる会議の対話者候補Ma,Mb,Mc,Md,Me,及びMfなどを撮像してよい。
The
撮像部40は、特定の方向を中心とした所定の範囲の画角を有する映像を撮像するように構成されてよい。例えば、一実施形態に係る撮像部40は、図1において、対話者候補Mbを中心とする映像であって、対話者候補Ma及び/又は対話者候補Mdなどが画角に含まれない映像を撮像してもよい。また、撮像部40は、例えば水平方向などの全方位(例えば360度)の映像を同時に撮像するように構成されてもよい。例えば、一実施形態に係る撮像部40は、図1において、対話者候補Ma,Mb,Mc,Md,Me,及びMfなどがいずれも含まれる全方位映像を撮像してもよい。
The
撮像部40は、撮像した画像を信号に変換して、制御部10に送信してよい。このため、撮像部40は、制御部10に有線及び/又は無線で接続されてよい。また、撮像部40によって撮像された画像に基づく信号は、記憶部20、及び/又は表示部70など、第1電子機器1の任意の機能部に供給されてもよい。撮像部40は、図1に示す会議室MR内の様子を撮像するものであれば、デジタルカメラのような撮像デバイスに限定されず、任意のデバイスとしてよい。
The
一実施形態において、撮像部40は、例えば会議室MR内の様子を所定時間ごと(例えば秒間15フレームなど)の静止画として撮像してもよい。また、一実施形態において、撮像部40は、例えば会議室MR内の様子を連続した動画として撮像してもよい。さらに、撮像部40は、定点カメラを含んで構成してもよいし、可動式のカメラを含んで構成してもよい。
In one embodiment, the
音声入力部50は、人が発する声を含む、第1電子機器1の周囲の音又は音声を検出(取得)する。例えば、音声入力部50は、音又は音声を空気振動として例えばダイヤフラムなどで検出したものを電気信号に変換するものとしてよい。具体的には、音声入力部50は、任意のマイク(マイクロフォン)のような音を電気信号に変換する音響機器を含んで構成されてよい。一実施形態において、音声入力部50は、例えば図1に示した会議室MRにおける対話者候補Ma,Mb,Mc,Md,Me,及びMfの少なくともいずれかの音声を検出(取得)してよい。音声入力部50によって検出された音声(電気信号)は、例えば制御部10に入力されてよい。このため、音声入力部50は、制御部10に有線及び/又は無線で接続されてよい。
The
一実施形態において、音声入力部50は、例えば、ステレオマイクロホン又はマイクロホンアレイなどを含んで構成されもよい。ステレオマイクロホン又はマイクロホンアレイのように複数チャンネルを含む音声入力部50によれば、音源の方向及び/又は音源の位置などを特定(又は推定)することができる。このような音声入力部50によれば、例えば会議室MRにおいて検出される音が、音声入力部50を備える第1電子機器1を基準として、どの方向及び/又は位置に存在する音源から発された音なのか、特定(又は推定)することができる。
In one embodiment, the
音声入力部50は、取得した音又は音声を電気信号に変換して、制御部10に供給してよい。また、音声入力部50は、音又は音声が変換された電気信号(音声信号)を、記憶部20など、第1電子機器1の機能部に供給してもよい。音声入力部50は、図1に示す会議室MR内の音又は音声を検出(取得)するものであれば、任意のデバイスとしてよい。
The
音声出力部60は、制御部10から供給される音又は音声の電気信号(音声信号)を音に変換することにより、当該音声信号を音又は音声として出力する。音声出力部60は、制御部10に有線及び/又は無線で接続されてよい。音声出力部60は、任意のスピーカ(ラウドスピーカ)などの音を出力する機能を有するデバイスを含めて構成されてよい。一実施形態において、音声出力部60は、特定の方向に音を伝達する指向性スピーカを含んで構成されてもよい。また、音声出力部60は、音の指向性を変更可能に構成されていてもよい。音声出力部60は、電気信号(音声信号)を適宜増幅する増幅器又は増幅回路などを含んでもよい。
The
一実施形態において、音声出力部60は、通信部30が第2電子機器100から受信する音声信号を増幅してよい。ここで、第2電子機器100から受信する音声信号とは、例えば、発話している(発話中の)発話者(例えば図1に示した対話者Mg)の第2電子機器100から通信部30が受信する、当該発話者の音声信号としてよい。すなわち、音声出力部60は、発話者(例えば図1に示した対話者Mg)の音声信号を、当該発話者の音声として出力してよい。
In one embodiment, the
表示部70は、例えば、液晶ディスプレイ(Liquid Crystal Display:LCD)、有機ELディスプレイ(Organic Electro-Luminescence panel)、又は無機ELディスプレイ(Inorganic Electro-Luminescence panel)等の任意の表示デバイスとしてよい。また、表示部70は、例えば、3Dホログラムを投影するプロジェクタなどであってもよい。表示部70は、文字、図形、又は記号等の各種の情報を表示してよい。また、表示部70は、例えば第1電子機器1の操作をユーザに促すために、種々のGUIを構成するオブジェクト及び/又はアイコン画像などを表示してもよい。
The
表示部70は、例えば対話者候補Ma,Mb,Mc,Md,Me,及びMfの少なくともいずれかの指又はスタイラスの接触による入力を検出するタッチパネルの機能を備えたタッチスクリーンディスプレイとしてもよい。
The
表示部70において表示を行うために必要な各種データは、例えば制御部10又は記憶部20などから供給されてよい。このため、表示部70は、制御部10などに有線及び/又は無線で接続されてよい。また、表示部70は、例えばLCDなどを含む場合、適宜、バックライトなどを含んで構成されてもよい。
Various data necessary for display on the
一実施形態において、表示部70は、第2電子機器100から送信される映像信号に基づく映像を表示してよい。後述のように、第2電子機器100は、例えば図1に示した対話者Mgの音声、映像、及び/又は視線の情報を取得して、第1電子機器1に出力する。そこで、第1電子機器1の制御部10は、第2電子機器100から取得した情報に基づく映像及び/又は画像などを表示部70に表示してよい。例えば、表示部70は、制御部10から入力される対話者Mgの映像及び/又は視線の情報に基づいて、対話者Mgの視線の向きを表現した映像を表示してもよい。第1電子機器1の表示部70に対話者Mgの視線の向きを表現した映像が表示されることにより、例えば図1に示す対話者候補Ma,Mb,Mc,Md,Me,及びMfなどは、会議室MRから離れた場所にいる対話者Mgの視線の様子を、視覚的に知ることができる。
In one embodiment, the
表示部70は、例えば第2電子機器100によって撮像された対話者Mgの映像をそのまま表示してもよい。一方、表示部70は、例えば対話者Mgの視線の向きを表現したキャラクタの画像(例えばアバター又はロボットの視線など)を表示してもよい。表示部70は、第2電子機器100のユーザの視線の向きを、映像によって表現してよい。また、表示部70は、第2電子機器100のユーザの視線の向き及び/又は視線の動きなどを、映像によって表現してもよい。このように、一実施形態に係る第1電子機器1は、第2電子機器100のユーザの視線及び/又は当該視線の向きを映像によって表現する表示部70を備えてもよい。
The
駆動部80は、第1電子機器1における所定の可動部を駆動する。駆動部80は、第1電子機器1における任意の可動部を駆動するサーボモータなどの動力源を含んで構成されてよい。駆動部80は、制御部10の制御によって、第1電子機器1における任意の可動部を駆動してよい。このため、駆動部80は、制御部10に有線及び/又は無線で接続されてよい。
The driving
一実施形態において、駆動部80は、例えば第1電子機器1の筐体の少なくとも一部を駆動してよい。また、駆動部80は、例えば第1電子機器1が人間などの少なくとも一部を模した人形のような形状又はロボットのような形状を有する場合、人形又はロボットの少なくとも一部を駆動してもよい。特に、駆動部80は、第1電子機器1が人間の顔の少なくとも一部を模したような形状又はロボットの顔のような形状を有する場合、対話者Mgの視線、視線の向き、及び/又は、視線の動きなどを、人形又はロボットの物理的な構成(形態)及び/又は動きによって表現してよい。
In one embodiment, the driving
後述のように、第2電子機器100は、例えば図1に示した対話者Mgの音声、映像、及び/又は視線の情報を(視線情報取得部192によって)取得して、第1電子機器1に出力する。そこで、駆動部80は、第1電子機器1から入力される対話者Mgの映像及び/又は視線の情報に基づいて、対話者Mgの映像の視線を、物理的な構成(形態)及び/又は動きによって表現してもよい。第1電子機器1の駆動部80が対話者Mgの視線を表現することにより、例えば図1に示す対話者候補Ma,Mb,Mc,Md,Me,及びMfなどは、会議室MRから離れた場所にいる対話者Mgの視線の様子を、視覚的に知ることができる。
As described below, the second
駆動部80は、例えば第2電子機器100によって撮像された対話者Mgの視線の向き及び/又は動きを、そのまま再現してもよい。一方、駆動部80は、例えば対話者Mgの視線の向き及び/又は動きを、第1電子機器1が有する人形又はロボットの形状によって表現してもよい。駆動部80は、第2電子機器100のユーザの視線、当該視線の向き、及び/又は、当該視線の動きなどを、物理的な構成(形態)及び/又は動きによって表現してもよい。一例として、第1電子機器1がロボットの形状を有する場合に、ロボットの目を動かす、及び/又は首を動かす等によって、第2電子機器100のユーザの視線の向き及び/又は視線の動きを表現してよい。このように、一実施形態に係る第1電子機器1は、第2電子機器100のユーザの視線及び/又は当該視線の向きを機械的構造の駆動によって表現する駆動部80を備えてもよい。
The driving
図3は、一実施形態に係る第1電子機器1における駆動部80による動作の例を説明する図である。
FIG. 3 is a diagram illustrating an example of the operation of the driving
図3に示すように、一実施形態において、駆動部80は、人形又はロボットの形状を有する第1電子機器1における駆動軸α、β、γ、δ、ε、及びζの少なくともいずれかを中心とする駆動を実現してよい。例えば、駆動部80は、第1電子機器1における駆動軸αを中心とする駆動を行うことにより、第2電子機器100のユーザ(例えば対話者Mg)の否定的な動作(首を左右に振る動作)を表現してよい。また、例えば、駆動部80は、第1電子機器1における駆動軸βを中心とする駆動を行うことにより、第2電子機器100のユーザ(例えば対話者Mg)の肯定的な動作(頷く動作)を表現してよい。また、例えば、駆動部80は、第1電子機器1における駆動軸γを中心とする駆動を行うことにより、第2電子機器100のユーザ(例えば対話者Mg)が態度を決めかねるような動作(首をかしげる動作)を表現してよい。また、例えば、駆動部80は、第1電子機器1における駆動軸δを中心とする駆動を行うことにより、第2電子機器100のユーザ(例えば対話者Mg)の否定的な動作又は拒絶を示す動作(身体を左右に振る動作)を表現してよい。また、例えば、駆動部80は、第1電子機器1における駆動軸εを中心とする駆動を行うことにより、第2電子機器100のユーザ(例えば対話者Mg)が礼儀を示す動作(お辞儀をする動作)を表現してよい。また、例えば、駆動部80は、第1電子機器1における駆動軸ζを中心とする駆動を行うことにより、第2電子機器100のユーザ(例えば対話者Mg)の動作を表現してもよい。
As shown in FIG. 3, in one embodiment, the driving
また、一実施形態において、駆動部80は、図3に示す第1電子機器1の顔部分Fcにおける目E1及び/又は目E2の動き、すなわち第2電子機器100のユーザ(例えば対話者Mg)の視線を表現してもよい。この場合、駆動部80は、第1電子機器1の顔部分Fcにおける目E1及び目E2の少なくとも一方を駆動することにより、第2電子機器100のユーザ(例えば対話者Mg)の視線を表現してよい。一実施形態において、駆動部80は、第1電子機器1の顔部分Fcにおける目E1及び目E2の少なくとも一方の動きを駆動することにより、第2電子機器100のユーザ(例えば対話者Mg)の視線を表現してよい。具体的には、駆動部80は、例えば、第1電子機器1の顔部分Fcにおける目E1及び目E2の少なくとも一方を、図3に示す矢印のいずれかの方向に動かすようにして、第2電子機器100のユーザ(例えば対話者Mg)の視線を表現してよい。駆動部80が第1電子機器1の顔部分Fcにおける目E1及び目E2の少なくとも一方を動かす方向は、図3に示す矢印のいずれかの方向に限定されない。例えば、駆動部80は、第1電子機器1の顔部分Fcにおける目E1及び目E2の少なくとも一方を、図3に示す矢印のいずれかの方向以外の斜めの方向などに動かしてもよい。
In addition, in one embodiment, the driving
一実施形態において、表示部70は、例えば図3に示す顔部分Fcにおける目E1及び/又は目E2を表示することにより、第2電子機器100のユーザ(例えば対話者Mg)の視線を表現してもよい。一実施形態において、表示部70及び駆動部80の少なくとも一方は、第1電子機器1の目E1及び目E2の少なくとも一方を表現することにより、第2電子機器100のユーザ(例えば対話者Mg)の視線を表現してよい。
In one embodiment, the
上述のように、表示部70による表示、及び/又は、駆動部80の駆動により、例えば対話者Mgのような人間の感情及び/又は行動を表す種々の動作を表現することができる。表示部70による表示、及び/又は、駆動部80の駆動により、例えば対話者Mgのような人間の感情及び/又は行動を表す動作は、公知の種々の技術を用いてよい。このため、表示部70による表示、及び/又は、駆動部80の駆動により、例えば対話者Mgのような人間の感情及び/又は行動を表す動作については、より詳細な説明は省略する。一実施形態に係る第1電子機器1は、表示部70による表示、及び/又は、駆動部80の駆動により、対話者Mgの感情及び/又は行動を表す各種の動作を行うことができる。
As described above, various operations expressing the emotions and/or behavior of a human being, such as the interlocutor Mg, can be expressed by displaying the
図2に示す入力部90は、第1電子機器1のユーザによる入力を検出するための任意のデバイスを含んで構成されてよい。例えば、入力部90は、各種スイッチ、各種スライダ、各種フェーダ、ジョイスティック、パッド、キーボード、マウス、トラックボール、及びタッチパネルなどの少なくともいずれかを含んで構成されてよい。入力部90は、公知の種々の技術を用いてよいため、より詳細なハードウェアなどの説明は省略する。一実施形態において、入力部90は、例えば図1に示す対話者候補Ma,Mb,Mc,Md,Me,及びMfなどによる入力を検出してよい。
The
視線情報取得部92は、第1電子機器1のユーザ(例えば対話者候補Ma,Mb,Mc,Md,Me,及びMfの少なくとも1人)の視線の情報を取得する。視線情報取得部92は、第1電子機器1のユーザの視線、当該視線の向き、及び/又は、当該視線の動きなど、第1電子機器1のユーザの視線の情報を取得してよい。視線情報取得部92は、例えばアイトラッカーなどのように、第1電子機器1のユーザ(例えば対話者候補Ma,Mb,Mc,Md,Me,及びMfの少なくとも1人)の視線の動きを追尾する機能を備えてよい。視線情報取得部92は、第1電子機器1のユーザの視線、当該視線の向き、及び/又は、当該視線の動きなど、第1電子機器1のユーザの視線の情報を取得することができる任意の部材としてよい。
The gaze
一実施形態に係る第1電子機器1は、撮像部40によって撮像される第1電子機器1のユーザ(例えば対話者候補Ma,Mb,Mc,Md,Me,及びMfの少なくとも1人)の目の動きに基づいて、当該ユーザの視線の情報を取得してもよい。この場合、第1電子機器1は、視線情報取得部92を備えなくてもよいし、撮像部40が視線情報取得部92の機能を兼ねてもよい。視線情報取得部92によって取得された視線情報は、例えば制御部10に入力されてよい。このため、視線情報取得部92は、制御部10に有線及び/又は無線で接続されてよい。
The first electronic device 1 according to one embodiment may acquire gaze information of a user of the first electronic device 1 (e.g., at least one of the interlocutor candidates Ma, Mb, Mc, Md, Me, and Mf) based on the eye movement of the user captured by the
一実施形態において、第1電子機器1は、上述のように、専用に設計された機器としてもよい。一方、一実施形態において、第1電子機器1は、図2に示す機能部のうち、例えば音声出力部60、駆動部80、入力部92、及び視線情報取得部92の少なくともいずれかを備えてもよい。この場合、第1電子機器1は、図2に示す他の機能部の機能の少なくとも一部を補うために、他の電子機器に接続されてもよい。ここで、他の電子機器とは、例えば、汎用のスマートフォン、タブレット、ファブレット、ノートパソコン(ノートPC若しくはラップトップ)、又はコンピュータ(デスクトップ)などの機器としてもよい。
In one embodiment, the first electronic device 1 may be a dedicated device as described above. Meanwhile, in one embodiment, the first electronic device 1 may include at least one of the functional units shown in FIG. 2, such as the
図3に示した第1電子機器1における表示部70による表示、及び/又は、駆動部80の駆動により、対話者Mgのような人間の感情及び/又は行動を表す種々の動作を表現する態様は、あくまでも想定され得る例示としてよい。一実施形態に係る第1電子機器1は、種々の構成及び/又は動作態様によって、対話者Mgのような人間の感情及び/又は行動を表す種々の動作を表現してよい。
The manner in which various actions expressing the emotions and/or behavior of a human being such as interlocutor Mg are expressed by the
図4は、図1に示した第2電子機器100の構成を概略的に示すブロック図である。以下、一実施形態に係る第2電子機器100の構成の一例について説明する。第2電子機器100は、図1に示したように、例えば対話者Mgが、自宅RLにおいて使用する機器としてよい。上述した第1電子機器1は、対話者候補Ma,Mb,Mc,Md,Me,及びMfのうち少なくとも1人などが発話する際に、第1電子機器1が取得した当該対話者候補のうち少なくとも1人などの音声及び/又は映像を、第2電子機器100に出力する機能を有する。そして、第1電子機器1は、対話者Mgの視線を表現することができる。また、第2電子機器100は、対話者Mgが発話する際に、第2電子機器100が取得した対話者Mgの音声及び/又は映像を、第1電子機器1に出力する機能を有する。さらに、第2電子機器100は、第2電子機器100が取得した対話者Mgの視線の情報を、第1電子機器1に出力する機能を有する。第2電子機器100により、対話者Mgは、会議室MRから離れた場所においても、リモート会議又はビデオ会議を行うことができる。したがって、第2電子機器100は、適宜、「リモートで使用される」電子機器とも記す。
FIG. 4 is a block diagram showing a schematic configuration of the second
図4に示すように、一実施形態に係る第2電子機器100は、制御部110、記憶部120、通信部130、撮像部140、音声入力部150、音声出力部160、表示部170、入力部190、及び視線情報取得部192などを備えてよい。また、制御部110は、例えば、取得部112、検出部114、選出部116、及び特定部118などを含んでもよい。一実施形態において、第2電子機器100は、図4に示す機能部の少なくとも一部を備えなくてもよいし、図4に示す機能部以外の構成要素を備えてもよい。
As shown in FIG. 4, the second
制御部110は、第2電子機器100を構成する各機能部をはじめとして、第2電子機器100の全体を制御及び/又は管理する機能を有してよい。制御部110は、基本的に、例えば図2に示した制御部10と同様の思想に基づく構成としてよい。また、制御部110の取得部112、検出部114、選出部116、及び特定部118についても、それぞれ、例えば図2に示した制御部10の取得部12、検出部14、選出部16、及び特定部18と同様の思想に基づく構成としてよい。
The
記憶部120は、各種の情報を記憶するメモリとしての機能を有してよい。記憶部120は、例えば制御部110において実行されるプログラム、及び、制御部110において実行された処理の結果などを記憶してよい。また、記憶部120は、制御部110のワークメモリとして機能してもよい。図4に示すように、記憶部120は、制御部110に有線及び/又は無線で接続されてよい。記憶部120は、基本的に、例えば図2に示した記憶部20と同様の思想に基づく構成としてよい。
The
通信部130は、無線及び/又は有線により通信するためのインタフェースの機能を有する。通信部130は、例えばアンテナを介して、例えば他の電子機器の通信部と無線通信してもよい。例えば、通信部130は、図1に示した第1電子機器1と無線通信してよい。この場合、通信部130は、第1電子機器1の通信部30と無線通信してよい。このように、一実施形態において、通信部130は、第1電子機器1と通信する機能を有する。また、例えば、通信部130は、図1に示した第3電子機器300と無線通信してよい。この場合、通信部130は、第3電子機器300の通信部330(後述)と無線通信してよい。このように、一実施形態において、通信部130は、第3電子機器300と通信する機能を有してよい。図4に示すように、通信部130は、制御部110に有線及び/又は無線で接続されてよい。通信部130は、基本的に、例えば図2に示した通信部30と同様の思想に基づく構成としてよい。
The
撮像部140は、例えばデジタルカメラのような、電子的に画像を撮像するイメージセンサを含んで構成されてよい。撮像部140は、例えば図1に示す自宅RL内の様子を撮像してよい。一実施形態において、撮像部140は、例えば図1に示す自宅RLから会議に参加する対話者Mgなどを撮像してよい。撮像部140は、撮像した画像を信号に変換して、制御部110に送信してよい。このため、撮像部140は、制御部110に有線及び/又は無線で接続されてよい。撮像部140は、基本的に、例えば図2に示した撮像部40と同様の思想に基づく構成としてよい。
The
音声入力部150は、人が発する声を含む、第2電子機器100の周囲の音又は音声を検出(取得)する。例えば、音声入力部150は、音又は音声を空気振動として例えばダイヤフラムなどで検出したものを電気信号に変換するものとしてよい。具体的には、音声入力部150は、任意のマイク(マイクロフォン)のような音を電気信号に変換する音響機器を含んで構成されてよい。一実施形態において、音声入力部150は、例えば図1に示した自宅RLにおける対話者Mgの音声を検出(取得)してよい。音声入力部150によって検出された音声(電気信号)は、例えば制御部110に入力されてよい。このため、音声入力部150は、制御部110に有線及び/又は無線で接続されてよい。音声入力部150は、基本的に、例えば図2に示した音声入力部50と同様の思想に基づく構成としてよい。
The
音声出力部160は、制御部110から供給される電気信号(音声信号)を音に変換することにより、当該音声信号を音又は音声として出力する。音声出力部160は、制御部110に有線及び/又は無線で接続されてよい。音声出力部160は、任意のスピーカ(ラウドスピーカ)などの音を出力する機能を有するデバイスを含めて構成されてよい。一実施形態において、音声出力部160は、第1電子機器1の音声入力部50が検出した音声を出力してよい。ここで、第1電子機器1の音声入力部50が検出した音声とは、図1に示した会議室MRにおける対話者候補Ma,Mb,Mc,Md,Me,及びMfの少なくともいずれかの音声としてよい。音声出力部160は、基本的に、例えば図2に示した音声出力部60と同様の思想に基づく構成としてよい。
The
表示部170は、例えば、液晶ディスプレイ(Liquid Crystal Display:LCD)、有機ELディスプレイ(Organic Electro-Luminescence panel)、又は無機ELディスプレイ(Inorganic Electro-Luminescence panel)等の任意の表示デバイスとしてよい。表示部170は、基本的に、例えば図2に示した表示部70と同様の思想に基づく構成としてよい。表示部170において表示を行うために必要な各種データは、例えば制御部110又は記憶部120などから供給されてよい。このため、表示部170は、制御部110などに有線及び/又は無線で接続されてよい。
The
表示部170は、例えば対話者Mgの指又はスタイラスの接触による入力を検出するタッチパネルの機能を備えたタッチスクリーンディスプレイとしてもよい。
The
一実施形態において、表示部170は、第1電子機器1から送信される映像信号に基づく映像を表示してよい。表示部170は、第1電子機器1から送信される映像信号に基づく映像として、第1電子機器1(の撮像部40)によって撮像された例えば対話者候補Ma,Mb,Mc,Md,Me,及びMfなどの映像を表示してもよい。第2電子機器100の表示部170に対話者候補Ma,Mb,Mc,Md,Me,及びMfなどの映像が表示されることにより、例えば図1に示す対話者Mgは、自宅RLから離れた会議室MRにいる当該対話者候補の様子を視覚的に知ることができる。
In one embodiment, the
表示部170は、例えば第1電子機器1によって撮像された対話者候補Ma,Mb,Mc,Md,Me,及びMfなどの映像をそのまま表示してもよい。一方、表示部170は、例えば対話者候補Ma,Mb,Mc,Md,Me,及びMfなどをキャラクタ化したような画像(例えばアバター)を表示してもよい。
The
入力部190は、第2電子機器100のユーザによる入力を検出するための任意のデバイスを含んで構成されてよい。例えば、入力部190は、各種スイッチ、各種スライダ、各種フェーダ、ジョイスティック、パッド、キーボード、マウス、トラックボール、及びタッチパネルなどの少なくともいずれかを含んで構成されてよい。一実施形態において、入力部190は、例えば図1に示す対話者Mgによる入力を検出してよい。
The
視線情報取得部192は、第2電子機器100のユーザ(例えば対話者Mg)の視線の情報を取得する。視線情報取得部192は、第2電子機器100のユーザの視線、当該視線の向き、及び/又は、当該視線の動きなど、第2電子機器100のユーザの視線の情報を取得してよい。視線情報取得部192は、例えばアイトラッカーなどのように、第2電子機器100のユーザ(例えば対話者Mg)の視線の動きを追尾する機能を備えてよい。視線情報取得部192は、第2電子機器100のユーザの視線、当該視線の向き、及び/又は、当該視線の動きなど、第2電子機器100のユーザの視線の情報を取得することができる任意の部材としてよい。
The gaze
一実施形態に係る第2電子機器100は、撮像部140によって撮像される第2電子機器100のユーザ(例えば対話者Mg)の目の動きに基づいて、当該ユーザの視線の情報を取得してもよい。この場合、第2電子機器100は、視線情報取得部192を備えなくてもよいし、撮像部140が視線情報取得部192を兼ねてもよい。視線情報取得部192によって取得された視線情報は、例えば制御部110に入力されてよい。このため、視線情報取得部192は、制御部110に有線及び/又は無線で接続されてよい。
The second
一実施形態において、第2電子機器100は、上述のように、専用に設計された機器としてもよい。一方、一実施形態において、第2電子機器100は、例えば図4に示す機能部のうち一部を備えてもよい。この場合、第2電子機器100は、図4に示す他の機能部の機能の少なくとも一部を補うために、他の電子機器に接続されてもよい。ここで、他の電子機器とは、例えば、汎用のスマートフォン、タブレット、ファブレット、ノートパソコン(ノートPC若しくはラップトップ)、又はコンピュータ(デスクトップ)などの機器としてもよい。
In one embodiment, the second
特に、スマートフォン又はノートパソコンなどは、図4に示す機能部のうち比較的多くの機能部を備えていることが多い。このため、一実施形態において、第2電子機器100は、スマートフォン又はノートパソコンなどとしてもよい。この場合、第2電子機器100は、スマートフォン又はノートパソコンなどにおいて、第1電子機器1と連携するためのアプリケーション(プログラム)をインストールしたものとしてもよい。
In particular, a smartphone or a laptop computer often has a relatively large number of the functional units shown in FIG. 4. For this reason, in one embodiment, the second
図5は、図1に示した第3電子機器300の構成を概略的に示すブロック図である。以下、一実施形態に係る第3電子機器300の構成の一例について説明する。第3電子機器300は、図1に示したように、例えば対話者Mgの自宅RL及び会議室MRとは異なる場所に設置されてよい。また、第3電子機器300は、例えば対話者Mgの自宅RL又はその付近に設置されてもよいし、会議室MR又はその付近に設置されてもよい。
FIG. 5 is a block diagram showing a schematic configuration of the third
第1電子機器1は、対話者候補Ma,Mb,Mc,Md,Me,及びMfなどが発話する際に、第1電子機器1が取得した当該対話者候補などの音声及び/又は映像のデータを、第3電子機器300に送信する機能を有する。第3電子機器300は、第1電子機器1から受信した音声及び/又は映像のデータを第2電子機器100に送信してよい。また、第2電子機器100は、対話者Mgが発話する際に、第2電子機器100が取得した対話者Mgの音声及び/又は映像のデータを、第3電子機器300に送信する機能を有する。第3電子機器300は、第2電子機器100から受信した音声及び/又は映像のデータを第1電子機器1に送信してよい。このように、第3電子機器300は、第1電子機器1と第2電子機器100とを中継する機能を備えてよい。第3電子機器100は、適宜、「サーバ」とも記す。
The first electronic device 1 has a function of transmitting audio and/or video data of the interlocutor candidates Ma, Mb, Mc, Md, Me, Mf, etc. acquired by the first electronic device 1 to the third
図5に示すように、一実施形態に係る第3電子機器300は、制御部310、記憶部320、及び通信部330を備えてよい。また、制御部310は、例えば、特定部312及び推定部314を含んでよい。一実施形態において、第3電子機器300は、図5に示す機能部の少なくとも一部を備えなくてもよいし、図に示す機能部以外の構成要素を備えてもよい。
As shown in FIG. 5, the third
制御部310は、第3電子機器300を構成する各機能部をはじめとして、第3電子機器300の全体を制御及び/又は管理する機能を有してよい。制御部310は、基本的に、例えば図2に示した制御部10又は図4に示した制御部110と同様の思想に基づく構成としてよい。また、制御部310の取得部312、検出部314、選出部316、及び特定部318についても、それぞれ、例えば図2に示した制御部10の取得部12、検出部14、選出部16、及び特定部18と同様の思想に基づく構成としてよい。制御部310の取得部312、検出部314、選出部316、及び特定部318は、それぞれ、例えば図4に示した取得部112、検出部114、選出部116、及び特定部118と同様の思想に基づく構成としてもよい。
The
記憶部320は、各種の情報を記憶するメモリとしての機能を有してよい。記憶部320は、例えば制御部310において実行されるプログラム、及び、制御部310において実行された処理の結果などを記憶してよい。また、記憶部320は、制御部310のワークメモリとして機能してもよい。図5に示すように、記憶部320は、制御部310に有線及び/又は無線で接続されてよい。記憶部320は、基本的に、例えば図2に示した記憶部20又は図4に示した記憶部120と同様の思想に基づく構成としてよい。
The
通信部330は、無線及び/又は有線により通信するためのインタフェースの機能を有する。通信部330は、例えばアンテナを介して、例えば他の電子機器の通信部と無線通信してもよい。例えば、通信部330は、図1に示した第1電子機器1と無線通信してよい。この場合、通信部330は、第1電子機器1の通信部30と無線通信してよい。このように、一実施形態において、通信部330は、第1電子機器1と通信する機能を有する。また、例えば、通信部330は、図1に示した第2電子機器100と無線通信してよい。この場合、通信部330は、第2電子機器100の通信部130と無線通信してよい。このように、一実施形態において、通信部330は、第2電子機器100と通信する機能を有してよい。図5に示すように、通信部330は、制御部310に有線及び/又は無線で接続されてよい。通信部330は、基本的に、例えば図2に示した通信部30又は図4に示した通信部130と同様の思想に基づく構成としてよい。
The
一実施形態において、第3電子機器300は、例えば専用に設計された機器としてもよい。一方、一実施形態において、第3電子機器300は、例えば図5に示す機能部のうち一部を備えてもよい。この場合、第3電子機器300は、図5に示す他の機能部の機能の少なくとも一部を補うために、他の電子機器に接続されてもよい。ここで、他の電子機器とは、例えば、汎用のコンピュータ又はサーバなどの機器としてもよい。一実施形態において、第3電子機器300は、例えば中継サーバ、ウェブサーバ、又はアプリケーションサーバなどとしてもよい。
In one embodiment, the third
次に、一実施形態に係る第1電子機器1及び第2電子機器100の基本的な動作について説明する。以下、図1に示すように、会議室MRにおいて実施されるリモート会議に、対話者Mgが自宅RLから参加する状況を想定して説明する。
Next, the basic operation of the first electronic device 1 and the second
すなわち、一実施形態に係る第1電子機器1は、会議室MRに設置され、対話者候補Ma,Mb,Mc,Md,Me,及びMfの少なくともいずれかの映像及び/又は音声を取得する。第1電子機器1によって取得された映像及び/又は音声は、対話者Mgの自宅RLに設置された第2電子機器100に送信される。第2電子機器100は、第1電子機器1が取得する対話者候補Ma,Mb,Mc,Md,Me,及びMfの少なくともいずれかの映像及び/又は音声を出力する。これにより、対話者Mgは、対話者候補Ma,Mb,Mc,Md,Me,及びMfの少なくともいずれかの映像及び/又は音声を認識することができる。
That is, the first electronic device 1 according to one embodiment is installed in the conference room MR and acquires video and/or audio of at least one of the interlocutor candidates Ma, Mb, Mc, Md, Me, and Mf. The video and/or audio acquired by the first electronic device 1 is transmitted to the second
一方、一実施形態に係る第2電子機器100は、対話者Mgの自宅RLに設置され、対話者Mgの音声を取得する。また、第2電子機器100は、対話者Mgの視線の情報を取得する。第2電子機器100によって取得された音声及び/又は視線の情報は、会議室MRに設置された第1電子機器1に送信される。第1電子機器1は、第2電子機器100から受信する対話者Mgの音声を出力する。これにより、対話者候補Ma,Mb,Mc,Md,Me,及びMfの少なくともいずれかは、対話者Mgの音声を聞くことができる。また、第1電子機器1は、第2電子機器100から受信する対話者Mgの視線の情報に基づいて、対話者Mgの視線を表現する。これにより、対話者候補Ma,Mb,Mc,Md,Me,及びMfの少なくともいずれかは、対話者Mgの視線の様子を視認することができる。さらに、一実施形態に係る第2電子機器100は、対話者Mgの映像を取得してもよい。第2電子機器100によって取得された映像は、会議室MRに設置された第1電子機器1に送信されてよい。この場合、第1電子機器1は、第2電子機器100から受信する対話者Mgの映像を出力してもよい。
On the other hand, the second
図6は、上述のような一実施形態に係るシステムの基本的な動作について説明するシーケンス図である。図6は、第1電子機器1、第2電子機器100、及び第3電子機器300の相互間で行われるデータなどのやり取りを示す図である。以下、図6を参照して、一実施形態に係るシステムを用いてリモート会議又はビデオ会議が行われる際の基本的な動作について説明する。
FIG. 6 is a sequence diagram explaining the basic operation of the system according to the embodiment described above. FIG. 6 is a diagram showing the exchange of data and the like between the first electronic device 1, the second
図6に示す動作において、ローカルで使用される第1電子機器1は、第1ユーザによって使用されるものとしてよい。ここで、第1ユーザとは、例えば図1に示した対話者候補Ma,Mb,Mc,Md,Me,及びMfの少なくとも1人(以下、ローカルのユーザとも記す)としてよい。また、リモートで使用される第2電子機器100は、第2ユーザによって使用されるものとしてよい。ここで、第2ユーザとは、例えば図1に示した対話者Mg(以下、リモートのユーザとも記す)としてよい。以下、第1電子機器1が実行する動作は、より詳細には、例えば第1電子機器1の制御部10が実行するものとしてよい。本明細書において、第1電子機器1の制御部10が実行する動作を、第1電子機器1が実行する動作として記すことがある。同様に、第2電子機器100が実行する動作は、より詳細には、例えば第2電子機器100の制御部110が実行するものとしてよい。本明細書において、第2電子機器100の制御部110が実行する動作を、第2電子機器100が実行する動作として記すことがある。また、第3電子機器300が実行する動作は、より詳細には、例えば第3電子機器300の制御部310が実行するものとしてよい。本明細書において、第3電子機器300の制御部310が実行する動作を、第3電子機器300が実行する動作として記すことがある。
In the operation shown in FIG. 6, the first electronic device 1 used locally may be used by the first user. Here, the first user may be, for example, at least one of the interlocutor candidates Ma, Mb, Mc, Md, Me, and Mf shown in FIG. 1 (hereinafter also referred to as the local user). The second
図6に示す動作は、例えば図1に示したようなリモート会議の開始時などに開始するものとしてよい。あるいは、図6に示す動作は、例えば第1電子機器1及び/又は第2電子機器100の起動時などに開始するものとしてもよい。
The operation shown in FIG. 6 may be initiated, for example, at the start of a remote conference as shown in FIG. 1. Alternatively, the operation shown in FIG. 6 may be initiated, for example, at the start of the first electronic device 1 and/or the second
図6に示す動作が開始すると、第1電子機器1は、少なくとも1人の対話者候補に関する情報を取得する(ステップS11)。ステップS11において、第1電子機器1は、第1ユーザ(例えば対話者候補Ma,Mb,Mc,Md,Me,及びMfの少なくともいずれか)の映像及び音声の少なくとも一方を取得してよい)。具体的には、ステップS11において、第1電子機器1の取得部12は、撮像部40によって第1ユーザの映像を撮像し、音声入力部50によって第1ユーザの音声を取得(又は検出)してよい。ステップS11において、第1電子機器1は、例えば図1に示した対話者候補Ma,Mb,Mc,Md,Me,及びMfの少なくとも1人の映像及び/又は音声の情報を取得してよい。このように、第1電子機器1において、取得部12は、少なくとも1人の対話者候補に関する情報を取得してよい。
6 starts, the first electronic device 1 acquires information about at least one interlocutor candidate (step S11). In step S11, the first electronic device 1 may acquire at least one of the video and audio of the first user (e.g., at least one of the interlocutor candidates Ma, Mb, Mc, Md, Me, and Mf). Specifically, in step S11, the
次に、第1電子機器1は、対話者候補に関する情報(例えば映像情報及び/又は音声情報)を、第3電子機器300に送信する(ステップS12)。具体的には、ステップS12において、第1電子機器1は、映像及び/又は音声のデータを、通信部30から、第3電子機器300の通信部330に送信する。また、ステップS12において、第3電子機器300は、第1電子機器1の通信部30から送信される映像及び/又は音声のデータを、通信部330によって受信(取得)してよい。
Next, the first electronic device 1 transmits information (e.g., video information and/or audio information) about the candidate interlocutor to the third electronic device 300 (step S12). Specifically, in step S12, the first electronic device 1 transmits video and/or audio data from the
ステップS12において、第1電子機器1の制御部10は、第1ユーザの映像及び音声の少なくとも一方をエンコードしてから送信してもよい。ここで、エンコードとは、映像及び/又は音声のデータを所定の規則に従って圧縮し、暗号化を含む目的に応じた形式に変換するものとしてよい。第1電子機器1は、ソフトウェアエンコード又はハードウェアエンコードなど、公知の種々のエンコードを行ってよい。この場合、第3電子機器300は、通信部30から受信するエンコードされた映像及び/又は音声のデータをデコードしてよい。ここで、デコードとは、エンコードされた映像及び/又は音声のデータの形式を、元の形式に戻すものとしてよい。第3電子機器300は、ソフトウェアエンコード又はハードウェアエンコードなど、公知の種々のデコードを行ってよい。
In step S12, the
次に、第3電子機器300は、ステップS12において取得した少なくとも1人の対話者候補に関する情報に基づいて、少なくとも1人の対話者候補を検出する(ステップS13)。ここで、第3電子機器300の検出部114は、ステップS12において取得した少なくとも1人の対話者候補に関する映像及び/又は音声の情報に基づいて、少なくとも1人の対話者候補を検出してよい。例えば、第3電子機器300の検出部114は、少なくとも1人の対話者候補に関する映像に基づく人物認識又は顔認識などによって、少なくとも1人の対話者候補を検出してよい。また、第3電子機器300の検出部114は、少なくとも1人の対話者候補に関する音声認識などによって、少なくとも1人の対話者候補を検出してよい。
Next, the third
例えば、ステップS13において、第3電子機器300は、第1電子機器1から所定の距離に存在する対話者候補を検出してよい。例えば、第3電子機器300は、図1に示す第1電子機器1から2m以内に存在する人物Ma,Mb,Mc,及びMdを対話者候補として検出してもよい。この場合、は、図1に示す人物Me及びMfは、対話者候補として検出されないものとしてよい。
For example, in step S13, the third
ステップS13において、第3電子機器300は、種々の条件に基づいて、対話者候補を検出してよい。例えば、第3電子機器300は、第1電子機器1の視線情報取得部92によって取得される周囲の人物の視線情報に基づいて、所定以上の強度を示す視線情報が検出される人物を、対話者候補として検出してもよい。すなわち、第3電子機器300は、第1電子機器1の周囲で第1電子機器1を比較的注視している人物を、対話者候補として検出してもよい。また、第3電子機器300は、第1電子機器1の撮像部40及び/又は視線情報取得部92によって取得される周囲の人物の顔の向き及び/又は視線の方向に基づいて、第1電子機器1の方を向いている人物を、対話者候補として検出してもよい。すなわち、第3電子機器300は、第1電子機器1の周囲で第1電子機器1の方を向いている人物、及び/又は、第1電子機器1に視線を向けている人を、対話者候補として検出してもよい。また、例えば、第3電子機器300は、第1電子機器1の撮像部40(及び/又は視線情報取得部92)並びに音声入力部50によって取得される情報に基づいて、対話者候補として検出してもよい。すなわち、第3電子機器300は、例えば、第1電子機器1を比較的注視し又は第1電子機器1の方を向いていて、かつ、第1電子機器1に対して言葉を発している人物を、対話者候補として検出してもよい。また、第3電子機器300は、第1電子機器1の撮像部40によって取得される周囲の人物の位置に基づいて、対話者候補を検出してもよい。例えば、第3電子機器300は、第1電子機器1から所定距離範囲内(例えば5メートル範囲内)にいる人物を、対話者候補として検出してもよい。また、例えば、第3電子機器300は、上述した視線及び/又は顔の向き等から対話者候補として検出された人物のうち所定距離内にいる人物を対話者候補として検出してもよい。また、第3電子機器300は、第1電子機器1の撮像部40によって取得される周囲の人物の顔画像を認識することにより、対話者候補を検出してもよい。例えば、第3電子機器300は、予め会議の参加者として登録された人物を顔認識によって特定し、当該人物を対話者候補として検出してもよい。また、第3電子機器300は、第1電子機器1の撮像部40によって取得される周囲の人物の動作によって、対話者候補を検出してもよい。例えば、第3電子機器300は、対話者として認識されることを希望する所定の動作(例えば、挙手、手を振る等)を行う人物を対話者候補として検出してもよい。また、第3電子機器300は、第1電子機器1の撮像部40によって取得される周囲の人物の発話内容によって、対話者候補を検出してもよい。例えば、第3電子機器300は、対話者として認識されることを希望する所定の発話内容(例えば、「こんにちは」、「(第1電子機器1のユーザ名)さん」、「おーい」、「聞こえますか」、「すみません」等)を発した人物を対話者候補として検出してもよい。
In step S13, the third
このように、第3電子機器300の取得部312は、少なくとも1人の対話者候補に関する情報を第1電子機器1から取得してよい。また、第3電子機器300検出部314は、少なくとも1人の対話者候補に関する情報に基づいて、少なくとも1人の対話者候補を検出してよい。
In this way, the
次に、第3電子機器300は、検出された対話者候補に関する情報を、第2電子機器100に送信する(ステップS14)。例えば、第3電子機器300は、検出された対話者候補として、対話者候補Ma,Mb,Mc,及びMdに関する情報を第2電子機器100に送信してよい。具体的には、ステップS14において、第3電子機器300は、検出された対話者候補に関する情報を、通信部330から、第2電子機器100の通信部130に送信してよい。また、ステップS14において、第2電子機器100は、第3電子機器300の通信部330から送信される対話者候補に関する情報を、通信部130によって受信してよい。
Next, the third
第2電子機器100は、対話者候補に関する情報を受信したら、当該対話者候補に関する情報を、第2ユーザ(例えば対話者Mg)に提示してもよい。この場合、第2電子機器100は、表示部170及び音声出力部160の少なくとも一方から、例えば対話者候補Ma,Mb,Mc,及びMdの映像及び音声の少なくとも一方を、第2ユーザ(例えば対話者Mg)に提示してよい。
When the second
例えば、図1に示した会議室MRにいる各人物が第1電子機器1の撮像部40によって撮像される場合、第2電子機器100は、図7に示すように撮像された各人物の映像を表示部170に表示してもよい。図7に示すように、表示部170は、人物Ma,Mb,Mc,及びMdが会議室MRのデスクの周囲に着席している様子を表示している。また、図7に示すように、表示部170は、人物Me及びMfが会議室MRのデスクから少し離れた場所で立っている様子を表示している。ここで、上述のように、第3電子機器300は、人物Ma,Mb,Mc,及びMdを対話者候補として検出し、図1に示す人物Me及びMfを対話者候補として検出しなかったものとする。この場合、第2電子機器100は、表示部170に表示する映像によって、対話者候補として検出された人物と、対話者候補としてされなかった人物とを区別可能に表示する。一例として、第2電子機器100は、図8に示すように、人物Ma,Mb,Mc,及びMdの周囲又は近傍などに例えばオブジェクトOb1を表示することにより、人物Ma,Mb,Mc,及びMdが対話者候補として検出されていることを示してよい。図8において、人物Me及びMfの周囲又は近傍などにオブジェクトOb1が表示されないことにより、人物Me及びMfが対話者候補として検出されなかったことを示している。
For example, when each person in the conference room MR shown in FIG. 1 is imaged by the
図8においては、人物Ma,Mb,Mc,及びMdの周囲又は近傍などに例えばオブジェクトOb1を表示することにより、当該人物が対話者候補として検出されていることを示した。一実施形態において、第2電子機器100は、例えば音声ガイドによって、人物Ma,Mb,Mc,及びMdが対話者候補として検出されていることを示してもよい。また、一実施形態において、第2電子機器100は、例えば音声ガイドによって、人物Me及びMfが対話者候補として検出されなかったことを示してもよい。具体的には、音声ガイドとして、対話者候補として検出された人物、又は対話者候補として検出されなかった人物の名前などを読み上げても良い。
In FIG. 8, for example, object Ob1 is displayed around or near persons Ma, Mb, Mc, and Md to indicate that the persons have been detected as interlocutor candidates. In one embodiment, the second
ステップS14の次に、第2電子機器100の選出部116は、少なくとも1人の対話者候補から、少なくとも1人の対話者を選出する(ステップS15)。ステップS15において、第2電子機器100の選出部116は、少なくとも1人の対話者を、第2電子機器100のユーザによる入力に基づいて選出してもよい。すなわち、第2電子機器100のユーザは、検出された対話者候補の中から、対話者を選出する入力を行うことができる。このように、第2電子機器100において、取得部112は、少なくとも1人の対話者候補に関する情報を取得してよい。第2電子機器100において、選出部116は、検出された少なくとも1人の対話者候補から、少なくとも1人の対話者を選出してよい。選出部116は、少なくとも1人の対話者を、第2電子機器100のユーザによる入力に基づいて選出してよい。
After step S14, the
第2電子機器100において対話者が選出される態様は、各種想定することができる。例えば、第2電子機器100は、図9に示すように、表示部170において対話者候補を示すオブジェクトOb1の近傍などにコンテキストメニューCmを表示することで、ユーザによる入力を促してもよい。例えば、第2電子機器100は、例えば対話者候補Mbの近傍にポインタPtが移動されることにより、又は対話者候補Mbの近傍においてクリックが入力されることにより、対話者候補MbについてコンテキストメニューCmが表示されるようにしてよい。ここで、第2電子機器100は、対話者候補として検出された人物を全員、一旦対話者として設定してもよい。この場合、第2電子機器100は、その後、ユーザの入力によって対話者として不要な人物を対話者から除外させてもよい。
The second
第2電子機器100は、図9に示すコンテキストメニューCmにおいて、ユーザによる入力に基づいて「追加」が選択されることにより、対話者候補Mbを対話者として選出してよい。一方、第2電子機器100は、図9に示すコンテキストメニューCmにおいて、ユーザによる入力に基づいて「除外」が選択されることにより、対話者又は対話者候補から人物Mbが除外されるようにしてもよい。また、第2電子機器100は、図9に示すコンテキストメニューCmにおいて、ユーザによる入力に基づいて「保留」が選択されることにより、人物Mbが対話者として選出されることを保留するようにしてもよい。
The second
図9においては、第2電子機器100の入力部190に対するユーザによる入力(例えばマウス操作及び/又はクリックなど)を検出することにより、対話者が選出される例を示した。ここで、対話者候補から対話者が選出される態様は、各種想定することができる。例えば、第2電子機器100は、撮像部140(及び/又は視線情報取得部192)によってユーザが所定時間(例えば3秒など)注視していると判定される対話者候補を、対話者として自動的に選出してもよい。また、第2電子機器100は、ある人物に対するユーザの所定時間の注視及び/又は入力部190に対する入力に加えて、さらに所定のコマンドの検出に基づいて、対話者候補を対話者として選出してもよい。ここで、所定のコマンドとは、例えば、音声入力部150に対するユーザの「追加」という発声などとしてもよい。例えば、第2電子機器100は、音声入力部150に対してユーザが入力する人物の名前によって特定される対話者候補を対話者として選出してもよい。また、第2電子機器100は、例えば対話者候補の1人を表示部170において強調表示するなど、他の対話者候補とは異なる表示態様で表示して、音声出力部160から「この人物を発話者に追加しますか?」などとユーザに問いかけてもよい。この場合、第2電子機器100は、音声入力部160によってユーザの「はい」又は「追加」などの発声を検出することにより、当該人物を対話者として選出してもよい。
9 shows an example in which an interlocutor is selected by detecting an input (e.g., a mouse operation and/or a click) by a user to the
同様に、対話者又は対話者候補から人物が除外される態様も、各種想定することができる。例えば、第2電子機器100は、ある人物に対するユーザの所定時間の注視及び/又は入力部190に対する入力に加えて、さらに所定のコマンドの検出に基づいて、当該人物を対話者又は対話者候補から除外してよい。ここで、所定のコマンドとは、例えば、音声入力部150に対するユーザの「除外」又は「削除」という発声などとしてもよい。また、第2電子機器100は、例えば対話者候補の1人を表示部170において強調表示するなど、他の対話者候補とは異なる表示態様で表示して、音声出力部160から「この人物を発話者から除外しますか?」などとユーザに問いかけてもよい。この場合、第2電子機器100は、音声入力部160によってユーザの「はい」又は「除外」などの発声を検出することにより、当該人物を対話者又は対話者候補から除外してよい。さらに、例えば、ある人物に対するユーザの注視がほとんどない場合、及び/又は、音声入力部160に対する音声入力がほとんどない場合、例えば所定時間の経過に基づいて、当該人物を対話者又は対話者候補から除外してもよい。例えば、第2電子機器100は、第1電子機器1から所定距離以上離れた人物を、対話者又は対話者候補から除外してもよい。例えば、第2電子機器100は、所定の基準に照らして不適切な言動をとる人物(例えば暴言を吐く、等)を、対話者又は対話者候補から除外してもよい。
Similarly, various manners in which a person is excluded from interlocutors or interlocutor candidates can be assumed. For example, the second
同様に、対話者候補から選出される対話者が保留される態様も、各種想定することができる。例えば、第2電子機器100は、例えば対話者候補の1人を表示部170において強調表示するなど、他の対話者候補とは異なる表示態様で表示して、音声出力部160から「この人物を発話者に追加しますか?」などとユーザに問いかけてもよい。この場合、第2電子機器100は、音声入力部160によってユーザの「いいえ」又は「保留」などの発声を検出することにより、当該人物を対話者に追加するのを保留してよい。さらに、例えば、ある人物に対するユーザの注視がほとんどない場合、及び/又は、音声入力部160に対する音声入力がほとんどない場合、例えば所定時間の経過に基づいて、当該人物を対話者に追加するのを保留してもよい。
Similarly, various modes of putting a candidate selected from among candidate interlocutors on hold can be envisioned. For example, the second
ステップS15において対話者候補から対話者が選出されたら、第2電子機器100は、選出された対話者を示す情報を、第3電子機器300に送信する(ステップS16)。選出された対話者を示す情報を受信すると、第3電子機器300の特定部318は、選出された対話者を示す情報に基づいて、対話者候補から対話者を特定する(ステップS17)。例えば、ステップS13において対話者候補として検出された人物Ma,Mb,Mc,及びMdのうち、第2電子機器100のユーザによる入力に基づいて、人物Mc及びMdが対話者として選出されたとする。この場合、ステップS16において、第2電子機器100は、選出された対話者が人物Mc及びMdである旨を示す情報を、第3電子機器300に送信する。そして、ステップS17において、第3電子機器300は、対話者候補Ma,Mb,Mc,及びMdの中から、対話者Mc及びMdを特定する。
When an interlocutor is selected from the interlocutor candidates in step S15, the second
ステップS17において対話者が特定されると、第3電子機器300は、選出された対話者と、対話者候補のうち選出された対話者以外の人物とで、異なる処理を実行することができる。「対話者候補のうち選出された対話者以外の人物」とは、対話者に選出されない対話者候補としてよい。すなわち、第3電子機器300は、選出された対話者のみに特定の処理を実行することができる。したがって、以後、第3電子機器300は、選出された対話者に対して、選出された対話者との対話に関する所定の処理を行う(ステップS18)。ステップS18において行う動作を、「対話者に対して行う所定の処理」又は「対話者に対する所定の処理」とも記す。ステップS18以後、第3電子機器300は、第1電子機器1及び/又は第2電子機器200が、選出された対話者と、対話者候補のうち選出された対話者以外の人物とで、異なる処理を実行するように制御を行うことができる。そこで、第3電子機器300は、選出された対話者に対する所定の処理に基づいて、第2電子機器100を制御してよい(ステップS19)。また、第3電子機器300は、選出された対話者に対する所定の処理に基づいて、第1電子機器1を制御してもよい(ステップS20)。このように、制御部310は、少なくとも1人の対話者候補から第2電子機器100によって選出された少なくとも1人の対話者との対話に対して所定の処理を実行するように、第1電子機器1及び第2電子機器200の少なくとも一方を制御してよい。また、制御部310は、対話者に選出されない対話者候補に対しては所定の処理を実行しないように、第1電子機器1及び第2電子機器200の少なくとも一方を制御してよい。
When the interlocutor is specified in step S17, the third
このようにして、第1電子機器1の制御部10は、少なくとも1人の対話者候補から選出された少なくとも1人の対話者との対話に関する所定の処理を実行する。この場合、制御部10は、少なくとも1人の対話者として、他の電子機器(第2電子機器100)によって選出された対話者との対話に関する所定の処理を実行してもよい。また、第2電子機器100の制御部110は、少なくとも1人の対話者との対話に関する所定の処理を実行する。
In this way, the
上述のステップS18乃至ステップS20において実行される所定の処理は、各種想定することができる。例えば、上述のように、対話者候補Ma,Mb,Mc,及びMdの中から、対話者Mc及びMdが選出された場合を想定する。この場合、第3電子機器300は、第2電子機器100を制御して、対話者Mc及びMdが、他の対話者候補とは異なる表示態様で表示部170に表示されるように制御してよい。例えば図10に示すように、第2電子機器100は、対話者Mc及びMdに他と異なるオブジェクトOb1などを付すことにより、対話者候補Ma,Mb,Mc,及びMdの中から人物Mc及びMdが対話者として選出されていることを示してもよい。また、この場合、例えば対話者Mc及びMdを表示部170において強調表示するなど、他の対話者候補Ma,Mbなどとは異なる表示態様で対話者Mc及びMdを表示してもよい。これにより、第2電子機器100のユーザは、表示部170を見ることにより、人物Mc及びMdが対話者として選出されていることを把握できる。
Various predetermined processes can be assumed for the process performed in steps S18 to S20 described above. For example, assume that interlocutors Mc and Md are selected from interlocutor candidates Ma, Mb, Mc, and Md as described above. In this case, the third
また、例えば、第2電子機器100は、所定の処理として、対話者候補Ma,Mb,Mc,及びMdの中から人物Mc及びMdが対話者として選出されている場合に、対話者Mc及びMdを拡大して表示部170に表示してもよい。この場合、第2電子機器100は、例えば対話者Mc及びMdの画像のみをくりぬいて表示部170に表示してもよい。さらに、第2電子機器100は、例えば表示部170とは別に設置されたサブディスプレイなどに、対話者Mc及びMdのみが表示されるようにしてもよい。また、例えば、第2電子機器100は、対話者候補Ma,Mb,Mc,及びMdの中から人物Mc及びMdが対話者として選出されている場合に、人物Mc及びMd以外の対話者候補をぼかして表示部170に表示してもよい。また、第2電子機器100は、対話者候補Ma,Mb,Mc,及びMdの中から人物Mc及びMdが対話者として選出されている場合に、人物Mc及びMd以外の対話者候補を表示部170の表示から除去してもよい。このように、第2電子機器100は、少なくとも1人の対話者候補に関する情報を表示する表示部170を備えてよい。また、第2電子機器100の制御部110は、対話者との対話に関する所定の処理として、対話者に関する情報を、対話者候補のうち対話者以外の人物に関する情報とは異なる態様で表示する処理を実行してもよい。
Furthermore, for example, when persons Mc and Md are selected as interlocutors from among interlocutor candidates Ma, Mb, Mc, and Md, the second
また、例えば、第2電子機器100は、所定の処理として、対話者候補Ma,Mb,Mc,及びMdの中から人物Mc及びMdが対話者として選出されている場合に、対話者Mc又はMdの発話に基づいて、当該人物が発話している旨を表示部170に表示してよい。この場合、第2電子機器100は、対話者Mc又はMd以外の人物が発話したときには、それらの人物が発話している旨を表示部170に表示しないようにしてもよい。
Furthermore, for example, when persons Mc and Md are selected as interlocutors from among interlocutor candidates Ma, Mb, Mc, and Md as interlocutors as a predetermined process, the second
また、例えば、第2電子機器100は、所定の処理として、対話者候補Ma,Mb,Mc,及びMdの中から人物Mc及びMdが対話者として選出されている場合に、対話者Mc及びMdが選出されている旨の音声を、音声出力部160から出力してもよい。このように、第2電子機器100は、少なくとも1人の対話者候補に関する情報を音声で出力する音声出力部160を備えてもよい。第2電子機器100の制御部110は、対話者との対話に関する所定の処理として、対話者に関する情報を、対話者候補のうち対話者以外の人物に関する情報とは異なる音声で出力する処理を実行してもよい。
Furthermore, for example, as a predetermined process, the second
また、例えば、対話者候補Ma,Mb,Mc,及びMdの中から人物Mc及びMdが対話者として選出されている場合に、第3電子機器300は、第1電子機器1を制御してもよい。例えば、第1電子機器1が人形又はロボットの顔の形状を有する構造を備える場合、第1電子機器1は、所定の処理として、人形又はロボットが人物Mc又はMdに対して所定の動作を行うようにしてもよい。具体的には、第1電子機器1は、人物Mgが人物Mc又はMdに対して発話をしている時又は視線を向けている場合に、駆動部80を駆動して、第1電子機器1が対話者Mc及びMdの方を向くように顔を動かす、又は視線を向けるようにしてもよい。この場合、第1電子機器1は、人物Mgが人物Mc又はMd以外の人物に対して発話したり、視線向けたりしても、第1電子機器1が対話者Mc又はMdの方を向いたり、視線を向けたりしないようにしてよい。このように、第3電子機器300の制御部310は、対話者との対話に関する所定の処理として、対話者に、対話者候補のうち対話者以外の人物とは異なる動作を行うように、他の電子機器(第1電子機器1)を制御する処理を実行してもよい。また、第3電子機器300の制御部310は、対話者との対話に関する所定の処理として、対話者に、対話者候補のうち対話者以外の人物とは異なる動作を行うように、他の電子機器(第2電子機器100)を制御する処理を実行してもよい。
Also, for example, when the persons Mc and Md are selected as interlocutors from among the interlocutor candidates Ma, Mb, Mc, and Md, the third
図6に示した動作は、適宜のタイミングで、開始から繰り返して実行してよい。また、例えば、図10に示すような状況において、対話者Mgが対話者Mc及びMdと対話していたとする。そこで、例えば、図10に示す人物Me及び/又はMfが、第1電子機器1に近づいてきたとする。このような状況において、図6に示した動作が開始したとする。この場合、例えばステップS13において、人物Me及び/又はMfが第1電子機器1から所定の距離内に存在すれば、対話者候補として検出される。この場合、第3電子機器300は、ステップS14において、新たな対話者候補Me及び/又はMfに関する情報を第2電子機器100に送信する。したがって、ステップS15において、第2電子機器100のユーザは、新たな対話者候補Me及び/又はMfを対話者として選出するか否か選択することができる。この場合、第2電子機器100は、新たな対話者候補Me及び/又はMfの存在を第2電子機器100のユーザに知らせてもよい。例えば、第2電子機器100は、新たな対話者候補Me及び/又はMfの存在を通知するために、所定の音声又は音などを音声出力部160から出力してもよい。また、第2電子機器100は、新たな対話者候補Me及び/又はMfの存在を通知するために、表示部170において強調表示又はポップアップの表示などをしてもよい。
The operation shown in FIG. 6 may be repeatedly executed from the start at an appropriate timing. Also, for example, in a situation as shown in FIG. 10, it is assumed that interlocutor Mg is conversing with interlocutors Mc and Md. Then, for example, it is assumed that person Me and/or Mf shown in FIG. 10 approaches the first electronic device 1. In such a situation, it is assumed that the operation shown in FIG. 6 is started. In this case, for example, in step S13, if person Me and/or Mf exists within a predetermined distance from the first electronic device 1, they are detected as interlocutor candidates. In this case, in step S14, the third
一実施形態に係るシステムによれば、リモートで使用される電子機器と、ローカルで使用される電子機器との間のコミュニケーションにおいて、ユーザがコミュニケーションを取りたいと意図する対話者を取捨選択することができる。一般的に、人間は、文化的背景などに基づいて、ほとんど無意識ターンテイキングを行っている。また、一般的に、人間は、ターンテイキングを共有する一人又は複数の対話者を相互的に認識することにより、対話者とのターンテイキングに意識のリソースを集中することができる。しかしながら、人的な要素が介在しない場合、検出した人物が対話者か否かを区別することが困難である。このため、人間であれば対話者とは認識しない人物に対しても、発話者と判断することにより、物理的及び/又は処理的なリソースを割いてしまうことも想定される。その結果、対話者でない人物に対して認識した処理の結果をユーザに提示してしまうことにより、ユーザと対話者とのターンテイキングに支障をきたすおそれがある。しかしながら、上述した一実施形態に係るシステムによれば、システムが提示する対話者候補からユーザが対話者を選択することで、ユーザが対話者として認識する人物のみに、物理的及び/又は処理的なリソースを集中させることができる。したがって、一実施形態に係るシステムによれば、コミュニケーションを円滑に行うことができる。 According to the system of one embodiment, in communication between an electronic device used remotely and an electronic device used locally, a user can select an interlocutor with whom he or she intends to communicate. Generally, humans perform turn-taking almost unconsciously based on cultural background, etc. In addition, generally, humans can focus conscious resources on turn-taking with an interlocutor by mutually recognizing one or more interlocutors with whom they share turn-taking. However, if there is no human element involved, it is difficult to distinguish whether a detected person is an interlocutor or not. For this reason, it is expected that physical and/or processing resources will be allocated to a person who would not be recognized as an interlocutor by a human being by determining that the person is a speaker. As a result, there is a risk that turn-taking between the user and the interlocutor will be hindered by presenting the user with the results of processing that recognizes a person who is not an interlocutor. However, according to the system of one embodiment described above, a user can select an interlocutor from interlocutor candidates presented by the system, and physical and/or processing resources can be concentrated only on the person the user recognizes as an interlocutor. Therefore, according to the system of one embodiment, communication can be performed smoothly.
本開示に係る実施形態について、諸図面及び実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形又は修正を行うことが容易であることに注意されたい。従って、これらの変形又は修正は本開示の範囲に含まれることに留意されたい。例えば、各構成部又は各ステップなどに含まれる機能などは論理的に矛盾しないように再配置可能であり、複数の構成部又はステップなどを1つに組み合わせたり、或いは分割したりすることが可能である。本開示に係る実施形態について装置を中心に説明してきたが、本開示に係る実施形態は装置の各構成部が実行するステップを含む方法としても実現し得るものである。本開示に係る実施形態は装置が備えるプロセッサなどにより実行される方法、プログラム、又はプログラムを記録した記憶媒体若しくは記録媒体としても実現し得るものである。本開示の範囲にはこれらも包含されるものと理解されたい。 Although the embodiments of the present disclosure have been described based on the drawings and examples, it should be noted that those skilled in the art would easily be able to make various modifications or corrections based on the present disclosure. Therefore, it should be noted that these modifications or corrections are included in the scope of the present disclosure. For example, the functions included in each component or step can be rearranged so as not to cause logical inconsistencies, and multiple components or steps can be combined into one or divided. Although the embodiments of the present disclosure have been described mainly with respect to the device, the embodiments of the present disclosure can also be realized as a method including steps executed by each component of the device. The embodiments of the present disclosure can also be realized as a method, a program executed by a processor or the like included in the device, or a storage medium or storage medium on which a program is recorded. It should be understood that these are also included in the scope of the present disclosure.
上述した実施形態は、システムとしての実施のみに限定されるものではない。例えば、上述した実施形態は、システムの制御方法として実施してもよいし、システムにおいて実行されるプログラムとして実施してもよい。また、例えば、上述した実施形態は、第1電子機器1、第2電子機器100、及び第3電子機器300の少なくともいずれかのような機器として実施してもよい。また、上述した実施形態は、第1電子機器1、第2電子機器100、及び第3電子機器300の少なくともいずれかのような機器の制御方法として実施してもよい。さらに、上述した実施形態は、第1電子機器1、第2電子機器100、及び第3電子機器300の少なくともいずれかのような機器によって実行されるプログラム、又はプログラムを記録した記憶媒体若しくは記録媒体としてとして実施してもよい。
The above-described embodiments are not limited to implementation as a system. For example, the above-described embodiments may be implemented as a control method for a system, or as a program executed in a system. For example, the above-described embodiments may be implemented as at least one of the first electronic device 1, the second
図6に示した動作のステップS14の後、第2電子機器100は、対話者候補から対話者を選出した(ステップS15)。また、対話者候補から対話者を選出する際に、第2電子機器100は、ユーザに対し、対話者の「追加」「除外」及び「保留」から選択を促す例について説明した。一方、図11に示すように、ステップS14の後、第2電子機器100は、対話者候補から「非対話者」を選出し(ステップS21)、当該「非対話者」を示す情報を、第3電子機器300に送信してもよい(ステップS22)。この場合、ステップS23において、第3電子機器300は、対話者候補から、「非対話者」を特定してもよい。その後、対話者との対話に関する所定の処理を、「非対話者」に対しては実行せずに、対話者に対して実行してもよい。
After step S14 of the operation shown in FIG. 6, the second
上述した実施形態においては、第1電子機器1と第2電子機器100との間のやり取りを、第3電子機器300が中継する構成について説明した。しかしながら、第3電子機器300が実行する機能の一部又は全部を、第1電子機器1及び第2電子機器100の少なくとも一方が実行してもよい。例えば、第1電子機器1の検出部14は、少なくとも1人の対話者候補に関する情報に基づいて、少なくとも1人の対話者候補を検出してもよい。また、第1電子機器1の制御部10は、検出部14によって検出された少なくとも1人の対話者候補に関する情報を、他の電子機器(例えば第2電子機器100)に送信してもよい。また、第1電子機器1の特定部18は、検出部14によって検出された少なくとも1人の対話者候補から、少なくとも1人の対話者として他の電子機器(例えば第2電子機器100)によって選出された対話者を特定してもよい。第1電子機器1の制御部10は、少なくとも1人の対話者として特定部18によって特定された対話者に関する情報を、他の電子機器(例えば第2電子機器100)に送信してもよい。第1電子機器1の制御部10は、少なくとも1人の対話者として特定部18によって特定された対話者との対話に関する所定の処理を実行してもよい。また、第1電子機器1の検出部14は、視線情報取得部92によって取得される少なくとも1人の対話者候補の視線に関する情報に基づいて、少なくとも1人の対話者候補を検出してもよい。
In the above-described embodiment, the third
また、第2電子機器100の選出部116は、少なくとも1人の対話者候補から少なくとも1人の非対話者をユーザによる入力に基づいて選出してもよい。この場合、第2電子機器100の制御部110は、少なくとも1人の非対話者に対して所定の処理を実行しないようにしてもよい。また、第2電子機器100は、第2電子機器100のユーザの視線に関する情報を取得する視線情報取得部192を備えてもよい。この場合、第2電子機器100の選出部116は、少なくとも1人の対話者を、ユーザの視線に関する情報に基づいて選出してもよい。
The
上述した実施形態に係る第1電子機器1は、第2電子機器100のユーザによって操作されるものとして説明した。例えば、上述した実施形態に係るシステムは、第2電子機器100のユーザによって、対話者候補から対話者が選出される態様を説明した。しかしながら、第1電子機器1は、第2電子機器100のユーザによる一部又は全部の操作を介さずに、少なくとも部分的に自立的な動作を実行してもよい。例えば、一実施形態において、第1電子機器1(又は第3電子機器300)が自律的に(例えば所定のアルゴリズムに従って)対話者候補から対話者を選出してもよい。
The first electronic device 1 according to the above-described embodiment has been described as being operated by the user of the second
1 第1電子機器
10 制御部
12 取得部
14 検出部
16 選出部
18 特定部
20 記憶部
30 通信部
40 撮像部
50 音声入力部
60 音声出力部
70 表示部
80 駆動部
90 入力部
92 視線情報取得部
100 第2電子機器
110 制御部
112 取得部
114 検出部
116 選出部
118 特定部
120 記憶部
130 通信部
140 撮像部
150 音声入力部
160 音声出力部
170 表示部
190 入力部
192 視線情報取得部
300 第3電子機器
310 制御部
312 取得部
314 検出部
316 選出部
318 特定部
320 記憶部
330 通信部
N ネットワーク
1 First
Claims (14)
前記少なくとも1人の対話者候補に関する情報に基づいて、前記少なくとも1人の対話者候補を検出する検出部と、
前記少なくとも1人の対話者候補から選出された少なくとも1人の対話者に対して所定の処理を実行し、前記対話者に選出されない前記対話者候補に対しては前記所定の処理を実行しない制御部と、
を備える、電子機器。 An acquisition unit that acquires information regarding at least one interlocutor candidate;
a detection unit that detects the at least one candidate interlocutor based on information about the at least one candidate interlocutor;
a control unit that executes a predetermined process for at least one interlocutor selected from the at least one interlocutor candidate, and does not execute the predetermined process for the interlocutor candidate who is not selected as the interlocutor;
An electronic device comprising:
前記検出部は、前記視線情報取得部によって取得される前記少なくとも1人の対話者候補の視線に関する情報に基づいて、前記少なくとも1人の対話者候補を検出する、請求項1に記載の電子機器。 a gaze information acquisition unit for acquiring information regarding the gaze of the at least one interlocutor candidate,
The electronic device according to claim 1 , wherein the detection unit detects the at least one interlocutor candidate based on information regarding a line of sight of the at least one interlocutor candidate acquired by the line of sight information acquisition unit.
前記制御部は、前記所定の処理として、前記対話者に対して前記構造の顔又は視線を向け、前記対話者に選出されない前記対話者候補に対しては前記構造の顔又は視線を向けない動作を実行する、
請求項1に記載の電子機器。 A structure having a shape of a face of a doll or a robot,
The control unit performs, as the predetermined processing, an operation of directing a face or a line of sight of the structure to the interlocutor and not directing a face or a line of sight of the structure to the interlocutor candidate who is not selected as the interlocutor.
2. The electronic device according to claim 1.
前記少なくとも1人の対話者候補から少なくとも1人の対話者を選出する選出部と、
前記少なくとも1人の対話者に対して所定の処理を実行し、前記対話者に選出されない前記対話者候補に対しては前記所定の処理を実行しない制御部と、
を備える、電子機器。 An acquisition unit that acquires information regarding at least one interlocutor candidate;
A selection unit that selects at least one interlocutor from the at least one interlocutor candidate;
a control unit that executes a predetermined process for the at least one interlocutor and does not execute the predetermined process for the interlocutor candidates who are not selected as the interlocutor;
An electronic device comprising:
前記制御部は、前記少なくとも1人の非対話者に対して前記所定の処理を実行しない、請求項6に記載の電子機器。 The selection unit selects at least one non-interlocutor from the at least one interlocutor candidate based on an input by a user;
The electronic device according to claim 6 , wherein the control unit does not execute the predetermined process for the at least one non-interacting party.
前記選出部は、前記少なくとも1人の対話者を、前記ユーザの視線に関する情報に基づいて選出する、請求項6に記載の電子機器。 a line-of-sight information acquisition unit that acquires information about a line of sight of a user of the electronic device,
The electronic device according to claim 6 , wherein the selection unit selects the at least one interlocutor based on information regarding a line of sight of the user.
前記制御部は、前記所定の処理として、前記少なくとも1人の対話者に関する情報を、前記対話者に選出されない前記対話者候補に関する情報とは異なる態様で表示する処理を実行する、請求項6に記載の電子機器。 a display unit for displaying information about the at least one interlocutor candidate;
The electronic device according to claim 6 , wherein the control unit executes, as the predetermined processing, a process of displaying information about the at least one interlocutor in a manner different from information about the interlocutor candidates who are not selected as the interlocutor.
前記制御部は、前記所定の処理として、前記少なくとも1人の対話者に関する情報を、前記対話者に選出されない前記対話者候補に関する情報とは異なる音声で出力する処理を実行する、請求項6に記載の電子機器。 a voice output unit that outputs information about the at least one interlocutor candidate by voice;
The electronic device according to claim 6 , wherein the control unit executes, as the predetermined processing, a process of outputting information about the at least one interlocutor in a voice different from information about the interlocutor candidates not selected as the interlocutor.
前記少なくとも1人の対話者候補に関する情報に基づいて、前記少なくとも1人の対話者候補を検出する検出部と、
前記少なくとも1人の対話者候補から第2電子機器によって選出された少なくとも1人の対話者に対して所定の処理を実行し、前記対話者に選出されない前記対話者候補に対しては前記所定の処理を実行しないように、前記第1電子機器及び前記第2電子機器の少なくとも一方を制御する制御部と、
を備える、電子機器。 an acquisition unit that acquires information about at least one interlocutor candidate from the first electronic device;
a detection unit that detects the at least one candidate interlocutor based on information about the at least one candidate interlocutor;
a control unit that controls at least one of the first electronic device and the second electronic device so as to execute a predetermined process for at least one interlocutor selected by the second electronic device from the at least one interlocutor candidate, and not to execute the predetermined process for the interlocutor candidate not selected as the interlocutor;
An electronic device comprising:
少なくとも1人の対話者候補に関する情報を取得するステップと、
前記少なくとも1人の対話者候補に関する情報に基づいて、前記少なくとも1人の対話者候補を検出するステップと、
前記少なくとも1人の対話者候補から選出された少なくとも1人の対話者に対して所定の処理を実行し、前記対話者に選出されない前記対話者候補に対しては前記所定の処理を実行しないステップと、
を実行させる、プログラム。
On the computer,
obtaining information about at least one potential interlocutor;
detecting the at least one candidate interlocutor based on information about the at least one candidate interlocutor;
executing a predetermined process for at least one interlocutor selected from the at least one interlocutor candidate, and not executing the predetermined process for the interlocutor candidate who is not selected as the interlocutor;
A program to execute.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023-004631 | 2023-01-16 | ||
JP2023004631 | 2023-01-16 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2024154626A1 true WO2024154626A1 (en) | 2024-07-25 |
Family
ID=91955991
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2024/000328 WO2024154626A1 (en) | 2023-01-16 | 2024-01-10 | Electronic apparatus and program |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2024154626A1 (en) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050110867A1 (en) * | 2003-11-26 | 2005-05-26 | Karsten Schulz | Video conferencing system with physical cues |
JP2010128281A (en) * | 2008-11-28 | 2010-06-10 | Waseda Univ | Interaction activating system and interaction activating robot |
JP2015220534A (en) * | 2014-05-15 | 2015-12-07 | 株式会社リコー | Communication assistance device, communication assistance system, communication assistance method and program |
JP2018050161A (en) * | 2016-09-21 | 2018-03-29 | 公立大学法人首都大学東京 | Communication system |
JP2018092528A (en) * | 2016-12-07 | 2018-06-14 | 国立大学法人電気通信大学 | Chat system, management device, terminal device, destination selection support method, and destination selection support program |
JP2018174425A (en) * | 2017-03-31 | 2018-11-08 | 国立大学法人大阪大学 | Conference system and control program |
-
2024
- 2024-01-10 WO PCT/JP2024/000328 patent/WO2024154626A1/en unknown
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050110867A1 (en) * | 2003-11-26 | 2005-05-26 | Karsten Schulz | Video conferencing system with physical cues |
JP2010128281A (en) * | 2008-11-28 | 2010-06-10 | Waseda Univ | Interaction activating system and interaction activating robot |
JP2015220534A (en) * | 2014-05-15 | 2015-12-07 | 株式会社リコー | Communication assistance device, communication assistance system, communication assistance method and program |
JP2018050161A (en) * | 2016-09-21 | 2018-03-29 | 公立大学法人首都大学東京 | Communication system |
JP2018092528A (en) * | 2016-12-07 | 2018-06-14 | 国立大学法人電気通信大学 | Chat system, management device, terminal device, destination selection support method, and destination selection support program |
JP2018174425A (en) * | 2017-03-31 | 2018-11-08 | 国立大学法人大阪大学 | Conference system and control program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11948241B2 (en) | Robot and method for operating same | |
US9253303B2 (en) | Signal processing apparatus and storage medium | |
EP2842055B1 (en) | Instant translation system | |
US20200090393A1 (en) | Robot and method for operating the same | |
US20220224735A1 (en) | Information processing apparatus, non-transitory computer readable medium storing program, and method | |
US20170272784A1 (en) | Live video broadcasting method and device | |
US9277178B2 (en) | Information processing system and storage medium | |
CN115482830B (en) | Speech enhancement method and related equipment | |
US20200039078A1 (en) | Virtual creature control system and virtual creature control method | |
WO2020026850A1 (en) | Information processing device, information processing method, and program | |
JP2019220848A (en) | Data processing apparatus, data processing method and program | |
WO2021244056A1 (en) | Data processing method and apparatus, and readable medium | |
WO2022253003A1 (en) | Speech enhancement method and related device | |
CN119731730A (en) | Head portrait representation and audio generation | |
JPWO2019155735A1 (en) | Information processing equipment, information processing methods and programs | |
JP7286303B2 (en) | Conference support system and conference robot | |
JP6786700B2 (en) | Information processing equipment, information processing methods and information processing systems | |
CN112700783A (en) | Communication sound changing method, terminal equipment and storage medium | |
WO2024154626A1 (en) | Electronic apparatus and program | |
WO2024075707A1 (en) | System, electronic device, method for controlling system, and program | |
JP7208361B2 (en) | Communication robot and its control method, information processing server and information processing method | |
JP2018066780A (en) | Voice suppression system and voice suppression device | |
WO2024070550A1 (en) | System, electronic device, system control method, and program | |
WO2023286680A1 (en) | Electronic device, program, and system | |
WO2023286678A1 (en) | Electronic device, program, and system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 24744549 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |