WO2019093105A1 - クライアント装置、サーバ、プログラム - Google Patents
クライアント装置、サーバ、プログラム Download PDFInfo
- Publication number
- WO2019093105A1 WO2019093105A1 PCT/JP2018/039170 JP2018039170W WO2019093105A1 WO 2019093105 A1 WO2019093105 A1 WO 2019093105A1 JP 2018039170 W JP2018039170 W JP 2018039170W WO 2019093105 A1 WO2019093105 A1 WO 2019093105A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- client device
- image
- server
- image data
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61F—FILTERS IMPLANTABLE INTO BLOOD VESSELS; PROSTHESES; DEVICES PROVIDING PATENCY TO, OR PREVENTING COLLAPSING OF, TUBULAR STRUCTURES OF THE BODY, e.g. STENTS; ORTHOPAEDIC, NURSING OR CONTRACEPTIVE DEVICES; FOMENTATION; TREATMENT OR PROTECTION OF EYES OR EARS; BANDAGES, DRESSINGS OR ABSORBENT PADS; FIRST-AID KITS
- A61F9/00—Methods or devices for treatment of the eyes; Devices for putting in contact-lenses; Devices to correct squinting; Apparatus to guide the blind; Protective devices for the eyes, carried on the body or in the hand
- A61F9/08—Devices or methods enabling eye-patients to replace direct visual perception by another kind of perception
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B21/00—Teaching, or communicating with, the blind, deaf or mute
Definitions
- the present invention relates to a client device, a server, and a program.
- voice guidance is known as a method for assisting visually impaired persons.
- voice guidance is known as a method for assisting visually impaired persons.
- Japanese Patent Laid-Open No. 2004-016578 by measuring the distance between a transmitter installed at a destination and a receiver carried by a person with visual impairment, the distance from the current location to the target is voiced. The technique to notify by is disclosed.
- An object of the present invention is to eliminate the restriction on the range in which a visually impaired person can receive voice guidance.
- a client device connected to a server capable of generating audio output data regarding an object included in an image
- the client device comprising: Means for obtaining image data of an image comprising at least one attachment worn on the user's finger and at least one object; Means for transmitting the image data to the server; Means for receiving audio output data from the server for outputting audio related to an object contained in the image; Means for outputting a voice based on the voice output data; It is a client device.
- the restriction on the range in which the visually impaired person can receive voice guidance can be eliminated.
- FIG. 1 is a schematic view of an information processing system of the present embodiment.
- FIG. 2 is a block diagram showing the configuration of the information processing system of FIG.
- the information processing system 1 includes a client device 10, a server 30, and a camera unit 50.
- the client device 10 and the server 30 are connected via a network (for example, the Internet or an intranet) NW.
- the client device 10 and the camera unit 50 are connected via wireless communication.
- the client device 10 is an example of an information processing device that transmits a request to the server 30.
- the client device 10 is, for example, a smartphone, a tablet terminal, or a personal computer.
- the server 30 is an example of an information processing apparatus that provides the client apparatus 10 with a response to the request sent from the client apparatus 10.
- the server 30 is, for example, a web server.
- the camera unit 50 is configured to capture an image and to generate image data of the captured image.
- a user accesses the server 30 by wearing a nail cap NC (an example of a “wearing object”) on his / her finger and carrying the client device 10.
- a nail cap NC an example of a “wearing object”
- the client device 10 includes a storage device 11, a processor 12, an input / output interface 13, and a communication interface 14.
- the storage device 11 is configured to store programs and data.
- the storage device 11 is, for example, a combination of a read only memory (ROM), a random access memory (RAM), and a storage (for example, a flash memory or a hard disk).
- ROM read only memory
- RAM random access memory
- storage for example, a flash memory or a hard disk
- the programs include, for example, the following programs.
- Program of OS Operating System
- Program of application for example, web browser
- the data includes, for example, the following data.
- ⁇ Database referenced in information processing ⁇ Data obtained by executing information processing (that is, execution result of information processing)
- the processor 12 is configured to realize the function of the client device 10 by activating a program stored in the storage device 11.
- the processor 12 is an example of a computer.
- the input / output interface 13 is configured to obtain a user's instruction from an input device connected to the client device 10 and to output information to an output device connected to the client device 10.
- the input device is, for example, a keyboard, a pointing device, a touch panel, a microphone, or a combination thereof.
- the output device is, for example, a display, a speaker, or a combination thereof.
- Communication interface 14 is configured to control communication between client device 10 and server 30.
- the server 30 includes a storage device 31, a processor 32, an input / output interface 33, and a communication interface 34.
- the storage device 31 is configured to store programs and data.
- the storage device 31 is, for example, a combination of a ROM, a RAM, and a storage (for example, a flash memory or a hard disk).
- the programs include, for example, the following programs.
- the data includes, for example, the following data. ⁇ Database referenced in information processing ⁇ Execution result of information processing
- the processor 32 is configured to realize the function of the server 30 by activating a program stored in the storage device 31.
- the processor 32 is an example of a computer.
- the input / output interface 33 is configured to obtain a user's instruction from an input device connected to the server 30, and to output information to an output device connected to the server 30.
- the input device is, for example, a keyboard, a pointing device, a touch panel, or a combination thereof.
- the output device is, for example, a display.
- Communication interface 34 is configured to control communication between server 30 and client device 10.
- FIG. 3 is a diagram showing the configuration of the camera unit 50 of FIG.
- FIG. 3A is a front view of the camera unit 50.
- FIG. 3B is a top view of the camera unit 50.
- FIG. 3C is a side view of the camera unit 50.
- the camera unit 50 includes a lens 50a, a speaker 50b, a clip 50c, an image sensor 50d, and a camera controller 50e.
- the lens 50a is disposed on the front surface (surface on the Z ⁇ side) of the camera unit 50.
- the speaker 50b is disposed on the upper surface (Y + side) of the camera unit 50.
- the clip 50 c is disposed on the back surface (surface on the Z + side) of the camera unit 50. That is, the clip 50c is disposed on the surface opposite to the lens 50a.
- the user can mount the camera unit 50 such that the lens 50a faces the front (that is, the direction of the line of sight) of the user by hooking the clip 50c on his / her clothes.
- the image sensor 50d is disposed inside the camera unit 50.
- the light passing through the lens 50a forms an image on the image sensor 50d.
- the image sensor 50d is configured to generate image data based on the light passing through the lens 50a by converting the imaged light into an electrical signal.
- the camera controller 50 e is disposed inside the camera unit 50.
- the camera controller 50 e is a processor that controls the entire camera unit 50.
- FIG. 4 is a view showing the configuration of the nail cap of FIG.
- the nail cap NC includes five right-hand nail caps NCR and five left-hand nail caps (that is, ten nail caps) NCL.
- the ten nail caps NCL and NCR are formed with different patterns (for example, texts “L1” to “L5” and “R1” to “R5”). The pattern formed on the nail cap NC distinguishes each nail cap NC.
- each nail cap NC can be worn on the user's finger.
- FIG. 5 is an explanatory view of the outline of the present embodiment.
- the client device 10 when the nail cap NC attached to the nail of the user (for example, a visually impaired person) enters the imaging range, the client device 10 performs an object OBJ1 (apple) and an object OBJ2 around the nail cap NC. Acquire image data of the image IMG including (banana). The client device 10 transmits the acquired image data to the server 30.
- object OBJ1 apple
- object OBJ2 around the nail cap NC.
- Acquire image data of the image IMG including (banana).
- the client device 10 transmits the acquired image data to the server 30.
- the server 30 performs image analysis on the image data transmitted from the client device 10, thereby performing the position of the nail cap NC in the image IMG and the positions of the objects OBJ1 and OBJ2.
- the server 30 specifies the object OBJ1 closest to the nail cap NC among the objects OBJ1 to OBJ2 based on the specified position.
- the server 30 estimates an object name (that is, an apple) based on the feature amount of the specified object OBJ1 with reference to the learning data set stored in the storage device 31.
- the server 30 generates voice output data for outputting the voice of the estimated object name.
- the server 30 transmits the generated voice output data to the client device 10.
- the client device 10 outputs a voice “apple” based on the voice output data transmitted from the server 30.
- the user can know the object name "apple" of the object OBJ1 closest to his / her finger by the voice outputted by the client device 10.
- the user for example, a visually impaired person
- the finger on which the nail cap NC is attached can receive voice guidance using the finger on which the nail cap NC is attached. That is, the restriction on the range in which the visually impaired person can receive the voice guidance can be eliminated.
- FIG. 6 is a sequence diagram of the information processing of the present embodiment.
- FIG. 7 is an explanatory view of S500 of FIG.
- FIG. 8 is an explanatory view of S100 of FIG.
- FIG. 9 is an explanatory diagram of S502 of FIG.
- the camera unit 50 performs imaging (S500). Specifically, the image sensor 50d converts image formation of light passing through the lens 50a into an electrical signal, thereby generating image data corresponding to the light passing through the lens 50a (FIG. 7A). The camera controller 50 e transmits the image data generated by the image sensor 50 d to the client device 10.
- the client device 10 executes an image analysis request (S100). Specifically, the processor 12 determines whether the image IMG corresponding to the image data transmitted in step S500 includes a pattern formed on the nail cap NC. As an example, as shown in FIG. 8, when the user makes a gesture to put the thumb of the right hand within the range of the angle of view of the lens 50 a, the image data transmitted in step S500 is a nail attached to the thumb of the right hand. It contains an image of the cap NC pattern (e.g. the text "R1"). In this case, the processor 12 determines that the pattern formed on the nail cap NC is included. The processor 12 transmits image analysis request data to the server 30 when it determines that the pattern is formed on the nail cap NC.
- the image analysis request data includes the image data of the image IMG including the pattern formed on the nail cap NC.
- the server 30 executes image analysis (S300). Specifically, the processor 32 applies the feature amount analysis to the image data included in the image analysis request data, thereby the following objects (pixels of the nail cap NC, and the object OBJ1 included in the image IMG): The coordinates of the pixel of ⁇ 2 2 2 are specified. The processor 32 identifies an object OBJ1 closest to the nail cap NC among the objects OBJ1 to OBJ2 included in the image IMG based on the identified coordinates.
- the server 30 executes object estimation (S301). Specifically, the processor 32 refers to the learning data set stored in the storage device 31, and estimates an object name corresponding to the feature amount of the pixel of the object OBJ1 identified in step S300.
- the server 30 executes text data generation (S302).
- the processor 32 is text data of a sentence (e.g., "This is an apple.") Composed of the object name estimated in step S301 and predetermined words (e.g., subjects and predicates).
- the server 30 executes an image analysis response (S303). Specifically, the processor 32 transmits image analysis response data to the client device 10.
- the image analysis response data includes the text data generated in step S302.
- the client device 10 executes generation of voice data (S101). Specifically, the processor 12 converts the text data included in the image analysis response data into audio data corresponding to the text data. The processor 12 transmits the converted audio data to the camera unit 50.
- the camera unit 50 After step S101, the camera unit 50 performs audio output (S502). Specifically, the camera controller 50e reproduces the sound corresponding to the sound data transmitted in step S101. As shown in FIG. 9, the speaker 50b outputs the reproduced sound (for example, "This is an apple.”).
- the name of the object OBJ1 closest to the nail cap NC is read out.
- the user for example, a visually impaired person
- the step S100 is performed when the pattern (for example, the text "R1") formed on the nail cap NC for the thumb is recognized. It is preferable to carry out.
- a modification will be described.
- a modification is an example which performs information processing according to a user's gesture.
- FIG. 10 is a diagram showing the data structure of the gesture database of the modification.
- the modified gesture information database includes a "pattern” field, a “gesture” field, and an “action” field. Each field is associated with each other.
- the “pattern” field contains information identifying a pattern formed on the nail cap NC.
- the “gesture” field stores information (for example, a motion vector) on the displacement of the position of the nail cap NC per unit time. If the motion vector is 0, it means that the nail cap NC is stationary. If the motion vector is not zero, it means the direction and speed of movement of the nail cap NC.
- the "action” field stores information on the content of the information processing executed by the processor 12.
- the information processing includes, for example, the following. Transmission of the image transmitted from the camera unit 50 at step S500 to the server 30 Transmission of the image transmitted from the camera unit 50 at step S500 to the server 30, and transmission of a mail attached with the image Transmission of a mail attached with an image transmitted from the camera unit 50 in S500-Storage of the image transmitted from the camera unit 50 in step S500 in the storage device 11 (that is, storage of the image) ⁇ Start of specified application
- FIG. 11 is a sequence diagram of information processing of the modification.
- FIG. 12 is a diagram illustrating an example of the gesture of the modification.
- step S500 the client device 10 executes gesture identification (S110). Specifically, the processor 12 specifies the motion vector of the pattern formed on the nail cap NC included in the image IMG corresponding to the image data transmitted in step S500.
- the image data transmitted in step S500 is the forefinger of the right hand.
- an image of a pattern for example, the texts “R2” and “R3”
- the processor 12 determines that “the pattern of the nail cap NC attached to the index finger and the middle finger of the right hand is stationary”. As shown in FIG. 12A, when the user makes a gesture of holding the forefinger and middle finger of the right hand within the range of the angle of view of the lens 50a and making them stand still, the image data transmitted in step S500 is the forefinger of the right hand. And an image of a pattern (for example, the texts “R2” and “R3”) formed on the nail cap NC of the middle finger and the middle finger, and the motion vector is zero.
- the processor 12 determines that “the pattern of the nail cap NC attached to the index finger and the middle finger of the right hand is stationary”. As shown in FIG.
- the image data transmitted in step S500 is The image includes patterns (for example, the texts “R2” to “R4”) formed on the nail cap NC of the index finger, the middle finger, and the ring finger, and the motion vector is zero.
- the processor 12 determines that “the pattern of the nail cap NC attached to the index finger, middle finger, and ring finger of the right hand is stationary”. As shown in FIG.
- the image data transmitted in step S500 is It includes an image of patterns (for example, texts “R2” and “R3”) formed on the nail caps NC of the index finger and the middle finger, and a motion vector indicating that the image moves from the top to the bottom.
- the processor 12 determines that “the pattern of the nail cap NC attached to the index finger and the middle finger of the right hand is moving from top to bottom”. As shown in FIG.
- the image data transmitted in step S500 when the user makes a gesture of lifting the forefinger, middle finger, and ring finger of the right hand within the range of the angle of view of the lens 50a and moving the finger from the bottom to the top, the image data transmitted in step S500.
- An image of a pattern (for example, the text “R2” to “R4”) formed on the nail cap NC of the index finger, middle finger and ring finger of the right hand, and a motion vector indicating that the image moves from the bottom to the top And.
- the processor 12 determines that “the pattern of the nail cap NC attached to the index finger, middle finger, and ring finger of the right hand is moving upward from the bottom”.
- the client device 10 executes an action (S111). Specifically, the processor 12 refers to the gesture information database (FIG. 10) to identify the information of the “action” field associated with the motion vector identified in step S110. The processor 12 executes a process corresponding to the information of the identified "action" field.
- the processor 12 refers to the gesture information database (FIG. 10) to identify the information of the “action” field associated with the motion vector identified in step S110.
- the processor 12 executes a process corresponding to the information of the identified "action” field.
- step S110 transmission of an image and transmission of a mail are executed (FIG. 10).
- step S110 transmission of the mail is executed (FIG. 10).
- the client device 10 executes processing according to the combination of patterns recognized in S100.
- step S110 when the gesture of FIG. 12C is specified in step S110, image storage is performed (FIG. 10).
- the gesture of FIG. 12D is specified in step S110, activation of a predetermined application is performed (FIG. 10). In this manner, the client device 10 executes processing according to the combination of the pattern recognized in S100 and the movement of the nail cap NC.
- the client device 10 performs an action according to the gesture by the finger on which the nail cap NC is attached.
- the user can give a user instruction to the client device 10 with only the finger wearing the nail cap NC.
- it is particularly useful because the user can give various user instructions to the client device 10 only by the movement of the finger without looking at the display.
- the first aspect of the present embodiment is A client device 10 connected to a server 30 capable of generating audio output data related to an object included in an image,
- a means e.g., step S100 for acquiring image data of an image IMG including at least one attachment (e.g., nail cap NC) attached to a finger of a user (e.g., visually impaired person) and at least one object Processor 12) which executes the processing of And means for transmitting image data to the server 30 (for example, the processor 12 for executing the process of step S100), Means for receiving from the server 30 audio output data (for example, text data) for outputting audio related to an object included in the image IMG (for example, the processor 12 that executes the processing of step S101); A unit for outputting a voice based on the voice output data (for example, the processor 12 that executes the process of step S101); It is a client device 10.
- the client device 10 transmits, to the server 30, image data of an image including an attachment (for example, a nail cap NC) attached to a finger of a user (for example, a visually impaired person) and an object OBJ. And, the voice concerning the object OBJ is output. This makes it possible to eliminate the restriction on the range in which the visually impaired can receive voice guidance.
- an attachment for example, a nail cap NC
- a finger of a user for example, a visually impaired person
- an object OBJ for example, a visually impaired person
- the image data including the nail cap NC attached to the finger is acquired, it is possible to provide audio guidance of an image closer to the user's eyes.
- the second aspect of the present embodiment is The audio output includes the name of the object, It is a client device 10.
- the user can know the name of the object in the vicinity of the nail cap NC through the output sound.
- the third aspect of the present embodiment is A client device 10 connected to a server 30 capable of executing image analysis, comprising: A unit for acquiring image data (for example, the processor 12 that executes the process of step S100); It has a means (for example, processor 12 which performs processing of Step S100) which judges whether an image of at least one wearing thing (for example, nail cap NC) attached to a user's finger is contained in image data. , When the image of the mounted object is included in the image data, a unit for transmitting the image data to the server 30 (for example, the processor 12 for executing the process of step S100) is provided. A unit that receives an analysis result on image data from the server 30 (for example, the processor 12 that executes the process of step S101); It is a client device 10.
- a unit for acquiring image data for example, the processor 12 that executes the process of step S100
- It has a means (for example, processor 12 which performs processing of Step S100) which judges whether an image of at least one wearing thing (for example,
- the client device 10 when the client device 10 recognizes an image including a wearing object (for example, a nail cap NC) attached to a finger of a user (for example, a visually impaired person), the client device 10 serves as a server for image data of the image Send to 30 Thereby, the user can easily give a user instruction for transmitting the image data to the server 30.
- a wearing object for example, a nail cap NC
- the client device 10 serves as a server for image data of the image Send to 30
- the user can easily give a user instruction for transmitting the image data to the server 30.
- the fourth aspect of the present embodiment is The acquiring unit is the client device 10 that acquires image data from a camera (for example, the camera unit 50) connected to the client device 10 or a camera disposed in the client device 10.
- a camera for example, the camera unit 50
- the fifth aspect of the present embodiment is The acquiring means acquires image data when recognizing the attached object, It is a client device 10.
- the user can give a user instruction for generating image data simply by holding the finger wearing the nail cap NC within the range of the angle of view of the lens 50a.
- the sixth aspect of the present embodiment is The acquiring means acquires image data when the pattern formed on the wearing object is recognized. It is a client device 10.
- the seventh aspect of the present embodiment is A unit (eg, a processor 12 that executes steps S110 to S111) that executes processing according to the combination of the recognized patterns; It is a client device 10.
- a unit eg, a processor 12 that executes steps S110 to S111
- It is a client device 10.
- the user can give a user instruction to the client device 10 by the combination of the finger shown on the lens 50a.
- the eighth aspect of the present embodiment is The executing means executes processing according to a combination of the recognized pattern and the movement of the wearing object. It is a client device 10.
- the user can give a user instruction to the client device 10 by the combination of the finger shown on the lens 50a and the movement of the finger.
- the ninth aspect of the present embodiment is A server 30 connected to the client device 10, A unit for acquiring image data from the client device 10 (for example, a processor 32 that executes the process of step S300); A means for estimating the name of an object included in an image corresponding to the acquired image data (for example, a processor 32 which executes the process of step S301); A unit (for example, a processor 32 that executes the process of step S302) for generating audio output data for outputting audio including the estimated object name; A unit for transmitting the generated voice output data to the client device 10 (for example, the processor 32 that executes the process of step S303); It is a server 30.
- a unit for acquiring image data from the client device 10 for example, a processor 32 that executes the process of step S300
- a means for estimating the name of an object included in an image corresponding to the acquired image data for example, a processor 32 which executes the process of step S301
- a unit for example, a processor 32 that executes the process of step S302
- the storage device 11 may be connected to the client device 10 via the network NW.
- the storage device 31 may be connected to the server 30 via the network NW.
- Each step of the above information processing can be executed by either the client device 10 or the server 30.
- the camera unit 50 may be built in the client device 10.
- the pattern formed on each nail cap NC is not limited to characters.
- the pattern includes the following.
- the user can be motivated to wear the nail cap NC and to use the voice guidance of the present embodiment.
- Shape ⁇ Geometric pattern ⁇ Irregularity ⁇ Color variation
- Information processing system 10 Client device 11: Storage device 12: Processor 13: Input / output interface 14: Communication interface 30: Server 31: Storage device 32: Processor 33: Input / output interface 34: Communication interface 50: Camera unit 50a: Lens 50b: Speaker 50c: Clip 50d: Image sensor 50e: Camera controller
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Veterinary Medicine (AREA)
- Vascular Medicine (AREA)
- Animal Behavior & Ethology (AREA)
- Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- Public Health (AREA)
- Heart & Thoracic Surgery (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Ophthalmology & Optometry (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
Abstract
画像に含まれるオブジェクトに関する音声出力データを生成可能なサーバと接続されるクライアント装置は、ユーザの指に装着された少なくとも1つの装着物と、少なくとも1つのオブジェクトと、を含む画像の画像データを取得する手段を備え、画像データをサーバに送信する手段を備え、画像に含まれるオブジェクトに関する音声を出力するための音声出力データをサーバから受信する手段を備え、音声出力データに基づく音声を出力する手段を備える。
Description
本発明は、クライアント装置、サーバ、及び、プログラムに関する。
一般に、視覚障害者の行動を補助する方法として、音声案内が知られている。
例えば、特開2004-016578号公報には、目的地に設置された送信機と、視覚障害者が携帯した受信機との間の距離を測定することにより、現在地から目的物までの距離を音声で知らせる技術が開示されている。
例えば、特開2004-016578号公報には、目的地に設置された送信機と、視覚障害者が携帯した受信機との間の距離を測定することにより、現在地から目的物までの距離を音声で知らせる技術が開示されている。
しかし、特開2004-016578号公報では、送信機が設置されていない場所では、視覚障害者は音声案内を受けることができない。そのため、視覚障害者が音声案内を受けられる範囲が限られる。その結果、視覚障害者が安心して行動できる範囲が狭まってしまう。
本発明の目的は、視覚障害者が音声案内を受けられる範囲の制約を解消することである。
本発明の一態様は、
画像に含まれるオブジェクトに関する音声出力データを生成可能なサーバと接続されるクライアント装置であって、
ユーザの指に装着された少なくとも1つの装着物と、少なくとも1つのオブジェクトと、を含む画像の画像データを取得する手段を備え、
前記画像データを前記サーバに送信する手段を備え、
前記画像に含まれるオブジェクトに関する音声を出力するための音声出力データを前記サーバから受信する手段を備え、
前記音声出力データに基づく音声を出力する手段を備える、
クライアント装置である。
画像に含まれるオブジェクトに関する音声出力データを生成可能なサーバと接続されるクライアント装置であって、
ユーザの指に装着された少なくとも1つの装着物と、少なくとも1つのオブジェクトと、を含む画像の画像データを取得する手段を備え、
前記画像データを前記サーバに送信する手段を備え、
前記画像に含まれるオブジェクトに関する音声を出力するための音声出力データを前記サーバから受信する手段を備え、
前記音声出力データに基づく音声を出力する手段を備える、
クライアント装置である。
本発明によれば、視覚障害者が音声案内を受けられる範囲の制約を解消することができる。
以下、本発明の一実施形態について、図面に基づいて詳細に説明する。なお、実施形態を説明するための図面において、同一の構成要素には原則として同一の符号を付し、その繰り返しの説明は省略する。
(1)情報処理システムの構成
情報処理システムの構成について説明する。図1は、本実施形態の情報処理システムの概略図である。図2は、図1の情報処理システムの構成を示すブロック図である。
情報処理システムの構成について説明する。図1は、本実施形態の情報処理システムの概略図である。図2は、図1の情報処理システムの構成を示すブロック図である。
図1に示すように、情報処理システム1は、クライアント装置10と、サーバ30と、カメラユニット50と、を備える。
クライアント装置10及びサーバ30は、ネットワーク(例えば、インターネット又はイントラネット)NWを介して接続される。
クライアント装置10及びカメラユニット50は、無線通信を介して接続される。
クライアント装置10及びサーバ30は、ネットワーク(例えば、インターネット又はイントラネット)NWを介して接続される。
クライアント装置10及びカメラユニット50は、無線通信を介して接続される。
クライアント装置10は、サーバ30にリクエストを送信する情報処理装置の一例である。クライアント装置10は、例えば、スマートフォン、タブレット端末、又は、パーソナルコンピュータである。
サーバ30は、クライアント装置10から送信されたリクエストに応じたレスポンスをクライアント装置10に提供する情報処理装置の一例である。サーバ30は、例えば、ウェブサーバである。
カメラユニット50は、画像を撮像し、且つ、撮像した画像の画像データを生成するように構成される。
ユーザ(例えば、視覚障害者)は、自身の指にネイルキャップNC(「装着物」の一例)を装着し、且つ、クライアント装置10を携帯することにより、サーバ30にアクセスする。
(1-1)クライアント装置の構成
クライアント装置10の構成について説明する。
クライアント装置10の構成について説明する。
図2に示すように、クライアント装置10は、記憶装置11と、プロセッサ12と、入出力インタフェース13と、通信インタフェース14と、を備える。
記憶装置11は、プログラム及びデータを記憶するように構成される。記憶装置11は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、及び、ストレージ(例えば、フラッシュメモリ又はハードディスク)の組合せである。
プログラムは、例えば、以下のプログラムを含む。
・OS(Operating System)のプログラム
・情報処理を実行するアプリケーション(例えば、ウェブブラウザ)のプログラム
・OS(Operating System)のプログラム
・情報処理を実行するアプリケーション(例えば、ウェブブラウザ)のプログラム
データは、例えば、以下のデータを含む。
・情報処理において参照されるデータベース
・情報処理を実行することによって得られるデータ(つまり、情報処理の実行結果)
・情報処理において参照されるデータベース
・情報処理を実行することによって得られるデータ(つまり、情報処理の実行結果)
プロセッサ12は、記憶装置11に記憶されたプログラムを起動することによって、クライアント装置10の機能を実現するように構成される。プロセッサ12は、コンピュータの一例である。
入出力インタフェース13は、クライアント装置10に接続される入力デバイスからユーザの指示を取得し、かつ、クライアント装置10に接続される出力デバイスに情報を出力するように構成される。
入力デバイスは、例えば、キーボード、ポインティングデバイス、タッチパネル、マイク、又は、それらの組合せである。
出力デバイスは、例えば、ディスプレイ、スピーカ、又は、それらの組合せである。
入力デバイスは、例えば、キーボード、ポインティングデバイス、タッチパネル、マイク、又は、それらの組合せである。
出力デバイスは、例えば、ディスプレイ、スピーカ、又は、それらの組合せである。
通信インタフェース14は、クライアント装置10とサーバ30との間の通信を制御するように構成される。
(1-2)サーバの構成
サーバ30の構成について説明する。
サーバ30の構成について説明する。
図2に示すように、サーバ30は、記憶装置31と、プロセッサ32と、入出力インタフェース33と、通信インタフェース34とを備える。
記憶装置31は、プログラム及びデータを記憶するように構成される。記憶装置31は、例えば、ROM、RAM、及び、ストレージ(例えば、フラッシュメモリ又はハードディスク)の組合せである。
プログラムは、例えば、以下のプログラムを含む。
・OSのプログラム
・情報処理を実行するアプリケーションのプログラム
・画像オブジェクトの特徴量と言語(例えば、オブジェクト名)との関係に関する学習用データセット
・OSのプログラム
・情報処理を実行するアプリケーションのプログラム
・画像オブジェクトの特徴量と言語(例えば、オブジェクト名)との関係に関する学習用データセット
データは、例えば、以下のデータを含む。
・情報処理において参照されるデータベース
・情報処理の実行結果
・情報処理において参照されるデータベース
・情報処理の実行結果
プロセッサ32は、記憶装置31に記憶されたプログラムを起動することによって、サーバ30の機能を実現するように構成される。プロセッサ32は、コンピュータの一例である。
入出力インタフェース33は、サーバ30に接続される入力デバイスからユーザの指示を取得し、かつ、サーバ30に接続される出力デバイスに情報を出力するように構成される。
入力デバイスは、例えば、キーボード、ポインティングデバイス、タッチパネル、又は、それらの組合せである。
出力デバイスは、例えば、ディスプレイである。
入力デバイスは、例えば、キーボード、ポインティングデバイス、タッチパネル、又は、それらの組合せである。
出力デバイスは、例えば、ディスプレイである。
通信インタフェース34は、サーバ30とクライアント装置10との間の通信を制御するように構成される。
(1-3)カメラユニットの構成
カメラユニット50の構成について説明する。図3は、図1のカメラユニット50の構成を示す図である。
カメラユニット50の構成について説明する。図3は、図1のカメラユニット50の構成を示す図である。
図3Aは、カメラユニット50の正面図である。図3Bは、カメラユニット50の上面図である。図3Cは、カメラユニット50の側面図である。
図3に示すように、カメラユニット50は、レンズ50aと、スピーカ50bと、クリップ50cと、イメージセンサ50dと、カメラコントローラ50eと、を備える、
図3A~図3Cに示すように、レンズ50aは、カメラユニット50の前面(Z-側の面)に配置される。
図3B~図3Cに示すように、スピーカ50bは、カメラユニット50の上面(Y+側)に配置される。
クリップ50cは、カメラユニット50の背面(Z+側の面)に配置される。つまり、クリップ50cは、レンズ50aと反対側の面に配置される。
ユーザは、クリップ50cを自身の衣服に引っ掛けることにより、レンズ50aが自身の正面(つまり、視線の方向)を向くように、カメラユニット50を装着することができる。
ユーザは、クリップ50cを自身の衣服に引っ掛けることにより、レンズ50aが自身の正面(つまり、視線の方向)を向くように、カメラユニット50を装着することができる。
図3A及び図3Cに示すように、イメージセンサ50dは、カメラユニット50の内部に配置される。レンズ50aを通過した光は、イメージセンサ50d上で結像する。イメージセンサ50dは、結像した光を電気信号に変換することにより、レンズ50aを通過した光に基づく画像データを生成するように構成される。
カメラコントローラ50eは、カメラユニット50の内部に配置されている。カメラコントローラ50eは、カメラユニット50の全体を制御するプロセッサである。
(1-4)ネイルキャップの構成
ネイルキャップNCの構成について説明する。図4は、図1のネイルキャップの構成を示す図である。
ネイルキャップNCの構成について説明する。図4は、図1のネイルキャップの構成を示す図である。
図4Aに示すように、ネイルキャップNCは、5個の右手用ネイルキャップNCR、及び、5個の左手用ネイルキャップ(つまり、10個のネイルキャップ)NCLを含む。10個のネイルキャップNCL及びNCRには、互いに、異なるパターン(例えば、テキスト「L1」~「L5」及び「R1」~「R5」)が形成されている。ネイルキャップNCに形成されたパターンによって、各ネイルキャップNCが区別される。
図4Bに示すように、各ネイルキャップNCは、ユーザの指に装着可能である。
(2)本実施形態の概要
本実施形態の概要について説明する。図5は、本実施形態の概要の説明図である。
本実施形態の概要について説明する。図5は、本実施形態の概要の説明図である。
図5に示すように、ユーザ(例えば、視覚障害者)の爪に装着されたネイルキャップNCが撮像範囲に入ると、クライアント装置10は、ネイルキャップNCの周辺のオブジェクトOBJ1(リンゴ)及びオブジェクトOBJ2(バナナ)を含む画像IMGの画像データを取得する。
クライアント装置10は、取得した画像データをサーバ30に送信する。
クライアント装置10は、取得した画像データをサーバ30に送信する。
サーバ30は、クライアント装置10から送信された画像データに対して画像解析を実行することにより、画像IMGにおけるネイルキャップNCの位置と、オブジェクトOBJ1~OBJ2の位置と、をする。
サーバ30は、特定した位置に基づいて、オブジェクトOBJ1~OBJ2のうち、ネイルキャップNCに最も近いオブジェクトOBJ1を特定する。
サーバ30は、記憶装置31に記憶された学習用データセットを参照して、特定したオブジェクトOBJ1の特徴量に基づくオブジェクト名(つまり、リンゴ)を推定する。
サーバ30は、推定したオブジェクト名の音声を出力するための音声出力データを生成する。
サーバ30は、生成した音声出力データをクライアント装置10に送信する。
サーバ30は、特定した位置に基づいて、オブジェクトOBJ1~OBJ2のうち、ネイルキャップNCに最も近いオブジェクトOBJ1を特定する。
サーバ30は、記憶装置31に記憶された学習用データセットを参照して、特定したオブジェクトOBJ1の特徴量に基づくオブジェクト名(つまり、リンゴ)を推定する。
サーバ30は、推定したオブジェクト名の音声を出力するための音声出力データを生成する。
サーバ30は、生成した音声出力データをクライアント装置10に送信する。
クライアント装置10は、サーバ30から送信された音声出力データに基づいて、音声「リンゴ」を出力する。
ユーザは、クライアント装置10によって出力された音声により、自身の指に対して最も近くにあるオブジェクトOBJ1のオブジェクト名「リンゴ」を知ることができる。
このように、ユーザ(例えば、視覚障害者)は、ネイルキャップNCが装着された指を使って、音声案内を受けることができる。つまり、視覚障害者が音声案内を受けられる範囲の制約を解消することができる。
(3)情報処理
本実施形態の情報処理について説明する。図6は、本実施形態の情報処理のシーケンス図である。図7は、図6のS500の説明図である。図8は、図6のS100の説明図である。図9は、図6のS502の説明図である。
本実施形態の情報処理について説明する。図6は、本実施形態の情報処理のシーケンス図である。図7は、図6のS500の説明図である。図8は、図6のS100の説明図である。図9は、図6のS502の説明図である。
カメラユニット50は、撮像(S500)を実行する。
具体的には、イメージセンサ50dは、レンズ50aを通過した光の結像を電気信号に変換することにより、レンズ50aを通過した光に対応する画像データを生成する(図7A)。
カメラコントローラ50eは、イメージセンサ50dによって生成された画像データをクライアント装置10に送信する。
具体的には、イメージセンサ50dは、レンズ50aを通過した光の結像を電気信号に変換することにより、レンズ50aを通過した光に対応する画像データを生成する(図7A)。
カメラコントローラ50eは、イメージセンサ50dによって生成された画像データをクライアント装置10に送信する。
ステップS500の後、クライアント装置10は、画像解析リクエスト(S100)を実行する。
具体的には、プロセッサ12は、ステップS500で送信された画像データに対応する画像IMGがネイルキャップNCに形成されたパターンを含むか否かを判定する。一例として、図8に示すように、ユーザが、レンズ50aの画角の範囲内で右手の親指を立てるジェスチャを行うと、ステップS500で送信された画像データは、右手の親指に装着されたネイルキャップNCのパターン(例えば、テキスト「R1」)の画像を含む。この場合、プロセッサ12は、ネイルキャップNCに形成されたパターンを含むと判定する。
プロセッサ12は、ネイルキャップNCに形成されたパターンを含むと判定した場合、画像解析リクエストデータをサーバ30に送信する。
画像解析リクエストデータは、ネイルキャップNCに形成されたパターンを含む画像IMGの画像データを含む。
具体的には、プロセッサ12は、ステップS500で送信された画像データに対応する画像IMGがネイルキャップNCに形成されたパターンを含むか否かを判定する。一例として、図8に示すように、ユーザが、レンズ50aの画角の範囲内で右手の親指を立てるジェスチャを行うと、ステップS500で送信された画像データは、右手の親指に装着されたネイルキャップNCのパターン(例えば、テキスト「R1」)の画像を含む。この場合、プロセッサ12は、ネイルキャップNCに形成されたパターンを含むと判定する。
プロセッサ12は、ネイルキャップNCに形成されたパターンを含むと判定した場合、画像解析リクエストデータをサーバ30に送信する。
画像解析リクエストデータは、ネイルキャップNCに形成されたパターンを含む画像IMGの画像データを含む。
ステップS100の後、サーバ30は、画像解析(S300)を実行する。
具体的には、プロセッサ32は、画像解析リクエストデータに含まれる画像データに対して、特徴量解析を適用することにより、画像IMGに含まれる以下のオブジェクト(ネイルキャップNCの画素、及び、オブジェクトOBJ1~OBJ2の画素)の座標を特定する。
プロセッサ32は、特定した座標に基づいて、画像IMGに含まれるオブジェクトOBJ1~OBJ2のうち、ネイルキャップNCに最も近いオブジェクトOBJ1を特定する。
具体的には、プロセッサ32は、画像解析リクエストデータに含まれる画像データに対して、特徴量解析を適用することにより、画像IMGに含まれる以下のオブジェクト(ネイルキャップNCの画素、及び、オブジェクトOBJ1~OBJ2の画素)の座標を特定する。
プロセッサ32は、特定した座標に基づいて、画像IMGに含まれるオブジェクトOBJ1~OBJ2のうち、ネイルキャップNCに最も近いオブジェクトOBJ1を特定する。
ステップS300の後、サーバ30は、オブジェクトの推定(S301)を実行する。
具体的には、プロセッサ32は、記憶装置31に記憶された学習用データセットを参照して、ステップS300で特定したオブジェクトOBJ1の画素の特徴量に対応するオブジェクト名を推定する。
具体的には、プロセッサ32は、記憶装置31に記憶された学習用データセットを参照して、ステップS300で特定したオブジェクトOBJ1の画素の特徴量に対応するオブジェクト名を推定する。
ステップS302の後、サーバ30は、テキストデータの生成(S302)を実行する。
具体的には、プロセッサ32は、ステップS301で推定されたオブジェクト名と、所定の語句(例えば、主語及び述語)と、によって構成される文章(例えば、「これはリンゴです。」)のテキストデータを生成する。
具体的には、プロセッサ32は、ステップS301で推定されたオブジェクト名と、所定の語句(例えば、主語及び述語)と、によって構成される文章(例えば、「これはリンゴです。」)のテキストデータを生成する。
ステップS302の後、サーバ30は、画像解析レスポンス(S303)を実行する。
具体的には、プロセッサ32は、画像解析レスポンスデータをクライアント装置10に送信する。
画像解析レスポンスデータは、ステップS302で生成されたテキストデータを含む。
具体的には、プロセッサ32は、画像解析レスポンスデータをクライアント装置10に送信する。
画像解析レスポンスデータは、ステップS302で生成されたテキストデータを含む。
ステップS303の後、クライアント装置10は、音声データの生成(S101)を実行する。
具体的には、プロセッサ12は、画像解析レスポンスデータに含まれるテキストデータを、当該テキストデータに対応する音声データに変換する。
プロセッサ12は、変換した音声データをカメラユニット50に送信する。
具体的には、プロセッサ12は、画像解析レスポンスデータに含まれるテキストデータを、当該テキストデータに対応する音声データに変換する。
プロセッサ12は、変換した音声データをカメラユニット50に送信する。
ステップS101の後、カメラユニット50は、音声出力(S502)を実行する。
具体的には、カメラコントローラ50eは、ステップS101で送信された音声データに対応する音声を再生する。
図9に示すように、スピーカ50bは、再生された音声(例えば、「これはリンゴです。」)を出力する。
具体的には、カメラコントローラ50eは、ステップS101で送信された音声データに対応する音声を再生する。
図9に示すように、スピーカ50bは、再生された音声(例えば、「これはリンゴです。」)を出力する。
本実施形態によれば、ステップS500で撮像された画像において、ネイルキャップNCの最も近くにあるオブジェクトOBJ1の名称が読み上げられる。ユーザ(例えば、視覚障害者)は、スピーカ50bから出力された音声を介して、ネイルキャップNCに最も近いオブジェクトOBJ1を認知することができる。
特に、親指の爪は最も大きく、且つ、親指を立てる行為はポジティブな印象を与えるので、親指用のネイルキャップNCに形成されたパターン(例えば、テキスト「R1」)を認識した場合にステップS100を実行することが好ましい。
(4)変形例
変形例について説明する。変形例は、ユーザのジェスチャに応じた情報処理を実行する例である。
変形例について説明する。変形例は、ユーザのジェスチャに応じた情報処理を実行する例である。
(4-1)データベース
変形例のデータベースについて説明する。図10は、変形例のジェスチャデータベースのデータ構造を示す図である。
変形例のデータベースについて説明する。図10は、変形例のジェスチャデータベースのデータ構造を示す図である。
図10に示すように、変形例のジェスチャ情報データベースは、「パターン」フィールドと、「ジェスチャ」フィールドと、「アクション」フィールドと、を含む。各フィールドは、互いに関連付けられている。
「パターン」フィールドには、ネイルキャップNCに形成されたパターンを識別する情報が格される。
「ジェスチャ」フィールドには、単位時間あたりのネイルキャップNCの位置の変位に関する情報(例えば、動きベクトル)が格納される。動きベクトルが0の場合、ネイルキャップNCが静止していることを意味する。動きベクトルが0ではない場合、ネイルキャップNCの動きの方向及び速度を意味する。
「アクション」フィールドには、プロセッサ12が実行する情報処理の内容に関する情報が格納される。情報処理は、例えば、以下を含む。
・ステップS500でカメラユニット50から送信された画像のサーバ30への送信
・ステップS500でカメラユニット50から送信された画像のサーバ30への送信、且つ、当該画像が添付されたメールの送信
・ステップS500でカメラユニット50から送信された画像が添付されたメールの送信
・ステップS500でカメラユニット50から送信された画像の記憶装置11への記憶(つまり、画像の保存)
・所定のアプリケーションの起動
・ステップS500でカメラユニット50から送信された画像のサーバ30への送信
・ステップS500でカメラユニット50から送信された画像のサーバ30への送信、且つ、当該画像が添付されたメールの送信
・ステップS500でカメラユニット50から送信された画像が添付されたメールの送信
・ステップS500でカメラユニット50から送信された画像の記憶装置11への記憶(つまり、画像の保存)
・所定のアプリケーションの起動
(4-2)情報処理
変形例の情報処理について説明する。図11は、変形例の情報処理のシーケンス図である。図12は、変形例のジェスチャの一例を示す図である。
変形例の情報処理について説明する。図11は、変形例の情報処理のシーケンス図である。図12は、変形例のジェスチャの一例を示す図である。
図11に示すように、ステップS500(図6)の後、クライアント装置10は、ジェスチャの特定(S110)を実行する。
具体的には、プロセッサ12は、ステップS500で送信された画像データに対応する画像IMGに含まれるネイルキャップNCに形成されたパターンの動きベクトルを特定する。
具体的には、プロセッサ12は、ステップS500で送信された画像データに対応する画像IMGに含まれるネイルキャップNCに形成されたパターンの動きベクトルを特定する。
一例として、図12Aに示すように、ユーザが、レンズ50aの画角の範囲内で右手の人差し指及び中指を立てて静止させるジェスチャを行うと、ステップS500で送信された画像データは、右手の人差し指及び中指のネイルキャップNCに形成されたパターン(例えば、テキスト「R2」及び「R3」)の画像を含み、且つ、動きベクトルは0である。この場合、プロセッサ12は、「右手の人差し指及び中指に装着されたネイルキャップNCのパターンが静止している」と判定する。
図12Bに示すように、ユーザが、レンズ50aの画角の範囲内で右手の人差し指、中指、及び、薬指を立てて静止させるジェスチャを行うと、ステップS500で送信された画像データは、右手の人差し指、中指、及び、薬指のネイルキャップNCに形成されたパターン(例えば、テキスト「R2」~「R4」)の画像を含み、且つ、動きベクトルは0である。この場合、プロセッサ12は、「右手の人差し指、中指、及び、薬指に装着されたネイルキャップNCのパターンが静止している」と判定する。
図12Cに示すように、ユーザが、レンズ50aの画角の範囲内で右手の人差し指及び中指を立てて上から下に移動させるジェスチャを行うと、ステップS500で送信された画像データは、右手の人差し指及び中指のネイルキャップNCに形成されたパターン(例えば、テキスト「R2」及び「R3」)の画像と、当該画像が上から下に移動することを示す動きベクトルと、を含む。この場合、プロセッサ12は、「右手の人差し指及び中指に装着されたネイルキャップNCのパターンが上から下に動いている」と判定する。
図12Dに示すように、ユーザが、レンズ50aの画角の範囲内で右手の人差し指、中指、及び、薬指を立てて下から上に移動させるジェスチャを行うと、ステップS500で送信された画像データは、右手の人差し指、中指、及び、薬指のネイルキャップNCに形成されたパターン(例えば、テキスト「R2」~「R4」)の画像と、当該画像が下から上に移動することを示す動きベクトルと、を含む。この場合、プロセッサ12は、「右手の人差し指、中指、及び、薬指に装着されたネイルキャップNCのパターンが下から上に動いている」と判定する。
図12Bに示すように、ユーザが、レンズ50aの画角の範囲内で右手の人差し指、中指、及び、薬指を立てて静止させるジェスチャを行うと、ステップS500で送信された画像データは、右手の人差し指、中指、及び、薬指のネイルキャップNCに形成されたパターン(例えば、テキスト「R2」~「R4」)の画像を含み、且つ、動きベクトルは0である。この場合、プロセッサ12は、「右手の人差し指、中指、及び、薬指に装着されたネイルキャップNCのパターンが静止している」と判定する。
図12Cに示すように、ユーザが、レンズ50aの画角の範囲内で右手の人差し指及び中指を立てて上から下に移動させるジェスチャを行うと、ステップS500で送信された画像データは、右手の人差し指及び中指のネイルキャップNCに形成されたパターン(例えば、テキスト「R2」及び「R3」)の画像と、当該画像が上から下に移動することを示す動きベクトルと、を含む。この場合、プロセッサ12は、「右手の人差し指及び中指に装着されたネイルキャップNCのパターンが上から下に動いている」と判定する。
図12Dに示すように、ユーザが、レンズ50aの画角の範囲内で右手の人差し指、中指、及び、薬指を立てて下から上に移動させるジェスチャを行うと、ステップS500で送信された画像データは、右手の人差し指、中指、及び、薬指のネイルキャップNCに形成されたパターン(例えば、テキスト「R2」~「R4」)の画像と、当該画像が下から上に移動することを示す動きベクトルと、を含む。この場合、プロセッサ12は、「右手の人差し指、中指、及び、薬指に装着されたネイルキャップNCのパターンが下から上に動いている」と判定する。
ステップS110の後、クライアント装置10は、アクションの実行(S111)を実行する。
具体的には、プロセッサ12は、ジェスチャ情報データベース(図10)を参照して、ステップS110で特定した動きベクトルに関連付けられた「アクション」フィールドの情報を特定する。
プロセッサ12は、特定した「アクション」フィールドの情報に対応する処理を実行する。
具体的には、プロセッサ12は、ジェスチャ情報データベース(図10)を参照して、ステップS110で特定した動きベクトルに関連付けられた「アクション」フィールドの情報を特定する。
プロセッサ12は、特定した「アクション」フィールドの情報に対応する処理を実行する。
一例として、ステップS110で図12Aのジェスチャが特定された場合、画像の送信、及び、メールの送信が実行される(図10)。
ステップS110で図12Bのジェスチャが特定された場合、メールの送信が実行される(図10)。
このように、クライアント装置10は、S100で認識されたパターンの組合せに応じた処理を実行する。
ステップS110で図12Bのジェスチャが特定された場合、メールの送信が実行される(図10)。
このように、クライアント装置10は、S100で認識されたパターンの組合せに応じた処理を実行する。
別の例として、ステップS110で図12Cのジェスチャが特定された場合、画像の保存が実行される(図10)。
ステップS110で図12Dのジェスチャが特定された場合、所定のアプリケーションの起動が実行される(図10)。
このように、クライアント装置10は、S100で認識されたパターン、及び、ネイルキャップNCの動きの組合せに応じた処理を実行する。
ステップS110で図12Dのジェスチャが特定された場合、所定のアプリケーションの起動が実行される(図10)。
このように、クライアント装置10は、S100で認識されたパターン、及び、ネイルキャップNCの動きの組合せに応じた処理を実行する。
変形例によれば、クライアント装置10は、ネイルキャップNCが装着された指によるジェスチャに応じたアクションを実行する。これにより、ユーザは、ネイルキャップNCを装着した指だけで、クライアント装置10にユーザ指示を与えることができる。特に、ユーザが視覚障害者である場合、ユーザは、ディスプレイを見なくても、指の動きだけでクライアント装置10に対して様々なユーザ指示を与えることができるので、特に有用である。
(5)本実施形態の小括
本実施形態について小括する。
本実施形態について小括する。
本実施形態の第1態様は、
画像に含まれるオブジェクトに関する音声出力データを生成可能なサーバ30と接続されるクライアント装置10であって、
ユーザ(例えば、視覚障害者)の指に装着された少なくとも1つの装着物(例えば、ネイルキャップNC)と、少なくとも1つのオブジェクトと、を含む画像IMGの画像データを取得する手段(例えば、ステップS100の処理を実行するプロセッサ12)を備え、
画像データをサーバ30に送信する手段(例えば、ステップS100の処理を実行するプロセッサ12)を備え、
画像IMGに含まれるオブジェクトに関する音声を出力するための音声出力データ(例えば、テキストデータ)をサーバ30から受信する手段(例えば、ステップS101の処理を実行するプロセッサ12)を備え、
音声出力データに基づく音声を出力する手段(例えば、ステップS101の処理を実行するプロセッサ12)を備える、
クライアント装置10である。
画像に含まれるオブジェクトに関する音声出力データを生成可能なサーバ30と接続されるクライアント装置10であって、
ユーザ(例えば、視覚障害者)の指に装着された少なくとも1つの装着物(例えば、ネイルキャップNC)と、少なくとも1つのオブジェクトと、を含む画像IMGの画像データを取得する手段(例えば、ステップS100の処理を実行するプロセッサ12)を備え、
画像データをサーバ30に送信する手段(例えば、ステップS100の処理を実行するプロセッサ12)を備え、
画像IMGに含まれるオブジェクトに関する音声を出力するための音声出力データ(例えば、テキストデータ)をサーバ30から受信する手段(例えば、ステップS101の処理を実行するプロセッサ12)を備え、
音声出力データに基づく音声を出力する手段(例えば、ステップS101の処理を実行するプロセッサ12)を備える、
クライアント装置10である。
第1態様によれば、クライアント装置10は、ユーザ(例えば、視覚障害者)の指に装着された装着物(例えば、ネイルキャップNC)及びオブジェクトOBJを含む画像の画像データをサーバ30に送信し、且つ、オブジェクトOBJに関する音声を出力する。これにより、視覚障害者が音声案内を受けられる範囲の制約を解消することができる。
特に、指に装着されたネイルキャップNCを含む画像データを取得するので、ユーザの目線により近い画像の音声案内を提供することができる。
本実施形態の第2態様は、
出力される音声は、オブジェクトの名称を含む、
クライアント装置10である。
出力される音声は、オブジェクトの名称を含む、
クライアント装置10である。
第2態様によれば、ユーザは、出力された音声を介して、ネイルキャップNCの近傍にあるオブジェクトの名称を知ることができる。
本実施形態の第3態様は、
画像解析を実行可能なサーバ30と接続されるクライアント装置10であって、
画像データを取得する手段(例えば、ステップS100の処理を実行するプロセッサ12)を備え、
ユーザの指に装着された少なくとも1つの装着物(例えば、ネイルキャップNC)の画像が画像データに含まれているか否かを判定する手段(例えば、ステップS100の処理を実行するプロセッサ12)を備え、
装着物の画像が画像データに含まれている場合、画像データをサーバ30に送信する手段(例えば、ステップS100の処理を実行するプロセッサ12)を備え、
画像データに対する解析結果をサーバ30から受信する手段(例えば、ステップS101の処理を実行するプロセッサ12)を備える、
クライアント装置10である。
画像解析を実行可能なサーバ30と接続されるクライアント装置10であって、
画像データを取得する手段(例えば、ステップS100の処理を実行するプロセッサ12)を備え、
ユーザの指に装着された少なくとも1つの装着物(例えば、ネイルキャップNC)の画像が画像データに含まれているか否かを判定する手段(例えば、ステップS100の処理を実行するプロセッサ12)を備え、
装着物の画像が画像データに含まれている場合、画像データをサーバ30に送信する手段(例えば、ステップS100の処理を実行するプロセッサ12)を備え、
画像データに対する解析結果をサーバ30から受信する手段(例えば、ステップS101の処理を実行するプロセッサ12)を備える、
クライアント装置10である。
第3態様によれば、クライアント装置10は、ユーザ(例えば、視覚障害者)の指に装着された装着物(例えば、ネイルキャップNC)を含む画像を認識した場合、当該画像の画像データをサーバ30に送信する。これにより、ユーザは、画像データをサーバ30に送信するためのユーザ指示を容易に与えることができる。
本実施形態の第4態様は、
取得する手段は、クライアント装置10に接続されたカメラ(例えば、カメラユニット50)、又は、クライアント装置10に配置されたカメラから、画像データを取得する、クライアント装置10である。
取得する手段は、クライアント装置10に接続されたカメラ(例えば、カメラユニット50)、又は、クライアント装置10に配置されたカメラから、画像データを取得する、クライアント装置10である。
本実施形態の第5態様は、
取得する手段は、装着物を認識したときに、画像データを取得する、
クライアント装置10である。
取得する手段は、装着物を認識したときに、画像データを取得する、
クライアント装置10である。
第5態様によれば、ユーザは、ネイルキャップNCを装着した指をレンズ50aの画角の範囲内にかざすだけで、画像データを生成させるためのユーザ指示を与えることができる。
本実施形態の第6態様は、
取得する手段は、装着物に形成されたパターンを認識したときに、画像データを取得する、
クライアント装置10である。
取得する手段は、装着物に形成されたパターンを認識したときに、画像データを取得する、
クライアント装置10である。
本実施形態の第7態様は、
認識されたパターンの組合せに応じた処理を実行する手段(例えば、ステップS110~S111を実行するプロセッサ12)を備える、
クライアント装置10である。
認識されたパターンの組合せに応じた処理を実行する手段(例えば、ステップS110~S111を実行するプロセッサ12)を備える、
クライアント装置10である。
第7態様によれば、ユーザは、レンズ50aに写り込む指の組合せによって、クライアント装置10に対するユーザ指示を与えることができる。
本実施形態の第8態様は、
実行する手段は、前記認識されたパターン、及び、前記装着物の動きの組合せに応じた処理を実行する、
クライアント装置10である。
実行する手段は、前記認識されたパターン、及び、前記装着物の動きの組合せに応じた処理を実行する、
クライアント装置10である。
第8態様によれば、ユーザは、レンズ50aに写り込む指の組合せ、及び、指の動きによって、クライアント装置10に対するユーザ指示を与えることができる。
本実施形態の第9態様は、
クライアント装置10と接続されるサーバ30であって、
クライアント装置10から画像データを取得する手段(例えば、ステップS300の処理を実行するプロセッサ32)を備え、
取得された画像データに対応する画像に含まれるオブジェクトの名称を推定する手段(例えば、ステップS301の処理を実行するプロセッサ32)を備え、
推定されたオブジェクトの名称を含む音声を出力するための音声出力データを生成する手段(例えば、ステップS302の処理を実行するプロセッサ32)を備え、
生成された音声出力データをクライアント装置10に送信する手段(例えば、ステップS303の処理を実行するプロセッサ32)を備える、
サーバ30である。
クライアント装置10と接続されるサーバ30であって、
クライアント装置10から画像データを取得する手段(例えば、ステップS300の処理を実行するプロセッサ32)を備え、
取得された画像データに対応する画像に含まれるオブジェクトの名称を推定する手段(例えば、ステップS301の処理を実行するプロセッサ32)を備え、
推定されたオブジェクトの名称を含む音声を出力するための音声出力データを生成する手段(例えば、ステップS302の処理を実行するプロセッサ32)を備え、
生成された音声出力データをクライアント装置10に送信する手段(例えば、ステップS303の処理を実行するプロセッサ32)を備える、
サーバ30である。
(6)その他の変形例
記憶装置11は、ネットワークNWを介して、クライアント装置10と接続されてもよい。記憶装置31は、ネットワークNWを介して、サーバ30と接続されてもよい。
上記の情報処理の各ステップは、クライアント装置10及びサーバ30の何れでも実行可能である。
カメラユニット50は、クライアント装置10に内蔵されても良い。
各ネイルキャップNCに形成されるパターンは、文字に限られない。当該パターンは、以下を含む。特に、美観性の高いパターンをネイルキャップNCに形成することにより、ネイルキャップNCを装着させ、且つ、本実施形態の音声案内を利用することの動機付けをユーザに与えることができる。
・図形
・幾何学模様
・凹凸
・カラーバリエーション
・図形
・幾何学模様
・凹凸
・カラーバリエーション
以上、本発明の実施形態について詳細に説明したが、本発明の範囲は上記の実施形態に限定されない。また、上記の実施形態は、本発明の主旨を逸脱しない範囲において、種々の改良や変更が可能である。また、上記の実施形態及び変形例は、組合せ可能である。
1 :情報処理システム
10 :クライアント装置
11 :記憶装置
12 :プロセッサ
13 :入出力インタフェース
14 :通信インタフェース
30 :サーバ
31 :記憶装置
32 :プロセッサ
33 :入出力インタフェース
34 :通信インタフェース
50 :カメラユニット
50a :レンズ
50b :スピーカ
50c :クリップ
50d :イメージセンサ
50e :カメラコントローラ
10 :クライアント装置
11 :記憶装置
12 :プロセッサ
13 :入出力インタフェース
14 :通信インタフェース
30 :サーバ
31 :記憶装置
32 :プロセッサ
33 :入出力インタフェース
34 :通信インタフェース
50 :カメラユニット
50a :レンズ
50b :スピーカ
50c :クリップ
50d :イメージセンサ
50e :カメラコントローラ
Claims (10)
- 画像に含まれるオブジェクトに関する音声出力データを生成可能なサーバと接続されるクライアント装置であって、
ユーザの指に装着された少なくとも1つの装着物と、少なくとも1つのオブジェクトと、を含む画像の画像データを取得する手段を備え、
前記画像データを前記サーバに送信する手段を備え、
前記画像に含まれるオブジェクトに関する音声を出力するための音声出力データを前記サーバから受信する手段を備え、
前記音声出力データに基づく音声を出力する手段を備える、
クライアント装置。 - 前記出力される音声は、前記オブジェクトの名称を含む、
請求項1に記載のクライアント装置。 - 画像解析を実行可能なサーバと接続されるクライアント装置であって、
画像データを取得する手段を備え、
ユーザの指に装着された少なくとも1つの装着物の画像が前記画像データに含まれているか否かを判定する手段を備え、
前記装着物の画像が前記画像データに含まれている場合、前記画像データを前記サーバに送信する手段を備え、
前記画像データに対する解析結果を前記サーバから受信する手段を備える、
クライアント装置。 - 前記取得する手段は、前記クライアント装置に接続されたカメラ、又は、前記クライアント装置に配置されたカメラから、前記画像データを取得する、
請求項1~3の何れかに記載のクライアント装置。 - 前記送信する手段は、前記装着物を認識したときに、前記画像データを送信する、
請求項1~4の何れかに記載のクライアント装置。 - 前記送信する手段は、前記装着物に形成されたパターンを認識したときに、前記画像データを送信する、
請求項5に記載のクライアント装置。 - 前記装着物に形成されたパターンを認識したときに、前記認識されたパターンの組合せに応じた処理を実行する手段を備える、請求項1~6の何れかに記載のクライアント装置。
- 前記実行する手段は、前記認識されたパターン、及び、前記装着物の動きの組合せに応じた処理を実行する、
請求項7に記載のクライアント装置。 - 請求項1~8の何れかに記載のクライアント装置と接続されるサーバであって、
前記クライアント装置から前記画像データを取得する手段を備え、
前記取得された画像データに対応する画像に含まれるオブジェクトの名称を推定する手段を備え、
前記推定されたオブジェクトの名称を含む音声を出力するための音声出力データを生成する手段を備え、
前記生成された音声出力データを前記クライアント装置に送信する手段を備える、
サーバ。 - コンピュータを、請求項1~9の何れかに記載の各手段として機能させるためのプログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2019552691A JP7390891B2 (ja) | 2017-11-07 | 2018-10-22 | クライアント装置、サーバ、プログラム、及び、情報処理方法 |
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017-214461 | 2017-11-07 | ||
| JP2017214461 | 2017-11-07 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2019093105A1 true WO2019093105A1 (ja) | 2019-05-16 |
Family
ID=66439157
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/JP2018/039170 Ceased WO2019093105A1 (ja) | 2017-11-07 | 2018-10-22 | クライアント装置、サーバ、プログラム |
Country Status (3)
| Country | Link |
|---|---|
| JP (1) | JP7390891B2 (ja) |
| TW (1) | TW201922186A (ja) |
| WO (1) | WO2019093105A1 (ja) |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH11284895A (ja) * | 1998-03-31 | 1999-10-15 | Canon Inc | サーバ及びシステム及びクライアント及び制御方法及び記憶媒体 |
| JP2000293661A (ja) * | 1999-04-12 | 2000-10-20 | Nippon Signal Co Ltd:The | 画像認識装置 |
| JP2011209787A (ja) * | 2010-03-29 | 2011-10-20 | Sony Corp | 情報処理装置、および情報処理方法、並びにプログラム |
| US20140253701A1 (en) * | 2013-03-10 | 2014-09-11 | Orcam Technologies Ltd. | Apparatus and method for analyzing images |
| JP2016194612A (ja) * | 2015-03-31 | 2016-11-17 | 株式会社ニデック | 視覚認識支援装置および視覚認識支援プログラム |
| WO2016199248A1 (ja) * | 2015-06-10 | 2016-12-15 | 日立マクセル株式会社 | 情報提示システム及び情報提示方法 |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20110007035A1 (en) | 2007-08-19 | 2011-01-13 | Saar Shai | Finger-worn devices and related methods of use |
| JP5263833B2 (ja) | 2009-05-18 | 2013-08-14 | 国立大学法人 奈良先端科学技術大学院大学 | ウェアラブルコンピュータに用いるリング型インタフェース、インタフェース装置、およびインタフェース方法 |
| US9658693B2 (en) | 2014-12-19 | 2017-05-23 | Immersion Corporation | Systems and methods for haptically-enabled interactions with objects |
| US20160180594A1 (en) * | 2014-12-22 | 2016-06-23 | Hand Held Products, Inc. | Augmented display and user input device |
-
2018
- 2018-10-22 WO PCT/JP2018/039170 patent/WO2019093105A1/ja not_active Ceased
- 2018-10-22 JP JP2019552691A patent/JP7390891B2/ja active Active
- 2018-10-31 TW TW107138498A patent/TW201922186A/zh unknown
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH11284895A (ja) * | 1998-03-31 | 1999-10-15 | Canon Inc | サーバ及びシステム及びクライアント及び制御方法及び記憶媒体 |
| JP2000293661A (ja) * | 1999-04-12 | 2000-10-20 | Nippon Signal Co Ltd:The | 画像認識装置 |
| JP2011209787A (ja) * | 2010-03-29 | 2011-10-20 | Sony Corp | 情報処理装置、および情報処理方法、並びにプログラム |
| US20140253701A1 (en) * | 2013-03-10 | 2014-09-11 | Orcam Technologies Ltd. | Apparatus and method for analyzing images |
| JP2016194612A (ja) * | 2015-03-31 | 2016-11-17 | 株式会社ニデック | 視覚認識支援装置および視覚認識支援プログラム |
| WO2016199248A1 (ja) * | 2015-06-10 | 2016-12-15 | 日立マクセル株式会社 | 情報提示システム及び情報提示方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP7390891B2 (ja) | 2023-12-04 |
| TW201922186A (zh) | 2019-06-16 |
| JPWO2019093105A1 (ja) | 2020-12-17 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Siena et al. | Utilising the intel realsense camera for measuring health outcomes in clinical research | |
| US10812422B2 (en) | Directional augmented reality system | |
| JP7504476B2 (ja) | モバイル装置のユーザの認知状態を判定するための装置、方法、及びプログラム | |
| US11288869B2 (en) | Information processing device, and information processing method | |
| US10275021B2 (en) | Display apparatus of front-of-the-eye mounted type | |
| US11328187B2 (en) | Information processing apparatus and information processing method | |
| JP2019535059A5 (ja) | ||
| WO2019093646A1 (en) | Electronic device capable of moving and operating method thereof | |
| US20240200962A1 (en) | Providing directional awareness indicators based on context | |
| CN108986766A (zh) | 信息显示终端以及信息显示方法 | |
| US20190087736A1 (en) | Information processing apparatus, artificial intelligence selection method, and artificial intelligence selection program | |
| US11137600B2 (en) | Display device, display control method, and display system | |
| KR20190118965A (ko) | 시선 추적 시스템 및 방법 | |
| JP2015181314A (ja) | 画像処理装置、画像処理方法、およびプログラム | |
| CA3151265A1 (en) | Language teaching machine | |
| KR102330218B1 (ko) | 발달장애인의 언어 훈련을 위한 가상현실 교육 시스템 및 방법 | |
| JP2016076259A (ja) | 情報処理装置、情報処理方法及びプログラム | |
| JP5651639B2 (ja) | 情報処理装置、情報表示装置、情報処理方法およびプログラム | |
| CN109153332B (zh) | 车辆用户接口的手语输入 | |
| JPH10336505A (ja) | 画像表示装置及び画像表示方法 | |
| JP2022092558A (ja) | 手話補助システム、装着具、手話補助方法、及び手話補助プログラム。 | |
| US11830182B1 (en) | Machine learning-based blood flow tracking | |
| JP7390891B2 (ja) | クライアント装置、サーバ、プログラム、及び、情報処理方法 | |
| KR20200079748A (ko) | 발달장애인의 언어 훈련을 위한 가상현실 교육 시스템 및 방법 | |
| KR102166697B1 (ko) | 머리 착용형 표시 장치에서 사용자 인증을 수행하는 방법 및 그 전자 장치 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 18877172 Country of ref document: EP Kind code of ref document: A1 |
|
| ENP | Entry into the national phase |
Ref document number: 2019552691 Country of ref document: JP Kind code of ref document: A |
|
| NENP | Non-entry into the national phase |
Ref country code: DE |
|
| 122 | Ep: pct application non-entry in european phase |
Ref document number: 18877172 Country of ref document: EP Kind code of ref document: A1 |