[go: up one dir, main page]

WO2015141523A1 - 情報処理装置、情報処理方法及びコンピュータプログラム - Google Patents

情報処理装置、情報処理方法及びコンピュータプログラム Download PDF

Info

Publication number
WO2015141523A1
WO2015141523A1 PCT/JP2015/056992 JP2015056992W WO2015141523A1 WO 2015141523 A1 WO2015141523 A1 WO 2015141523A1 JP 2015056992 W JP2015056992 W JP 2015056992W WO 2015141523 A1 WO2015141523 A1 WO 2015141523A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
image
processing apparatus
sentence
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2015/056992
Other languages
English (en)
French (fr)
Inventor
賢一郎 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of WO2015141523A1 publication Critical patent/WO2015141523A1/ja
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes

Definitions

  • the present disclosure relates to an information processing apparatus, an information processing method, and a computer program.
  • a technology for recognizing an object based on image information is widely used (see, for example, Patent Document 1).
  • a technique for recognizing a face or a predetermined object from image information is widely used in image processing software that operates on a digital camera, a smartphone, a personal computer, a robot apparatus, and the like.
  • the recognition result of the image information can be grasped as a positional relationship on the XY two axes on the screen or on the three axes considering the depth.
  • the recognition result is expressed as physical numerical information, it is difficult to intuitively determine the recognition result.
  • the present disclosure proposes a new and improved information processing apparatus, information processing method, and computer program capable of intuitively capturing the recognition result of image information.
  • an object information acquisition unit that acquires object information that is information related to a predetermined object included in the image, and the object information acquired by the object information acquisition unit is included in the image.
  • an information processing apparatus comprising: a sentence generation unit that generates a sentence representing a state of the object.
  • object information that is information related to a predetermined object included in the image
  • object information that is information related to a predetermined object included in the image
  • express the state of the object included in the image using the acquired object information.
  • the computer acquires object information that is information related to a predetermined object included in the image, and the state of the object included in the image using the acquired object information.
  • a computer program is provided for generating a sentence that represents.
  • FIG. 3 is an explanatory diagram illustrating a functional configuration example of an image processing apparatus 100 according to an embodiment of the present disclosure.
  • FIG. 5 is a flowchart illustrating an operation example of the image processing apparatus 100 according to an embodiment of the present disclosure.
  • 5 is a flowchart illustrating an operation example of the image processing apparatus 100 according to an embodiment of the present disclosure. It is explanatory drawing which shows the example of a division
  • FIG. 4 is an explanatory diagram illustrating an example of image information i101 input from the image input apparatus 10 to the image processing apparatus 100.
  • FIG. 4 is an explanatory diagram illustrating an example of image information i101 input from the image input apparatus 10 to the image processing apparatus 100.
  • FIG. It is explanatory drawing which shows the example of the grade level at the time of a subdivision. It is explanatory drawing which shows an example of the sentence generation template i104 which the image processing apparatus 100 uses.
  • 4 is an explanatory diagram illustrating an example of image information i101 input from the image input apparatus 10 to the image processing apparatus 100.
  • FIG. 10 is an explanatory diagram illustrating an example of processing for excluding a recognized object from image information i101 by the image processing apparatus 100.
  • FIG. 11 is an explanatory diagram illustrating a modified example of the image processing apparatus 100 according to an embodiment of the present disclosure. It is explanatory drawing which shows the example of presentation of a difference with search conditions. It is an example of GUI (Graphical User Interface) of image search processing.
  • FIG. 11 is an explanatory diagram illustrating a modified example of the image processing apparatus 100 according to an embodiment of the present disclosure. It is explanatory drawing which shows the hardware structural example.
  • Such an existing image processing technique grasps the position in the image where the object to be recognized is located as the positional relationship on the XY two axes on the screen or on the three axes considering the depth. .
  • the recognition result is expressed as physical numerical information, it is difficult to intuitively determine the recognition result.
  • the recognition result is expressed as physical numerical information, it is difficult to intuitively determine the recognition result.
  • the person cannot understand what the image is. Have difficulty.
  • the present inventors examined a technique for presenting the recognition result of the image as a qualitative expression. Then, as described below, the present disclosure enables a user to intuitively grasp the recognition result of the image information by executing a process of converting the recognition result of the image into language information. I came up with the idea.
  • FIG. 1 is an explanatory diagram illustrating a functional configuration example of the image processing apparatus 100 according to an embodiment of the present disclosure.
  • FIG. 1 is an explanatory diagram illustrating a functional configuration example of the image processing apparatus 100 according to an embodiment of the present disclosure.
  • FIG. 1 is an explanatory diagram illustrating a functional configuration example of the image processing apparatus 100 according to an embodiment of the present disclosure.
  • FIG. 1 is an explanatory diagram illustrating a functional configuration example of the image processing apparatus 100 according to an embodiment of the present disclosure.
  • FIG. 1 is an explanatory diagram illustrating a functional configuration example of the image processing apparatus 100 according to an embodiment of the present disclosure.
  • the image processing apparatus 100 illustrated in FIG. 1 performs image processing on the image information i101 sent from the image input apparatus 10, recognizes an object included in the image information i101, and expresses the positional relationship of the object in a language. It is a device aimed at.
  • the image input apparatus 10 that also provides the image information i101 for the image processing apparatus 100 may be an apparatus such as a digital camera, a smartphone, or a tablet terminal that captures an image, such as a personal computer on which an image is recorded. It may be a device.
  • the image information i101 provided by the image input device 10 may be a still image or a moving image.
  • the image processing apparatus 100 includes an image processing unit 110, an image position language information conversion unit 120, a language generation unit 130, a contour information processing unit 140, An RGB color name conversion unit 150 and a background processing unit 160 are included.
  • the image processing unit 110 performs image processing on the image information i101 provided by the image input device 10, and recognizes an object included in the image information i101. As shown in FIG. 1, the image processing unit 110 includes an object recognition unit 111, an image recognition region setting unit 112, and an object position information extraction unit 113.
  • the object recognition unit 111 executes recognition of a predetermined object included in the image information i101.
  • the object to be recognized by the object recognition unit 111 is not limited to a specific object, and various objects can be recognized.
  • the object recognition unit 111 can recognize how many objects exist in the image information i101 by executing recognition of the objects included in the image information i101.
  • the object recognizing unit 111 sends information related to the recognized object obtained as a result of the recognition process on the image information i101, for example, the name of the recognized object, information on the number of recognized objects, and the like to the image position language information converting unit 120.
  • the image recognition area setting unit 112 sets a range in which the object recognition unit 111 executes object recognition for the image information i101.
  • the object recognition unit 111 executes recognition of a predetermined object included in the image information i101 with respect to the range of the image information i101 set by the image recognition region setting unit 112.
  • the image recognition area setting unit 112 first sets an area to execute processing for the entire range of the image information i101 when the object recognition unit 111 executes object recognition for the image information i101 for the first time. For example, if there is a request for re-recognition in the vicinity of the detected object, the region may be set so that the process is executed only in the vicinity of the object.
  • the object position information extraction unit 113 extracts the position in the image information i101 of the predetermined object included in the image information i101 recognized by the object recognition unit 111 as position information.
  • the object position information extraction unit 113 may extract the position of the center of gravity of a predetermined object included in the image information i101 as position information.
  • the object position information extraction unit 113 may obtain the position of the center of gravity by integration.
  • the object position information extraction unit 113 sends the position information of a predetermined object included in the image information i101 to the image position language information conversion unit 120.
  • the image position language information conversion unit 120 receives the information sent from the image processing unit 110, specifically the information about the recognized object sent from the object recognition unit 111, and the position information extracted by the object position information extraction unit 113. Execute processing to convert to language information.
  • the image position language information conversion unit 120 generates information about what kind of object exists in the image information i101 as language information. Specific conversion processing by the image position language information conversion unit 120 will be described in detail later.
  • the image position language information conversion unit 120 includes a language position information correspondence table i102, a degree adverb level table i103, Is used. When the image position language information conversion unit 120 converts the information sent from the image processing unit 110 into language information, the image position language information conversion unit 120 sends the language information to the language generation unit 130.
  • the language generation unit 130 uses the language information sent from the image position language information conversion unit 120 to generate language information i105 representing the state of the image information i101, that is, a sentence representing the state of the image information i101.
  • the language generation unit 130 adds the language information sent from the image position language information conversion unit 120 to the template stored in the sentence generation template i104 when generating a sentence representing the state of the image information i101. By applying, a sentence representing the state of the image information i101 is generated. Details of processing for generating a sentence representing the state of the image information i101 by the language generation unit 130 will be described later.
  • the contour information processing unit 140 acquires coordinate information of the contour of the object recognized by the object recognition unit 111 using the information sent from the image processing unit 110.
  • the contour information processing unit 140 can use, for example, a known edge detection process when acquiring coordinate information of the contour of the object.
  • the contour information processing unit 140 sends the coordinate information of the contour of the object to the image position language information conversion unit 120.
  • the image position language information conversion unit 120 can determine whether or not the objects overlap when there are a plurality of objects in the image information i101 by acquiring coordinate information of the contours of the objects. It is possible to generate language information according to the state.
  • the RGB color name conversion unit 150 acquires the color of the recognized object using information sent from the image processing unit 110, specifically, information about the recognized object sent from the object recognition unit 111.
  • the RGB color name conversion unit 150 sends the color information of the recognized object to the language generation unit 130.
  • the language generation unit 130 obtains information on the color of the recognized object from the RGB color name conversion unit 150, thereby adding information on the color of the object recognized by the object recognition unit 111 to the text representing the state of the image information i101. I can do it.
  • the background processing unit 160 executes processing for acquiring what the background of the image information i101 is. Specifically, the background processing unit 160 uses the information sent from the image processing unit 110 to execute image processing for removing the recognized object recognized by the object recognition unit 111 from the image information i101. Then, the background processing unit 160 sends the image information i101 from which the recognition object is removed to the image search device 20.
  • the image search device 20 can use a known device that executes a search process for an image.
  • the background processing unit 160 acquires a search result in the image search device 20, and obtains information related to the background of the image information i101.
  • the background processing unit 160 sends information related to the background of the image information i101 to the language generation unit 130.
  • the language generation unit 130 can obtain the background information of the image information i101 from the background processing unit 160, thereby adding the background information of the image information i101 to the text representing the state of the image information i101.
  • FIGS. 2A and 2B are flowcharts illustrating an operation example of the image processing apparatus 100 according to an embodiment of the present disclosure.
  • 2A and 2B illustrate an operation example of the image processing apparatus 100 according to an embodiment of the present disclosure when generating language information i105 representing the state of the image information i101 from the image information i101.
  • FIGS. 2A and 2B an operation example of the image processing apparatus 100 according to an embodiment of the present disclosure will be described with reference to FIGS. 2A and 2B.
  • the image processing apparatus 100 first inputs image information i101 from the image input apparatus 10 (step S101).
  • the image information i101 may be a still image or a moving image.
  • the image processing device 100 subsequently recognizes an object included in the image information i101 (step S102).
  • the recognition processing in step S102 is executed by, for example, the image processing unit 110, specifically, the object recognition unit 111.
  • the image processing apparatus 100 acquires the name of the object, the color of the object, and the size and position of the object in the image information i101 by the recognition process in step S102.
  • the image processing apparatus 100 can execute, for example, a known object recognition process at the time of the recognition process in step S102.
  • a technology for recognizing an object such as a person or a car from an input image and recognizing the recognized object is widely known.
  • This object recognition processing is applied to, for example, an automatic shutter of a camera or a surveillance camera. Has been widely put into practical use.
  • this object recognition processing recognizes an object in the input image by analyzing the input image, and acquires what the recognized object is from the input image by, for example, obtaining a search for a database or the like. This is a process for grasping whether or not the image is reflected.
  • the image processing apparatus 100 When the object included in the image information i101 is recognized in step S102, the image processing apparatus 100 subsequently extracts where the recognized object is in the image. First, the image processing apparatus 100 calculates the center of gravity of the recognized object (step S103).
  • the processing in step S103 is executed by, for example, the image processing unit 110, specifically, the object position information extraction unit 113.
  • the center of gravity may be calculated by integration with respect to the recognized object.
  • step S104 the image processing apparatus 100 subsequently divides the image area of the image information i101 (step S104).
  • the processing in step S104 is executed by the image position language information conversion unit 120, for example.
  • the image position language information conversion unit 120 divides the region into three equal parts for each of the X axis and the Y axis based on the maximum value of the XY coordinates of the entire image.
  • FIG. 3 is an explanatory diagram illustrating an example of dividing the image area of the image information i101 by the image position language information conversion unit 120.
  • the image position language information conversion unit 120 divides the region into three equal parts for each of the X axis and the Y axis based on the maximum value of the XY coordinates of the entire image.
  • region names are assigned to each region with alphabets from A to I.
  • the image position language information conversion unit 120 assigns a language name to each divided area.
  • the image position language information conversion unit 120 refers to the language position information correspondence table i102.
  • FIG. 4 shows an example of correspondence between area names and language names stored in the language position information correspondence table i102.
  • the region A corresponds to the names “upper left” and “upper left”.
  • step S105 the image processing apparatus 100 determines in which area of the image information i101 the center of gravity of the recognized object is located (step S105).
  • the process of step S105 is executed by the image position language information conversion unit 120, for example.
  • FIG. 6 is an explanatory diagram illustrating an example of the image information i101 input from the image input device 10 to the image processing device 100.
  • FIG. 6 shows an example in which a human face 200 is present in the image information i101.
  • step S102 the human face 200 is detected, and in step S103, the center of gravity 201 of the human face 200 is calculated.
  • step S105 it is determined in which region of the image information i101 the center of gravity 201 of the recognized human face 200 is located. In the example shown in FIG. 6, it can be seen that the center of gravity 201 is located in the region A.
  • step S105 If it is determined in step S105 which area of the image information i101 the center of gravity of the object is located in, the image processing apparatus 100 performs language conversion of the area having the center of gravity (step S106).
  • the process of step S105 is executed by the image position language information conversion unit 120, for example. If it can be determined in step S105 that the center of gravity 201 is located in the region A as shown in FIG. 6, the image processing apparatus 100 refers to the language position information correspondence table i102 shown in FIG. , The region A is converted into the word “upper left”.
  • the image processing apparatus 100 may perform the discrimination processing and language conversion more finely for the region having the center of gravity.
  • step S107 the image processing apparatus 100 further divides the area having the center of gravity (step S107).
  • the process of step S107 is executed by the image position language information conversion unit 120, for example.
  • the image position language information conversion unit 120 divides the region into three equal parts for each of the X axis and the Y axis based on the maximum value of the XY coordinates of the region having the center of gravity.
  • the image processing apparatus 100 When the region having the center of gravity is divided, the image processing apparatus 100 subsequently determines in which region the divided object is located in the region having the center of gravity. Then, when the image processing apparatus 100 determines in which divided region in the region where the center of gravity the recognized object is located, an adverb indicating a degree corresponding to the position is added to the above-described step S106. Is given to the language (word) converted in step S108. The processing in step S108 is executed by the image position language information conversion unit 120, for example.
  • the image position language information conversion unit 120 refers to the degree adverb level table i103.
  • FIG. 5 is an example of correspondence between levels and adverbs stored in the degree adverb level table i103.
  • adverbs such as “very”, “pretty”, “very” and “very” are assigned as adverbs corresponding to the level “large”.
  • FIG. 7 is an explanatory diagram illustrating a state in which the area A is extracted from the image information i101 input from the image input apparatus 10 to the image processing apparatus 100.
  • step S108 it is determined in which region in the region A of the image information i101 the center of gravity 201 of the recognized human face 200 is located.
  • the center of gravity 201 is located in the region I in the region A.
  • the degree level at the time of subdivision is divided into three levels, large, medium, and small, depending on the combination of the original area and the area after subdivision.
  • FIG. 8 is an explanatory diagram illustrating an example of the degree level at the time of subdivision.
  • the horizontal axis indicates the divided area at the time of the first division
  • the vertical axis indicates the divided area after the re-division. That is, if the divided area at the time of the first division is the area A and the divided area after the re-division is the area I, it can be seen that the level is “small”.
  • adverbs such as “little”, “just a little”, “somewhat”, etc. are assigned as adverbs corresponding to the level “small”.
  • the image position language information conversion unit 120 refers to the level at the time of subdivision shown in FIG. Convert to word. Note that this region division processing may be repeated until the center of gravity of the object recognized in the recognition processing in step S102 becomes the center of the divided region.
  • step S109 the image processing apparatus 100 determines whether there is only one object recognized in the recognition process in step S102 (step S109).
  • the determination in step S109 can be executed by the image position language information conversion unit 120, for example.
  • step S109 If the result of the determination in step S109 is that there is only one object recognized in the recognition process in step S102 (step S109, Yes), then the image processing apparatus 100 refers to the sentence generation template i104. Then, a sentence is generated by applying the sentence generation template i104 to the word converted in step S108 (step S110). The process of step S110 is executed by, for example, the language generation unit 130.
  • FIG. 9 is an explanatory diagram showing an example of a sentence generation template i104 used by the image processing apparatus 100.
  • the object name obtained by the recognition processing of the object recognition unit 111 is applied to the ⁇ target-n> tag of the sentence generation template i104 shown in FIG.
  • the ⁇ position-n> tag is applied with the language information of the position of the image obtained by the conversion processing of the image position language information conversion unit 120.
  • Object overlap information obtained from the image position language information conversion unit 120 is applied to the ⁇ connection-n> tag.
  • the color information of the object obtained from the RGB color name conversion unit 150 is applied to the ⁇ color-n> tag.
  • the ⁇ action-n> tag is applied with the motion of the object obtained by the conversion processing of the image position language information conversion unit 120 when the image information i101 sent from the image input device 10 is a moving image.
  • the language generation unit 130 refers to the sentence generation template i104 and sets ⁇ position-1> to “little”. By applying “upper left” and “face” to ⁇ target-1>, for example, a sentence “There is a face slightly on the upper left of the screen” is created.
  • the language generation unit 130 refers to the sentence generation template i104, applies the word converted in step S108 to each tag of the template, and creates at least one sentence from sentences that match the template.
  • the selection of text from the template may be made in advance by the user, or may be made depending on the number of objects for object recognition and the difference in recognition areas.
  • step S110 when a sentence is generated by applying the sentence generation template i104, the image processing apparatus 100 subsequently adds “recognized object name”, “absolute / relative position”, “color”, “size”, “ Text relating to the object such as “depth” is complemented (step S111).
  • the process of step S111 is executed by the language generation unit 130, for example.
  • the language generation unit 130 uses the phrase “Taro's” or “Taro's” as the “face”. To create a sentence “Taro's face is in the upper left of the screen” or “Taro ’s face is in the upper left of the screen”. If there is only one object recognized in the recognition process in step S102, it is not necessary to supplement the positional relationship between the objects, but there are two or more objects recognized in the recognition process in step S102 as described later. In this case, the language generation unit 130 supplements the positional relationship between the objects.
  • the language generation unit 130 can convert the relationship between the objects in the image information i101 into a sentence that is easier to understand by complementing the positional relationship between the objects.
  • step S111 when the text is created by complementing the content related to the object in the template, the image processing apparatus 100 subsequently executes background processing on the image information i101 (step S112).
  • the background processing unit 160 executes the process in step S111, for example.
  • the background processing unit 160 uses the information sent from the image processing unit 110 to execute image processing for removing the recognized object recognized by the object recognition unit 111 from the image information i101.
  • the background processing unit 160 sends the image information i101 from which the recognition object is removed to the image search device 20.
  • the image search device 20 can use a known device that executes a search process for an image.
  • the background processing unit 160 acquires a search result in the image search device 20, and obtains information related to the background of the image information i101.
  • the background processing unit 160 sends information related to the background of the image information i101 to the language generation unit 130.
  • step S111 the image processing apparatus 100 then creates a sentence by complementing the background-related content obtained by the background processing (step S113).
  • the process of step S111 is executed by the language generation unit 130, for example.
  • the language generation unit 130 can obtain the background information of the image information i101 from the background processing unit 160, thereby adding the background information of the image information i101 to the text representing the state of the image information i101. For example, when it is found that Mt. Fuji is reflected in the background as a result of the background processing, the language generation unit 130 generates, for example, a sentence “Taro's face is slightly on the left of the screen with Mt. Fuji in the background”. I can do it.
  • An example of background processing in the background processing unit 160 will be described later.
  • step S109 when there are two or more objects recognized in the recognition process in step S102 (step S109, No), the image processing apparatus 100 continues to recognize from the recognized objects.
  • a reference object (hereinafter, this reference object is also referred to as “reference object”) is determined.
  • the image processing apparatus 100 determines the object having the largest area among the recognized objects as the reference object (step S114).
  • the process of step S114 can be executed by the image position language information conversion unit 120, for example.
  • the image processing apparatus 100 may determine the reference object that is not the largest object among the recognized objects, but the object closest to the center of the image information i101. Further, the image processing apparatus 100 may determine an object having the highest luminance or saturation among recognized objects as a reference object in addition to the area and position reference.
  • step S115 the image processing apparatus 100 determines whether all the recognized objects are in the same region.
  • the process of step S115 can be executed by the image position language information conversion unit 120, for example.
  • the image processing apparatus 100 gives priority to the absolute position information when generating the text (step S116).
  • step S115, No the image processing apparatus 100 prioritizes the relative position information when generating the text (step S117).
  • the image processing apparatus 100 can generate a text such as “Taro's face and Hanako's face are in the upper left”, for example.
  • a text such as “Taro's face and Hanako's face are in the upper left”, for example.
  • the image processing apparatus 100 uses the recognized “Taro's face” as a reference object. For example, “Taro's face is at the upper left of the image and Hanako's face is It is possible to generate a sentence “It is in the lower right of Taro's face”. That is, it is possible to generate a sentence that expresses the position of the object whose state is to be expressed as a relative position with respect to the reference object.
  • the image processing apparatus 100 When it is determined in step S116 or step S117 that the absolute position information or the relative position information is prioritized, the image processing apparatus 100 subsequently calculates the relative position between the plurality of recognized objects (step S118). For example, the image position language information conversion unit 120 executes the relative position calculation processing between the plurality of recognized objects in step S118. After calculating the relative positions between the plurality of recognized objects in step S118, the image processing apparatus 100 subsequently performs language conversion of the relative positions between the plurality of recognized objects (step S119). The processing in step S119 is executed by the image position language information conversion unit 120, for example.
  • FIG. 10 is an explanatory diagram illustrating an example of the image information i101 input from the image input apparatus 10 to the image processing apparatus 100.
  • FIG. 10 shows an example in which the automobile 300 and the person 400 exist in the image information i101.
  • Reference numeral 301 indicates the center of gravity of the automobile 300, and reference numeral 401 indicates the center of gravity of the human 400.
  • the image processing apparatus 100 calculates the relative position between the automobile 300 and the person 400 in step S118.
  • the maximum value of the X coordinate and the Y coordinate of the image information i101 is 100.
  • the image processing apparatus 100 determines that the “human” is located in the “lower right” of “car” and the “car” is located in the “upper left” of “human”. It is possible to generate relative position information consisting of three elements, i.
  • Step S120 When the language conversion of the relative positions between the plurality of recognized objects is performed in step S119, the image processing apparatus 100 then assigns an adverb that indicates the degree of the relative distances on the X axis and the Y axis with respect to the entire screen.
  • the process of step S120 is executed by the image position language information conversion unit 120, for example.
  • a conversion method of the degree for example, when the maximum value that each of the X axis and the Y axis can take is 100, when the distance between the two objects exceeds 75, “level is high”, and when the distance is below 25, “ It may be determined that the level is “small” and the other levels are “medium”. Of course, it goes without saying that this threshold can be arbitrarily changed.
  • the image processing apparatus 100 refers to the degree adverb level table i103 shown in FIG. 5 and adds the degree adverb to the relative position information.
  • FIG. 11 is an explanatory diagram illustrating another example of the image information i101 input from the image input apparatus 10 to the image processing apparatus 100.
  • FIG. 11 is an explanatory diagram illustrating another example of the image information i101 input from the image input apparatus 10 to the image processing apparatus 100.
  • FIG 11 shows an example in which the automobile 300 and the person 400 exist in the image information i101.
  • the image processing apparatus 100 can acquire relative position information of “automobile: slightly lower right: human” or “human: slightly upper left: automobile”.
  • step S121 the image processing apparatus 100 determines whether the recognition objects overlap.
  • the process of step S121 can be executed by the image position language information conversion unit 120, for example.
  • step S122 the image processing apparatus 100 subsequently executes an overlap-related language conversion process.
  • the processing in step S122 can be executed by, for example, the image position language information conversion unit 120.
  • the contour information processing unit 140 uses the information sent from the image processing unit 110 to acquire coordinate information of the contour of the object recognized by the object recognition unit 111. Then, the contour information processing unit 140 sends the coordinate information of the contour of the object to the image position language information conversion unit 120.
  • the image position language information conversion unit 120 can determine whether or not the objects overlap when there are a plurality of objects in the image information i101 by acquiring coordinate information of the contours of the objects. It is possible to generate language information according to the state.
  • the overlapping state of the recognition objects is expressed by four patterns of “include / include”, “overlap”, “contact”, and “separate”.
  • FIG. 12 is an explanatory diagram illustrating the representation of the overlapping state of the respective recognition objects.
  • FIG. 12 shows the overlapping state of a triangular object and a round object, which are recognition objects.
  • the image processing apparatus 100 determines the overlap of recognized objects, and in step S122, the image processing apparatus 100 converts the overlap relationship of recognized objects into a language using one of the four patterns. For example, if the state of the recognition object is the upper left state in FIG. 12, the image processing apparatus 100 can convert it into language information such as “triangle: touching: circle”.
  • the image processing apparatus 100 may express the degree of overlap according to the ratio of the overlap area. For example, when the object 1 and the object 2 that are two recognition objects overlap each other, the image processing apparatus 100, when the area of the portion where the object 1 and the object 2 overlap is 25% or less of the area of the object 1 The degree of overlap may be “small”, “large” when 75% or more, and “medium” otherwise. This degree of determination may be executed by the contour information processing unit 140. When the two recognition objects are separated, the image processing apparatus 100 may obtain the distance between the centroids of the recognition objects and determine the degree information according to the distance between the centroids of the recognition objects.
  • the image processing apparatus 100 sets the degree of the distance to “small”, and when the distance is 75% or more. “Large” and other cases may be “medium”.
  • step S122 the image processing apparatus 100 subsequently gives the degree adverb with reference to the information on the degree of overlap of the recognized objects and the degree adverb level table i103. Conversion into language information (step S123).
  • the process of step S122 can be executed by, for example, the image position language information conversion unit 120.
  • step S123 the image processing apparatus 100 converts the linguistic information to which adverbs such as “a little overlap”, “a lot overlap”, “a little apart”, “a lot apart”, etc. are added. I can do it.
  • the image processing apparatus 100 may execute image processing of a three-dimensional image, and when the target image information i101 is a three-dimensional image, the Z axis in the depth direction may be added to the processing target as a relative position.
  • the image processing apparatus 100 determines the depth of the recognized object (step S124).
  • the process of step S124 can be executed by, for example, the image position language information conversion unit 120.
  • the image processing apparatus 100 subsequently executes a depth-related language conversion process (step S125).
  • the process of step S125 can be executed by the image position language information conversion unit 120, for example.
  • step S126 the image processing apparatus 100 converts the linguistic information to which the degree adverb is assigned according to the depth relationship.
  • the process of step S126 can be executed by the image position language information conversion unit 120, for example.
  • step S126 the image processing apparatus 100 converts the linguistic information to which the adverb is added, such as “slightly behind”, “slightly behind”, “slightly in front”, “slightly in front”, etc. I can do it.
  • the image processing apparatus 100 proceeds to the sentence generation template reference process in step S110 and completes the creation of the sentence. For example, when priority is given to relative position information when generating a sentence, the image processing apparatus 100 generates a sentence using the template for relative position in the sentence generation template i104 shown in FIG. Further, when the image processing apparatus 100 uses the sentence generation template i104 to generate a sentence when there are two or more recognized objects, the image processing apparatus 100 sets the relative position from the reference object determined in step S114 as the sentence generation template i104. You may apply. Further, the image processing apparatus 100 uses not only the text representing the relative position of the recognized other object based on the reference object, but also the size, shape, color, etc.
  • a sentence including a relative state expression may be generated by the language generation unit 130 using the sentence generation template i104. For example, let us consider a case where two objects A and B and states such as the size, shape and color of these objects are recognized from the image information i101 and the object A is determined as a reference object.
  • the language generation unit 130 has “B is larger than A”, “B is higher than A”, “S” as sentences indicating the relative state of other objects with respect to the object A.
  • a sentence such as “B is redr than A” may be generated using the sentence generation template i104.
  • the RGB information of the recognition object is sent to the RGB color name conversion unit 150, and the RGB color name conversion unit 150 can obtain a representative color of the recognition object.
  • a representative color is a color that occupies the largest area among the recognition objects.
  • the color information obtained by the RGB color name conversion unit 150 is passed to the language generation unit 130.
  • the language generation unit 130 generates a sentence by referring to the sentence generation template i104.
  • the ⁇ color-n> tag on the sentence generation template i104 is converted to RGB color name conversion.
  • Sentence generation is performed by replacing the color information obtained by the unit 150.
  • FIG. 13 is an explanatory diagram illustrating another example of the image information i101 input from the image input apparatus 10 to the image processing apparatus 100.
  • FIG. 13 shows image information i101 having two red apples on the desk. Therefore, when the image information i101 shown in FIG. 13 is processed by the image processing apparatus 100, the image processing apparatus 100 performs the above-described series of processing in the language generation unit 130 with “There are red apples and red apples on the desk”. Instead, a sentence such as “There are two red apples on the desk” or “There are two red apples on the desk” can be generated.
  • the RGB color name conversion unit 150 determines a combination of two colors as color information of the recognition object such as “red and blue”. May be.
  • the number “2” is verbalized.
  • the verbalization of the number may be executed in the language generation unit 130.
  • the language generation unit 130 collects input recognition objects having the same plural conditions and counts the number of the recognition objects.
  • the image processing apparatus 100 has three elements: “recognized object name” (apple), “relative position with respect to the desk” (on the desk), and “color” (red).
  • the number of recognized objects is collected, and a sentence is generated in a form complemented as language information in a portion corresponding to the ⁇ count-n> tag on the sentence generation template i104.
  • the language generation unit 130 can generate language information by collecting a plurality of input recognition objects having the same conditions. Note that the language generation unit 130 may generate the language information without using the position information when the absolute position information of the object having the same name is different. In addition, when the color information of the objects having the same name is different, the language generation unit 130 may generate the language information as different objects without performing aggregation. In addition, even if the same object exists in the image information i101, the language generation unit 130 may generate the language information as different objects without performing aggregation if the sizes of the objects with the same name are different.
  • the image processing apparatus 100 may obtain the area of the recognition object from the outline of the recognition object and express the size of the recognition object in a language according to the ratio of the entire screen. For example, when the area of the recognized object is 30% or more with respect to the area of the entire screen, it is defined as “large”, and when it is 3% or less, it is defined as “small”.
  • FIG. 14 is an explanatory diagram illustrating another example of the image information i101 input from the image input apparatus 10 to the image processing apparatus 100. In the example illustrated in FIG. 14, the image processing apparatus 100 can generate a sentence “There is a small circle in a large triangle on the upper left of the screen”.
  • the image processing apparatus 100 may exclude the recognition object from the image information i101 and obtain what is reflected in the background of the image information i101 from the search result of the image search apparatus 20.
  • the background processing unit 160 can execute the process of excluding the recognized object from the image information i101 and the process of acquiring the search result by the image search apparatus 20.
  • FIG. 15 is an explanatory diagram illustrating an example of a process of excluding a recognized object from the image information i101 by the image processing apparatus 100.
  • image information i101 in which a car 300 and a human 400 are present as recognition objects, and mountains and forests are shown as a background.
  • the background processing unit 160 excludes the car 300 and the person 400 from the image information i101, and passes the image information i101 after the exclusion to the image search device 20.
  • the right side of FIG. 15 shows image information i101 in which the automobile 300 and the person 400 are excluded from the image information i101, and only the mountains and forests are shown.
  • the image search device 20 executes image search processing using the image information i101 from which the recognized objects (the car 300 and the human 400) are excluded, and for example, “mountain of nature”, “mountain”, “mountain and forest”, etc. Get the result. Then, the image search device 20 returns the result of the image search processing of the image information i101 from which the recognition object is excluded to the image processing device 100.
  • the background processing unit 160 that has acquired the result of the image search process using the image information i101 from which the recognition object is excluded from the image search apparatus 20 passes the result of the image search process of the image information i101 to the language generation unit 130.
  • the language generation unit 130 obtains the result of the image search process using the image information i101 from which the recognition object is excluded, acquired from the background processing unit 160, as a portion corresponding to the ⁇ back-n> tag on the sentence generation template i104.
  • Sentences can be generated in a form complemented as language information.
  • the language generating unit 130 can generate a sentence such as “There is a car slightly in the lower left with a mountain of nature in the background, and there is a person to the right of it” from the image information i101 shown in FIG.
  • the background processing unit 160 may regard the largest rectangular area as the background in the image obtained by excluding the recognition object from the original image information i101.
  • the background processing unit 160 may use the name of the image obtained by the image search process in the image search device 20 as the background name. In some cases, a background cannot be obtained from an image obtained by deleting a recognized object from the original image information i101. In consideration of such a case, the background processing unit 160 may use the color that is the center of the image as the background name in the image in which the recognized object is deleted from the original image information i101.
  • the color that becomes the center of the image may be, for example, the color that occupies the widest range.
  • the image processing apparatus 100 may generate a sentence such as “There is a person slightly below the right side of the car” or “There is a car slightly above the left side of the person”. I can do it.
  • a user when selecting a sentence from the sentence generation template i104, a user may select in advance, a priority may be set in advance, or the number of objects for object recognition may be different. Alternatively, it may be selected according to an object that is the center of the topic.
  • the method of acquiring the center of the topic is not limited to a specific method, for example, by acquiring the converted sentence from a device having a function of converting the sound uttered by the user into a sentence, and analyzing the sentence It may be a method of acquiring the center of a topic, or a method of acquiring a topic that is trending on the Internet, for example.
  • the image information i101 is a still image.
  • the image processing apparatus 100 performs frame units or predetermined frames. By executing the above-described series of processes for each time, a sentence can be similarly created from the image information i101.
  • the image processing apparatus 100 can list what image exists at which time of the moving image by executing the above-described series of processing. .
  • the recognition object may be moving.
  • the image processing apparatus 100 can determine the moving direction of the object by moving the center of gravity of the recognized object.
  • the image position language information conversion unit 120 can generate the language information “move from right to lower left” when it is found that the recognized object is moving from the region F to the region G in FIG. .
  • the language generation unit 130 applies the language information generated by the image position language information conversion unit 120 to the ⁇ action-n> tag of the sentence generation template i104, and says that “the car is moving from the right to the lower left”. Sentences can be generated.
  • the image processing apparatus 100 has the above-described configuration, and can convert the image information i101 into text by performing the above-described operation.
  • the image processing apparatus 100 according to an embodiment of the present disclosure may create a text index obtained from the image information i101.
  • the image processing apparatus 100 can search for image information based on text information by searching for an index using text information.
  • FIG. 16 is an explanatory diagram illustrating a modified example of the image processing apparatus 100 according to an embodiment of the present disclosure.
  • the image processing apparatus 100 illustrated in FIG. 16 is obtained by adding an index generation unit 170 and an image search unit 180 to the image processing apparatus 100 illustrated in FIG.
  • the index generation unit 170 uses the language information i105 generated by the language generation unit 130 to generate index information i106.
  • the index information i106 generated by the index generation unit 170 is stored in association with the base image information i101.
  • the index generation unit 170 may use conceptual information (ontology) for the object when generating the index information i106. Further, when generating the index information i106, the index generation unit 170 may convert the text into a color code such as RGB, contrary to the processing in the RGB color name conversion unit 150.
  • the image search unit 180 searches the image information i101 that matches or is similar to the search condition by searching the index information i106 generated by the index generation unit 170, and presents the image information i101.
  • the image processing apparatus 100 When the image search unit 180 executes the search of the index information i106 generated by the index generation unit 170, the image processing apparatus 100 according to the embodiment of the present disclosure can match the search condition or the image similar to the search condition. It becomes possible to search for information i101.
  • the priority at the time of search may be, for example, the order of object name, color, size, and order of positional relationship.
  • the image search unit 180 may change the priority at the time of image search when searching the index information i106 generated by the index generation unit 170 according to, for example, the appearance order of words in the search condition input by the user.
  • the image search unit 180 may present the matching point or the difference. Further, the image search unit 180 may present which object the search condition is matched by emphasizing the contour of the object that matches the search condition.
  • the image search unit 180 may present the difference by an attribute (color, blanking, shading, etc.) indicating the difference when presenting the difference from the search condition.
  • FIG. 17 is an explanatory diagram illustrating an example of presentation of differences from the search condition. For example, if the search statement is "a photo of a blue car and people in the background of nature", an image that matches the conditions other than the car color but has a different car color is found. The difference may be presented by blinking the area of the car, the difference may be presented by emphasizing the outline of the car, or the difference may be presented by surrounding the car with a frame. Good.
  • the presentation example of the difference is not limited to such an example.
  • the image search unit 180 denies the search condition by text such as “background is not red”.
  • the difference from the search condition may be expressed by text such as “background is blue”.
  • the image search unit 180 may change the weighting of the next search result based on the search history and the search result. For example, search conditions such as “a thing that is more red”, “a person who is on the right”, “a thing that moves more slowly”, and “a little brighter background” are specified for the search result by the image search unit 180. Then, the image search unit 180 may perform a narrow search or a re-search on the search result.
  • the search by the image search unit 180 may be performed by voice by adding voice recognition.
  • the speech recognition is sequentially sent to the image search unit 180, the image automatically appearing in the conversation is embodied.
  • the image search unit 180 sequentially accumulates search result histories and displays the search results, thereby enabling visual comparison of the search results, and the user can finally select a desired image. It becomes possible.
  • the image search unit 180 may present the search result as text, or may synthesize the text and present it by voice.
  • the image search unit 180 may further search for an image similar to the search result by image search.
  • FIG. 18 is an example of a GUI for image search processing by the image processing apparatus 100 according to an embodiment of the present disclosure.
  • Reference numeral 501 denotes a text box for inputting a search condition
  • reference numeral 502 denotes an image that matches the search condition.
  • the acquired image may be displayed at the corner of the screen as indicated by reference numeral 503.
  • the image processing apparatus 100 can express scene information indicating what kind of scene the image information i101 is based on text obtained from the image information i101.
  • the image processing apparatus 100 can construct a database of scene information.
  • FIG. 19 is an explanatory diagram illustrating a modification of the image processing apparatus 100 according to an embodiment of the present disclosure.
  • the image processing apparatus 100 shown in FIG. 19 has a configuration in which a scene recognition unit 190 is further included in the image processing apparatus 100 shown in FIG.
  • the scene recognition unit 190 recognizes what kind of scene the image information i101 is from the language information i105, and constructs the scene information i107 in a database.
  • the scene recognition unit 190 expresses a scene with three tags of “recognized object”, “motion”, and “scene expression” by using metatext such as tags, and constructs the scene information i107 in a database.
  • the recognition object the name, color, shape, size, etc. of the object are designated.
  • the scene expression can be freely set by the user. Person names can be combined into role names. In the scene expression, a person name, color, movement, etc. can be specified as attributes.
  • the scene recognition unit 190 uses the content name, the time from the beginning, and the object recognition result of the image information i101 that is a moving image when the scene information i107 is constructed.
  • the scene recognizing unit 190 refers to the scene conversion table i108 when constructing the scene information i107.
  • the scene conversion table i108 is a table that summarizes what kind of scene the recognized object included in the language information i105 is in what state. An example of scene data stored in the scene conversion table i108 is shown below. Of course, the scene data stored in the scene conversion table i108 is not limited to this example.
  • the scene recognition unit 190 uses the language information i105 to generate a scene tag and a scene text by referring to the scene conversion table i108. For example, the scene recognizing unit 190 generates the following scene tag and scene text from the language information i105 “There are Mr. X and Mr. Y”.
  • the ⁇ time> tag of the scene tag shown below is the time in the image information i101
  • the ⁇ sea> tag is scene data selected from the data stored in the scene conversion table i108
  • the ⁇ name> tag is the name of the person who appears. Represents.
  • the scene recognizing unit 190 generates the following scene tag and scene text from the language information i105 "There are Mr. X and Mr. Y with the coast as a background.”
  • scene tag ⁇ Time> 11:24:31 ⁇ / time> ⁇ Sea> date ⁇ / sea> ⁇ Attribute> ⁇ Name> X san ⁇ / name> ⁇ Name> Y san / name ⁇ / Attribute> (Example of scene text) "Date scene of Mr. X and Mr. Y"
  • the scene recognition unit 190 generates the following scene tag and scene text from the language information i105 “There is a car handle in front of Mr. X”.
  • scene tag ⁇ Time> 12:23:21 ⁇ / time>
  • ⁇ Attribute> ⁇ Name> X san ⁇ / name>
  • ⁇ / Attribute> Example of scene text
  • the scene recognizing unit 190 is a kiss scene if the lips and lips overlap each other, a car accident scene if the car and cars overlap each other, or an image that emits smoke from the top of the mountain. It is possible to generate a scene tag or scene text that means an eruption scene. For example, if the image information i101 is one scene of a quiz program and the red circle and the blue square move up and down, the scene recognition unit 190 can generate a scene tag or scene text that means a specific corner. I can do it.
  • the scene recognition unit 190 may use closed caption data if the image information i101 includes a closed caption. By using the closed caption data, the scene recognition unit 190 can increase the accuracy of scene recognition.
  • the scene recognizing unit 190 can construct the scene information i107 over all the sections of the image information i101 using the language information i105.
  • the scene information i107 constructed by the scene recognition unit 190 can be applied to various processes for the image information i101.
  • the image processing apparatus 100 can create a thumbnail of the image information i101 by determining that the scene tag switching is a scene change based on the scene information i107 constructed by the scene recognition unit 190. Further, for example, the image processing apparatus 100 can set a scene section between the same scenes and no scene change. Further, for example, the image processing apparatus 100 can determine that no scene change has occurred when the character does not change.
  • the image processing apparatus 100 can be combined with commercial detection, and if it is determined that the scene is the same even if the commercial is sandwiched, a tag representing inheritance of the scene can be added.
  • the image processing apparatus 100 may use a combination of a scene change process by general image processing and a scene change process using the scene information i107 constructed by the scene recognition unit 190.
  • the image processing apparatus 100 enables further image processing using the language information i105 by converting the image information i101 into the language information i105.
  • the index generation unit 170, the image search unit 180, and the scene recognition unit 190 described above can be provided in a device different from the image processing device 100 as long as the language information i105 can be referred to.
  • FIG. 20 is a block diagram illustrating a hardware configuration example of the image processing apparatus 100 according to the embodiment of the present disclosure.
  • Each of the algorithms described above can be executed using, for example, the hardware configuration of the information processing apparatus illustrated in FIG. That is, the processing of each algorithm is realized by controlling the hardware shown in FIG. 20 using a computer program.
  • the form of this hardware is arbitrary, for example, personal information terminals such as personal computers, mobile phones, PHS, PDAs, game machines, contact or non-contact IC chips, contact or non-contact ICs This includes cards or various information appliances.
  • PHS is an abbreviation of Personal Handy-phone System.
  • the PDA is an abbreviation for Personal Digital Assistant.
  • this hardware mainly includes a CPU 902, a ROM 904, a RAM 906, a host bus 908, and a bridge 910. Further, this hardware includes an external bus 912, an interface 914, an input unit 916, an output unit 918, a storage unit 920, a drive 922, a connection port 924, and a communication unit 926.
  • the CPU is an abbreviation for Central Processing Unit.
  • the ROM is an abbreviation for Read Only Memory.
  • the RAM is an abbreviation for Random Access Memory.
  • the CPU 902 functions as, for example, an arithmetic processing unit or a control unit, and controls the overall operation of each component or a part thereof based on various programs recorded in the ROM 904, the RAM 906, the storage unit 920, or the removable recording medium 928.
  • the ROM 904 is a means for storing a program read by the CPU 902, data used for calculation, and the like.
  • a program read by the CPU 902 various parameters that change as appropriate when the program is executed, and the like are temporarily or permanently stored.
  • a host bus 908 capable of high-speed data transmission.
  • the host bus 908 is connected to an external bus 912 having a relatively low data transmission speed via a bridge 910, for example.
  • a bridge 910 for example.
  • the input unit 916 for example, a mouse, a keyboard, a touch panel, a button, a switch, a lever, or the like is used.
  • a remote controller capable of transmitting a control signal using infrared rays or other radio waves may be used.
  • a display device such as a CRT, LCD, PDP, or ELD
  • an audio output device such as a speaker or a headphone, a printer, a mobile phone, or a facsimile, etc.
  • the above CRT is an abbreviation of Cathode Ray Tube.
  • the LCD is an abbreviation for Liquid Crystal Display.
  • the PDP is an abbreviation for Plasma Display Panel.
  • the above ELD is an abbreviation for Electro-Luminescence Display.
  • the storage unit 920 is a device for storing various data.
  • a magnetic storage device such as a hard disk drive (HDD), a semiconductor storage device, an optical storage device, a magneto-optical storage device, or the like is used.
  • HDD hard disk drive
  • the above HDD is an abbreviation for Hard Disk Drive.
  • the drive 922 is a device that reads information recorded on a removable recording medium 928 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, or writes information to the removable recording medium 928.
  • the removable recording medium 928 is, for example, a DVD medium, a Blu-ray medium, an HD DVD medium, various semiconductor storage media, or the like.
  • the removable recording medium 928 may be, for example, an IC card on which a non-contact type IC chip is mounted, an electronic device, or the like.
  • the above IC is an abbreviation for Integrated Circuit.
  • the connection port 924 is a port for connecting an external connection device 930 such as a USB port, an IEEE 1394 port, a SCSI, an RS-232C port, or an optical audio terminal.
  • the external connection device 930 is, for example, a printer, a portable music player, a digital camera, a digital video camera, or an IC recorder.
  • the USB is an abbreviation for Universal Serial Bus.
  • the SCSI is an abbreviation for Small Computer System Interface.
  • the communication unit 926 is a communication device for connecting to the network 932.
  • a wired or wireless LAN for example, a wired or wireless LAN, Bluetooth (registered trademark), or a WUSB communication card, an optical communication router, an ADSL router, or a contact Or a device for non-contact communication.
  • the network 932 connected to the communication unit 926 is configured by a wired or wireless network, such as the Internet, home LAN, infrared communication, visible light communication, broadcast, or satellite communication.
  • the above LAN is an abbreviation for Local Area Network.
  • the WUSB is an abbreviation for Wireless USB.
  • the above ADSL is an abbreviation for Asymmetric Digital Subscriber Line.
  • Each component described above may be configured using a general-purpose member, or may be configured by hardware specialized for the function of each component. Such a configuration can be appropriately changed according to the technical level at the time of implementation.
  • the image processing apparatus 100 that recognizes an object included in image information and generates language information from the image information using the recognition result of the object is generated.
  • the image processing apparatus 100 recognizes an object included in the image information, and expresses the position in a linguistic expression such as “lower right of screen” or “middle right of screen”. Or the position relationship between the object and the target can be expressed in language, such as "right next to the red car", “in front of the red car”, “much right from the red car", or "on the table” become.
  • the image processing apparatus 100 is also effective for action support for a person with low vision or a blind person.
  • a person wears a camera and images the front to obtain image information, and when he is walking on the road, he / she gives a notice that “a car comes from the left” or “ It is also possible to present guidance information that “there is a remote control”.
  • the image processing apparatus 100 can also be used for analysis of medical images. For example, when an image captured inside the body with an endoscope, an X-ray, or the like is input to the image processing apparatus 100 as image information, the image processing by the image processing apparatus 100 according to an embodiment of the present disclosure, for example, “upper right of the stomach entrance” Diagnostic information such as “There is cancer in the direction” or “There is a white inflammatory part in the lower part of the left lung” can be obtained as language information. Therefore, the image processing apparatus 100 according to an embodiment of the present disclosure can easily identify the position of an affected part in an organ after an organ such as a stomach or a lung is recognized by object recognition. In addition, the image processing apparatus 100 according to an embodiment of the present disclosure can improve the accuracy of pathological image recognition by using language information obtained from image information as additional information during learning of image recognition. is there.
  • the image processing apparatus 100 is highly effective in providing information from an image in an environment where it is difficult to watch a display such as a car navigation system or a wearable computer. Further, the image processing apparatus 100 according to an embodiment of the present disclosure is effective for a person with low vision or a blind person to grasp an image of image information. The image processing apparatus 100 according to an embodiment of the present disclosure is also effective as an aid for image analysis and pathological diagnosis in the medical field.
  • each step in the processing executed by each device in this specification does not necessarily have to be processed in chronological order in the order described as a sequence diagram or flowchart.
  • each step in the processing executed by each device may be processed in an order different from the order described as the flowchart, or may be processed in parallel.
  • the image processing apparatus 100 is different from an apparatus including a display that displays an image displayed as a result of the processing of the image processing apparatus 100 (for example, a display via a network such as the Internet).
  • the server device may be implemented as a server device that is connected to a device provided with a terminal device that receives information from the server device.
  • the configuration of the image processing apparatus 100 according to an embodiment of the present disclosure may be realized by a single apparatus or may be realized by a system in which a plurality of apparatuses cooperate.
  • a system in which a plurality of devices are linked may include, for example, a combination of a plurality of server devices, a combination of a server device and a terminal device, or the like.
  • the software that implements the user interface and application shown in the above embodiment may be realized as a web application used via a network such as the Internet.
  • the web application may be realized by, for example, a markup language such as HTML (HyperText Markup Language), SGML (Standard Generalized Markup Language), or XML (Extensible Markup Language).
  • the language generation unit 130 may use information associated with the image information i101 when generating language information.
  • the language generation unit 130 may use, for example, metadata included in the image information i101 as information associated with the image information i101.
  • the metadata included in the image information i101 can include, for example, information on the shooting date and time and the shooting position.
  • the language generation unit 130 can generate language information with a larger amount of information by using the metadata included in the image information i101.
  • An object information acquisition unit that acquires object information that is information related to a predetermined object included in the image
  • a sentence generation unit that generates a sentence representing the state of the object included in the image using the object information acquired by the object information acquisition unit
  • An information processing apparatus comprising: (2) The information processing apparatus according to (1), wherein the object information is information obtained by analyzing the image.
  • An object information generation unit that generates the object information based on the image; The information processing apparatus according to (2), wherein the object information generation unit divides the image into a predetermined number and generates the object information using expressions related to the divided areas.
  • the sentence generation unit generates an expression representing a relative positional relationship between the plurality of objects based on an object having the largest area in the image among the plurality of objects.
  • the information processing apparatus described. The sentence generation unit generates an expression representing a relative positional relationship between the plurality of objects with reference to an object closest to the center of the image among the plurality of objects.
  • Information processing device. (10) The information processing apparatus according to (7), wherein the sentence generation unit generates an expression representing a relative positional relationship between the plurality of objects with reference to an object having the highest luminance among the plurality of objects. .
  • the information processing apparatus according to any one of (7) to (14), wherein the sentence includes an expression representing a color of the object.
  • the sentence generation unit generates a sentence using metadata included in the image.
  • the information processing apparatus according to any one of (1) to (16), further including an index generation unit that generates an index of the sentence generated by the sentence generation unit.
  • the information processing apparatus according to any one of (1) to (17), further including a scene recognition unit that recognizes a scene of the image using the text generated by the text generation unit.
  • Image processing apparatus 110 Image processing part 111 Object recognition part 112 Image recognition area setting part 113 Object position information extraction part 120 Image position language information conversion part 130 Language generation part 140 Contour information processing part 150 RGB color name conversion part 160 Background processing part 170 Index generation unit 180 Image search unit 190 Scene recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

【課題】画像情報の認識結果を直感的に捉えさせることが可能な情報処理装置を提供する。 【解決手段】画像に含まれる所定の物体に関連する情報である物体情報を取得する物体情報取得部と、前記物体情報取得部が取得した前記物体情報を用いて前記画像に含まれている前記物体の状態を表す文章を生成する文章生成部と、を備える、情報処理装置が提供される。かかる構成を有することにより、情報処理装置は、物体の状態を表す文章の提示によって、画像情報の認識結果を直感的に捉えさせることが可能となる。

Description

情報処理装置、情報処理方法及びコンピュータプログラム
 本開示は、情報処理装置、情報処理方法及びコンピュータプログラムに関する。
 画像情報を基に物体を認識する技術が広く用いられている(例えば特許文献1等参照)。例えば、画像情報から顔や所定の物体を認識する技術は、デジタルカメラ、スマートフォン、パーソナルコンピュータで動作する画像処理ソフトウェア、ロボット装置等で広く用いられている。
特開2013-175956号公報
 画像情報の認識結果は、画面上のX-Yの2軸、または奥行きを考慮した3軸上の位置関係として捉えることが出来る。しかし、この認識結果は物理的な数字情報として表現されるので、認識結果を直感的に判断することが難しい。
 そこで本開示では、画像情報の認識結果を直感的に捉えさせることが可能な、新規かつ改良された情報処理装置、情報処理方法及びコンピュータプログラムを提案する。
 本開示によれば、画像に含まれる所定の物体に関連する情報である物体情報を取得する物体情報取得部と、前記物体情報取得部が取得した前記物体情報を用いて前記画像に含まれている前記物体の状態を表す文章を生成する文章生成部と、を備える、情報処理装置が提供される。
 また本開示によれば、画像に含まれる所定の物体に関連する情報である物体情報を取得することと、取得した前記物体情報を用いて前記画像に含まれている前記物体の状態を表す文章を生成することと、を含む、情報処理方法が提供される。
 また本開示によれば、コンピュータに、画像に含まれる所定の物体に関連する情報である物体情報を取得することと、取得した前記物体情報を用いて前記画像に含まれている前記物体の状態を表す文章を生成することと、を実行させる、コンピュータプログラムが提供される。
 以上説明したように本開示によれば、画像情報の認識結果を直感的に捉えさせることが可能な、新規かつ改良された情報処理装置、情報処理方法及びコンピュータプログラムを提供することが出来る。
 なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の一実施形態に係る画像処理装置100の機能構成例を示す説明図である。 本開示の一実施形態に係る画像処理装置100の動作例を示す流れ図である。 本開示の一実施形態に係る画像処理装置100の動作例を示す流れ図である。 画像位置言語情報変換部120による画像情報i101の画像領域の分割例を示す説明図である。 言語位置情報対応テーブルi102に格納される、領域名と言語としての名称との対応例である。 程度副詞レベルテーブルi103に格納される、レベルと副詞との対応例である。 画像入力装置10から画像処理装置100へ入力される画像情報i101の例を示す説明図である。 画像入力装置10から画像処理装置100へ入力される画像情報i101の例を示す説明図である。 再分割時の程度レベルの例を示す説明図である。 画像処理装置100が使用する文生成テンプレートi104の一例を示す説明図である。 画像入力装置10から画像処理装置100へ入力される画像情報i101の例を示す説明図である。 画像入力装置10から画像処理装置100へ入力される画像情報i101の別の例を示す説明図である。 認識物体の重なりの状態の表現について示す説明図である。 画像入力装置10から画像処理装置100へ入力される画像情報i101の別の例を示す説明図である。 画像入力装置10から画像処理装置100へ入力される画像情報i101の別の例を示す説明図である。 画像処理装置100による、画像情報i101から認識物体を除外する処理の一例を示す説明図である。 本開示の一実施形態に係る画像処理装置100の変形例を示す説明図である。 検索条件との相違点の提示例を示す説明図である。 画像検索処理のGUI(Graphical User Interface)の例である。 本開示の一実施形態に係る画像処理装置100の変形例を示す説明図である。 ハードウェア構成例を示す説明図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 なお、説明は以下の順序で行うものとする。
 1.本開示の一実施形態
  1.1.概要
  1.2.機能構成例
  1.3.動作例
  1.4.変形例
 2.ハードウェア構成例
 3.まとめ
 <1.本開示の一実施形態>
 [1.1.概要]
 まず、本開示の好適な実施の形態について詳細に説明するにあたり、本実施形態の概要について説明する。上述したように、画像情報を基に物体を認識する技術が広く用いられ、画像情報から顔や所定の物体を認識する技術は、デジタルカメラ、スマートフォン、パーソナルコンピュータで動作する画像処理ソフトウェア、ロボット装置等で広く用いられている。
 このような既存の画像処理技術は、認識対象の物体が画像中のどの位置にあるかを、画面上のX-Yの2軸、または奥行きを考慮した3軸上の位置関係として捉えていた。しかし、この認識結果は物理的な数字情報として表現されるので、認識結果を直感的に判断することが難しい。特に、目の不自由な人に対して画像の認識結果を提示する場合、物理的な数字情報を提示しても、その人は、その画像がどのような画像であるのかを理解することは困難である。
 また健常者であっても、画像を注視することが難しい環境、例えば自動車を運転している際のカーナビゲーションシステムや、ウェアラブルコンピュータの使用時においては、どのような画像が認識されているのかの判断が困難となる。
 そこで、本件開示者らは、画像の認識結果を定性的な表現として提示するための技術について検討を行なった。そして本件開示者らは、以下で説明するように、画像の認識結果を言語情報に変換する処理を実行することで、画像情報の認識結果をユーザに直感的に捉えさせることが可能となる技術を想到するに至った。
 以上、本実施形態の概要について説明した。続いて、本開示の好適な実施の形態について詳細に説明する。まず、本開示の一実施形態に係る画像処理装置の機能構成例について説明する。
 [1.2.機能構成例]
 次に、図面を参照しながら本開示の一実施形態に係る画像処理装置の機能構成例について説明する。図1は、本開示の一実施形態に係る画像処理装置100の機能構成例を示す説明図である。以下、図1を用いて本開示の一実施形態に係る画像処理装置100の機能構成例について説明する。
 図1に示した画像処理装置100は、画像入力装置10から送られる画像情報i101に対する画像処理を実行し、画像情報i101に含まれる物体を認識し、その物体の位置関係を言語で表現することを目的とした装置である。なお、画像処理装置100も画像情報i101を提供する画像入力装置10は、例えば画像を撮像するデジタルカメラ、スマートフォン、タブレット端末等の装置であってもよく、画像が記録されているパーソナルコンピュータ等の装置であってもよい。また画像入力装置10が提供する画像情報i101は、静止画であってもよく、動画であってもよい。
 図1に示したように、本開示の一実施形態に係る画像処理装置100は、画像処理部110と、画像位置言語情報変換部120と、言語生成部130と、輪郭情報処理部140と、RGB色名変換部150と、背景処理部160と、を含んで構成される。
 画像処理部110は、画像入力装置10が提供する画像情報i101に対する画像処理を実行し、画像情報i101に含まれる物体を認識する。図1に示したように、画像処理部110は、物体認識部111と、画像認識領域設定部112と、物体位置情報抽出部113と、を含んで構成される。
 物体認識部111は、画像情報i101に含まれている所定の物体の認識を実行する。物体認識部111が認識の対象とする物体は特定の物体に限定されるものではなく、様々な物体が認識の対象となり得る。物体認識部111は、画像情報i101に含まれている物体の認識の実行により、画像情報i101にどのような物体がいくつ存在しているか、を認識することが出来る。物体認識部111は、画像情報i101に対する認識処理の結果として得られる認識物体に関する情報、例えば認識した物体の名称や、認識した物体の数の情報等を画像位置言語情報変換部120に送る。
 画像認識領域設定部112は、画像情報i101に対して物体認識部111が物体の認識を実行する範囲を設定する。物体認識部111は、画像認識領域設定部112が設定した画像情報i101の範囲に対して、画像情報i101に含まれている所定の物体の認識を実行する。画像認識領域設定部112は、最初に画像情報i101に対して物体認識部111が物体の認識を実行する際には画像情報i101の全範囲について処理を実行するように領域を設定し、例えばユーザなどから、検出した物体の近傍について再認識の要求があれば、その物体の近傍に限定して処理を実行するように領域を設定してもよい。
 物体位置情報抽出部113は、物体認識部111が認識した、画像情報i101に含まれている所定の物体の、画像情報i101における位置を位置情報として抽出する。物体位置情報抽出部113は、画像情報i101に含まれている所定の物体の重心の位置を、位置情報として抽出しても良い。物体位置情報抽出部113は、画像情報i101に含まれている所定の物体の重心の位置を、位置情報として抽出する場合は、その重心の位置を積分により求めても良い。物体位置情報抽出部113は、画像情報i101に含まれている所定の物体の位置情報を画像位置言語情報変換部120に送る。
 画像位置言語情報変換部120は、画像処理部110から送られてくる情報、具体的には、物体認識部111から送られる認識物体に関する情報、及び物体位置情報抽出部113が抽出した位置情報を、言語情報に変換する処理を実行する。画像位置言語情報変換部120は、言語情報として、画像情報i101のどこにどのような物体が存在しているか、についての情報を生成する。画像位置言語情報変換部120による具体的な変換処理については、後に詳述するが、変換に際しては、画像位置言語情報変換部120は、言語位置情報対応テーブルi102と、程度副詞レベルテーブルi103と、を用いる。画像位置言語情報変換部120は、画像処理部110から送られてくる情報を言語情報に変換すると、その言語情報を言語生成部130に送る。
 言語生成部130は、画像位置言語情報変換部120から送られてくる言語情報を用いて、画像情報i101の状態を表す言語情報i105、すなわち画像情報i101の状態を表す文章を生成する。本実施形態では、言語生成部130は、画像情報i101の状態を表す文章の生成に際し、文生成テンプレートi104に格納されているテンプレートに、画像位置言語情報変換部120から送られてくる言語情報を適用することで、画像情報i101の状態を表す文章を生成する。言語生成部130による、画像情報i101の状態を表す文章の生成処理の詳細については後述する。
 輪郭情報処理部140は、画像処理部110から送られてくる情報を用いて、物体認識部111が認識した物体の輪郭の座標情報を取得する。輪郭情報処理部140は、物体の輪郭の座標情報の取得に際し、例えば公知のエッジ検出処理を用いることが出来る。輪郭情報処理部140は、物体の輪郭の座標情報を画像位置言語情報変換部120に送る。画像位置言語情報変換部120は、物体の輪郭の座標情報を取得することで、画像情報i101に物体が複数存在する場合に、その物体が重なっているかどうかを判断することが出来るとともに、その重なりの状態に応じた言語情報を生成することが出来る。
 RGB色名変換部150は、画像処理部110から送られてくる情報、具体的には、物体認識部111から送られる認識物体に関する情報を用いて、その認識物体の色を取得する。RGB色名変換部150は、認識物体の色の情報を言語生成部130に送る。言語生成部130は、RGB色名変換部150から認識物体の色の情報を得ることで、画像情報i101の状態を表す文章に、物体認識部111が認識した物体の色の情報を加えることが出来る。
 背景処理部160は、画像情報i101の背景がどのようなものであるかを取得する処理を実行する。具体的には、背景処理部160は、画像処理部110から送られてくる情報を用いて、物体認識部111が認識した認識物体を画像情報i101から取り除く画像処理を実行する。そして背景処理部160は、認識物体を取り除いた画像情報i101を画像検索装置20に送る。画像検索装置20は、画像について検索処理を実行する公知の装置を使用することが可能である。背景処理部160は、画像検索装置20での検索結果を取得し、画像情報i101の背景に関する情報を得る。背景処理部160は、画像情報i101の背景に関する情報を言語生成部130に送る。言語生成部130は、背景処理部160から画像情報i101の背景に関する情報を得ることで、画像情報i101の状態を表す文章に、画像情報i101の背景の情報を加える事ができる。
 以上、図1を用いて本開示の一実施形態に係る画像処理装置100の機能構成例について説明した。続いて、本開示の一実施形態に係る画像処理装置100の動作例について説明する。
 [1.3.動作例]
 図2A及び図2Bは、本開示の一実施形態に係る画像処理装置100の動作例を示す流れ図である。図2A及び図2Bに示したのは、画像情報i101から、画像情報i101の状態を表す言語情報i105を生成する際の、本開示の一実施形態に係る画像処理装置100の動作例である。以下、図2A及び図2Bを用いて本開示の一実施形態に係る画像処理装置100の動作例について説明する。
 画像処理装置100は、まず画像入力装置10から画像情報i101を入力する(ステップS101)。この画像情報i101は静止画であってもよく、動画であっても良いが、まずは画像情報i101が静止画である例を示す。画像入力装置10から画像情報i101を入力すると、続いて画像処理装置100は、画像情報i101に含まれる物体の認識を行なう(ステップS102)。このステップS102の認識処理は、例えば画像処理部110が、具体的には物体認識部111が実行する。画像処理装置100は、ステップS102の認識処理により、物体の名称、物体の色、画像情報i101における物体の大きさや位置を取得する。画像処理装置100は、ステップS102の認識処理の際に、例えば、公知の物体認識処理を実行することが出来る。入力画像から、人物や自動車等の物体を認識するとともに、その認識した物体が何であるかを認識する技術は広く知られており、この物体認識処理は、例えばカメラの自動シャッタや監視カメラに適用されるなどして広く実用化されているものである。具体的には、この物体認識処理は、入力画像の解析により入力画像中の物体を認識し、その認識した物体が何であるかを、例えばデータベースなどに対する検索により取得することで、入力画像から何が写っているかを把握する処理である。
 画像情報i101に含まれる物体の認識をステップS102で行なうと、続いて画像処理装置100は、認識した物体が画像中のどの場所にあるかを抽出する。まず画像処理装置100は、認識した物体の重心を算出する(ステップS103)。このステップS103の処理は、例えば画像処理部110が、具体的には物体位置情報抽出部113が実行する。ステップS103では、例えば認識した物体に対する積分により重心が算出されても良い。
 認識した物体の重心をステップS103で算出すると、続いて画像処理装置100は、画像情報i101の画像領域を分割する(ステップS104)。このステップS104の処理は、例えば画像位置言語情報変換部120が実行する。本実施形態では、画像位置言語情報変換部120は、画像全体のX-Y座標の最大値を基に、X軸、Y軸それぞれに対して3等分するように領域を分割する。
 図3は、画像位置言語情報変換部120による画像情報i101の画像領域の分割例を示す説明図である。図3に示した例では、画像位置言語情報変換部120は、画像全体のX-Y座標の最大値を基に、X軸、Y軸それぞれに対して3等分するように領域を分割した上で、各領域にAからIまでのアルファベットで領域名を付与している。
 また画像位置言語情報変換部120は、分割した各領域に対して、言語としての名称を割り当てる。この割り当てに際しては、画像位置言語情報変換部120は言語位置情報対応テーブルi102を参照する。図4は、言語位置情報対応テーブルi102に格納される、領域名と言語としての名称との対応例である。例えば領域Aであれば「左上」や「左の上」という名称に対応する。
 画像情報i101の画像領域を分割すると、続いて画像処理装置100は、認識した物体の重心が画像情報i101のどの領域に位置しているかを判別する(ステップS105)。このステップS105の処理は、例えば画像位置言語情報変換部120が実行する。
 図6は、画像入力装置10から画像処理装置100へ入力される画像情報i101の例を示す説明図である。図6では、人間の顔200が画像情報i101に存在している場合の例が示されている。上記ステップS102で、人間の顔200の検出が行われ、上記ステップS103で、人間の顔200の重心201の算出が行われる。そして、上記ステップS105で、認識した人間の顔200の重心201が画像情報i101のどの領域に位置しているかが判別される。図6に示した例では、重心201は領域Aに位置していることが分かる。
 物体の重心が画像情報i101のどの領域に位置しているかをステップS105で判別すると、続いて画像処理装置100は、その重心のある領域の言語変換を行なう(ステップS106)。このステップS105の処理は、例えば画像位置言語情報変換部120が実行する。図6に示したように重心201は領域Aに位置していることがステップS105で判別できれば、画像処理装置100は、図4に一例を示した言語位置情報対応テーブルi102を参照し、ステップS106において、領域Aを「左上」という単語に変換する。
 これで重心のある領域の言語変換が行われたが、画像処理装置100は、その重心のある領域についてより細かく判別処理及び言語変換を行なっても良い。
 重心のある領域の言語変換をステップS106で行なうと、続いて画像処理装置100は、その重心のある領域をさらに分割する(ステップS107)。このステップS107の処理は、例えば画像位置言語情報変換部120が実行する。本実施形態では、画像位置言語情報変換部120は、重心のある領域のX-Y座標の最大値を基に、X軸、Y軸それぞれに対して3等分するように領域を分割する。
 重心のある領域を分割すると、続いて画像処理装置100は、認識した物体の重心が、重心のある領域の中の、どの分割後の領域に位置しているかを判別する。そして画像処理装置100は、認識した物体の重心が、重心のある領域の中の、どの分割後の領域に位置しているかを判別すると、その位置に応じた程度を示す副詞を、上記ステップS106で変換した言語(単語)に付与する(ステップS108)。このステップS108の処理は、例えば画像位置言語情報変換部120が実行する。
 副詞の付与に際しては、画像位置言語情報変換部120は程度副詞レベルテーブルi103を参照する。図5は、程度副詞レベルテーブルi103に格納される、レベルと副詞との対応例である。図5に示した例では、レベル「大」に対応する副詞として「とても」、「かなり」、「すごく」、「たいへん」等の副詞が割り当てられている。
 図7は、画像入力装置10から画像処理装置100へ入力される画像情報i101から領域Aを抜き出した状態を示す説明図である。上記ステップS108で、認識した人間の顔200の重心201が画像情報i101の領域Aの中のどの領域に位置しているかが判別される。図7に示した例では、重心201は、領域Aの中の、領域Iに位置していることが分かる。
 再分割時の程度レベルは、元の領域と再分割後の領域との組み合わせによりにより、大、中、小の3つのレベルに分割される。図8は、再分割時の程度レベルの例を示す説明図である。横軸が最初の分割時の分割領域を示し、縦軸が再分割後の分割領域を示す。つまり、最初の分割時の分割領域が領域Aであり、再分割後の分割領域が領域Iであれば、程度レベルは「小」であることが分かる。そして図5に示した程度副詞レベルテーブルi103を参照すると、レベル「小」に対応する副詞として「少し」、「ちょっとだけ」、「やや」等の副詞が割り当てられていることが分かる。
 従って画像位置言語情報変換部120は、図7のような画像情報i101が画像入力装置10から入力された場合、図8に示した再分割時の程度レベルを参照し、例えば「少し左上」という単語に変換する。なお、この領域の分割処理は、上記ステップS102の認識処理で認識した物体の重心が分割後の領域の中心になるまで繰り返されても良い。
 上記ステップS108の処理が完了すると、続いて画像処理装置100は、上記ステップS102の認識処理で認識した物体が1つだけかどうかを判断する(ステップS109)。このステップS109の判断は、例えば画像位置言語情報変換部120が実行し得る。
 上記ステップS109の判断の結果、上記ステップS102の認識処理で認識した物体が1つだけであった場合は(ステップS109、Yes)、続いて画像処理装置100は、文生成テンプレートi104を参照して、上記ステップS108で変換した単語に文生成テンプレートi104を適用することで文を生成する(ステップS110)。このステップS110の処理は、例えば言語生成部130が実行する。
 図9は、画像処理装置100が使用する文生成テンプレートi104の一例を示す説明図である。図9に示した文生成テンプレートi104の<target-n>タグには、物体認識部111の認識処理によって得られた物体名が当てはめられる。<position-n>タグには、画像位置言語情報変換部120の変換処理より得られるその画像の位置の言語情報が当てはめられる。<conection-n>タグには、画像位置言語情報変換部120より得られる物体の重なり情報が当てはめられる。<color-n>タグには、RGB色名変換部150より得られる物体の色情報が当てはめられる。<action-n>タグには、画像入力装置10から送られる画像情報i101が動画像の際の、画像位置言語情報変換部120の変換処理より得られる物体の動きが当てはめられる。
 例えば、図6や図7の入力画像例のように、顔が画像の少し左上に位置している場合、言語生成部130は、文生成テンプレートi104を参照し、<position-1>に「少し左上」を、<target-1>に「顔」を適用することで、例えば「画面の少し左上に顔があります。」という文章を作成する。
 言語生成部130は、文生成テンプレートi104を参照して、テンプレートの各タグに上記ステップS108で変換した単語を当てはめて、テンプレートに合致する文章の中から少なくとも1つの文章を作成する。テンプレートからの文章の選択は、ユーザによりあらかじめなされていてもよく、物体認識の対象物の数や認識領域の違いによりなされるようにしてもよい。
 上記ステップS110で、文生成テンプレートi104の適用によって文を生成すると、続いて画像処理装置100は、テンプレートに「認識物体名」、「絶対/相対位置」、「色」、「大きさ」、「奥行き」等の、物体に関する内容を補完して、文章を作成する(ステップS111)。このステップS111の処理は、例えば言語生成部130が実行する。
 例えば、画像情報i101に含まれる顔が太郎君の顔であることを物体認識部111が認識した場合は、言語生成部130は、「顔」に「太郎の」または「太郎君の」という語句を補完して、「画面の少し左上に太郎の顔があります。」または「画面の少し左上に太郎君の顔があります。」という文章を作成する。なお、ステップS102の認識処理で認識した物体が1つだけの場合は、物体同士の位置関係を補完する必要はないが、後述のようにステップS102の認識処理で認識した物体が2つ以上の場合は、言語生成部130は、物体同士の位置関係を補完する。言語生成部130は、物体同士の位置関係を補完することで、画像情報i101における物体同士の関係性がよりわかりやすい文章に変換することが出来る。
 上記ステップS111で、テンプレートへ物体に関する内容を補完して文章を作成すると、続いて画像処理装置100は、画像情報i101に対する背景処理を実行する(ステップS112)。このステップS111の処理は、例えば背景処理部160が実行する。背景処理部160は、画像処理部110から送られてくる情報を用いて、物体認識部111が認識した認識物体を画像情報i101から取り除く画像処理を実行する。そして背景処理部160は、認識物体を取り除いた画像情報i101を画像検索装置20に送る。画像検索装置20は、画像について検索処理を実行する公知の装置を使用することが可能である。背景処理部160は、画像検索装置20での検索結果を取得し、画像情報i101の背景に関する情報を得る。背景処理部160は、画像情報i101の背景に関する情報を言語生成部130に送る。
 上記ステップS111で背景処理を実行すると、続いて画像処理装置100は、背景処理によって得られる背景に関する内容を補完して、文章を作成する(ステップS113)。このステップS111の処理は、例えば言語生成部130が実行する。言語生成部130は、背景処理部160から画像情報i101の背景に関する情報を得ることで、画像情報i101の状態を表す文章に、画像情報i101の背景の情報を加える事ができる。例えば、背景処理の結果として、背景に富士山が写っていることが分かった場合、言語生成部130は、例えば「富士山を背景に、画面の少し左上に太郎の顔があります。」という文章を生成することが出来る。背景処理部160での背景処理の例については後述する。
 一方、上記ステップS109の判断の結果、上記ステップS102の認識処理で認識した物体が2つ以上であった場合は(ステップS109、No)、続いて画像処理装置100は、認識した物体の中から基準となる物体(以下、この基準となる物体のことを「基準物体」とも称する)を決定する。例えば画像処理装置100は、認識した物体の中で最も面積が大きい物体を基準物体に決定する(ステップS114)。このステップS114の処理は、例えば画像位置言語情報変換部120が実行し得る。なお、画像処理装置100は、認識した物体の中で最も面積が大きい物体ではなく、最も画像情報i101の中心に近い物体を基準物体に決定してもよい。また、画像処理装置100は、面積や位置の基準の他に、認識した物体の中で最も輝度または彩度が高い物体を基準物体に決定してもよい。
 上記ステップS114で基準物体を決定すると、続いて画像処理装置100は、認識物体が全て同じ領域にあるかどうかを判断する(ステップS115)。このステップS115の処理は、例えば画像位置言語情報変換部120が実行し得る。ステップS115の判断の結果、認識物体が全て同じ領域にある場合は(ステップS115、Yes)、続いて画像処理装置100は、文章の生成に際して絶対位置情報を優先する(ステップS116)。一方ステップS115の判断の結果、認識物体が全て同じ領域では無い場合は(ステップS115、No)、続いて画像処理装置100は、文章の生成に際して相対位置情報を優先する(ステップS117)。
 文章の生成に際して絶対位置情報を優先する場合は、画像処理装置100は、例えば「太郎の顔と花子の顔が左上にあります」という文章を生成することが出来る。また文章の生成に際して相対位置情報を優先する場合は、画像処理装置100は、認識した「太郎の顔」を基準物体にする場合、例えば「太郎の顔が画像の左上にあり、花子の顔が太郎の顔の右下にあります」という文章を生成することが出来る。すなわち、状態を表現したい物体の位置を、基準物体との相対位置として表現する文章を生成することができる。
 上記ステップS116またはステップS117で、絶対位置情報または相対位置情報を優先することを決定すると、続いて画像処理装置100は、複数の認識物体間の相対位置を算出する(ステップS118)。ステップS118の、複数の認識物体間の相対位置の算出処理は、例えば画像位置言語情報変換部120が実行する。ステップS118で複数の認識物体間の相対位置を算出すると、続いて画像処理装置100は、複数の認識物体間の相対位置の言語変換を行なう(ステップS119)。このステップS119の処理は、例えば画像位置言語情報変換部120が実行する。
 図10は、画像入力装置10から画像処理装置100へ入力される画像情報i101の例を示す説明図である。図10では、自動車300及び人間400が画像情報i101に存在している場合の例が示されている。また符号301は自動車300の重心を、符号401は人間400の重心を、それぞれ示している。
 画像処理装置100は、上記ステップS118で、自動車300及び人間400との間の相対位置を算出する。画像情報i101のX座標及びY座標の最大値をそれぞれ100とする。画像処理装置100の物体認識処理の結果によって、自動車300の座標が(X,Y)=(15,50)、人間400の座標が(X,Y)=(70,40)であることが分かったとする。すると画像処理装置100は、上記ステップS118で、「自動車」の「右下」に「人間」が、「人間」の「左上」に「自動車」が位置するという、2つの認識物体と認識物体間の位置関係という、3つの要素からなる相対位置情報を生成することが出来る。
 上記ステップS119で複数の認識物体間の相対位置の言語変換を行なうと、続いて画像処理装置100は、X軸及びY軸におけるそれぞれの相対距離の、全画面に対する程度を示す程度副詞を付与する(ステップS120)。このステップS120の処理は、例えば画像位置言語情報変換部120が実行する。程度の変換方法としては、例えば、X軸、Y軸それぞれの取りうる最大値を100とした場合に対して2つの物体の距離が75を超える場合は「レベル大」、25を下回る場合は「レベル小」、それ以外は「レベル中」と判断してもよい。もちろん、この閾値は任意に変更可能であることは言うまでもない。距離の程度が判別されると、画像処理装置100は、図5に示した程度副詞レベルテーブルi103を参照して程度副詞を相対位置情報に付加する。
 図10のように自動車300及び人間400が画像情報i101に存在している場合は、画像処理装置100は、程度副詞レベルテーブルi103を適用することにより、「自動車:右少し下:人間」、または「人間:左少し上:自動車」という相対位置情報を取得することが出来る。なお、X軸とY軸のそれぞれに対して相対距離の程度が同じ場合、例えばX軸とY軸のいずれについても「レベル小」の場合は、画像処理装置100は、「少し右少し下」という表現は取らず、「少し右下」というように程度表現を一つにまとめてもよい。図11は、画像入力装置10から画像処理装置100へ入力される画像情報i101の別の例を示す説明図である。図11では、自動車300及び人間400が画像情報i101に存在している場合の例が示されている。このように相対距離の程度が同じ場合、画像処理装置100は、「自動車:少し右下:人間」、または「人間:少し左上:自動車」という相対位置情報を取得することが出来る。
 上記ステップS120で程度副詞を付与すると、続いて画像処理装置100は、認識物体の重なりを判別する(ステップS121)。ステップS121の処理は、例えば画像位置言語情報変換部120が実行し得る。そしてステップS121で認識物体の重なりを判別すると、続いて画像処理装置100は、重なり関係の言語変換処理を実行する(ステップS122)。ステップS122の処理は、例えば画像位置言語情報変換部120が実行し得る。
 上述したように、輪郭情報処理部140は、画像処理部110から送られてくる情報を用いて、物体認識部111が認識した物体の輪郭の座標情報を取得する。そして輪郭情報処理部140は、物体の輪郭の座標情報を画像位置言語情報変換部120に送る。画像位置言語情報変換部120は、物体の輪郭の座標情報を取得することで、画像情報i101に物体が複数存在する場合に、その物体が重なっているかどうかを判断することが出来るとともに、その重なりの状態に応じた言語情報を生成することが出来る。
 本実施形態では、「含んでいる/含まれる」「重なっている」「接している」「離れている」という4つのパターンによって認識物体の重なりの状態を表現する。図12は、それぞれの認識物体の重なりの状態の表現について示す説明図である。図12には、認識物体である三角形の物体と丸い物体とが、どのような重なりの状態にあるかが示されている。画像処理装置100は、上記ステップS121において、認識物体の重なりを判別し、上記ステップS122において、上記4つのパターンのいずれかを用いて、認識物体の重なり関係を言語に変換する。例えば、認識物体の状態が図12の左上の状態であれば、画像処理装置100は、「三角形:接している:丸」というような言語情報に変換することができる。
 画像処理装置100は、2つの認識物体が重なっている場合は、その重なりの面積の比率の程度によりその重なりの程度を表現しても良い。画像処理装置100は、例えば2つの認識物体である物体1と物体2とが重なっている場合、物体1と物体2とが重なっている部分の面積が物体1の面積の25%以下の場合は重なりの程度を「小」、75%以上の場合は「大」、それ以外の場合を「中」としてもよい。この程度の決定は輪郭情報処理部140が実行してもよい。また2つの認識物体が離れている場合は、画像処理装置100は、それぞれの認識物体の重心の距離を求め、認識物体の重心間の距離に応じて程度情報を決定してもよい。画像処理装置100は、認識物体の重心間の距離が画面全体の対角線の長さに対して、例えば25%以内である場合は離れている距離の程度を「小」、75%以上の場合は「大」、それ以外の場合を「中」としてもよい。
 そして上記ステップS122で、重なり関係の言語変換処理を実行すると、続いて画像処理装置100は、認識物体の重なりの程度の情報と、程度副詞レベルテーブルi103とを参照して、程度副詞を付与した言語情報に変換する(ステップS123)。このステップS122の処理は、例えば画像位置言語情報変換部120が実行し得る。画像処理装置100は、ステップS123で、「少し重なっている」、「かなり重なっている」、「少し離れている」、「かなり離れている」などの程度副詞を付与した言語情報に変換することが出来る。
 画像処理装置100は、3次元画像の画像処理を実行してもよく、対象の画像情報i101が3次元画像である場合、相対位置として奥行き方向のZ軸を処理対象に加えても良い。画像処理装置100は、対象の画像情報i101が3次元画像である場合、認識物体の奥行きを判別する(ステップS124)。ステップS124の処理は、例えば画像位置言語情報変換部120が実行し得る。そしてステップS124で認識物体の奥行きを判別すると、続いて画像処理装置100は、奥行き関係の言語変換処理を実行する(ステップS125)。ステップS125の処理は、例えば画像位置言語情報変換部120が実行し得る。そして画像処理装置100は、奥行きの関係に応じて程度副詞を付与した言語情報に変換する(ステップS126)。ステップS126の処理は、例えば画像位置言語情報変換部120が実行し得る。画像処理装置100は、ステップS126で、「少し奥にいる」、「かなり奥にいる」、「少し手前にいる」、「かなり手前にいる」などの程度副詞を付与した言語情報に変換することが出来る。
 認識物体が2つ以上の場合の一連の処理が終了すると、続いて画像処理装置100は、上記ステップS110の文生成テンプレートの参照処理に移行し、文章の作成を完了させる。例えば文章の生成に際して相対位置情報を優先する場合は、画像処理装置100は、図9に示した文生成テンプレートi104における相対位置用のテンプレートを用いて文章を生成する。また画像処理装置100は、文生成テンプレートi104を用いて認識物体が2つ以上の場合の文章を生成する際に、上記ステップS114で決定した基準物体からの相対的な位置を文生成テンプレートi104に当てはめても良い。また画像処理装置100は、基準物体を基準として、認識された他の物体の相対位置を表す文章だけでなく、例えば基準物体を基準として、認識された他の物体の大きさ、形状、色などの相対的な状態の表現を含んだ文章を、文生成テンプレートi104を用いて言語生成部130で生成してもよい。例えば、画像情報i101から2つの物体A、Bと、それらの物体の大きさ、形状、色などの状態が認識され、物体Aが基準物体に決定された場合を考える。言語生成部130は、物体Aを基準とした他の物体の相対的な状態を示す文章として、「Aよりも大きいのがBです。」、「Aよりも高いのがBです。」、「Aよりも赤いのがBです。」のような文章を、文生成テンプレートi104を用いて生成しても良い。
 ここで、上記ステップS111での、画像処理装置100による色情報の補完処理について説明する。認識物体のRGB情報はRGB色名変換部150に送られ、RGB色名変換部150によって認識物体の代表的な色を得ることが可能である。例えば、代表的な色は、認識物体の中で一番多くの面積を占める色とする。
 RGB色名変換部150で得られた色情報は言語生成部130に渡される。言語生成部130は、上述したように文生成テンプレートi104を参照して文の生成を行うが、文の生成の際に、文生成テンプレートi104上の<color-n>タグを、RGB色名変換部150で得られた色情報に置き換える形で文生成を行う。
 図13は、画像入力装置10から画像処理装置100へ入力される画像情報i101の別の例を示す説明図である。図13には、机の上に赤いリンゴが2個ある画像情報i101が示されている。従って、図13に示した画像情報i101を画像処理装置100で処理すると、画像処理装置100は上述の一連の処理により、言語生成部130において「机の上に赤いリンゴと赤いリンゴがあります」ではなく、「机の上に赤いリンゴが2個あります」または「机の上に2つの赤いリンゴがあります」のような文を生成すること出来る。
 認識物体に複数の色が含まれている場合で、かつ、それぞれの色の占める面積が所定の閾値(例えば該認識物体の面積の40%)を超える場合は、RGB色名変換部150は、複数の色の組み合わせを認識物体の色情報に決定してもよい。例えば、ある認識物体が、赤色と青色とが半分ずつの物体である場合は、RGB色名変換部150は、「赤と青」のように2つの色の組み合わせを認識物体の色情報に決定してもよい。
 上記の生成文では「2個」という個数が言語化されている。個数の言語化は言語生成部130において実行されても良い。言語生成部130は、入力される認識物体の中で、複数の条件が同じものをまとめて、その認識物体の数を数える。図13に示した画像情報i101の例では、画像処理装置100は、「認識物体名」(リンゴ)、「机との相対位置」(机の上)、「色」(赤い)の3つの要素が同じであった場合に、認識物体の数をまとめて、文生成テンプレートi104上の<count-n>タグに相当する部分に言語情報として補完する形で文を生成している。
 このように言語生成部130は、入力される認識物体の中で、複数の条件が同じものをまとめて、言語情報を生成することが出来る。なお、言語生成部130は、同一名の物体の絶対位置情報が異なる場合は、位置情報を用いずに言語情報を生成してもよい。また言語生成部130は、同一名の物体の色情報が異なる場合は、集約を行わずにそれぞれ別の物体として言語情報を生成してもよい。また言語生成部130は、画像情報i101に同じ物体が存在していても、同一名の物体の大きさが異なる場合は集約を行わずにそれぞれ別の物体として言語情報を生成してもよい。
 画像処理装置100は、認識物体の輪郭から認識物体の面積を求め、画面全体における割合に応じて、認識物体の大きさを言語により表現してもよい。例えば、画面全体の面積に対して認識物体の面積が30%以上ある場合は「大きい」と定義し、3%以下の場合は「小さい」と定義する。図14は、画像入力装置10から画像処理装置100へ入力される画像情報i101の別の例を示す説明図である。図14に示した例では、画像処理装置100は、「画面の左上に大きな三角の中に小さな丸があります」という文を生成することが出来る。
 画像処理装置100は、画像情報i101から認識物体を除外して、画像情報i101の背景に何が写っているかを画像検索装置20での検索の結果から取得してもよい。画像情報i101から認識物体を除外する処理や、画像検索装置20での検索の結果を取得する処理は背景処理部160が実行し得る。
 図15は、画像処理装置100による、画像情報i101から認識物体を除外する処理の一例を示す説明図である。図15の左側には、認識物体として自動車300及び人間400が存在し、また背景として山や森が写っている画像情報i101が示されている。背景処理部160は、画像情報i101から自動車300及び人間400を除外し、その除外後の画像情報i101を画像検索装置20に渡す。図15の右側には、画像情報i101から自動車300及び人間400が除外され、山と森だけが写っている画像情報i101が示されている。
 画像検索装置20は、認識物体(自動車300及び人間400)が除外された画像情報i101を用いて画像検索処理を実行し、例えば「大自然の山」、「山」、「山と森」等の結果を得る。そして画像検索装置20は、認識物体が除外された画像情報i101の画像検索処理の結果を画像処理装置100に返す。認識物体が除外された画像情報i101を用いた画像検索処理の結果を画像検索装置20から取得した背景処理部160は、その画像情報i101の画像検索処理の結果を言語生成部130に渡す。言語生成部130は、背景処理部160から取得した、認識物体が除外された画像情報i101を用いた画像検索処理の結果を、文生成テンプレートi104上の<back-n>タグに相当する部分に言語情報として補完する形で文を生成することが出来る。例えば言語生成部130は、図15に示した画像情報i101から「大自然の山を背景にやや左下に自動車があり、そのかなり右に人間がいます」というような文章を生成することが出来る。
 背景処理部160は、元の画像情報i101から認識物体を除外した画像の内、最大の矩形領域を背景とみなしてもよい。そして背景処理部160は、画像検索装置20での画像検索処理により得られた画像の名称を背景の名称としてもよい。なお、元の画像情報i101から認識物体を削除した画像から背景が得られない場合もあり得る。その場合を考慮し、背景処理部160は、元の画像情報i101から認識物体を削除した画像の内、画像の中心となる色を背景名としてもよい。画像の中心となる色は、例えば最も広い範囲を占める色であってもよい。
 上述した一連の処理によって、本実施形態に係る画像処理装置100は、「自動車の右少し下に人間がいます。」や「人間の左少し上に自動車があります。」という文を生成することが出来る。本実施形態に係る画像処理装置100は、文生成テンプレートi104からの文の選択に際して、ユーザによりあらかじめ選択されていてもよく、優先度が予め設定されていてもよく、物体認識の対象物の数の違いや、話題の中心になっている対象物により選択されていてもよい。話題の中心を取得する方法は特定の方法に限られるものではなく、例えばユーザが発話した音を文章に変換する機能を有する装置から該変換後の文章を取得し、その文章を解析することで話題の中心を取得する方法であってもよく、また例えばインターネット上でトレンドとなっている話題を取得する方法であってもよい。
 以上、図2A及び図2Bを用いて本開示の一実施形態に係る画像処理装置100の動作例について説明した。図2A及び図2Bに示した流れ図の説明に際しては、画像情報i101は静止画であるとしたが、画像情報i101が動画像である場合は、画像処理装置100は、フレーム単位、また所定のフレーム毎に上述の一連の処理を実行することで、同様に画像情報i101から文章を作成することが出来る。また画像情報i101が動画像である場合は、画像処理装置100は、上述の一連の処理を実行することで、動画像のどの時刻でどのような画像が存在するかをリスト化することが出来る。
 画像情報i101が動画像である場合、認識物体が移動していることがある。画像処理装置100は、物体の移動方向を、認識物体の重心の移動により判断することが可能である。画像位置言語情報変換部120は、認識物体が、例えば図3の領域Fから領域Gに移動していることが分かると、「右から左下へ移動」という言語情報を生成することが可能である。言語生成部130は、文生成テンプレートi104の<action-n>タグに、この画像位置言語情報変換部120が生成した言語情報を適用し、「自動車が右から左下に移動しています。」という文章を生成することができる。
 [1.3.変形例]
 (画像検索処理)
 本開示の一実施形態に係る画像処理装置100は、上述したような構成を有し、上述したような動作を実行することで、画像情報i101を文章に変換することが出来る。本開示の一実施形態に係る画像処理装置100は、画像情報i101から得られる文章のインデックスを作成しても良い。そして画像処理装置100は、テキスト情報を用いてインデックスを検索することで、テキスト情報による画像情報の検索が可能になる。
 図16は、本開示の一実施形態に係る画像処理装置100の変形例を示す説明図である。図16に示した画像処理装置100は、図1に示した画像処理装置100に、さらにインデックス生成部170と、画像検索部180と、が追加されたものが示されている。インデックス生成部170は言語生成部130が生成した言語情報i105を用いてインデックス情報i106を生成する。インデックス生成部170が生成するインデックス情報i106は、その基になる画像情報i101と対応付けて保存される。インデックス生成部170は、インデックス情報i106を生成する際に、物体に関しては概念情報(オントロジー)を用いてもよい。またインデックス生成部170は、インデックス情報i106を生成する際に、RGB色名変換部150での処理とは逆に、テキストからRGBなどのカラーコードに変換してもよい。
 画像検索部180は、インデックス生成部170が生成するインデックス情報i106の検索によって、検索条件に合致する、または検索条件に類似する画像情報i101を検索し、その画像情報i101を提示する。
 インデックス生成部170が生成したインデックス情報i106の検索を画像検索部180が実行することで、本開示の一実施形態に係る画像処理装置100は、検索条件に合致する、または検索条件に類似する画像情報i101を探し出すことが可能になる。検索時の優先順位は、例えば物体名、色、大きさの順、位置関係の順とされてもよい。
 画像検索部180は、インデックス生成部170が生成したインデックス情報i106の検索時に、例えばユーザに入力された検索条件中の単語の出現順により、画像検索時の優先度を変更してもよい。
 また画像検索部180は、検索結果が検索条件と一部異なる場合は、その一致点や相違点を提示するようにしてもよい。また画像検索部180は、検索条件と一致した物体の輪郭を強調することにより、どの物体に検索条件が適合したかを提示してもよい。
 画像検索部180は、検索条件との相違点の提示に際し、相違していることを表すアトリビュート(色、ブランキング、網掛けなど)により、相違点を提示してもよい。図17は、検索条件との相違点の提示例を示す説明図である。例えば検索文が「大自然を背景に青い車と人が写っている写真」というものであった場合、車の色以外の条件には合致するが、車の色が異なる画像が発見された場合、車の領域内を点滅させることで相違点を提示してもよく、車の輪郭を強調することで相違点を提示してもよく、車を枠で囲むことで相違点を提示してもよい。もちろん相違点の提示例はかかる例に限定されるものではない。
 なお、検索条件との相違点が、背景や動き等の属性をつけにくいものである場合は、画像検索部180は、「背景が赤ではありません」等の、テキストにより検索条件を否定する形で表現してもよく、「背景が青です」等の、テキストにより検索条件との相違点を表現してもよい。
 画像検索部180は、検索の履歴と検索結果に基づいて、次の検索結果の重み付けを変更してもよい。例えば、画像検索部180による検索結果に対して「もっと赤いもの」、「人が右にいるもの」、「もっと動きの遅いもの」、「背景がもう少し明るいもの」などの検索条件が指定されると、画像検索部180は、検索結果に対する絞り込み検索や、再検索を行なっても良い。
 なお、画像検索部180は、検索結果を提示する際に、検索条件で指定された項目は必ず全て揃っていなくても良い。
 また、画像検索部180による検索は音声認識を加えることにより音声により行われるようにしても良い。音声認識の結果が画像検索部180に逐次送られることで、自動的に会話の中に出てきた画像が具体化される。そして画像検索部180は、検索結果の履歴を逐次蓄積し、検索結果を表示することで、検索結果の視覚的な比較が可能になり、ユーザは、最終的に希望の画像を選択することが可能となる。
 また画像検索部180は、検索結果をテキストで提示してもよく、テキストを音声合成し、音声によって提示してもよい。また画像検索部180は、検索結果に類似する画像を、さらに画像検索により検索してもよい。
 図18は、本開示の一実施形態に係る画像処理装置100による画像検索処理のGUIの例である。符号501は検索条件を入力するためのテキストボックス、符号502は検索条件に合致する画像である。このように検索条件に合致する画像502が画面に表示された状態で、更に別の検索条件がテキストボックス501に入力されて検索が行われると、図18に示したように、前回の検索によって取得された画像が符号503で示すように画面の隅に表示されるようにしてもよい。
 (シーンテキスト変換処理)
 本開示の一実施形態に係る画像処理装置100は、画像情報i101から得られる文章によって、画像情報i101がどのようなシーンであるかを示すシーン情報を表現出来る。また本開示の一実施形態に係る画像処理装置100は、シーン情報のデータベースを構築することが出来る。
 図19は、本開示の一実施形態に係る画像処理装置100の変形例を示す説明図である。図19に示した画像処理装置100は、図1に示した画像処理装置100に、さらにシーン認識部190が含まれている構成を有する。シーン認識部190は、言語情報i105から、画像情報i101がどのようなシーンであるかを認識し、シーン情報i107をデータベースで構築する。
 シーン認識部190は、例えば、タグなどのメタテキストにより、「認識物体」、「動作」、「シーン表現」の3つのタグでシーンを表現し、シーン情報i107をデータベースで構築する。シーン表現は、例えば(認識物体→テキスト)+(動き→テキスト)=シーン表現(テキストまたはタグ)という形式で表される。認識物体には、物体の名前、色、形、大きさなどが指定される。シーン表現は、ユーザが自由に設定できる。また人物名は役名にまとめることも可能である。またシーン表現は、アトリビュートとして人物名、色、動きなどを指定できる。
 シーン認識部190は、シーン情報i107の構築の際に、動画像である画像情報i101のコンテンツ名、先頭からの時間、物体認識結果を利用する。またシーン認識部190は、シーン情報i107の構築の際に、シーン変換テーブルi108を参照する。シーン変換テーブルi108は、言語情報i105に含まれている認識物体がどのような状態であればどのようなシーンであるかをまとめたテーブルである。以下にシーン変換テーブルi108に格納されるシーンデータの一例を示す。もちろんシーン変換テーブルi108に格納されるシーンデータはかかる例に限定されるものではない。
 (シーン変換テーブルi108に格納されるシーンデータの一例)
 人物+人物=共演
 人物+人物+背景(海)=デートシーン
 人物+人物+背景(夜景)=デートシーン
 人物+背景(海)=海水浴シーン
 人物+背景(海)=釣りシーン
 唇+唇+同位置=キスシーン
 山+煙=噴火シーン
 人物+車のハンドル+人物の前=運転シーン
 人物+犬=散歩シーン
 シーン認識部190は、言語情報i105を用いて、シーン変換テーブルi108を参照してシーンタグやシーンテキストを生成する。例えばシーン認識部190は、「XさんとYさんがいます。」という言語情報i105から、以下の様なシーンタグやシーンテキストを生成する。なお、以下で示すシーンタグの<time>タグは画像情報i101における時刻、<sean>タグはシーン変換テーブルi108に格納されるデータから選択されるシーンデータ、<name>タグは登場する人物の名前を表している。
 (シーンタグの例)
 <time>12:23:21</time>
 <sean>共演</sean>
 <atribute>
  <name>Xさん</name>
  <name>Yさん</name>
 </atribute>
 (シーンテキストの例)
 「XさんとYさんの共演シーン」
 また例えばシーン認識部190は、「海岸を背景にして、XさんとYさんがいます。」という言語情報i105から、以下の様なシーンタグやシーンテキストを生成する。
 (シーンタグの例)
 <time>11:24:31</time>
 <sean>デート</sean>
 <atribute>
  <name>Xさん</name>
  <name>Yさん</name>
 </atribute>
 (シーンテキストの例)
 「XさんとYさんのデートシーン」
 また例えばシーン認識部190は、「Xさんの前に自動車のハンドルがあります。」という言語情報i105から、以下の様なシーンタグやシーンテキストを生成する。
 (シーンタグの例)
 <time>12:23:21</time>
 <sean>運転</sean>
 <atribute>
  <name>Xさん</name>
 </atribute>
 (シーンテキストの例)
 「Xさんの運転シーン」
 同様に、例えばシーン認識部190は、唇と唇が重なっている画像であればキスシーン、車と車が重なっている画像であれば自動車事故のシーン、山の上から煙が出ている画像であれば噴火シーンを意味するシーンタグやシーンテキストを生成することが出来る。また例えばシーン認識部190は、画像情報i101がクイズ番組のワンシーンであり、赤い丸と青い四角が上下に動く画像であれば、特定のコーナーを意味するシーンタグやシーンテキストを生成することが出来る。
 シーン認識部190は、画像情報i101にクローズドキャプションが含まれていれば、クローズドキャプションのデータを用いてもよい。クローズドキャプションのデータを用いることで、シーン認識部190は、シーン認識の精度を上げることが出来る。
 シーン認識部190は、言語情報i105を用いてこのようにシーン情報i107を画像情報i101のすべての区間に渡って構築することが出来る。そしてシーン認識部190が構築したシーン情報i107は、画像情報i101に対する様々な処理に適用され得る。例えば、画像処理装置100は、シーン認識部190が構築したシーン情報i107によって、シーンタグの切り替わりをシーンチェンジと判断して、画像情報i101のサムネイルの作成が可能となる。また例えば、画像処理装置100は、同一のシーンが続き、シーンチェンジが行われない間をシーン区間とすることが可能となる。また例えば、画像処理装置100は、登場人物が変わらない場合はシーンチェンジが発生してないと判断することが可能となる。また例えば、画像処理装置100は、コマーシャル検出と組み合わせ、コマーシャルを挟んでも同一シーンと判断される場合はシーンの継承を表すタグを付与することが可能となる。もちろん画像処理装置100は、一般的な画像処理によるシーンチェンジ処理と、シーン認識部190が構築したシーン情報i107を用いたシーンチェンジ処理とを複合的に用いてもよい。
 このように、本開示の一実施形態に係る画像処理装置100は、画像情報i101を言語情報i105に変換することで、言語情報i105を用いた更なる画像処理を可能にする。なお、上述したインデックス生成部170、画像検索部180、シーン認識部190は、言語情報i105を参照できるものであれば、画像処理装置100とは別の装置に設けられることも可能である。
 <2.ハードウェア構成例>
 次に、図20を参照して、本開示の一実施形態にかかる画像処理装置100のハードウェア構成について説明する。図20は、本開示の実施形態にかかる画像処理装置100のハードウェア構成例を示すブロック図である。上記の各アルゴリズムは、例えば、図20に示す情報処理装置のハードウェア構成を用いて実行することが可能である。つまり、当該各アルゴリズムの処理は、コンピュータプログラムを用いて図20に示すハードウェアを制御することにより実現される。なお、このハードウェアの形態は任意であり、例えば、パーソナルコンピュータ、携帯電話、PHS、PDA等の携帯情報端末、ゲーム機、接触式又は非接触式のICチップ、接触式又は非接触式のICカード、又は種々の情報家電がこれに含まれる。但し、上記のPHSは、Personal Handy-phone Systemの略である。また、上記のPDAは、Personal Digital Assistantの略である。
 図20に示すように、このハードウェアは、主に、CPU902と、ROM904と、RAM906と、ホストバス908と、ブリッジ910と、を有する。さらに、このハードウェアは、外部バス912と、インターフェース914と、入力部916と、出力部918と、記憶部920と、ドライブ922と、接続ポート924と、通信部926と、を有する。但し、上記のCPUは、Central Processing Unitの略である。また、上記のROMは、Read Only Memoryの略である。そして、上記のRAMは、Random Access Memoryの略である。
 CPU902は、例えば、演算処理装置又は制御装置として機能し、ROM904、RAM906、記憶部920、又はリムーバブル記録媒体928に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。ROM904は、CPU902に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM906には、例えば、CPU902に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。
 これらの構成要素は、例えば、高速なデータ伝送が可能なホストバス908を介して相互に接続される。一方、ホストバス908は、例えば、ブリッジ910を介して比較的データ伝送速度が低速な外部バス912に接続される。また、入力部916としては、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力部916としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ(以下、リモコン)が用いられることもある。
 出力部918としては、例えば、CRT、LCD、PDP、又はELD等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。但し、上記のCRTは、Cathode Ray Tubeの略である。また、上記のLCDは、Liquid Crystal Displayの略である。そして、上記のPDPは、Plasma DisplayPanelの略である。さらに、上記のELDは、Electro-Luminescence Displayの略である。
 記憶部920は、各種のデータを格納するための装置である。記憶部920としては、例えば、ハードディスクドライブ(HDD)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。但し、上記のHDDは、Hard Disk Driveの略である。
 ドライブ922は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体928に記録された情報を読み出し、又はリムーバブル記録媒体928に情報を書き込む装置である。リムーバブル記録媒体928は、例えば、DVDメディア、Blu-rayメディア、HD DVDメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体928は、例えば、非接触型ICチップを搭載したICカード、又は電子機器等であってもよい。但し、上記のICは、Integrated Circuitの略である。
 接続ポート924は、例えば、USBポート、IEEE1394ポート、SCSI、RS-232Cポート、又は光オーディオ端子等のような外部接続機器930を接続するためのポートである。外部接続機器930は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はICレコーダ等である。但し、上記のUSBは、Universal Serial Busの略である。また、上記のSCSIは、Small Computer System Interfaceの略である。
 通信部926は、ネットワーク932に接続するための通信デバイスであり、例えば、有線又は無線LAN、Bluetooth(登録商標)、又はWUSB用の通信カード、光通信用のルータ、ADSL用のルータ、又は接触又は非接触通信用のデバイス等である。また、通信部926に接続されるネットワーク932は、有線又は無線により接続されたネットワークにより構成され、例えば、インターネット、家庭内LAN、赤外線通信、可視光通信、放送、又は衛星通信等である。但し、上記のLANは、Local Area Networkの略である。また、上記のWUSBは、Wireless USBの略である。そして、上記のADSLは、Asymmetric Digital Subscriber Lineの略である。
 以上、画像処理装置100のハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。かかる構成は、実施する時々の技術レベルに応じて適宜変更されうる。
 <3.まとめ>
 以上説明したように本開示の一実施形態によれば、画像情報に含まれる物体を認識し、その物体の認識結果を用いて画像情報から言語情報を生成する画像処理装置100が生成される。本開示の一実施形態に係る画像処理装置100は、画像情報に含まれる物体を認識して、「画面の右下」や「画面の中央やや右上」などの言語的な表現に位置を表現したり、「赤い自動車のすぐ右隣」や「赤い自動車の手前」、「赤い自動車からかなり右側」、「テーブルの上」など対象物と目標物の位置関係を言語で表現したりすることが可能になる。
 本開示の一実施形態に係る画像処理装置100は、視力の弱い人や目の不自由な人の行動支援にも有効である。例えば、このような人にカメラを装着させて前方を撮像させて画像情報を得て、道を歩いているときに「左から車が来ます」という注意を提示するとか、「テーブルの上にリモコンがあります」というガイダンス情報を提示することも可能である。
 本開示の一実施形態に係る画像処理装置100は医療画像の解析にも用いることが出来る。例えば画像情報として内視鏡やレントゲン等で体内を撮像した画像を画像処理装置100へ入力する場合、本開示の一実施形態に係る画像処理装置100による画像処理によって、例えば「胃の入り口の右上方に癌が認められる」であるとか「左肺の下部に白い炎症部分がある」などの診断情報を言語情報として得ることが出来る。従って本開示の一実施形態に係る画像処理装置100は、物体認識により胃や肺等の臓器が認識された後に、臓器中の患部の位置の特定が容易に行える。また本開示の一実施形態に係る画像処理装置100は、画像情報から得られる言語情報を、画像認識の学習の際の付加情報とすることにより、病理画像認識の精度を向上させることが可能である。
 また本開示の一実施形態に係る画像処理装置100は、カーナビゲーションやウェアラブルコンピュータなどのディスプレイを注視することが難しい環境下での画像からの情報提供に効果が大きい。また本開示の一実施形態に係る画像処理装置100は、視力の弱い人や目の不自由な人が、画像情報のイメージをつかむのに有効である。また本開示の一実施形態に係る画像処理装置100は、医療の分野での画像解析や病理診断の補助としても有効である。
 本明細書の各装置が実行する処理における各ステップは、必ずしもシーケンス図またはフローチャートとして記載された順序に沿って時系列に処理する必要はない。例えば、各装置が実行する処理における各ステップは、フローチャートとして記載した順序と異なる順序で処理されても、並列的に処理されてもよい。
 また、各装置に内蔵されるCPU、ROMおよびRAMなどのハードウェアを、上述した各装置の構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供されることが可能である。また、機能ブロック図で示したそれぞれの機能ブロックをハードウェアで構成することで、一連の処理をハードウェアで実現することもできる。
 また本開示の一実施形態に係る画像処理装置100は、画像処理装置100の処理の結果として表示される画像を表示するディスプレイを備える装置とは別の装置(たとえばインターネット等のネットワークを介してディスプレイを備える装置と接続されるサーバ装置)として実施されてもよいし、サーバ装置から情報を受ける端末装置で実施されてもよい。また本開示の一実施形態に係る画像処理装置100の構成は、単独の装置で実現されてもよく、複数の装置が連携するシステムで実現されても良い。複数の装置が連携するシステムには、例えば複数のサーバ装置の組み合わせ、サーバ装置と端末装置との組み合わせ等が含まれ得る。
 なお、上記実施形態で示したユーザインタフェースやアプリケーションを実現するソフトウェアは、インターネット等のネットワークを介して使用するウェブアプリケーションとして実現されてもよい。ウェブアプリケーションは、例えば、HTML(HyperText Markup Language)、SGML(Standard Generalized Markup Language)、XML(Extensible Markup Language)などのマークアップ言語により実現されてもよい。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 例えば言語生成部130は、言語情報の生成に際して画像情報i101に関連付けられている情報を用いても良い。言語生成部130は、画像情報i101に関連付けられている情報として、例えば画像情報i101に含まれるメタデータを用いても良い。画像情報i101に含まれるメタデータには、例えば、撮影日時や撮影位置の情報などが含まれ得る。言語生成部130は、画像情報i101に含まれるメタデータを用いることで、より情報量の多い言語情報を生成することが出来る。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)
 画像に含まれる所定の物体に関連する情報である物体情報を取得する物体情報取得部と、
 前記物体情報取得部が取得した前記物体情報を用いて前記画像に含まれている前記物体の状態を表す文章を生成する文章生成部と、
を備える、情報処理装置。
(2)
 前記物体情報は、前記画像を解析することにより得られる情報である、前記(1)に記載の情報処理装置。
(3)
 前記画像に基づいて前記物体情報を生成する物体情報生成部を備え、
 前記物体情報生成部は、前記画像を所定数に分割し、該分割後の各領域に関する表現を用いて前記物体情報を生成する、前記(2)に記載の情報処理装置。
(4)
 前記物体情報生成部は、分割後の前記画像をさらに所定数に分割し、再分割後の各領域に関する表現を用いて前記物体情報を生成する、前記(3)に記載の情報処理装置。
(5)
 前記物体情報生成部は、前記物体の重心が分割後の領域の中心になるまで分割を繰り返す、前記(4)に記載の情報処理装置。
(6)
 前記文章は、前記物体情報に基づく程度を表す副詞を含む、前記(1)~(5)のいずれかに記載の情報処理装置。
(7)
 前記文章は、前記物体情報に基づく前記画像に含まれる複数の物体間の相対的な位置関係を表す表現を含む、前記(2)に記載の情報処理装置。
(8)
 前記文章生成部は、前記複数の物体の内、前記画像中で占める面積が最も大きい物体を基準として、前記複数の物体間の相対的な位置関係を表す表現を生成する、前記(7)に記載の情報処理装置。
(9)
 前記文章生成部は、前記複数の物体の内、最も前記画像の中心に近い物体を基準として、前記複数の物体間の相対的な位置関係を表す表現を生成する、前記(7)に記載の情報処理装置。
(10)
 前記文章生成部は、前記複数の物体の内、最も輝度が高い物体を基準として、前記複数の物体間の相対的な位置関係を表す表現を生成する、前記(7)に記載の情報処理装置。
(11)
 前記文章生成部は、前記複数の物体の内、最も彩度が高い物体を基準として、前記複数の物体間の相対的な位置関係を表す表現を生成する、前記(7)に記載の情報処理装置。
(12)
 前記文章は、前記物体情報に基づく前記複数の物体の重なりの関係を表す表現を含む、前記(7)~(11)のいずれかに記載の情報処理装置。
(13)
 前記文章は、程度を表す副詞が付与された前記複数の物体の重なりの関係を表す表現を含む、前記(12)に記載の情報処理装置。
(14)
 前記文章は、前記物体の名称を含む、前記(7)~(13)のいずれかに記載の情報処理装置。
(15)
 前記文章は、前記物体の色を表す表現を含む、前記(7)~(14)のいずれかに記載の情報処理装置。
(16)
 前記文章生成部は、前記画像に含まれているメタデータを用いて文章を生成する、前記(1)~(15)のいずれかに記載の情報処理装置。
(17)
 前記文章生成部が生成した前記文章のインデックスを生成するインデックス生成部をさらに備える、前記(1)~(16)のいずれかに記載の情報処理装置。
(18)
 前記文章生成部が生成した前記文章を用いて前記画像のシーンを認識するシーン認識部をさらに備える、前記(1)~(17)のいずれかに記載の情報処理装置。
(19)
 画像に含まれる所定の物体に関連する情報である物体情報を取得することと、
 取得した前記物体情報を用いて前記画像に含まれている前記物体の状態を表す文章を生成することと、
を含む、情報処理方法。
(20)
 コンピュータに、
 画像に含まれる所定の物体に関連する情報である物体情報を取得することと、
 取得した前記物体情報を用いて前記画像に含まれている前記物体の状態を表す文章を生成することと、
を実行させる、コンピュータプログラム。
 100  画像処理装置
 110  画像処理部
 111  物体認識部
 112  画像認識領域設定部
 113  物体位置情報抽出部
 120  画像位置言語情報変換部
 130  言語生成部
 140  輪郭情報処理部
 150  RGB色名変換部
 160  背景処理部
 170  インデックス生成部
 180  画像検索部
 190  シーン認識部
 

Claims (20)

  1.  画像に含まれる所定の物体に関連する情報である物体情報を取得する物体情報取得部と、
     前記物体情報取得部が取得した前記物体情報を用いて前記画像に含まれている前記物体の状態を表す文章を生成する文章生成部と、
    を備える、情報処理装置。
  2.  前記物体情報は、前記画像を解析することにより得られる情報である、請求項1に記載の情報処理装置。
  3.  前記文章は、前記物体情報に基づく、前記画像に含まれる複数の物体間の相対的な関係を表す表現を含む、請求項2に記載の情報処理装置。
  4.  前記文章は、前記物体情報に基づく、前記画像に含まれる複数の物体間の相対的な位置関係を表す表現を含む、請求項3に記載の情報処理装置。
  5.  前記文章生成部は、前記画像から得られる情報に基づき選択される、前記複数の物体のうち一つの物体を基準として前記複数の物体間の相対的な位置関係を表す表現を生成する、請求項4に記載の情報処理装置。
  6.  前記文章生成部は、前記複数の物体の内、前記画像中で占める面積が最も大きい物体を基準として、前記複数の物体間の相対的な位置関係を表す表現を生成する、請求項5に記載の情報処理装置。
  7.  前記文章生成部は、前記複数の物体の内、最も前記画像の中心に近い物体を基準として、前記複数の物体間の相対的な位置関係を表す表現を生成する、請求項5に記載の情報処理装置。
  8.  前記文章生成部は、前記複数の物体の内、最も輝度が高い物体を基準として、前記複数の物体間の相対的な位置関係を表す表現を生成する、請求項5に記載の情報処理装置。
  9.  前記文章は、前記物体情報に基づく程度を表す副詞を含む、請求項2に記載の情報処理装置。
  10.  前記文章は、前記物体情報に基づく前記複数の物体の重なりの関係を表す表現を含む、請求項3に記載の情報処理装置。
  11.  前記文章は、前記物体の名称を含む、請求項3に記載の情報処理装置。
  12.  前記文章は、前記物体の色を表す表現を含む、請求項3に記載の情報処理装置。
  13.  前記文章生成部は、前記画像に含まれているメタデータを用いて文章を生成する、請求項1に記載の情報処理装置。
  14.  前記画像に基づいて前記物体情報を生成する物体情報生成部を備え、
     前記物体情報生成部は、前記画像を所定数に分割し、該分割後の各領域に関する表現を用いて前記物体情報を生成する、請求項2に記載の情報処理装置。
  15.  前記物体情報生成部は、分割後の前記画像をさらに所定数に分割し、再分割後の各領域に関する表現を用いて前記物体情報を生成する、請求項14に記載の情報処理装置。
  16.  前記物体情報生成部は、前記物体の重心が分割後の領域の中心になるまで分割を繰り返す、請求項15に記載の情報処理装置。
  17.  前記文章生成部が生成した前記文章のインデックスを生成するインデックス生成部をさらに備える、請求項1に記載の情報処理装置。
  18.  前記文章生成部が生成した前記文章を用いて前記画像のシーンを認識するシーン認識部をさらに備える、請求項1に記載の情報処理装置。
  19.  画像に含まれる所定の物体に関連する情報である物体情報を取得することと、
     取得した前記物体情報を用いて前記画像に含まれている前記物体の状態を表す文章を生成することと、
    を含む、情報処理方法。
  20.  コンピュータに、
     画像に含まれる所定の物体に関連する情報である物体情報を取得することと、
     取得した前記物体情報を用いて前記画像に含まれている前記物体の状態を表す文章を生成することと、
    を実行させる、コンピュータプログラム。
     
PCT/JP2015/056992 2014-03-20 2015-03-10 情報処理装置、情報処理方法及びコンピュータプログラム Ceased WO2015141523A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014-058847 2014-03-20
JP2014058847A JP2015184798A (ja) 2014-03-20 2014-03-20 情報処理装置、情報処理方法及びコンピュータプログラム

Publications (1)

Publication Number Publication Date
WO2015141523A1 true WO2015141523A1 (ja) 2015-09-24

Family

ID=54144494

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/056992 Ceased WO2015141523A1 (ja) 2014-03-20 2015-03-10 情報処理装置、情報処理方法及びコンピュータプログラム

Country Status (2)

Country Link
JP (1) JP2015184798A (ja)
WO (1) WO2015141523A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111275110A (zh) * 2020-01-20 2020-06-12 北京百度网讯科技有限公司 图像描述的方法、装置、电子设备及存储介质
CN113312955A (zh) * 2020-02-27 2021-08-27 本田技研工业株式会社 用于执行交叉口情景检索的系统及其方法
US11741723B2 (en) * 2020-02-27 2023-08-29 Honda Motor Co., Ltd. System for performing intersection scenario retrieval and method thereof
CN120046118A (zh) * 2025-04-23 2025-05-27 江苏时代新能源科技有限公司 极耳焊接检测方法、设备、存储介质及程序产品

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7170299B2 (ja) * 2017-03-17 2022-11-14 国立大学法人電気通信大学 情報処理システム、情報処理方法及びプログラム
JP7519506B1 (ja) * 2023-06-13 2024-07-19 ソフトバンク株式会社 データ処理装置及びプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000315214A (ja) * 1999-04-30 2000-11-14 Sony Corp 文章検索用インデックス作成方法及びその装置
JP2006203574A (ja) * 2005-01-20 2006-08-03 Matsushita Electric Ind Co Ltd 画像表示装置
JP2007199908A (ja) * 2006-01-25 2007-08-09 Fujifilm Corp 顔文字入力装置
JP2011070276A (ja) * 2009-09-24 2011-04-07 Seiko Epson Corp 画像処理装置
JP2011076364A (ja) * 2009-09-30 2011-04-14 Oki Electric Industry Co Ltd 検索結果調整装置及び検索結果調整方法
JP2013101450A (ja) * 2011-11-08 2013-05-23 Sony Corp 情報処理装置及び方法、並びにプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000315214A (ja) * 1999-04-30 2000-11-14 Sony Corp 文章検索用インデックス作成方法及びその装置
JP2006203574A (ja) * 2005-01-20 2006-08-03 Matsushita Electric Ind Co Ltd 画像表示装置
JP2007199908A (ja) * 2006-01-25 2007-08-09 Fujifilm Corp 顔文字入力装置
JP2011070276A (ja) * 2009-09-24 2011-04-07 Seiko Epson Corp 画像処理装置
JP2011076364A (ja) * 2009-09-30 2011-04-14 Oki Electric Industry Co Ltd 検索結果調整装置及び検索結果調整方法
JP2013101450A (ja) * 2011-11-08 2013-05-23 Sony Corp 情報処理装置及び方法、並びにプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111275110A (zh) * 2020-01-20 2020-06-12 北京百度网讯科技有限公司 图像描述的方法、装置、电子设备及存储介质
CN111275110B (zh) * 2020-01-20 2023-06-09 北京百度网讯科技有限公司 图像描述的方法、装置、电子设备及存储介质
CN113312955A (zh) * 2020-02-27 2021-08-27 本田技研工业株式会社 用于执行交叉口情景检索的系统及其方法
US11741723B2 (en) * 2020-02-27 2023-08-29 Honda Motor Co., Ltd. System for performing intersection scenario retrieval and method thereof
CN120046118A (zh) * 2025-04-23 2025-05-27 江苏时代新能源科技有限公司 极耳焊接检测方法、设备、存储介质及程序产品

Also Published As

Publication number Publication date
JP2015184798A (ja) 2015-10-22

Similar Documents

Publication Publication Date Title
US11397462B2 (en) Real-time human-machine collaboration using big data driven augmented reality technologies
CN110446063B (zh) 视频封面的生成方法、装置及电子设备
CN111259751B (zh) 基于视频的人体行为识别方法、装置、设备及存储介质
RU2688271C2 (ru) Поиск изображений на естественном языке
US10474426B2 (en) Information processing device, information processing method, and computer program
CN108874126B (zh) 基于虚拟现实设备的交互方法及系统
WO2015141523A1 (ja) 情報処理装置、情報処理方法及びコンピュータプログラム
CN110598576A (zh) 一种手语交互方法、装置及计算机介质
CN106463119A (zh) 用于支持改进语音识别的对视觉内容的修改
US11640700B2 (en) Methods and systems for rendering virtual objects in user-defined spatial boundary in extended reality environment
TW202014992A (zh) 虛擬臉部模型之表情擬真系統及方法
CN114241379B (zh) 一种乘客异常行为识别方法、装置、设备及乘客监控系统
JP6906273B2 (ja) 映像データから人の骨格位置の変位の軌跡を描写するプログラム、装置及び方法
Li et al. 3D sketch-based 3D model retrieval
Ghafoor et al. Improving social interaction of the visually impaired individuals through conversational assistive technology
CN115131825B (zh) 人体属性的识别方法、装置、电子设备和存储介质
CN114661953B (zh) 视频描述生成方法、装置、设备以及存储介质
CN114708443B (zh) 截图处理方法及装置、电子设备和计算机可读介质
WO2020188924A1 (ja) 情報処理装置、検索方法、及びプログラムが格納された非一時的なコンピュータ可読媒体
Haider et al. A hand gesture recognition based communication system for mute people
Chen et al. A Large Vision-Language Model based Environment Perception System for Visually Impaired People
Benhamida et al. TS-RGBD Dataset: a Novel Dataset for Theatre Scenes Description for People with Visual Impairments
US11042274B2 (en) Extracting demonstrations from in-situ video content
US11899839B1 (en) System for multimodal machine-aided comprehension analysis and assistance
Kunapareddy et al. Smart Vision based Assistant for Visually Impaired

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15764158

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15764158

Country of ref document: EP

Kind code of ref document: A1