[go: up one dir, main page]

WO2025191769A1 - Image retrieval device, image retrieval method, image retrieval program, and recording medium - Google Patents

Image retrieval device, image retrieval method, image retrieval program, and recording medium

Info

Publication number
WO2025191769A1
WO2025191769A1 PCT/JP2024/009927 JP2024009927W WO2025191769A1 WO 2025191769 A1 WO2025191769 A1 WO 2025191769A1 JP 2024009927 W JP2024009927 W JP 2024009927W WO 2025191769 A1 WO2025191769 A1 WO 2025191769A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
image data
face
user
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
PCT/JP2024/009927
Other languages
French (fr)
Japanese (ja)
Inventor
弘貴 櫻庭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rights Tech Inc
Original Assignee
Rights Tech Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rights Tech Inc filed Critical Rights Tech Inc
Priority to PCT/JP2024/009927 priority Critical patent/WO2025191769A1/en
Publication of WO2025191769A1 publication Critical patent/WO2025191769A1/en
Pending legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification

Definitions

  • Patent Document 1 discloses technology for searching for personal images of a client that have been made public on the Internet against the client's will.
  • This image search technology extracts feature data of people from all public images on the Internet, as well as feature data of the client's personal image, and compares these extracted feature data with each other to determine whether the client's personal image is the same as multiple public images, thereby searching for the client's personal image.
  • Patent Document 1 searches the entire Internet to check whether or not an image of the requester exists.
  • the amount of images posted on the Internet is enormous, and extracting features of people from all of these public images, extracting features from the extracted features, and then matching them not only requires a significant amount of computing resources, but also takes a significant amount of time, making it extremely difficult to implement image search with a simple configuration.
  • Patent Document 1 is a search technology designed to prevent the violation of the client's privacy, and therefore is unable to quickly detect the leaking of the client's facial image, especially in the early stages, in order to prevent the client from becoming a victim of voyeurism or revenge porn.
  • 10 denotes a user terminal, such as a smartphone, tablet terminal, or computer terminal operated by a user, on which the image search app of this embodiment is installed
  • 11 denotes an image search server on the cloud that can communicate with the user terminal
  • 12 denotes the Internet, which can be accessed by the image search server 11.
  • the image search server 11 includes at least an input/output and image comparison unit 13, a cloud server 14, a URL crawler unit 15, a still image crawler unit 16, and a video crawler unit 17.
  • the input/output and image comparison unit 13 includes a database (AWS/RDS) 13a and storage (AWS/S3) 13b provided by a cloud computing service (AWS).
  • This input/output and image comparison unit 13 is communicatively connectable to the user terminal 10, and is configured to store the user's facial image data transmitted from the user terminal 10 and keywords registered by the user in association with this facial image data.
  • the input/output and image comparison unit 13 is further configured to store, in association with the user, the URLs of videos containing facial images highly similar to the user's facial image, extracted by a cloud server (Azure) 14 provided by the cloud computing service.
  • Azure cloud server
  • the user's facial image data sent from the user terminal 10 is stored in storage (AWS/S3) 13b, and the keywords registered by the user are stored in database (AWS/RDS) 13a.
  • the cloud server (Azure) 14 is configured to learn the images collected by the still image crawler unit 16 or video crawler unit 17, assign a Face ID, and compare these collected images with images registered by the user to determine their similarity.
  • the URL crawler unit 15 uses Library Selenium, an automatic crawling program that utilizes one of the web crawlers present on the AWS cloud server (AWS/EC2) 15a.
  • This URL crawler unit 15 is configured to collect URLs of videos containing registered keywords from multiple predetermined websites on the Internet 12 that deal with sexually explicit videos and have the potential for facial image leaks. Examples of predetermined websites include Pornhub, FC2, Tokyo Motion, Twitter Video Tools, XVIDEOS, and Twitter.
  • a list of the collected URLs is stored in the URL list unit 15b within the URL crawler unit 15.
  • the URL list unit 15b is made up of an AWS database (AWS/RDS) and a local file (configuration file within local program files) storage unit, and collected URLs are stored in this RDS and local file storage unit.
  • AWS/RDS AWS database
  • RDS configuration file within local program files
  • the still image crawler unit 16 is primarily composed of AWS storage (AWS/S3) 16a, an image search unit 16b, and a machine learning unit 16c.
  • the image search unit 16b uses a search engine described in a configuration file within the local program files to perform an image search on websites using specified keywords stored in the input/output memory unit, and stores the displayed images in storage (AWS/S3) 16a.
  • the search engines used are primarily Google, Yandex, Yahoo, Baidu, etc.
  • the machine learning unit 16c utilizes a deep learning algorithm and is built using the FaceBoxes model, a library specialized for human face detection.
  • This machine learning model learns about human facial features from a vast number of face images, making it possible to detect facial information contained in unknown input image data.
  • the detected facial information is accompanied by a numerical value called confidence, which indicates the certainty that a face is contained in the detected area. In other words, the higher this numerical value, the more likely the detected area is to be a face.
  • the FaceBoxes model is a publicly available machine learning model library and was built by learning from images of Western faces. As described below, a model that has been fine-tuned using images of Asian faces is used to improve the accuracy of facial image detection compared to the original model.
  • the machine learning unit 16c is further configured to store all image data whose confidence value exceeds a predetermined threshold in storage (AWS/S3) 16a.
  • the video crawler unit 17 is primarily composed of a video crawler located on the cloud server (AWS/EC2) 15a, AWS storage (AWS/S3) 17a, an image extraction unit 17b, and the aforementioned machine learning unit 16c.
  • the video crawler uses a search engine (Google Chrome) described in a configuration file within the local program files to play numerous videos at URLs stored in the URL list section 15b, and obtains a huge number of still image data for each video data. It then uses the FaceBoxes model, a library specialized for human face detection, to obtain only images containing facial information from the resulting image group, and is configured to select the image with the highest confidence value (the image with the clearest face).
  • Google Chrome described in a configuration file within the local program files to play numerous videos at URLs stored in the URL list section 15b, and obtains a huge number of still image data for each video data.
  • FaceBoxes model a library specialized for human face detection, to obtain only images containing facial information from the resulting image group, and is configured to select the image with the highest confidence value (the image with the clearest face).
  • the image extraction unit 17b plays the many obtained videos and obtains many still images.
  • FIGS 3 and 4 show the processing operations of the input/output and image comparison unit 13, and these figures will be used below to explain the processing operations of this input/output and image comparison unit 13.
  • the user registers an image of their face via the user terminal 10. That is, as shown in FIG. 9, multiple pieces of face image data, including not only straight faces but also smiling and profile images, are sent to the image search server 11, if possible. Furthermore, as shown in FIG. 10, keywords indicating "who,” “when,” “where,” “what,” etc. are sent to the image search server 11 via the user terminal 10.
  • keywords such as “ex-boyfriend,” “classmate,” “listener,” and “personal photo” are sent to the image search server 11 as the photographer (if known); keywords such as “JD,” “female college student,” “office worker,” “delivery health,” and “sugar daddy” are sent to the image search server 11 as the identity of the photographer (if known); keywords such as “hotel,” “Shibuya,” “Shinjuku,” “shop name,” “live chat,” “amateur video,” and “voyeur” are sent to the image search server 11 as the location of the photo (if known); keywords such as “matching app,” “SNS,” “Twitter,” and “cosplay,” and keywords such as the user's stage name or nickname.
  • the input/output and image comparison unit 13 receives multiple pieces of facial image data sent from the user terminal 10 and keywords sent together with this facial image data (step S1).
  • the input/output and image comparison unit 13 inputs the user's facial image stored in storage (AWS/S3) 13b into Azure Similar on the cloud server 14, and outputs the ID of the facial image with the highest degree of similarity. Based on this ID, the database (AWS/RDS) 13a is referenced, and the URL of the video in which the facial image exists and the probability that it is the user themselves are extracted (step S11). That is, the URL and probability are output from Azure, and the posting date and time are read and output from the database (AWS/RDS).
  • the input/output and image comparison unit 13 transmits the URL of the video containing the highly similar facial image, the probability that the person is the same person, the posting date and time, and the discovery date and time to the user terminal 10 (step S12).
  • the user terminal 10 displays the search results (discovery date, whether or not the information was checked, posting date, URL, and identity probability) as shown in FIG. 11.
  • FIG. 5 shows the processing operations of the URL crawler unit 15, and the processing operations of this URL crawler unit 15 will be explained below using this figure.
  • the URL crawler unit 15 first determines in advance the multiple websites to be accessed (step S21).
  • the URLs are crawled based on the keywords registered by the user and similar keywords stored in the database (AWS/RDS) 13a, and URLs of videos containing these keywords are obtained (step S22).
  • the acquired URLs are then stored as a URL list in the URL list section 15b (step S23).
  • Figure 6 shows the processing operation of the still image crawler unit 16, and the processing operation of this still image crawler unit 16 will be explained below using this figure.
  • the still image crawler unit 16 uses a predetermined search engine in the image search unit 16b to perform an image search for still images using specified keywords stored in the database (AWS/RDS) 13a (step S31). Because there is a wide variety of websites from which images can be collected, the specified keyword, for example, "secretly taken” in the case of images taken secretly, is used in the search.
  • step S32 the retrieved still images are temporarily stored in local cache memory (step S32).
  • a deep learning machine learning algorithm for face detection e.g., the FaceBoxes model
  • FaceBoxes model e.g., the FaceBoxes model
  • step S34 still images (image data) whose extracted confidence values exceed the threshold are stored in storage (AWS/S3) 16a and a list registration process is performed (step S34).
  • FIG. 7 shows the processing operation of the video crawler unit 17, and the processing operation of this video crawler unit 17 will be explained below using this figure.
  • the acquired multiple video images are played back at high speed to acquire still images that show the faces identified by the machine learning model (step S42).
  • the acquired multiple video images are played back at high speed, and still images are acquired at any fixed frame interval (step S43).
  • step S42 the large number of still images extracted using the processing procedure of step S42 (a processing procedure different from step S43) and the large number of still images extracted using the processing procedure of step S43 (a processing procedure different from step S42) are integrated and temporarily stored in local cache memory (step S44).
  • still images are extracted from moving images using two different processing procedures, and the still images extracted using these two processing procedures are integrated to extract still images. Because the final images obtained differ depending on the processing procedures, the reliability of facial image detection is significantly higher than when facial images are extracted using only one procedure.
  • Step S42 and S43 only images that show faces are selected from a group of images that do not necessarily show faces, and the image with the highest confidence value is ultimately retained.
  • Step S44 is similar: from the group of images that do show faces, the image that best shows the face (with the highest confidence value) is ultimately retained. This is ultimately uploaded to storage, but more precisely, after the image with the highest confidence value for each of the videos listed in the URL crawler has been obtained, it is trained by Azure through a list registration process and stored in storage (AWS/S3) 17a.
  • a deep learning machine learning algorithm for face detection (e.g., the FaceBoxes model from the library) is applied to the numerous still images stored in the cache memory to extract still images containing faces and confidence values representing the probability that a face is included (step S45).
  • Figure 8 shows a modified version of the processing operations in which some of the processing operations of the video crawler unit 17 have been modified.
  • Image search server 10
  • Internet Input/output and image comparison unit 13a Database (AWS/RDS) 13b, 16a, 17a Storage (AWS/S3) 14
  • Cloud server 15
  • URL crawler unit 15a Cloud server (AWS/EC2)
  • URL list unit 16
  • Still image crawler unit 16b
  • Image search unit 16c
  • Machine learning unit 17b Image extraction unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Abstract

This image retrieval device comprises: an input/output and image comparison unit for storing face image data representing a face image of a user registered by the user and a keyword registered by the user as the cause of leakage of the face image; and an image extraction unit for extracting a plurality of pieces of still-image data from moving-image data acquired at a website that is a sexual site on the Internet and contains the keyword registered by the user, and acquiring, from the extracted still-image data, image data in which face information is included. The input/output and image comparison unit is configured to compare the image data that is acquired by the image extraction unit and contains face information with the face image data that is registered by the user and stored in the input/output and the image comparison unit, and to extract the URL of face image data having a high degree of similarity. The image extraction unit is configured to extract still-image data from the moving-image data using a plurality of mutually different processing procedures, and to integrate the plurality of pieces of still-image data extracted using the plurality of mutually different processing procedures.

Description

画像検索装置、画像検索方法、画像検索プログラム及び記録媒体Image search device, image search method, image search program, and recording medium

 本発明は、インターネット上に流出したユーザの画像を検索する画像検索装置、画像検索方法、画像検索プログラム及び画像検索プログラムを記録した記録媒体に関する。 The present invention relates to an image search device, an image search method, an image search program, and a recording medium on which an image search program is recorded, for searching for user images that have been leaked onto the Internet.

 近年、カメラの高性能化やスマートフォンの普及などにより、盗撮被害やリベンジポルノ被害が増加する傾向にある。また、アダルトサイトやSNS(ソーシャルネットワーキングサービス)などを通じて、写真や動画を気軽に投稿することができるため、投稿されたユーザ自身の写真や動画が、ユーザの許可なくアップロードされ、インターネット上の性的サイトに流出されてしまうことがある。 In recent years, with the increasing performance of cameras and the widespread use of smartphones, there has been an increase in the number of cases of voyeurism and revenge porn. Furthermore, because it is easy to post photos and videos on adult sites and social networking services (SNS), users' own photos and videos can sometimes be uploaded without their permission and leaked to pornographic websites on the Internet.

 特許文献1には、依頼者の意図に反してインターネット上に公開された依頼者自身の個人画像を検索する技術が開示されている。この画像検索技術は、インターネット上の全ての公開画像から人物の部分の特徴量データを抽出すると共に依頼者の個人画像の特徴量データを抽出し、これら抽出した特徴量データを互いに照合することにより、依頼者の個人画像と複数の公開画像とが同じ画像かどうか判断して依頼者の個人画像を検索するものである。 Patent Document 1 discloses technology for searching for personal images of a client that have been made public on the Internet against the client's will. This image search technology extracts feature data of people from all public images on the Internet, as well as feature data of the client's personal image, and compares these extracted feature data with each other to determine whether the client's personal image is the same as multiple public images, thereby searching for the client's personal image.

特許第5150572号公報Patent No. 5150572

 特許文献1に記載された画像検索技術は、インターネット全体を検索して、依頼者自身の画像が存在するか否かを照合、検索するものである。しかしながら、インターネット上に掲載されている画像は膨大な量であり、その全ての公開画像から人物の部分を抽出し、抽出した人物部分から特徴量を抽出して照合することは、著しく多大な演算資産を要するのみならず、著しく多大な時間を要するため、簡易な構成で画像検索を実現することは極めて難しかった。 The image search technology described in Patent Document 1 searches the entire Internet to check whether or not an image of the requester exists. However, the amount of images posted on the Internet is enormous, and extracting features of people from all of these public images, extracting features from the extracted features, and then matching them not only requires a significant amount of computing resources, but also takes a significant amount of time, making it extremely difficult to implement image search with a simple configuration.

 さらに、特許文献1に記載された画像検索技術は、依頼者のプライバシーの侵害を防止するための検索技術であることから、依頼者の盗撮被害やリベンジポルノ被害を防止するために、依頼者の顔画像の流出を、特にその初期段階で、迅速に検出することはできなかった。 Furthermore, the image search technology described in Patent Document 1 is a search technology designed to prevent the violation of the client's privacy, and therefore is unable to quickly detect the leaking of the client's facial image, especially in the early stages, in order to prevent the client from becoming a victim of voyeurism or revenge porn.

 従って本発明の目的は、ユーザの顔画像がインターネット上に流出したことを簡易な構成で確実に検出できる画像検索装置、画像検索方法、画像検索プログラム及び記録媒体を提供することにある。 Therefore, an object of the present invention is to provide an image search device, image search method, image search program, and recording medium that can reliably detect when a user's facial image has been leaked onto the Internet using a simple configuration.

 本発明の他の目的は、ユーザの顔画像がインターネット上に流出したことを初期段階で素早く検出できる画像検索装置、画像検索方法、画像検索プログラム及び記録媒体を提供することにある。 Another object of the present invention is to provide an image search device, an image search method, an image search program, and a recording medium that can quickly detect, at an early stage, that a user's facial image has been leaked onto the Internet.

 本発明によれば、ユーザが登録した自己の顔画像を表す顔画像データ及び顔画像が流出した原因としてユーザが登録したキーワードを記憶する入出力及び画像比較部と、インターネット上の性的サイトでありかつユーザが登録したキーワードを含むWEBサイトで取得した動画データから複数の静止画データを抽出し、抽出した静止画データから顔情報が含まれる画像データを取得する画像抽出部とを備えている画像検索装置が提供される。入出力及び画像比較部は、画像抽出部によって取得された顔情報が含まれる画像データと、この入出力及び画像比較部に記憶されているユーザの登録した顔画像データとを比較し、高い類似度を有する顔画像データのURL(ウェブページアドレス)を抽出するように構成されており、画像抽出部は、複数の互いに異なる処理手順を用いて動画データから静止画データを抽出し、これら複数の互いに異なる処理手順によって抽出した静止画データを統合するように構成されている。 The present invention provides an image search device that includes an input/output and image comparison unit that stores facial image data representing the user's own facial image registered by the user and keywords registered by the user as the cause of the facial image leak, and an image extraction unit that extracts multiple still image data from video data acquired from websites that are sexually explicit on the Internet and include keywords registered by the user, and acquires image data containing facial information from the extracted still image data. The input/output and image comparison unit is configured to compare the image data containing facial information acquired by the image extraction unit with the user's registered facial image data stored in the input/output and image comparison unit, and extract the URL (web page address) of facial image data that has a high degree of similarity, and the image extraction unit is configured to extract still image data from the video data using multiple different processing procedures and integrate the still image data extracted by these multiple different processing procedures.

 本発明では、顔画像流出の原因となるとして登録したキーワードを含むWEBサイトで動画データを取得している。インターネット全体を検索することなく、盗撮被害やリベンジポルノ被害を防止するためのWEBサイトのみを検索している。このため、インターネット上に流出したユーザの顔画像をその初期段階で迅速に検出することができると共に画像検索装置の構成が簡易となる。また、本発明では、取得した動画データから複数の静止画データを抽出し、抽出した静止画データから顔情報が含まれる画像データを取得する際に、複数の互いに異なる処理手順を用いて動画データから静止画データを抽出し、これら複数の互いに異なる処理手順によって抽出した静止画データを統合している。このように、処理手順が異なることにより最終的に得られる画像も異なってくることから、1つの手順のみによって顔画像の抽出を行った場合に比べて顔画像検出の確実性が大幅に高くなる。このため、ユーザの顔画像がインターネット上に流出したことを簡易な構成で確実に検出することができる。 In this invention, video data is obtained from websites that contain keywords registered as being the cause of facial image leaks. Instead of searching the entire Internet, only websites for preventing voyeurism and revenge pornography are searched. This allows for rapid detection of user facial images leaked on the Internet at an early stage and simplifies the configuration of the image search device. Furthermore, in this invention, multiple still image data are extracted from the acquired video data, and when image data containing facial information is obtained from the extracted still image data, multiple different processing procedures are used to extract still image data from the video data, and the still image data extracted by these multiple different processing procedures is integrated. In this way, different processing procedures result in different final images, making facial image detection significantly more reliable than when facial images are extracted using only a single procedure. This makes it possible to reliably detect when a user's facial image has been leaked on the Internet with a simple configuration.

 画像抽出部による複数の互いに異なる処理手順が、動画データを高速で再生し、機械学習モデルによって顔が映っていると判定された静止画データを抽出する処理と、動画データを高速で再生し、任意の一定フレーム間隔で静止画データを抽出する処理とを含んでいることが好ましい。 It is preferable that the multiple different processing procedures performed by the image extraction unit include a process of playing back video data at high speed and extracting still image data determined by the machine learning model to contain a face, and a process of playing back video data at high speed and extracting still image data at any fixed frame interval.

 画像抽出部による複数の互いに異なる処理手順が、動画データを高速で再生し、機械学習モデルによって顔が映ったと判定した場合の静止画を抽出する処理と、動画データを高速で再生し、機械学習モデルによって最も顔が映っていると判定したタイミングの顔の静止画を抽出する処理と、動画データを高速で再生し、機械学習モデルによって最も顔が映っていると判定したタイミングの顔の特徴量を抽出して顔の静止画を抽出する処理と、動画データを高速で再生し、一定フレーム間隔で動画全体の静止画を抽出し、抽出した静止画毎に機械学習モデルによって顔が映っている確率が最も高い静止画を抽出する処理とを含んでいることも好ましい。 It is also preferable that the multiple different processing procedures performed by the image extraction unit include a process of playing back video data at high speed and extracting a still image when the machine learning model determines that a face is visible; a process of playing back video data at high speed and extracting a still image of a face at the timing determined by the machine learning model that a face is most visible; a process of playing back video data at high speed and extracting facial features at the timing determined by the machine learning model that a face is most visible, thereby extracting a still image of the face; and a process of playing back video data at high speed and extracting still images of the entire video at regular frame intervals, and extracting the still image with the highest probability of showing a face for each extracted still image using the machine learning model.

 画像抽出部が、顔情報が含まれる画像データのコンフィデンス値を閾値と比較して顔画像が最も映っている画像データを抽出するように構成されていることも好ましい。 It is also preferable that the image extraction unit is configured to compare the confidence value of image data containing facial information with a threshold value and extract image data that most closely resembles a facial image.

 この場合、画像抽出部が、顔情報が含まれる画像データを先頭から所定数毎に分割し、分割した所定数の画像データの中で最も良い画像データを選択し、選択した画像データのコンフィデンス値を閾値と比較するように構成されていることがより好ましい。 In this case, it is more preferable that the image extraction unit be configured to divide the image data containing facial information into a predetermined number of pieces starting from the beginning, select the best image data from the predetermined number of divided pieces of image data, and compare the confidence value of the selected image data with a threshold value.

 インターネット上の性的サイトでありかつユーザが登録したキーワードを含むWEBサイトのURLを収集するURLクローラ部をさらに備えており、画像抽出部はこのURLクローラ部が収集したURLに対応するWEBサイトで動画データを取得するように構成されていることも好ましい。 It is also preferable that the system further includes a URL crawler unit that collects URLs of websites on the Internet that are sexually explicit and contain keywords registered by the user, and that the image extraction unit is configured to obtain video data from websites that correspond to the URLs collected by the URL crawler unit.

 入出力及び画像比較部が、ユーザ端末から送信された顔画像データ及びキーワードを記憶するように構成されており、抽出したURLをユーザ端末に送信するように構成されていることも好ましい。 It is also preferable that the input/output and image comparison unit is configured to store facial image data and keywords sent from the user terminal, and to send the extracted URL to the user terminal.

 本発明によれば、さらに、ユーザが登録した自己の顔画像を表す顔画像データ及び顔画像が流出した原因としてユーザが登録したキーワードを記憶し、インターネット上の性的サイトでありかつユーザが登録したキーワードを含むWEBサイトで取得した動画データから複数の静止画データを抽出し、抽出した静止画データから顔情報が含まれる画像データを取得する画像検索方法が提供される。取得した顔情報が含まれる画像データと、ユーザの登録した顔画像データとを比較し、高い類似度を有する顔画像データのURLを抽出し、複数の互いに異なる処理手順を用いて動画データから静止画データを抽出し、複数の互いに異なる処理手順によって抽出した静止画データを統合する。 The present invention further provides an image search method that stores facial image data representing the user's own facial image registered by the user and keywords registered by the user as the cause of the facial image leak, extracts multiple still image data from video data acquired from websites on the Internet that are sexually explicit and include the keywords registered by the user, and acquires image data containing facial information from the extracted still image data. The acquired image data containing the facial information is compared with the facial image data registered by the user, URLs of facial image data with a high degree of similarity are extracted, still image data is extracted from the video data using multiple different processing procedures, and the still image data extracted using the multiple different processing procedures is integrated.

 複数の互いに異なる処理手順が、動画データを高速で再生し、機械学習モデルによって顔が映っていると判定された静止画データを抽出する処理と、動画データを高速で再生し、任意の一定フレーム間隔で静止画データを抽出する処理とを含んでいることが好ましい。 It is preferable that the multiple different processing procedures include a process of playing back video data at high speed and extracting still image data determined by the machine learning model to contain a face, and a process of playing back video data at high speed and extracting still image data at any fixed frame interval.

 複数の互いに異なる処理手順が、動画データを高速で再生し、機械学習モデルによって顔が映ったと判定した場合の静止画を抽出する処理と、動画データを高速で再生し、機械学習モデルによって最も顔が映っていると判定したタイミングの顔の静止画を抽出する処理と、動画データを高速で再生し、機械学習モデルによって最も顔が映っていると判定したタイミングの顔の特徴量を抽出して顔の静止画を抽出する処理と、動画データを高速で再生し、一定フレーム間隔で動画全体の静止画を抽出し、抽出した静止画毎に機械学習モデルによって顔が映っている確率が最も高い静止画を抽出する処理とを含んでいることも好ましい。 It is also preferable that the multiple different processing procedures include a process of playing back video data at high speed and extracting a still image when a machine learning model determines that a face is shown; a process of playing back video data at high speed and extracting a still image of a face at the timing determined by the machine learning model that a face is most likely to be shown; a process of playing back video data at high speed and extracting facial features at the timing determined by the machine learning model that a face is most likely to be shown, thereby extracting a still image of the face; and a process of playing back video data at high speed and extracting still images from the entire video at regular frame intervals, and extracting the still image with the highest probability of showing a face for each extracted still image using the machine learning model.

 顔情報が含まれる画像データのコンフィデンス値を閾値と比較して顔画像が最も映っている画像データを抽出することも好ましい。 It is also preferable to compare the confidence value of image data containing facial information with a threshold value to extract the image data that most closely resembles a facial image.

 この場合、顔情報が含まれる画像データを先頭から所定数毎に分割し、分割した所定数の画像データの中で最も精度の高い画像データを選択し、選択した画像データのコンフィデンス値を閾値と比較することがより好ましい。 In this case, it is more preferable to divide the image data containing facial information into a predetermined number of parts starting from the beginning, select the image data with the highest accuracy from among the predetermined number of divided image data parts, and compare the confidence value of the selected image data with a threshold value.

 インターネット上の性的サイトでありかつユーザが登録したキーワードを含むWEBサイトのURLを収集し、収集したURLに対応するサイトで動画データを取得することも好ましい。 It is also preferable to collect URLs of websites on the Internet that are sexually explicit and contain keywords registered by the user, and obtain video data from the sites corresponding to the collected URLs.

 ユーザ端末から送信された顔画像データ及びキーワードを記憶し、抽出したURLをユーザ端末に送信することも好ましい。 It is also preferable to store the facial image data and keywords sent from the user terminal and send the extracted URL to the user terminal.

 本発明によれば、またさらに、コンピュータを、ユーザが登録した自己の顔画像を表す顔画像データ及び顔画像が流出した原因としてユーザが登録したキーワードを記憶する入出力及び画像比較手段と、インターネット上の性的サイトでありかつユーザが登録したキーワードを含むWEBサイトで取得した動画データから複数の静止画データを抽出し、抽出した静止画データから顔情報が含まれる画像データを取得する画像抽出手段として機能させるためのプログラムが提供される。入出力及び画像比較手段は、取得した顔情報が含まれる画像データと、ユーザの登録した顔画像データとを比較し、高い類似度を有する顔画像データのURLを抽出する手段であり、画像抽出手段は、複数の互いに異なる処理手順を用いて動画データから静止画データを抽出し、複数の互いに異なる処理手順によって抽出した静止画データを統合する手段である。 The present invention also provides a program for causing a computer to function as an input/output and image comparison means for storing facial image data representing a user's own facial image registered by the user and keywords registered by the user as the cause of the facial image leak, and an image extraction means for extracting multiple still image data from video data acquired from a website on the Internet that is a sexually explicit site and includes keywords registered by the user, and acquiring image data containing facial information from the extracted still image data. The input/output and image comparison means compares the acquired image data containing facial information with the facial image data registered by the user and extracts the URL of facial image data that has a high degree of similarity, and the image extraction means extracts still image data from video data using multiple different processing procedures and integrates the still image data extracted by the multiple different processing procedures.

 本発明によれば、さらに、コンピュータを、ユーザが登録した自己の顔画像を表す顔画像データ及び顔画像が流出した原因としてユーザが登録したキーワードを記憶する入出力及び画像比較手段と、インターネット上の性的サイトでありかつユーザが登録したキーワードを含むWEBサイトで取得した動画データから複数の静止画データを抽出し、抽出した静止画データから顔情報が含まれる画像データを取得する画像抽出手段として機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体が提供される。入出力及び画像比較手段は、取得した顔情報が含まれる画像データと記憶したユーザの登録した顔画像データとを比較し、高い類似度を有する顔画像データのURLを抽出する手段であり、画像抽出手段は、複数の互いに異なる処理手順を用いて動画データから静止画データを抽出し、複数の互いに異なる処理手順によって抽出した静止画データを統合する手段である。 The present invention also provides a computer-readable recording medium having recorded thereon a program for causing a computer to function as an input/output and image comparison means for storing facial image data representing the user's own facial image registered by the user and keywords registered by the user as the cause of the facial image leak, and an image extraction means for extracting multiple still image data from video data acquired from websites on the Internet that are sexually explicit and include keywords registered by the user, and acquiring image data containing facial information from the extracted still image data. The input/output and image comparison means compares the acquired image data containing facial information with stored facial image data registered by the user, and extracts the URL of facial image data that has a high degree of similarity, and the image extraction means extracts still image data from video data using multiple different processing procedures and integrates the still image data extracted by the multiple different processing procedures.

 本発明では、盗撮被害やリベンジポルノ被害を防止するためのWEBサイトのみが検索されるため、インターネット上に流出したユーザの顔画像をその初期段階で迅速に検出することができると共に画像検索装置の構成が簡易となる。また、処理手順が異なることにより最終的に得られる画像も異なってくることから、顔画像検出の確実性が大幅に高くなるため、ユーザの顔画像がインターネット上に流出したことを簡易な構成で確実に検出することができる。 In this invention, only websites for preventing voyeurism and revenge pornography are searched, making it possible to quickly detect a user's facial image leaked onto the Internet at an early stage and simplifying the configuration of the image search device. Furthermore, since different processing procedures result in different images being ultimately obtained, the reliability of facial image detection is significantly increased, making it possible to reliably detect when a user's facial image has been leaked onto the Internet with a simple configuration.

本発明の一実施形態における画像検索装置の全体構成を概略的に示すブロック図である。1 is a block diagram schematically illustrating the overall configuration of an image search device according to an embodiment of the present invention. 図1の画像検索装置の機能を説明する説明図である。FIG. 2 is an explanatory diagram illustrating the function of the image search device of FIG. 1; 図1の画像検索装置における入出力及び画像比較部の処理動作を示すフローチャートである。2 is a flowchart showing the processing operation of an input/output and image comparison unit in the image search device of FIG. 1 . 図1の画像検索装置における入出力及び画像比較部の処理動作を示すフローチャートである。2 is a flowchart showing the processing operation of an input/output and image comparison unit in the image search device of FIG. 1 . 図1の画像検索装置におけるURLクローラ部の処理動作を示すフローチャートである。2 is a flowchart showing the processing operation of a URL crawler unit in the image search device of FIG. 1 . 図1の画像検索装置における静止画クローラ部の処理動作を示すフローチャートである。10 is a flowchart showing the processing operation of a still image crawler unit in the image search device of FIG. 1 . 図1の画像検索装置における動画クローラ部の処理動作を示すフローチャートである。10 is a flowchart showing the processing operation of a video crawler unit in the image search device of FIG. 1 . 図1の画像検索装置における動画クローラ部の処理動作の一部の変更態様を示すフローチャートである。10 is a flowchart showing a modified example of a part of the processing operation of the video crawler unit in the image search device of FIG. 1 . ユーザ端末における自己の顔画像の登録画面を表す図である。FIG. 10 is a diagram illustrating a registration screen for a user's own face image on a user terminal. ユーザ端末におけるキーワードの登録画面を表す図である。FIG. 10 is a diagram illustrating a keyword registration screen on a user terminal. ユーザ端末における検索結果表示画面を表す図である。FIG. 10 is a diagram illustrating a search result display screen on a user terminal.

 図1は本発明の一実施形態における画像検索装置の全体構成を概略的に示しており、図2は本実施形態の画像検索装置の機能を説明している。 FIG. 1 shows a schematic diagram of the overall configuration of an image search device according to one embodiment of the present invention, and FIG. 2 explains the functions of the image search device according to this embodiment.

 図1において、10はユーザが操作する例えばスマートフォン、タブレット端末又はコンピュータ端末等から構成され、本実施形態の画像検索アプリがインストールされているユーザ端末、11はユーザ端末10と通信が可能なクラウド上の画像検索サーバ、12は画像検索サーバ11がアクセス可能なインターネットをそれぞれ示している。 In Figure 1, 10 denotes a user terminal, such as a smartphone, tablet terminal, or computer terminal operated by a user, on which the image search app of this embodiment is installed, 11 denotes an image search server on the cloud that can communicate with the user terminal 10, and 12 denotes the Internet, which can be accessed by the image search server 11.

 画像検索サーバ11は、図1に示すように、入出力及び画像比較部13と、クラウドサーバ14と、URLクローラ部15と、静止画クローラ部16と、動画クローラ部17とを少なくとも備えている。 As shown in Figure 1, the image search server 11 includes at least an input/output and image comparison unit 13, a cloud server 14, a URL crawler unit 15, a still image crawler unit 16, and a video crawler unit 17.

 図2に示すように、入出力及び画像比較部13は、クラウドコンピューティングサービス(AWS)によるデータベース(AWS/RDS)13a及びストレージ(AWS/S3)13bを備えている。この入出力及び画像比較部13は、ユーザ端末10に通信接続可能であり、ユーザ端末10から送信されたユーザの顔画像データ及びこの顔画像データに紐づけてユーザが登録したキーワードを記憶するように構成されている。入出力及び画像比較部13は、さらに、クラウドコンピューティングサービスによるクラウドサーバ(Azure)14が抽出した、ユーザの顔画像と類似度の高い顔画像が存在する動画のURLをユーザに紐づけて記憶するように構成されている。 As shown in FIG. 2, the input/output and image comparison unit 13 includes a database (AWS/RDS) 13a and storage (AWS/S3) 13b provided by a cloud computing service (AWS). This input/output and image comparison unit 13 is communicatively connectable to the user terminal 10, and is configured to store the user's facial image data transmitted from the user terminal 10 and keywords registered by the user in association with this facial image data. The input/output and image comparison unit 13 is further configured to store, in association with the user, the URLs of videos containing facial images highly similar to the user's facial image, extracted by a cloud server (Azure) 14 provided by the cloud computing service.

 前述したように、ユーザ端末10から送信されたユーザの顔画像データはストレージ(AWS/S3)13bに、ユーザが登録したキーワードはデータベース(AWS/RDS)13aにそれぞれ記憶されている。クラウドサーバ(Azure)14は、静止画クローラ部16又は動画クローラ部17が収集した画像を学習してFace IDを付与すると共に、これら収集した画像とユーザが登録した画像とを比較し、その類似度を求めるように構成されている。 As mentioned above, the user's facial image data sent from the user terminal 10 is stored in storage (AWS/S3) 13b, and the keywords registered by the user are stored in database (AWS/RDS) 13a. The cloud server (Azure) 14 is configured to learn the images collected by the still image crawler unit 16 or video crawler unit 17, assign a Face ID, and compare these collected images with images registered by the user to determine their similarity.

 URLクローラ部15は、AWSによるクラウドサーバ(AWS/EC2)15a上に存在するWebクローラの1つを利用した自動巡回プログラムであるライブラリSeleniumを使用している。このURLクローラ部15は、インターネット12上の性的な動画を扱っておりかつ顔画像流出の可能性のあるあらかじめ決められた複数のWEBサイトについて、登録されたキーワードを含む動画のURLを収集するように構成されている。あらかじめ決められたWEBサイトとしては、例えば、Pornhub、FC2、Tokyo Motion、Twitter Video Tools、XVIDEOS、Twitter等が存在する。収集されたURLのリストは、URLクローラ部15内のURLリスト部15bに記憶される。 The URL crawler unit 15 uses Library Selenium, an automatic crawling program that utilizes one of the web crawlers present on the AWS cloud server (AWS/EC2) 15a. This URL crawler unit 15 is configured to collect URLs of videos containing registered keywords from multiple predetermined websites on the Internet 12 that deal with sexually explicit videos and have the potential for facial image leaks. Examples of predetermined websites include Pornhub, FC2, Tokyo Motion, Twitter Video Tools, XVIDEOS, and Twitter. A list of the collected URLs is stored in the URL list unit 15b within the URL crawler unit 15.

 URLリスト部15bは、AWSによるデータベース(AWS/RDS)とローカルのファイル(ローカルのプログラムファイル内のコンフィグファイル)の記憶部とによって構成されており、収集されたURLはこのRDSとローカルファイル記憶部とに記憶される。RDSに書き込む理由は、動画クローラやフェイスシミラー等の種々のシステムからURLとそれに結び付く動画像データ等の情報にアクセスする要請があるためである。 The URL list unit 15b is made up of an AWS database (AWS/RDS) and a local file (configuration file within local program files) storage unit, and collected URLs are stored in this RDS and local file storage unit. The reason for writing to the RDS is that various systems such as video crawlers and face similarity systems require access to URLs and information such as associated video data.

 静止画クローラ部16は、本実施形態においては、AWSによるストレージ(AWS/S3)16aと、画像サーチ部16bと、機械学習部16cとから主に構築されている。 In this embodiment, the still image crawler unit 16 is primarily composed of AWS storage (AWS/S3) 16a, an image search unit 16b, and a machine learning unit 16c.

 画像サーチ部16bは、ローカルのプログラムファイル内のコンフィグファイル内に記述されている検索エンジンを用い、入出力記憶部に記憶されている指定されたキーワードでWEBサイトを画像検索し、表示される画像をストレージ(AWS/S3)16aに記憶する。検索エンジンとしては主にGoogle、Yandex、Yahoo、Baidu等を利用している。 The image search unit 16b uses a search engine described in a configuration file within the local program files to perform an image search on websites using specified keywords stored in the input/output memory unit, and stores the displayed images in storage (AWS/S3) 16a. The search engines used are primarily Google, Yandex, Yahoo, Baidu, etc.

 機械学習部16cは、深層学習アルゴリズムを利用し、人の顔検出に特化したライブラリFaceBoxesモデルを用いて構築されている。この機械学習モデルは、膨大な顔画像から人の顔の特徴について学習し、入力された未知の画像データに含まれる顔情報の検出を可能にしている。検出された顔情報はコンフィデンスという数値を伴い、この値が、検出された領域に顔が含まれている確実性を表す。つまり、この数値が高いほど、検出された領域が顔である可能性が高いということである。なお、FaceBoxesモデルは、一般に公開されている機械学習モデルのライブラリであり、西洋人の顔画像を学習して構築されているため、後述するように、アジア人の顔画像でファインチューニングを実行したモデルを使用し、オリジナルのモデルに比して顔画像の検出精度を高めている。 The machine learning unit 16c utilizes a deep learning algorithm and is built using the FaceBoxes model, a library specialized for human face detection. This machine learning model learns about human facial features from a vast number of face images, making it possible to detect facial information contained in unknown input image data. The detected facial information is accompanied by a numerical value called confidence, which indicates the certainty that a face is contained in the detected area. In other words, the higher this numerical value, the more likely the detected area is to be a face. The FaceBoxes model is a publicly available machine learning model library and was built by learning from images of Western faces. As described below, a model that has been fine-tuned using images of Asian faces is used to improve the accuracy of facial image detection compared to the original model.

 機械学習部16cは、さらに、コンフィデンス値があらかじめ定めた閾値を超える全ての画像データを、ストレージ(AWS/S3)16aに記憶するように構成されている。 The machine learning unit 16c is further configured to store all image data whose confidence value exceeds a predetermined threshold in storage (AWS/S3) 16a.

 動画クローラ部17は、本実施形態においては、クラウドサーバ(AWS/EC2)15aに存在する動画クローラと、AWSによるストレージ(AWS/S3)17aと、画像抽出部17bと、前述した機械学習部16cとから主に構築されている。 In this embodiment, the video crawler unit 17 is primarily composed of a video crawler located on the cloud server (AWS/EC2) 15a, AWS storage (AWS/S3) 17a, an image extraction unit 17b, and the aforementioned machine learning unit 16c.

 動画クローラは、ローカルのプログラムファイル内のコンフィグファイル内に記述されている検索エンジン(Google Chrome)を用いてURLリスト部15bに記憶されているURLにおける多数の動画を再生し、1つの動画データに対して、膨大な数の静止画データを取得する。そして、得られた画像群に対して、人の顔検出に特化したライブラリFaceBoxesモデルを用いて顔情報が含まれる画像のみを取得し、その中でも最もコンフィデンス値が高い(顔が最も鮮明に映っている)1枚の画像を選出するように構成されている。 The video crawler uses a search engine (Google Chrome) described in a configuration file within the local program files to play numerous videos at URLs stored in the URL list section 15b, and obtains a huge number of still image data for each video data. It then uses the FaceBoxes model, a library specialized for human face detection, to obtain only images containing facial information from the resulting image group, and is configured to select the image with the highest confidence value (the image with the clearest face).

 URLリスト部15bに記憶されているURLにおける多数の動画から静止画を取得する方法として、動画をダウンロードして再生する方法と、WEBサイトをクローリングして再生する方法があるが、どちらを用いても良い。画像抽出部17bは、取得した多数の動画像を再生し、多数の静止画を取得する。 There are two ways to obtain still images from the many videos at the URLs stored in the URL list unit 15b: downloading and playing the videos, or crawling and playing the videos from a website. Either method is acceptable. The image extraction unit 17b plays the many obtained videos and obtains many still images.

 機械学習部16cは、深層学習アルゴリズムを利用し、人の顔検出に特化したライブラリFaceBoxesモデルを用いて構築されている。この機械学習モデルは、膨大な顔画像から人の顔の特徴について学習し、入力された未知の画像データに含まれる顔情報の検出を可能にする。この際に検出された顔情報はコンフィデンスという数値を伴い、この値が、検出された領域に顔が含まれている確実性を表す。つまり、この数値が高いほど、検出された領域が顔である可能性が高いということである。なお、FaceBoxesモデルは、一般に公開されている機械学習モデルのライブラリであり、西洋人の顔画像を学習して構築されているため、アジア人に対しての顔の検出精度はさほど高くない。そこで、本実施形態では、独自に収集したアジア人の顔画像を学習データとしてこのFaceBoxesモデルに再度入力してモデルの重みを調整するファインチューニングを行っている。これにより、オリジナルのモデルに比して顔画像の検出精度を高めている。 The machine learning unit 16c utilizes a deep learning algorithm and is built using the FaceBoxes model, a library specialized for human face detection. This machine learning model learns about human facial features from a vast number of facial images, enabling it to detect facial information contained in input, unknown image data. The detected facial information is accompanied by a numerical value called confidence, which indicates the certainty that a face is contained in the detected area. In other words, the higher this numerical value, the more likely the detected area is to be a face. Note that the FaceBoxes model is a publicly available machine learning model library and was built by learning from images of Western faces, so its face detection accuracy for Asian people is not very high. Therefore, in this embodiment, independently collected facial images of Asian people are input back into the FaceBoxes model as training data, and fine-tuning is performed to adjust the model weights. This improves the face image detection accuracy compared to the original model.

 機械学習部16cは、さらに、コンフィデンス値があらかじめ定めた閾値を超える全ての画像データをストレージ(AWS/S3)17aに記憶するように構成されている。 The machine learning unit 16c is further configured to store all image data whose confidence value exceeds a predetermined threshold in storage (AWS/S3) 17a.

 図3及び図4は入出力及び画像比較部13の処理動作を表しており、以下、これらの図を用いてこの入出力及び画像比較部13の処理動作を説明する。 Figures 3 and 4 show the processing operations of the input/output and image comparison unit 13, and these figures will be used below to explain the processing operations of this input/output and image comparison unit 13.

 まず、最初に、ユーザが、ユーザ端末10を介して自己の顔画像を登録する。即ち、図9に示すように、真顔のみならず笑顔や横顔を含む、できれば、複数の顔画像データを画像検索サーバ11に送信する。さらに、図10に示すように、「誰に」、「いつ」、「どこで」、「何をした」等を示すキーワードを、ユーザ端末10を介して画像検索サーバ11に送信する。例えば、撮影者(分かる場合)として「元カレ」、「同級生」、「リスナー」、「個人撮影」等のキーワード、撮影時の身分(分かる場合)として「JD」、「女子大生」、「会社員」、「デリヘル」、「パパ活」等のキーワード、撮影場所(分かる場合)として「ホテル」、「渋谷」、「新宿」、「お店の名前」、「ライブチャット」、「ハメ撮り」、「盗撮」等のキーワード、「マッチングアプリ」、「SNS」、「Twitter」、「コスプレ」等のキーワード、ユーザの源氏名や愛称等のキーワードを画像検索サーバ11に送信する。 First, the user registers an image of their face via the user terminal 10. That is, as shown in FIG. 9, multiple pieces of face image data, including not only straight faces but also smiling and profile images, are sent to the image search server 11, if possible. Furthermore, as shown in FIG. 10, keywords indicating "who," "when," "where," "what," etc. are sent to the image search server 11 via the user terminal 10. For example, keywords such as "ex-boyfriend," "classmate," "listener," and "personal photo" are sent to the image search server 11 as the photographer (if known); keywords such as "JD," "female college student," "office worker," "delivery health," and "sugar daddy" are sent to the image search server 11 as the identity of the photographer (if known); keywords such as "hotel," "Shibuya," "Shinjuku," "shop name," "live chat," "amateur video," and "voyeur" are sent to the image search server 11 as the location of the photo (if known); keywords such as "matching app," "SNS," "Twitter," and "cosplay," and keywords such as the user's stage name or nickname.

 図3に示すように、入出力及び画像比較部13は、ユーザ端末10から送信された複数の顔画像データ及びこの顔画像データと共に送信されたキーワードを受信する(ステップS1)。 As shown in FIG. 3, the input/output and image comparison unit 13 receives multiple pieces of facial image data sent from the user terminal 10 and keywords sent together with this facial image data (step S1).

 次いで、入出力及び画像比較部13は、受信したユーザの顔画像データをストレージ(AWS/S3)13bに記憶し、これに紐づけてユーザが登録したキーワードをデータベース(AWS/RDS)13aに記憶する(ステップS2)。 Next, the input/output and image comparison unit 13 stores the received user's facial image data in storage (AWS/S3) 13b, and stores the keywords registered by the user in association with this data in database (AWS/RDS) 13a (step S2).

 さらに、ユーザが登録したキーワードに類似し、クロール処理により適切であると自動又は手動で判断した類似キーワードをデータベース(AWS/RDS)13aに記憶する(ステップS3)。 Furthermore, similar keywords that are similar to the keywords registered by the user and that are determined to be appropriate through crawling processing, either automatically or manually, are stored in database (AWS/RDS) 13a (step S3).

 一方、図4に示すように、入出力及び画像比較部13は、ストレージ(AWS/S3)13bに記憶されているユーザの顔画像をクラウドサーバ14のAzureのシミラーに入力することにより、類似度の高い顔画像のIDを出力する。このIDに基づいて、データベース(AWS/RDS)13aを参照し、その顔画像が存在する動画のURL及び本人である確率を抽出する(ステップS11)。即ち、Azureからは、URL及び確率が出力され、データベース(AWS/RDS)からは、投稿日時が読み出されて出力される。 Meanwhile, as shown in Figure 4, the input/output and image comparison unit 13 inputs the user's facial image stored in storage (AWS/S3) 13b into Azure Similar on the cloud server 14, and outputs the ID of the facial image with the highest degree of similarity. Based on this ID, the database (AWS/RDS) 13a is referenced, and the URL of the video in which the facial image exists and the probability that it is the user themselves are extracted (step S11). That is, the URL and probability are output from Azure, and the posting date and time are read and output from the database (AWS/RDS).

 次いで、入出力及び画像比較部13は、このようにして得られた、類似度の高い顔画像が存在する動画のURL、本人である確率、投稿された日時及び発見した日時をユーザ端末10に送信する(ステップS12)。ユーザ端末10は、これにより、図11に示すような検索結果(発見日、この情報をチェックしたか否か、投稿日、URL、本人確率)を表示する。 The input/output and image comparison unit 13 then transmits the URL of the video containing the highly similar facial image, the probability that the person is the same person, the posting date and time, and the discovery date and time to the user terminal 10 (step S12). The user terminal 10 then displays the search results (discovery date, whether or not the information was checked, posting date, URL, and identity probability) as shown in FIG. 11.

 図5はURLクローラ部15の処理動作を表しており、以下、同図を用いてこのURLクローラ部15の処理動作を説明する。 Figure 5 shows the processing operations of the URL crawler unit 15, and the processing operations of this URL crawler unit 15 will be explained below using this figure.

 URLクローラ部15は、まず、アクセスする複数のWEBサイトをあらかじめ決定しておく(ステップS21)。 The URL crawler unit 15 first determines in advance the multiple websites to be accessed (step S21).

 次いで、決定したこれら複数のWEBサイトについて、データベース(AWS/RDS)13aに記憶されているユーザが登録したキーワード及びこれに類似するキーワードに基づいてURLクローリングし、これらキーワードを含む動画のURLを取得する(ステップS22)。 Next, for these determined websites, the URLs are crawled based on the keywords registered by the user and similar keywords stored in the database (AWS/RDS) 13a, and URLs of videos containing these keywords are obtained (step S22).

 次いで、取得したURLをURLリストとして、URLリスト部15bに記憶する(ステップS23)。 The acquired URLs are then stored as a URL list in the URL list section 15b (step S23).

 図6は静止画クローラ部16の処理動作を表しており、以下、同図を用いてこの静止画クローラ部16の処理動作を説明する。 Figure 6 shows the processing operation of the still image crawler unit 16, and the processing operation of this still image crawler unit 16 will be explained below using this figure.

 静止画クローラ部16は、画像サーチ部16bにおいて、あらかじめ定めた検索エンジンを用い、データベース(AWS/RDS)13aに記憶されている指定されたキーワードで静止画を画像検索する(ステップS31)。画像の収集対象となるWEBサイトは非常に多岐にわたるため、指定されたキーワード、例えば、盗撮された画像の場合、「盗撮」というキーワードで検索する。 The still image crawler unit 16 uses a predetermined search engine in the image search unit 16b to perform an image search for still images using specified keywords stored in the database (AWS/RDS) 13a (step S31). Because there is a wide variety of websites from which images can be collected, the specified keyword, for example, "secretly taken" in the case of images taken secretly, is used in the search.

 次いで、検索された多数の静止画像を、ローカルのキャッシュメモリに一時的に記憶させる(ステップS32)。 Next, the retrieved still images are temporarily stored in local cache memory (step S32).

 次いで、このキャッシュメモリに記憶された多数の静止画像について、顔検出に関するディープラーニングによる機械学習アルゴリズム(例えばFaceBoxesモデル)を適用し、顔が含まれている静止画像と顔が含まれている確率を表すコンフィデンス値とを抽出する(ステップS33)。 Next, a deep learning machine learning algorithm for face detection (e.g., the FaceBoxes model) is applied to the numerous still images stored in this cache memory to extract still images containing faces and confidence values representing the probability that a face is included (step S33).

 次いで、抽出したコンフィデンス値が閾値を超える静止画像(画像データ)について、ストレージ(AWS/S3)16aに記憶させて、リスト登録処理を行う(ステップS34)。 Next, still images (image data) whose extracted confidence values exceed the threshold are stored in storage (AWS/S3) 16a and a list registration process is performed (step S34).

 一方、ステップS31~34の処理とは非同期に、ユーザが自己の顔画像データ及びキーワードを登録した際に、AzureのFind Similarが呼び出され、画像をこのAzureのFind Similarモデルに学習させると共に、その画像元のURL、投稿日時、キーワード、Azureに学習させた画像のIDなどをデータベース(AWS/RDS)13aに記録し、画像データをストレージ(AWS/S3)13bにアップロードして記憶させる(ステップS35)。 Meanwhile, asynchronously with the processing of steps S31-34, when a user registers their own facial image data and keywords, Azure's Find Similar is called up, and the image is trained in this Azure Find Similar model. The image's original URL, posting date and time, keywords, and the image ID trained by Azure are recorded in database (AWS/RDS) 13a, and the image data is uploaded to and stored in storage (AWS/S3) 13b (step S35).

 図7は動画クローラ部17の処理動作を表しており、以下、同図を用いてこの動画クローラ部17の処理動作を説明する。 Figure 7 shows the processing operation of the video crawler unit 17, and the processing operation of this video crawler unit 17 will be explained below using this figure.

 動画クローラ部17は、まず、URLリスト部15bに記憶されているURLにおいて、あらかじめ定めた画像検索エンジン(Google Chrome)を用い、指定されたキーワードで多数の動画像を取得する(ステップS41)。 The video crawler unit 17 first uses a predetermined image search engine (Google Chrome) to retrieve a large number of videos using the specified keywords from the URLs stored in the URL list unit 15b (step S41).

 次いで、取得した多数の動画像を高速で再生し、機械学習モデルが判定した顔が映っている静止画を取得する(ステップS42)。 Next, the acquired multiple video images are played back at high speed to acquire still images that show the faces identified by the machine learning model (step S42).

 一方、取得した多数の動画像を高速で再生し、任意の一定フレーム間隔で静止画を取得する(ステップS43)。 Meanwhile, the acquired multiple video images are played back at high speed, and still images are acquired at any fixed frame interval (step S43).

 次いで、ステップS42の処理手順(ステップS43とは異なる処理手順)で抽出した多数の静止画と、ステップS43の処理手順(ステップS42とは異なる処理手順)で抽出した多数の静止画とを統合し、ローカルのキャッシュメモリに一時的に記憶させる(ステップS44)。このように、本実施形態では、2つの互いに異なる処理手順を使用して動画像から静止画をそれぞれ抽出し、これら2つの処理手順によって抽出した静止画を統合することによって、静止画の抽出を行っている。処理手順が異なることにより最終的に得られる画像も異なってくることから、1つの手順のみによって顔画像の抽出を行った場合に比べて顔画像検出の確実性が非常に高くなる。 Next, the large number of still images extracted using the processing procedure of step S42 (a processing procedure different from step S43) and the large number of still images extracted using the processing procedure of step S43 (a processing procedure different from step S42) are integrated and temporarily stored in local cache memory (step S44). In this way, in this embodiment, still images are extracted from moving images using two different processing procedures, and the still images extracted using these two processing procedures are integrated to extract still images. Because the final images obtained differ depending on the processing procedures, the reliability of facial image detection is significantly higher than when facial images are extracted using only one procedure.

 多数の画像データはストレージに直接記録するには大容量すぎるため、ステップS42及びS43においては、顔が写っているとは限らない画像群から顔が写っているもののみを選択し、さらにその中で最もコンフィデンス値の高いものを最終的に残す。ステップS44においても、ほぼ同様で顔が写っている画像群から最も顔がよく写っている(コンフィデンス値の高い)画像を最終的に残す。これは最終的にストレージにアップロードするが、正しくはURLクローラに記載される全ての動画に対して、各コンフィデンス値の最も高い画像を取得し終えてから、リスト登録処理を通してAzureで学習させ、ストレージ(AWS/S3)17aに記憶させる。 As the volume of image data is too large to record directly in storage, in steps S42 and S43, only images that show faces are selected from a group of images that do not necessarily show faces, and the image with the highest confidence value is ultimately retained. Step S44 is similar: from the group of images that do show faces, the image that best shows the face (with the highest confidence value) is ultimately retained. This is ultimately uploaded to storage, but more precisely, after the image with the highest confidence value for each of the videos listed in the URL crawler has been obtained, it is trained by Azure through a list registration process and stored in storage (AWS/S3) 17a.

 コンフィデンス値の最も高い画像を取得する場合に、全ての画像について評価するのではなく、動画から得られた複数の画像群を先頭から所定数毎(例えば100枚毎)に分割して、その中で最も精度の高い画像を選択することが望ましい。そして、各画像群から得られた複数の顔画像に対して、さらに、その中で最もコンフィデンスの高いものを最終的に選出する。このように、全ての画像から最も精度の高い画像を選択するのではなく、画像群に分割し各分割単位について評価する理由は、閾値を超えた場合に処理を途中で切り上げられるので、全体としては効率的に処理を行えるためである。例えば1000枚の画像から精度の最も高いものを選出する場合、単純に行えば1000枚の画像データを評価する必要があるが、100枚毎に10分割した場合、例えば10枚目で閾値を超えれば10×10=100枚の画像評価で済むこととなる。 When obtaining the image with the highest confidence value, rather than evaluating all images, it is desirable to divide the multiple image groups obtained from the video into groups of a predetermined number (for example, every 100 images) from the beginning and select the image with the highest accuracy from among them. Then, for the multiple facial images obtained from each image group, the one with the highest confidence is finally selected. The reason for dividing into image groups and evaluating each division unit in this way, rather than selecting the image with the highest accuracy from all images, is that processing can be stopped midway if a threshold is exceeded, allowing for efficient processing overall. For example, if the image with the highest accuracy is selected from 1,000 images, simply evaluating the image data of 1,000 images would be necessary, but if the group is divided into 10 groups of 100 images each, and the threshold is exceeded on the 10th image, then it will be sufficient to evaluate 10 x 10 = 100 images.

 ステップS44の処理の後、キャッシュメモリに記憶された多数の静止画像について、顔検出に関するディープラーニングによる機械学習アルゴリズム(例えばライブラリのFaceBoxesモデル)を適用し、顔が含まれている静止画像と顔が含まれている確率を表すコンフィデンス値とを抽出する(ステップS45)。 After processing in step S44, a deep learning machine learning algorithm for face detection (e.g., the FaceBoxes model from the library) is applied to the numerous still images stored in the cache memory to extract still images containing faces and confidence values representing the probability that a face is included (step S45).

 次いで、コンフィデンス値が閾値を超える静止画像(画像データ)についてストレージ(AWS/S3)17aに記憶する(ステップS46)。 Next, still images (image data) whose confidence values exceed the threshold are stored in storage (AWS/S3) 17a (step S46).

 一方、ステップS41~46の処理とは非同期に、ユーザが自己の顔画像データ及びキーワードを登録した際に、AzureのFind Similarが呼び出され、画像をこのAzureのFind Similarモデルに学習させると共に、その画像元のURL、投稿日時、キーワード、Azureに学習させた画像のIDなどをデータベース(AWS/RDS)13aに記録し、画像データをストレージ(AWS/S3)13bにアップロードして記憶させる(ステップS47)。 Meanwhile, asynchronously with the processing of steps S41-46, when a user registers their own facial image data and keywords, Azure's Find Similar is called up, and the image is trained in this Azure Find Similar model. The image's original URL, posting date and time, keywords, and the image ID trained by Azure are recorded in database (AWS/RDS) 13a, and the image data is uploaded and stored in storage (AWS/S3) 13b (step S47).

 図8は動画クローラ部17の一部の処理動作を変更した変更態様の処理動作を表している。 Figure 8 shows a modified version of the processing operations in which some of the processing operations of the video crawler unit 17 have been modified.

 この変更態様においては、図7のステップS42における処理動作に代えて、図8のステップS42aに示すように、取得した多数の動画像を高速で再生し、機械学習モデルを利用して、顔が映ったと判定した場合の静止画を抽出する処理、図8のステップS42bに示すように、取得した多数の動画像を高速で再生し、機械学習モデルを利用して、最も顔が映っていると判定したタイミングの顔の静止画を抽出する処理、及び図8のステップS42cに示すように、取得した多数の動画像を高速で再生し、機械学習モデルを利用して、最も顔が映っていると判定したタイミングの顔の特徴量を抽出し、顔の静止画を抽出する処理を並行して行う。 In this modified embodiment, instead of the processing operation in step S42 of FIG. 7, the following processes are performed in parallel: as shown in step S42a of FIG. 8, a process of playing back a large number of acquired moving images at high speed and using a machine learning model to extract still images when it is determined that a face is shown; as shown in step S42b of FIG. 8, a process of playing back a large number of acquired moving images at high speed and using a machine learning model to extract still images of a face at the timing when it is determined that a face is most likely to be shown; and as shown in step S42c of FIG. 8, a process of playing back a large number of acquired moving images at high speed and using a machine learning model to extract facial features at the timing when it is determined that a face is most likely to be shown and extract still images of a face.

 また、図7のステップS43における処理動作に代えて、図8のステップS43aに示すように、取得した多数の動画像を高速で再生し、一定フレーム間隔で動画全体の静止画を抽出し、抽出した静止画毎に機械学習モデルを利用して、顔が映っている確率が最も高い静止画を抽出する処理を行う。 In addition, instead of the processing operation in step S43 in Figure 7, as shown in step S43a in Figure 8, a large number of acquired moving images are played back at high speed, still images from the entire moving image are extracted at regular frame intervals, and a machine learning model is used for each extracted still image to extract the still image with the highest probability of showing a face.

 その後、ステップS42a~42cの処理手順(他のステップとは異なる処理手順)で抽出した多数の静止画と、ステップS43aの処理手順(他のステップとは異なる処理手順)で抽出した多数の静止画とを統合してローカルのキャッシュメモリに一時的に記憶させる。このように、本変更態様では、4つの互いに異なる処理手順を使用して動画像から静止画をそれぞれ抽出し、これら4つの処理手順によって抽出した静止画を統合することによって、静止画の抽出を行っている。処理手順が異なることにより最終的に得られる画像も異なってくることから、1つの手順のみによって顔画像の抽出を行った場合に比べて確実性が大幅に高くなる。 Then, the multiple still images extracted using the processing procedure of steps S42a to S42c (a processing procedure different from the other steps) and the multiple still images extracted using the processing procedure of step S43a (a processing procedure different from the other steps) are integrated and temporarily stored in local cache memory. In this modified form, still images are extracted from moving images using four different processing procedures, and the still images extracted using these four processing procedures are integrated to extract still images. Because the final image obtained differs depending on the processing procedures, this provides significantly higher reliability than when facial images are extracted using only one procedure.

 以上説明したように、本実施形態では、動画クローラ部17の動画クローラによって、URLリスト部15bに記憶されているURLに対応するWEBサイト、即ち、顔画像流出の原因となるとして登録したキーワードを含むWEBサイト、で動画データを取得している。即ち、インターネット全体を検索していない。このため、インターネット上に流出したユーザの顔画像をその初期段階で迅速に検出することができると共に画像検索装置の構成が簡易となる。また、本実施形態では、取得した動画データから複数の静止画データを抽出し、抽出した静止画データから顔情報が含まれる画像データを取得する際に、複数の互いに異なる処理手順を用いて動画データから静止画データを抽出し、これら複数の互いに異なる処理手順によって抽出した静止画データを統合している。このように、処理手順が異なることにより最終的に得られる画像も異なってくることから、1つの手順のみによって顔画像の抽出を行った場合に比べて顔画像検出の確実性が大幅に高くなる。このため、ユーザの顔画像がインターネット上に流出したことを簡易な構成で確実に検出することができる。 As explained above, in this embodiment, the video crawler of the video crawler unit 17 acquires video data from websites corresponding to URLs stored in the URL list unit 15b, i.e., websites containing keywords registered as the cause of facial image leaks. In other words, the entire Internet is not searched. This allows for rapid detection of user facial images leaked onto the Internet at an early stage and simplifies the configuration of the image search device. Furthermore, in this embodiment, when multiple still image data are extracted from the acquired video data and image data containing facial information is obtained from the extracted still image data, multiple different processing procedures are used to extract the still image data from the video data, and the still image data extracted by these multiple different processing procedures is integrated. In this way, different processing procedures result in different final images, which significantly increases the reliability of facial image detection compared to when facial images are extracted using only a single procedure. This makes it possible to reliably detect that a user's facial image has been leaked onto the Internet with a simple configuration.

 上述した実施形態及び変更態様においては、クラウドコンピューティングサービスによるサーバ、ストレージ及びデータベースを使用して本発明の画像検索装置を構築しているが、本発明は、クラウドコンピューティングサービスを用いることなく、ローカルのサーバ、ストレージ及びデータベースを組み上げて構築した専用の画像検索装置を用いて実現しても良い。 In the above-described embodiment and modified aspects, the image search device of the present invention is constructed using servers, storage, and databases provided by a cloud computing service, but the present invention may also be realized using a dedicated image search device constructed by assembling local servers, storage, and databases without using a cloud computing service.

 以上述べた実施形態は全て本発明を例示的に示すものであって限定的に示すものではなく、本発明は他の種々の変形態様及び変更態様で実施することができる。従って本発明の範囲は特許請求の範囲及びその均等範囲によってのみ規定されるものである。 The above-described embodiments are intended to be illustrative of the present invention and are not limiting, and the present invention can be implemented in a variety of other modified and altered forms. Therefore, the scope of the present invention is defined only by the claims and their equivalents.

 インターネット上に流出したユーザの画像を検索し、ユーザの盗撮被害やリベンジポルノ被害を防止するために利用できる。 It can be used to search for images of users that have been leaked onto the Internet and prevent users from becoming victims of voyeurism or revenge porn.

 10 ユーザ端末
 11 画像検索サーバ
 12 インターネット
 13 入出力及び画像比較部
 13a データベース(AWS/RDS)
 13b、16a、17a ストレージ(AWS/S3)
 14 クラウドサーバ
 15 URLクローラ部
 15a クラウドサーバ(AWS/EC2)
 15b URLリスト部
 16 静止画クローラ部
 16b 画像サーチ部
 16c 機械学習部
 17 動画クローラ部
 17b 画像抽出部
10 User terminal 11 Image search server 12 Internet 13 Input/output and image comparison unit 13a Database (AWS/RDS)
13b, 16a, 17a Storage (AWS/S3)
14 Cloud server 15 URL crawler unit 15a Cloud server (AWS/EC2)
15b URL list unit 16 Still image crawler unit 16b Image search unit 16c Machine learning unit 17 Video crawler unit 17b Image extraction unit

Claims (16)

 ユーザが登録した自己の顔画像を表す顔画像データ及び顔画像が流出した原因としてユーザが登録したキーワードを記憶する入出力及び画像比較部と、インターネット上の性的サイトでありかつ前記ユーザが登録したキーワードを含むWEBサイトで取得した動画データから複数の静止画データを抽出し、該抽出した静止画データから顔情報が含まれる画像データを取得する画像抽出部とを備えており、
 前記入出力及び画像比較部は、前記画像抽出部によって取得された顔情報が含まれる画像データと、当該入出力及び画像比較部に記憶されているユーザの登録した顔画像データとを比較し、高い類似度を有する顔画像データのURLを抽出するように構成されており、
 前記画像抽出部は、複数の互いに異なる処理手順を用いて前記動画データから静止画データを抽出し、前記複数の互いに異なる処理手順によって抽出した静止画データを統合するように構成されていることを特徴とする画像検索装置。
The device comprises an input/output and image comparison unit that stores facial image data representing the user's own facial image registered by the user and keywords registered by the user as the cause of the leakage of the facial image, and an image extraction unit that extracts a plurality of still image data from video data acquired from a website that is a sexually explicit site on the Internet and includes the keyword registered by the user, and acquires image data including facial information from the extracted still image data,
the input/output and image comparison unit is configured to compare the image data including the face information acquired by the image extraction unit with the face image data registered by the user and stored in the input/output and image comparison unit, and to extract a URL of the face image data having a high degree of similarity;
The image extraction unit is configured to extract still image data from the video data using a plurality of different processing procedures, and to integrate the still image data extracted by the plurality of different processing procedures.
 前記画像抽出部による前記複数の互いに異なる処理手順が、前記動画データを高速で再生し、機械学習モデルによって顔が映っていると判定された静止画データを抽出する処理と、前記動画データを高速で再生し、任意の一定フレーム間隔で静止画データを抽出する処理とを含んでいることを特徴とする請求項1に記載の画像検索装置。 The image search device of claim 1, characterized in that the multiple different processing procedures performed by the image extraction unit include a process of playing back the video data at high speed and extracting still image data determined by a machine learning model to contain a face, and a process of playing back the video data at high speed and extracting still image data at any fixed frame interval.  前記画像抽出部による前記複数の互いに異なる処理手順が、前記動画データを高速で再生し、機械学習モデルによって顔が映ったと判定した場合の静止画を抽出する処理と、前記動画データを高速で再生し、機械学習モデルによって最も顔が映っていると判定したタイミングの顔の静止画を抽出する処理と、前記動画データを高速で再生し、機械学習モデルによって最も顔が映っていると判定したタイミングの顔の特徴量を抽出して顔の静止画を抽出する処理と、前記動画データを高速で再生し、一定フレーム間隔で動画全体の静止画を抽出し、抽出した静止画毎に機械学習モデルによって顔が映っている確率が最も高い静止画を抽出する処理とを含んでいることを特徴とする請求項1に記載の画像検索装置。 The image search device of claim 1, wherein the multiple different processing procedures performed by the image extraction unit include: a process of playing back the video data at high speed and extracting a still image when a machine learning model determines that a face is shown; a process of playing back the video data at high speed and extracting a still image of a face at the timing determined by the machine learning model that a face is most likely to be shown; a process of playing back the video data at high speed and extracting facial features at the timing determined by the machine learning model that a face is most likely to be shown, thereby extracting a still image of a face; and a process of playing back the video data at high speed, extracting still images from the entire video at regular frame intervals, and extracting, for each extracted still image, a still image that has the highest probability of showing a face according to the machine learning model.  前記画像抽出部が、前記顔情報が含まれる画像データのコンフィデンス値を閾値と比較して顔画像が最も映っている画像データを抽出するように構成されていることを特徴とする請求項1に記載の画像検索装置。 The image search device of claim 1, characterized in that the image extraction unit is configured to compare the confidence value of the image data containing the facial information with a threshold value to extract the image data that most closely resembles a facial image.  前記画像抽出部が、前記顔情報が含まれる画像データを先頭から所定数毎に分割し、該分割した所定数の画像データの中で最も精度の高い画像データを選択し、該選択した画像データのコンフィデンス値を閾値と比較するように構成されていることを特徴とする請求項4に記載の画像検索装置。 The image search device of claim 4, wherein the image extraction unit is configured to divide the image data containing the facial information into a predetermined number of parts starting from the beginning, select the image data with the highest accuracy among the predetermined number of divided image data, and compare the confidence value of the selected image data with a threshold value.  インターネット上の性的サイトでありかつ前記ユーザが登録したキーワードを含むWEBサイトのURLを収集するURLクローラ部をさらに備えており、前記画像抽出部は前記URLクローラ部が収集したURLに対応するWEBサイトで動画データを取得するように構成されていることを特徴とする請求項1に記載の画像検索装置。 The image search device of claim 1 further comprises a URL crawler unit that collects URLs of websites that are sexually explicit on the Internet and that contain keywords registered by the user, and the image extraction unit is configured to acquire video data from websites that correspond to the URLs collected by the URL crawler unit.  前記入出力及び画像比較部が、ユーザ端末から送信された顔画像データ及びキーワードを記憶するように構成されており、抽出した前記URLを前記ユーザ端末に送信するように構成されていることを特徴とする請求項1に記載の画像検索装置。 The image search device described in claim 1, characterized in that the input/output and image comparison unit is configured to store facial image data and keywords sent from a user terminal, and to send the extracted URL to the user terminal.  ユーザが登録した自己の顔画像を表す顔画像データ及び顔画像が流出した原因としてユーザが登録したキーワードを記憶し、インターネット上の性的サイトでありかつユーザが登録したキーワードを含むWEBサイトで取得した動画データから複数の静止画データを抽出し、抽出した静止画データから顔情報が含まれる画像データを取得する画像検索方法であって、
 取得した顔情報が含まれる画像データと、ユーザの登録した顔画像データとを比較し、高い類似度を有する顔画像データのURLを抽出し、
 複数の互いに異なる処理手順を用いて動画データから静止画データを抽出し、複数の互いに異なる処理手順によって抽出した静止画データを統合することを特徴とする画像検索方法。
An image search method comprising: storing face image data representing a user's own face image registered by the user and a keyword registered by the user as a cause of the face image being leaked; extracting a plurality of still image data from video data acquired from a web site on the Internet that is a sexually explicit site and includes the keyword registered by the user; and acquiring image data including face information from the extracted still image data,
The image data including the acquired face information is compared with the face image data registered by the user, and the URL of the face image data having a high degree of similarity is extracted.
An image retrieval method comprising: extracting still image data from moving image data using a plurality of mutually different processing procedures; and integrating the still image data extracted by the plurality of mutually different processing procedures.
 前記複数の互いに異なる処理手順が、前記動画データを高速で再生し、機械学習モデルによって顔が映っていると判定された静止画データを抽出する処理と、前記動画データを高速で再生し、任意の一定フレーム間隔で静止画データを抽出する処理とを含んでいることを特徴とする請求項8に記載の画像検索方法。 The image search method of claim 8, wherein the plurality of different processing procedures include a process of playing back the video data at high speed and extracting still image data determined by a machine learning model to contain a face, and a process of playing back the video data at high speed and extracting still image data at any fixed frame interval.  前記複数の互いに異なる処理手順が、前記動画データを高速で再生し、機械学習モデルによって顔が映ったと判定した場合の静止画を抽出する処理と、前記動画データを高速で再生し、機械学習モデルによって最も顔が映っていると判定したタイミングの顔の静止画を抽出する処理と、前記動画データを高速で再生し、機械学習モデルによって最も顔が映っていると判定したタイミングの顔の特徴量を抽出して顔の静止画を抽出する処理と、前記動画データを高速で再生し、一定フレーム間隔で動画全体の静止画を抽出し、抽出した静止画毎に機械学習モデルによって顔が映っている確率が最も高い静止画を抽出する処理とを含んでいることを特徴とする請求項8に記載の画像検索方法。 The image search method of claim 8, wherein the multiple different processing procedures include: a process of playing back the video data at high speed and extracting a still image when a machine learning model determines that a face is shown; a process of playing back the video data at high speed and extracting a still image of a face at the timing determined by the machine learning model that a face is most likely to be shown; a process of playing back the video data at high speed and extracting facial features at the timing determined by the machine learning model that a face is most likely to be shown, thereby extracting a still image of the face; and a process of playing back the video data at high speed, extracting still images from the entire video at regular frame intervals, and extracting, for each extracted still image, a still image that has the highest probability of showing a face according to the machine learning model.  前記顔情報が含まれる画像データのコンフィデンス値を閾値と比較して顔画像が最も映っている画像データを抽出することを特徴とする請求項8に記載の画像検索方法。 The image search method described in claim 8, characterized in that the confidence value of the image data containing the facial information is compared with a threshold value to extract the image data that most closely shows the facial image.  前記顔情報が含まれる画像データを先頭から所定数毎に分割し、該分割した所定数の画像データの中で最も良い画像データを選択し、該選択した画像データのコンフィデンス値を閾値と比較することを特徴とする請求項11に記載の画像検索方法。 The image search method described in claim 11, characterized in that the image data containing the facial information is divided into a predetermined number of parts starting from the beginning, the best image data is selected from the predetermined number of divided image data parts, and the confidence value of the selected image data is compared with a threshold value.  インターネット上の性的サイトでありかつ前記ユーザが登録したキーワードを含むWEBサイトのURLを収集し、収集したURLに対応するサイトで前記動画データを取得することを特徴とする請求項8に記載の画像検索方法。 The image search method described in claim 8, characterized in that the URLs of websites on the Internet that are sexually explicit and contain keywords registered by the user are collected, and the video data is obtained from the sites corresponding to the collected URLs.  ユーザ端末から送信された顔画像データ及びキーワードを記憶し、抽出した前記URLを前記ユーザ端末に送信することを特徴とする請求項8に記載の画像検索方法。 The image search method described in claim 8, characterized in that facial image data and keywords sent from a user terminal are stored, and the extracted URL is sent to the user terminal.  コンピュータを、
 ユーザが登録した自己の顔画像を表す顔画像データ及び顔画像が流出した原因としてユーザが登録したキーワードを記憶する入出力及び画像比較手段と、インターネット上の性的サイトでありかつユーザが登録したキーワードを含むWEBサイトで取得した動画データから複数の静止画データを抽出し、抽出した静止画データから顔情報が含まれる画像データを取得する画像抽出手段として機能させるためのプログラムであって、
 前記入出力及び画像比較手段は、取得した顔情報が含まれる画像データと、ユーザの登録した顔画像データとを比較し、高い類似度を有する顔画像データのURLを抽出する手段であり、
 前記画像抽出手段は、複数の互いに異なる処理手順を用いて動画データから静止画データを抽出し、複数の互いに異なる処理手順によって抽出した静止画データを統合する手段であることを特徴とするプログラム。
Computer,
A program for functioning as an input/output and image comparison means for storing facial image data representing a user's own facial image registered by the user and a keyword registered by the user as the cause of the leakage of the facial image, and an image extraction means for extracting a plurality of still image data from video data acquired from a website on the Internet that is a sexual site and includes a keyword registered by the user, and for acquiring image data including facial information from the extracted still image data,
the input/output and image comparison means is means for comparing image data including the acquired face information with face image data registered by the user, and extracting a URL of face image data having a high degree of similarity;
The image extraction means extracts still image data from moving image data using a plurality of different processing procedures, and integrates the still image data extracted by the plurality of different processing procedures.
 コンピュータを、
 ユーザが登録した自己の顔画像を表す顔画像データ及び顔画像が流出した原因としてユーザが登録したキーワードを記憶する入出力及び画像比較手段と、インターネット上の性的サイトでありかつユーザが登録したキーワードを含むWEBサイトで取得した動画データから複数の静止画データを抽出し、抽出した静止画データから顔情報が含まれる画像データを取得する画像抽出手段として機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
 前記入出力及び画像比較手段は、取得した顔情報が含まれる画像データと、ユーザの登録した顔画像データとを比較し、高い類似度を有する顔画像データのURLを抽出する手段であり、
 前記画像抽出手段は、複数の互いに異なる処理手順を用いて動画データから静止画データを抽出し、複数の互いに異なる処理手順によって抽出した静止画データを統合する手段であることを特徴とするコンピュータ読み取り可能な記録媒体。
Computer,
A computer-readable recording medium having recorded thereon a program for functioning as an input/output and image comparison means for storing facial image data representing a user's own facial image registered by the user and a keyword registered by the user as the cause of the leakage of the facial image, and an image extraction means for extracting a plurality of still image data from video data acquired from a website on the Internet that is a sexually explicit site and includes a keyword registered by the user, and for acquiring image data including facial information from the extracted still image data,
the input/output and image comparison means is means for comparing image data including the acquired face information with face image data registered by the user, and extracting a URL of face image data having a high degree of similarity;
A computer-readable recording medium characterized in that the image extraction means is a means for extracting still image data from video data using a plurality of different processing procedures and integrating the still image data extracted by the plurality of different processing procedures.
PCT/JP2024/009927 2024-03-14 2024-03-14 Image retrieval device, image retrieval method, image retrieval program, and recording medium Pending WO2025191769A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2024/009927 WO2025191769A1 (en) 2024-03-14 2024-03-14 Image retrieval device, image retrieval method, image retrieval program, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2024/009927 WO2025191769A1 (en) 2024-03-14 2024-03-14 Image retrieval device, image retrieval method, image retrieval program, and recording medium

Publications (1)

Publication Number Publication Date
WO2025191769A1 true WO2025191769A1 (en) 2025-09-18

Family

ID=97063209

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2024/009927 Pending WO2025191769A1 (en) 2024-03-14 2024-03-14 Image retrieval device, image retrieval method, image retrieval program, and recording medium

Country Status (1)

Country Link
WO (1) WO2025191769A1 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009033738A (en) * 2007-07-04 2009-02-12 Sanyo Electric Co Ltd Imaging apparatus, data structure of image file
US20150058242A1 (en) * 2013-08-22 2015-02-26 Todd Bucciarelli System and method for monitoring electronic communications
US20150220808A1 (en) * 2014-02-03 2015-08-06 Steven White Method for visual image detection
US20160381013A1 (en) * 2015-06-26 2016-12-29 Gbl Systems Corporation Methods and apparatus for allowing users to control use and/or sharing of images and/or biometric data
JP2024057344A (en) * 2022-10-12 2024-04-24 ベジベジ株式会社 Image search device, image search method, image search program, and recording medium

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009033738A (en) * 2007-07-04 2009-02-12 Sanyo Electric Co Ltd Imaging apparatus, data structure of image file
US20150058242A1 (en) * 2013-08-22 2015-02-26 Todd Bucciarelli System and method for monitoring electronic communications
US20150220808A1 (en) * 2014-02-03 2015-08-06 Steven White Method for visual image detection
US20160381013A1 (en) * 2015-06-26 2016-12-29 Gbl Systems Corporation Methods and apparatus for allowing users to control use and/or sharing of images and/or biometric data
JP2024057344A (en) * 2022-10-12 2024-04-24 ベジベジ株式会社 Image search device, image search method, image search program, and recording medium

Similar Documents

Publication Publication Date Title
CN112088370B (en) Digital Asset Search User Interface
JP6196316B2 (en) Adjusting content distribution based on user posts
KR101387147B1 (en) Identifying images using face recognition
CN106331778B (en) Video recommendation method and device
US7765231B2 (en) System and method for accessing electronic data via an image search engine
US8386476B2 (en) Computer-implemented search using result matching
US20170262437A1 (en) System and method for customizing a display of a user device based on multimedia content element signatures
CN108334632B (en) Entity recommendation method and device, computer equipment and computer-readable storage medium
CN106383887A (en) Environment-friendly news data acquisition and recommendation display method and system
US9665773B2 (en) Searching for events by attendants
US20180157666A1 (en) System and method for determining a social relativeness between entities depicted in multimedia content elements
WO2015188719A1 (en) Association method and association device for structural data and picture
CN113961810A (en) News pushing method and device, computer equipment and storage medium
US20160034496A1 (en) System And Method For Accessing Electronic Data Via An Image Search Engine
US20140006442A1 (en) Apparatus and method for determining user attention using a deep-content-classification (dcc) system
JP7623713B2 (en) Image search device, image search program, and recording medium
CN114996482B (en) Knowledge graph construction method, knowledge graph construction device, video search method, device and electronic equipment
CN105095343A (en) Information processing method, information display method and device
CN111611491A (en) Search word recommendation method, apparatus, device, and readable storage medium
CN114329049B (en) Video search method, device, computer equipment and storage medium
WO2025191769A1 (en) Image retrieval device, image retrieval method, image retrieval program, and recording medium
CN110825954A (en) Keyword recommendation method and device and electronic equipment
US9843559B2 (en) Method for determining validity of command and system thereof
CN109871478A (en) Network search method and device
US20180157668A1 (en) System and method for determining a potential match candidate based on a social linking graph

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 24929557

Country of ref document: EP

Kind code of ref document: A1