[go: up one dir, main page]

WO2019187107A1 - 情報処理装置、制御方法、及びプログラム - Google Patents

情報処理装置、制御方法、及びプログラム Download PDF

Info

Publication number
WO2019187107A1
WO2019187107A1 PCT/JP2018/013880 JP2018013880W WO2019187107A1 WO 2019187107 A1 WO2019187107 A1 WO 2019187107A1 JP 2018013880 W JP2018013880 W JP 2018013880W WO 2019187107 A1 WO2019187107 A1 WO 2019187107A1
Authority
WO
WIPO (PCT)
Prior art keywords
account
content data
similar
content
related account
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2018/013880
Other languages
English (en)
French (fr)
Inventor
真宏 谷
一郁 児島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to US17/043,291 priority Critical patent/US20210019553A1/en
Priority to PCT/JP2018/013880 priority patent/WO2019187107A1/ja
Priority to JP2020508875A priority patent/JP7070665B2/ja
Publication of WO2019187107A1 publication Critical patent/WO2019187107A1/ja
Anticipated expiration legal-status Critical
Priority to US18/240,160 priority patent/US20230410221A1/en
Priority to US18/240,209 priority patent/US20230410222A1/en
Priority to US18/240,152 priority patent/US12430695B2/en
Ceased legal-status Critical Current

Links

Images

Classifications

    • G06Q10/40
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/758Involving statistics of pixels or of feature values, e.g. histogram matching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques

Definitions

  • the present invention relates to a user account.
  • SNS Social Networking Service
  • Non-Patent Document 1 discloses a technique for determining whether or not the user accounts are owned by the same person based on the similarity of the user names of the plurality of user accounts.
  • the user name registered in the user account can be any name that is not related to the user's real name. Therefore, a person who creates a plurality of user accounts can make the user names registered in those user accounts not similar to each other. In the technique of Non-Patent Document 1, it is difficult to specify that a plurality of user accounts registered with user names that are not similar to each other are owned by the same person.
  • the present invention has been made in view of the above problems, and even if the user names of the user accounts to be compared are not similar to each other, it is accurately detected whether or not those user accounts are owned by the same person. It is to provide technology that can.
  • the information processing apparatus includes: 1) a first related account associated with a first related account and a first related account associated with the first focused account and a second related account associated with the second focused account; A determination unit for determining whether or not the content data and the second content data associated with the second related account are similar; and 2) determining that the first content data and the second content data are similar. And a process execution unit that executes a predetermined process.
  • the control method of the present invention is executed by a computer.
  • the control method is associated with the first related account for 1) the first related account associated with the first focused account and the second related account associated with the second focused account.
  • the program of the present invention causes a computer to execute each step of the control method of the present invention.
  • the present invention even when the user names of the user accounts to be compared are not similar to each other, it is possible to provide a technique that can accurately detect whether or not those user accounts are owned by the same person.
  • FIG. 2 is a diagram illustrating a functional configuration of the information processing apparatus according to the first embodiment.
  • FIG. It is a figure which illustrates the computer for implement
  • 3 is a flowchart illustrating a flow of processing executed by the information processing apparatus according to the first embodiment. It is a figure which illustrates the histogram produced
  • each block diagram represents a functional unit configuration, not a hardware unit configuration.
  • FIG. 1 is a diagram conceptually showing processing performed by the information processing apparatus 2000 of the present embodiment.
  • the information processing apparatus 2000 estimates whether the owners of different user accounts are the same person.
  • user information which is information relating to the user, and information (hereinafter, content) such as image data and text data registered in association with the account are associated with the user account.
  • the user information is, for example, a name, an address, a telephone number, or an e-mail address.
  • SNS Social Networking Service
  • the user inputs the various user information described above. At that time, it is often not required to prove the correctness of the content of the user information to be input. In such a case, the content of the user information can be falsified. Therefore, the same person can create a plurality of accounts with different contents of user information. That is, the same person can own a plurality of accounts. As described above, for a plurality of user accounts having the property that “the actual owners are the same person but different user information is registered”, only the user information and contents of the user accounts are used. Then, it is difficult to grasp the fact that these user accounts are owned by the same person.
  • the information processing apparatus 2000 estimates different user accounts owned by the same person using content associated with other user accounts associated with the user account.
  • an account to be determined whether it is owned by the same person will be referred to as an account of interest, and another account associated with the account of interest will be referred to as an associated account.
  • SNS often provides a function for associating user accounts as friends. Therefore, for example, an account associated as a friend of the attention account is used as a related account. Note that which account is handled as the account of interest will be described later.
  • the information processing apparatus 2000 determines whether or not two attention accounts, the attention account 10-1 and the attention account 10-2, are accounts owned by the same person.
  • the related account 20 associated with the target account 10-1 is referred to as a related account 20-1.
  • the content associated with the related account 20-1 is denoted as content 30-1.
  • the content 30-1 is image data uploaded in association with the related account 20-1.
  • the related account of the target account 10-2 is represented as a related account 20-2
  • the content associated with the related account 20-2 is represented as a content 30-2.
  • “content 30 associated with related account 20” is also simply referred to as “content 30 of related account 20”.
  • the information processing apparatus 2000 determines whether the content 30-1 of the related account 20-1 is similar to the content 30-2 of the related account 20-2. If they are similar, it can be estimated that the account of interest 10-1 and the account of interest 10-2 belong to the same person. Therefore, when these are similar, the information processing apparatus 2000 performs a predetermined process on the attention account 10-1 and the attention account 10-2. For example, the information processing apparatus 2000 outputs a notification indicating that the account of interest 10-1 and the account of interest 10-2 belong to the same person as the predetermined process.
  • the degree of similarity with the content 30-2 is determined.
  • these similarities are high, it can be estimated that the attention account 10-1 and the attention account 10-2 are owned by the same person. The reason will be described below.
  • the related account 20-1 associated with the attention account 10-1 is considered to be a person who has some connection with the owner of the attention account 10-1, such as a friend of the owner of the attention account 10-1. It is done. Therefore, there is a high probability that the content 30-1 that the owner of the related account 20-1 uploads in association with the related account 20-1 includes some information related to the account of interest 10-1. . In other words, there is a high probability that the information disclosed by the related account 20-1 leaks some information related to the target account 10-1.
  • the owner of the attention account 10-1 the property of the owner of the attention account 10-1 (vehicles, etc.), the place where the attention account 10-1 visited There is a high probability that landmarks to represent are included.
  • text data and audio data uploaded by the related account 20-1 include some information related to the target account 10-1.
  • content 30-2 uploaded by the owner of the related account 20-2 in association with the related account 20-2 includes some information related to the account of interest 10-2. high. Accordingly, the fact that the content 30-1 of the related account 20-1 and the content 30-2 of the related account 20-2 are similar is similar to the noticeable account 10-1 included in the content 30-1. It can be said that there is a high probability that the related information and the information related to the target account 10-2 included in the content 30-2 are similar.
  • the information processing apparatus 2000 has a probability that when the content 30-1 and the content 30-2 are similar, the owner of the attention account 10-1 and the owner of the attention account 10-2 are the same person. Estimated high. In this way, even if it is not known whether or not these accounts are owned by the same person only by comparing the user information of the target account 10-1 and the user information of the target account 10-2. It can be estimated whether the account of interest 10-1 and the account of interest 10-2 are accounts owned by the same person.
  • FIG. 1 The above description with reference to FIG. 1 is an example for facilitating understanding of the information processing apparatus 2000, and does not limit the functions of the information processing apparatus 2000.
  • the information processing apparatus 2000 according to the present embodiment will be described in more detail.
  • FIG. 2 is a diagram illustrating a functional configuration of the information processing apparatus 2000 according to the first embodiment.
  • the information processing apparatus 2000 includes a determination unit 2020 and a process execution unit 2040.
  • the determination unit 2020 is similar to the content 30-1 of the related account 20-1 associated with the attention account 10-1 and the content 30-2 of the related account 20-2 associated with the attention account 10-2. It is determined whether or not.
  • the process execution unit 2040 performs predetermined processing regarding the attention account 10-1 and the attention account 10-2.
  • Each functional component of the information processing apparatus 2000 may be realized by hardware (eg, a hard-wired electronic circuit) that implements each functional component, or a combination of hardware and software (eg: It may be realized by a combination of an electronic circuit and a program for controlling it).
  • hardware eg, a hard-wired electronic circuit
  • software eg: It may be realized by a combination of an electronic circuit and a program for controlling it.
  • FIG. 3 is a diagram illustrating a computer 1000 for realizing the information processing apparatus 2000.
  • the computer 1000 is an arbitrary computer.
  • the computer 1000 is a personal computer (PC) or a server machine.
  • the computer 1000 may be a dedicated computer designed for realizing the information processing apparatus 2000 or a general-purpose computer.
  • the computer 1000 includes a bus 1020, a processor 1040, a memory 1060, a storage device 1080, an input / output interface 1100, and a network interface 1120.
  • the bus 1020 is a data transmission path through which the processor 1040, the memory 1060, the storage device 1080, the input / output interface 1100, and the network interface 1120 transmit / receive data to / from each other.
  • the method of connecting the processors 1040 and the like is not limited to bus connection.
  • the processor 1040 is various processors such as a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), and an FPGA (Field-Programmable Gate Array).
  • the memory 1060 is a main storage device realized using a RAM (Random Access Memory) or the like.
  • the storage device 1080 is an auxiliary storage device realized by using a hard disk, an SSD (Solid State Drive), a memory card, or a ROM (Read Only Memory).
  • the input / output interface 1100 is an interface for connecting the computer 1000 and an input / output device.
  • the input / output interface 1100 is connected to an input device such as a keyboard and an output device such as a display device.
  • the network interface 1120 is an interface for connecting the computer 1000 to a communication network.
  • This communication network is, for example, “LAN (Local Area Network)” or “WAN (Wide Area Network)”.
  • a method of connecting the network interface 1120 to the communication network may be a wireless connection or a wired connection.
  • the storage device 1080 stores a program module that implements each functional component of the information processing apparatus 2000.
  • the processor 1040 implements a function corresponding to each program module by reading each program module into the memory 1060 and executing the program module.
  • FIG. 4 is a flowchart illustrating the flow of processing executed by the information processing apparatus 2000 according to the first embodiment.
  • the determination unit 2020 acquires the content 30-1 of each related account 20-1 associated with the attention account 10-1 (S102).
  • the determination unit 2020 acquires the content 30-2 of each related account 20-2 associated with the account of interest 10-2 (S104).
  • the determination unit 2020 determines whether or not the content 30-1 and the content 30-2 are similar (S106). If they are similar (S106: YES), the process execution unit 2040 executes a predetermined process (S108). On the other hand, if they are not similar (S106: NO), the process of FIG. 4 ends.
  • the attention account 10 and the related account 20 are user accounts created by a user using a service such as SNS, for example.
  • a user account is created by registering user information such as a name and is used continuously.
  • the user account handled by the information processing apparatus 2000 is not limited to that generated by registering user information in this way.
  • a user posts content such as uploading text data
  • an identifier is assigned to the post.
  • the information processing apparatus 2000 may treat this identifier as a user account. In this case, for example, when a certain user posts content on the bulletin board site and another user comments on the posting, either the former or the latter is treated as the attention account 10 and the other related account 20 is used. Can be handled.
  • the information processing apparatus 2000 estimates whether the two accounts of interest 10-1 and 10-2 belong to the same person.
  • the attention account 10-1 and the attention account 10-2 may be user accounts for using the same service (for example, SNS), or user accounts for using different services. May be.
  • the information processing apparatus 2000 receives from the user of the information processing apparatus 2000 a designation of a user account to be handled as the attention account 10.
  • the number of user accounts specified by the user may be two, or may be three or more.
  • the information processing apparatus 2000 includes any two user account combinations (n-2 combinations) that can be created for the specified user account.
  • a process in which two user counts are handled as the attention account 10 is performed. That is, when user accounts A, B, and C are designated, a process with A and B as the target account 10, a process with A and C as the target account 10, and a process with B and C as the target account 10, respectively Execute.
  • the information processing apparatus 2000 receives an input for designating one user account to be handled as the attention account 10 from the user.
  • the information processing apparatus 2000 treats the user account designated by the user as the attention account 10-1.
  • the information processing apparatus 2000 treats another user account having user information similar to the user information of the target account 10-1 as the target account 10-2.
  • the similarity between the user information is common to, for example, some of various information (part of user ID, part of name, part of date of birth, part of e-mail address, etc.). That is.
  • the information processing apparatus 2000 treats each of the plurality of user accounts as the account of interest 10-2.
  • the information processing apparatus 2000 may operate in cooperation with a monitoring system that monitors a user account, and may accept a user account designation from the monitoring system. For example, this monitoring system monitors the usage status of user accounts (contents of uploaded content, upload frequency, etc.), and identifies user accounts whose usage status violates common sense, service terms of use, or laws. (Ie identify sensitive user accounts). The monitoring system notifies the information processing apparatus 2000 of the identified user account. The information processing apparatus 2000 performs a process in which two user counts included in the combination are treated as the attention account 10 for each combination of two arbitrary user accounts that can be created for a plurality of user accounts notified from the monitoring system. . When the monitoring system notifies the user accounts one by one, the information processing apparatus 2000 performs the above-described processing for a plurality of user accounts indicated by a plurality of notifications received during a predetermined period, for example.
  • this monitoring system monitors the usage status of user accounts (contents of uploaded content, upload frequency, etc.), and identifies user accounts whose usage status
  • the determination unit 2020 acquires the content 30-1 associated with the related account 20-1 and the content 30-2 associated with the related account 20-2 (S102, S104). For example, the determination unit 2020 automatically collects each content 30 from these Web pages by sequentially accessing the Web pages on which the content 30 of the related account 20 is made public.
  • services such as SNS may provide an API (Application Programming Interface) for acquiring content associated with a user account. Accordingly, the determination unit 2020 may acquire the content 30 of the related account 20 by using the “API” provided by the service used by the related account 20.
  • API Application Programming Interface
  • Image data can be considered as the type of content data to be compared.
  • image data of a photograph of a person, a building, or a landscape is uploaded using a user account.
  • the determination unit 2020 treats the image data uploaded using the user count as content associated with the user account.
  • the user may make a posting that refers to (links to) a Web page including image data, or may make a posting that refers to image data uploaded by another user.
  • the determination unit 2020 may also handle the image data referred to by the user as content data associated with the user's account.
  • the image data includes moving image frames constituting the moving image data.
  • the determination unit 2020 focuses on the similarity between the object detected from the image data associated with the related account 20-1 and the object detected from the image data associated with the related account 20-2. For example, the determination unit 2020 calculates the similarity between the object detected from the image data associated with the related account 20-1 and the object detected from the image data associated with the related account 20-2. . Then, when the number of sets of objects whose similarity is equal to or higher than a predetermined value (that is, sets of objects estimated to be the same as each other) is equal to or higher than a predetermined number, the determination unit 2020 It is determined that the similarity between the data and the content data of the related account 20-2 is high.
  • a predetermined value that is, sets of objects estimated to be the same as each other
  • the determination unit 2020 has a high similarity between the content data of the related account 20-1 and the content data of the related account 20-2. Judge that there is no.
  • the predetermined number is stored in advance in a storage device accessible from the determination unit 2020.
  • existing technology can be used as a technology for detecting an object from image data and a technology for determining the degree of similarity of a detected object.
  • the determination unit 2020 determines the degree of similarity between the histogram 40-1 and the histogram 40-2. For example, the determination unit 2020 calculates the similarity between the histogram 40-1 and the histogram 40-2, and when the calculated similarity is equal to or greater than a predetermined value, the similarity between the content 30-1 and the content 30-2 is high. judge. On the other hand, when the similarity between the histogram 40-1 and the histogram 40-2 is less than the predetermined value, the determination unit 2020 determines that the similarity between the content 30-1 and the content 30-2 is not high.
  • a technique for calculating the similarity between two histograms an existing technique can be used.
  • the predetermined value is stored in a storage device accessible from the determination unit 2020.
  • the histogram 40-1 and the histogram 40-2 are generated as follows, for example.
  • the determination unit 2020 recognizes objects included in each of the image data 32-1 by performing object recognition processing. Further, the determination unit 2020 generates a histogram 40-1 representing the distribution of appearance frequencies of objects by counting the number of appearances of each object.
  • the determination unit 2020 assigns an identifier to each object detected from the image data 32-1. At this time, for example, the determination unit 2020 assigns the same identifier to the same object so that each object can be identified so that the number of appearances of the object can be counted. For this purpose, it is necessary to determine whether or not each object detected from the image data 32 is the same (identification of the object). That is, when the determination unit 2020 assigns an identifier to an object detected from the image data 32, if the object is the same as another object that has already been detected, the identifier assigned to the object that has already been detected Assign the same thing. On the other hand, if the object is different from any object that has already been detected, a new identifier that is not assigned to any object is assigned.
  • the determination unit 2020 generates the histogram 40-2 by performing the same process on the image data 32-2.
  • the object detected from the image data 32-2 is identified not only with the object detected from the other image data 32-2, but also with the object detected from the image data 32-1. . That is, when the same object as the object detected from the image data 32-2 has already been detected from the image data 32-1, the determination unit 2020 uses the identifier assigned to the already detected object as the image data 32. -2 is also assigned to the detected object.
  • Various existing techniques can be used for object identification.
  • the comparison regarding the image data may be realized not by comparing the object detected from the image data but by comparing the topic of the image data.
  • a topic in a certain data means a main thing or event expressed by the data. For example, topics such as work, meals, sports, travel, games, or politics can be considered.
  • the determination unit 2020 classifies each image data 32 associated with the related account 20 by topic.
  • an existing technique can be used as a technique for classifying image data by topic.
  • the determination unit 2020 generates a topic frequency histogram for each of the image data 32-1 and 32-2.
  • FIG. 6 is a diagram illustrating a topic histogram.
  • the determination unit 2020 determines that the similarity of 30-2 is high.
  • the similarity between the histogram of the topic generated from the image data 32-1 and the histogram of the topic generated from the image data 32-2 is less than a predetermined value, the content 30-1 and the content 30-2 It is determined that the similarity is not high.
  • a user may make a post referring to a Web page, a post referring to text data uploaded by another user, or posting a comment on the content of another user.
  • the determination unit 2020 also associates the text data included in the Web page referred to by the user in this way, the text data uploaded by other users, and the text data representing comments on the contents of other users with the user's account. It may be handled as content data.
  • some specific comparison methods regarding text data will be exemplified.
  • the determination unit 2020 extracts keywords from text data associated with the related account 20-1 and text data associated with the related account 20-2. For example, the determination unit 2020 determines that the degree of similarity between the content 30-1 and the content 30-2 is high when the number of keywords that appear in common in both text data is greater than or equal to a predetermined number. On the other hand, the determination unit 2020 determines that the degree of similarity between the content 30-1 and the content 30-2 is not high when the number of keywords that appear in common in both text data is less than a predetermined number.
  • FIG. 7 is a diagram illustrating a histogram of keyword appearance frequencies.
  • a histogram 50 is generated for the text data 34 associated with the related account 20.
  • the text data 34 associated with the related account 20-1 is referred to as text data 34-1 and the histogram 50 generated from the text data 34-1 is referred to as a histogram 50-1.
  • text data 34 associated with the related account 20-2 is represented as text data 34-2
  • a histogram 50 generated from the text data 34-2 is represented as a histogram 50-2.
  • the determination unit 2020 calculates the similarity between the histogram 50-1 and the histogram 50-2, and determines that the similarity between the content 30-1 and the content 30-2 is high when the similarity is equal to or greater than a predetermined value. To do. On the other hand, when the similarity between the histogram 50-1 and the histogram 50-2 is less than the predetermined value, the determination unit 2020 determines that the similarity between the content 30-1 and the content 30-2 is not high.
  • the predetermined value is stored in advance in a storage device accessible from the determination unit 2020.
  • the comparison between the histogram 50-1 and the histogram 50-2 may be performed using only a part of the histogram (for example, up to the N-th place) as in the comparison between the histogram 40-1 and the histogram 40-2. Good.
  • the determination unit 2020 extracts a speaker for each of the voice data associated with the related account 20-1 and the voice data associated with the related account 20-2.
  • an existing technique such as voiceprint identification can be used as a method for extracting a speaker from voice data.
  • there is a method of identifying a speaker by generating sound spectrogram data representing a voiceprint from voice data and using the sound spectrogram data as identification information.
  • the determination unit 2020 calculates the similarity between the histogram 60-1 and the histogram 60-2, and determines that the similarity between the content 30-1 and the content 30-2 is high when the similarity is equal to or greater than a predetermined value. To do. On the other hand, when the similarity between the histogram 60-1 and the histogram 60-2 is less than the predetermined value, the determination unit 2020 determines that the similarity between the content 30-1 and the content 30-2 is not high.
  • the predetermined value is stored in advance in a storage device accessible from the determination unit 2020.
  • the comparison between the histogram 60-1 and the histogram 60-2 may be performed using only a part of the histogram (for example, up to the N-th place) as in the comparison between the histogram 40 and the histogram 50.
  • the information processing apparatus 2000 makes a determination by the determination unit 2020 for a plurality of combinations of the attention account 10-1 and the attention account 10-2.
  • a plurality of combinations of attention accounts 10 that are likely to be owned by the same person may be found. Therefore, the process execution unit 2040 may generate a list indicating one or more combinations of the attention accounts 10 that are highly likely to be owned by the same person, and output the list by the various methods described above. By outputting such a list, the user of the information processing apparatus 2000 can easily grasp a plurality of combinations of the account of interest 10 that are likely to be owned by the same person.
  • ⁇ predetermined process 2 when it is determined that the degree of similarity between the content 30-1 and the content 30-2 is high, the process execution unit 2040 outputs information on the content 30-1 and the content 30-2. Hereinafter, this information is referred to as similar content information.
  • similar content information By outputting the similar object information, the user of the information processing apparatus 2000 becomes the basis for estimating the attention account 10-1 and the attention account 10-2 that are estimated to be highly likely to be owned by the same person. Information can be acquired. Below, the variation of similar content information is illustrated.
  • the process execution unit 2040 may perform an analysis process on the image of the object to be included in the similar content information, and include the result in the similar content information. For example, if there is a person image among the object images included in the similar content information, the process execution unit 2040 estimates the attributes (age, height, body type, and gender) of the person in the image and uses the result as similar content information. Or the feature of the person's incidental (glasses, clothes, luggage, etc.) in the image may be calculated and information relating to the feature may be included in the similar content information. In addition, for example, it is also possible to extract an image of a part (face, mole, tattoo, nail, fingerprint, etc.) representing the characteristics of the person from the person image and include the image of the part in the similar content information Good.
  • a part face, mole, tattoo, nail, fingerprint, etc.
  • the process execution unit 2040 calculates the manufacturer, the vehicle type, the number of the license plate, etc. Thus, the calculated information is included in the similar content information.
  • the process execution unit 2040 includes the landmark name in the similar content information. Further, the processing execution unit 2040 may specify the location of the landmark, and may include information indicating the location (address or GPS (Global Positioning System) coordinates) in the similar content information.
  • the location of the landmark can be specified by using, for example, map information.
  • the information processing apparatus 2000 estimates that “the attention account 10-1 and the attention account 10-2 are owned by the same person” Alternatively, it may be estimated that “the owner of the noted account 10-1 and the owner of the noted account 10-2 belong to the same group”. In this case, instead of “information indicating that the attention account 10-1 and the attention account 10-2 are likely to be owned by the same person”, the process execution unit 2040 “owns the attention account 10-1”. Output information indicating that the owner of the account of interest 10-2 is highly likely to belong to the same group.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

情報処理装置(2000)は、注目アカウント(10-1)に関連付けられている関連アカウント(20-1)のコンテンツ(30-1)と、注目アカウント(10-2)に関連付けられている関連アカウント(20-2)のコンテンツ(30-2)とが類似しているか否かを判定する。情報処理装置(2000)は、コンテンツ(30-1)とコンテンツ(30-2)とが類似している場合に、注目アカウント(10-1)と注目アカウント(10-2)に関する所定の処理を行う。

Description

情報処理装置、制御方法、及びプログラム
 本発明はユーザアカウントに関する。
 Social Networking Service(SNS)などのように、ユーザがユーザアカウントを利用して種々の行動を行える環境を提供するサービスがある。例えば、ユーザアカウントに紐付けて、写真、動画、又はテキストメッセージのアップロードが行える。
 ここで、同一の人物が複数のアカウントを所有することがある。この点に関し、非特許文献1は、複数のユーザアカウントそれぞれのユーザ名の類似度に基づいて、それらのユーザアカウントが同一人物によって所有されているか否かを判定する技術を開示している。
Y. Li, Y. Peng、W. Ji, Z. Zhang、及び Q. Xu、「User Identification Based on Display Names Across Online Social Networks」、IEEE Access、vol. 5、pp. 17342-17353、2017年8月25日
 一般に、ユーザアカウントに登録するユーザ名は、ユーザの本名と関係のない任意の名前にすることができる。そのため、複数のユーザアカウントを作る人物は、それらのユーザアカウントに登録するユーザ名を互いに類似しないものにすることが可能である。そして、非特許文献1の技術では、このように互いに類似しないユーザ名が登録された複数のユーザアカウントについて、これらが同一の人物によって所有されているものであることを特定することは難しい。
 本願発明は上記の課題に鑑みてなされたものであり、対比するユーザアカウントのユーザ名が互いに類似しない場合であっても、それらのユーザアカウントが同一人物によって所有されているか否かを精度よく検出できる技術を提供することである。
 本発明の情報処理装置は、1)第1注目アカウントに関連付けられている第1関連アカウントと第2注目アカウントに関連付けられている第2関連アカウントについて、第1関連アカウントに関連づけられている第1コンテンツデータと第2関連アカウントに関連付けられている第2コンテンツデータとが類似しているか否かを判定する判定部と、2)第1コンテンツデータと第2コンテンツデータとが類似していると判定された場合、所定の処理を実行する処理実行部と、を有する。
 本発明の制御方法は、コンピュータによって実行させる。当該制御方法は、1)第1の注目アカウントに関連付けられている第1の関連アカウントと第2の注目アカウントに関連付けられている第2の関連アカウントについて、第1の関連アカウントに関連づけられている第1のコンテンツデータと第2の関連アカウントに関連付けられている第2のコンテンツデータとが類似しているか否かを判定する判定ステップと、2)第1のコンテンツデータと第2のコンテンツデータとが類似していると判定された場合、所定の処理を実行する処理実行ステップと、を有する。
 本発明のプログラムは、コンピュータに、本発明の制御方法が有する各ステップを実行させる。
 本発明によれば、対比するユーザアカウントのユーザ名が互いに類似しない場合であっても、それらのユーザアカウントが同一人物によって所有されているか否かを精度よく検出できる技術が提供される。
 上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。
本実施形態の情報処理装置が行う処理を概念的に示す図である。 実施形態1の情報処理装置の機能構成を例示する図である。 情報処理装置を実現するための計算機を例示する図である。 実施形態1の情報処理装置によって実行される処理の流れを例示するフローチャートである。 関連アカウントについて生成されるヒストグラムを例示する図である。 トピックのヒストグラムを例示する図である。 キーワードの出現頻度のヒストグラムを例示する図である。 話者の出現頻度のヒストグラムを例示する図である。 ディスプレイ装置に表示される通知を例示する図である。
 以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。また、特に説明する場合を除き、各ブロック図において、各ブロックは、ハードウエア単位の構成ではなく、機能単位の構成を表している。
[実施形態1]
<概要>
 図1は、本実施形態の情報処理装置2000が行う処理を概念的に示す図である。情報処理装置2000は、互いに異なるユーザアカウントの所有者が、互いに同一の人物であるか否かを推定する。ユーザアカウントには、例えば、ユーザ自身に関する情報であるユーザ情報と、アカウントに関連付けて登録された画像データやテキストデータなどの情報(以下、コンテンツ)が関連付けられている。ユーザ情報は、例えば氏名、住所、電話番号、又はメールアドレスなどである。
 一般に、Social Networking Service(SNS)などにおいてユーザアカウントを作成する際、ユーザは、前述した種々のユーザ情報を入力する。その際、入力するユーザ情報の内容の正しさを証明することは要求されないケースが多く、このような場合には、ユーザ情報の内容を偽ることもできる。そのため、同一の人物が、ユーザ情報の内容が互いに異なる複数のアカウントを作成することができてしまう。すなわち、同一人物が複数のアカウントを所有できてしまう。このように「実際の所有者は互いに同一人物であるにもかかわらず、互いに異なるユーザ情報が登録されている」という性質を持つ複数のユーザアカウントについては、そのユーザアカウントのユーザ情報やコンテンツのみからでは、それらのユーザアカウントが互いに同一の人物に所有されているという事実を把握することが難しい。
 また、SNS などのサービスは複数存在するため、同一人物が、複数のサービスにおいて、それぞれ異なるアカウント名でユーザアカウントを作成するケースもある。この場合、たとえユーザが偽りなくユーザ情報を登録していたとしても、ユーザ情報が非公開となっていれば、これら複数のユーザアカウントが互いに同一の人物によって所有されているという事実を把握することが難しい。
 そこで本実施形態の情報処理装置2000は、ユーザアカウントに関連付けられている他のユーザアカウントに関連づけられているコンテンツを利用して、同一の人物に所有されている互いに異なるユーザアカウントを推定する。以下、同一人物に所有されているものかどうかの判定対象とするアカウントを注目アカウントと表記し、注目アカウントに関連付けられている他のアカウントを関連アカウントと呼ぶ。例えば SNS では、ユーザアカウント同士を友人として関連付ける機能が提供されていることが多い。そこで例えば、注目アカウントの友人として関連付けられているアカウントを関連アカウントして利用する。なお、どのアカウントを注目アカウントとして扱うかについては後述する。
 図1の例では、情報処理装置2000は、注目アカウント10-1と注目アカウント10-2という2つの注目アカウントについて、これらが同一人物によって所有されるアカウントであるか否かを判定する。注目アカウント10-1には、関連アカウント20が複数存在する。ここで、注目アカウント10-1に関連づけられている関連アカウント20を、関連アカウント20-1と表記する。図1では、図を簡潔にするため、複数の関連アカウント20-1のうちの1つのみに符号を付している。関連アカウント20-1に関連づけられているコンテンツを、コンテンツ30-1と表記する。例えばコンテンツ30-1は、関連アカウント20-1に関連づけてアップロードされた画像データなどである。同様に、注目アカウント10-2の関連アカウントを関連アカウント20-2と表記し、関連アカウント20-2に関連づけられているコンテンツをコンテンツ30-2と表記する。以下、「関連アカウント20に関連づけられているコンテンツ30」を、単に「関連アカウント20のコンテンツ30」とも表記する。
 情報処理装置2000は、関連アカウント20-1のコンテンツ30-1と、関連アカウント20-2のコンテンツ30-2とが類似しているか否かを判定する。これらが類似している場合、注目アカウント10-1と注目アカウント10-2が同一人物のものであると推定できる。そこで情報処理装置2000は、これらが類似している場合、注目アカウント10-1と注目アカウント10-2に関して所定の処理を行う。例えば情報処理装置2000は、所定の処理として、注目アカウント10-1と注目アカウント10-2とが同一の人物のものである旨を示す通知を出力する。
<作用効果>
 本実施形態の情報処理装置2000によれば、注目アカウント10-1に関連づけられている関連アカウント20-1のコンテンツ30-1と、注目アカウント10-2に関連づけられている関連アカウント20-2のコンテンツ30-2との類似度合いを判定する。ここで、これらの類似度が高い場合、注目アカウント10-1と注目アカウント10-2とが同一人物によって所有されていると推定できる。以下、その理由を説明する。
 注目アカウント10-1に関連づけられている関連アカウント20-1は、例えば注目アカウント10-1の所有者の友人など、注目アカウント10-1の所有者と何らかのつながりを持っている人物であると考えられる。そのため、関連アカウント20-1の所有者が関連アカウント20-1に関連づけてアップロード等するコンテンツ30-1の中には、注目アカウント10-1に関係する何らかの情報を含むものが存在する蓋然性が高い。言い換えれば、関連アカウント20-1によって公開される情報には、注目アカウント10-1に関係する何らかの情報が漏れ出ている蓋然性が高い。例えば、関連アカウント20-1がアップロードする写真や動画に、注目アカウント10-1の所有者、注目アカウント10-1の所有者の所有物(車両など)、注目アカウント10-1が訪れた場所を表すランドマークなどが含まれている蓋然性が高い。また、関連アカウント20-1がアップロードするテキストデータや音声データにも、注目アカウント10-1に関係する何らかの情報が含まれている蓋然性が高い。
 同様に、関連アカウント20-2の所有者が関連アカウント20-2に関連づけてアップロード等するコンテンツ30-2の中には、注目アカウント10-2に関係する何らかの情報を含むものが存在する蓋然性が高い。このことから、関連アカウント20-1のコンテンツ30-1と、関連アカウント20-2のコンテンツ30-2とが類似していることは、コンテンツ30-1に含まれている注目アカウント10-1に関係する情報と、コンテンツ30-2に含まれている注目アカウント10-2に関係する情報とが類似していることを表している蓋然性が高いといえる。
 そこで情報処理装置2000は、コンテンツ30-1とコンテンツ30-2とが類似している場合に、注目アカウント10-1の所有者と注目アカウント10-2の所有者が同一の人物である蓋然性が高いと推定する。こうすることで、注目アカウント10-1のユーザ情報と注目アカウント10-2のユーザ情報とを比較するだけではこれらのアカウントが同一の人物によって所有されているものであるかどうかが分からない場合でも、注目アカウント10-1と注目アカウント10-2が同一の人物によって所有されるアカウントであるか否かを推定することができる。
 なお、図1を参照した上述の説明は、情報処理装置2000の理解を容易にするための例示であり、情報処理装置2000の機能を限定するものではない。以下、本実施形態の情報処理装置2000についてさらに詳細に説明する。
<情報処理装置2000の機能構成の例>
 図2は、実施形態1の情報処理装置2000の機能構成を例示する図である。情報処理装置2000は、判定部2020及び処理実行部2040を有する。判定部2020は、注目アカウント10-1に関連付けられている関連アカウント20-1のコンテンツ30-1と、注目アカウント10-2に関連付けられている関連アカウント20-2のコンテンツ30-2とが類似しているか否かを判定する。処理実行部2040は、コンテンツ30-1とコンテンツ30-2とが類似している場合に、注目アカウント10-1と注目アカウント10-2に関する所定の処理を行う。
<情報処理装置2000のハードウエア構成>
 情報処理装置2000の各機能構成部は、各機能構成部を実現するハードウエア(例:ハードワイヤードされた電子回路など)で実現されてもよいし、ハードウエアとソフトウエアとの組み合わせ(例:電子回路とそれを制御するプログラムの組み合わせなど)で実現されてもよい。以下、情報処理装置2000の各機能構成部がハードウエアとソフトウエアとの組み合わせで実現される場合について、さらに説明する。
 図3は、情報処理装置2000を実現するための計算機1000を例示する図である。計算機1000は任意の計算機である。例えば計算機1000は、Personal Computer(PC)やサーバマシンなどである。計算機1000は、情報処理装置2000を実現するために設計された専用の計算機であってもよいし、汎用の計算機であってもよい。
 計算機1000は、バス1020、プロセッサ1040、メモリ1060、ストレージデバイス1080、入出力インタフェース1100、及びネットワークインタフェース1120を有する。バス1020は、プロセッサ1040、メモリ1060、ストレージデバイス1080、入出力インタフェース1100、及びネットワークインタフェース1120が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ1040などを互いに接続する方法は、バス接続に限定されない。
 プロセッサ1040は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、FPGA(Field-Programmable Gate Array)などの種々のプロセッサである。メモリ1060は、RAM(Random Access Memory)などを用いて実現される主記憶装置である。ストレージデバイス1080は、ハードディスク、SSD(Solid State Drive)、メモリカード、又は ROM(Read Only Memory)などを用いて実現される補助記憶装置である。
 入出力インタフェース1100は、計算機1000と入出力デバイスとを接続するためのインタフェースである。例えば入出力インタフェース1100には、キーボードなどの入力装置や、ディスプレイ装置などの出力装置が接続される。ネットワークインタフェース1120は、計算機1000を通信網に接続するためのインタフェースである。この通信網は、例えば LAN(Local Area Network)や WAN(Wide Area Network)である。ネットワークインタフェース1120が通信網に接続する方法は、無線接続であってもよいし、有線接続であってもよい。
 ストレージデバイス1080は、情報処理装置2000の各機能構成部を実現するプログラムモジュールを記憶している。プロセッサ1040は、これら各プログラムモジュールをメモリ1060に読み出して実行することで、各プログラムモジュールに対応する機能を実現する。
<処理の流れ>
 図4は、実施形態1の情報処理装置2000によって実行される処理の流れを例示するフローチャートである。判定部2020は、注目アカウント10-1に関連付けられている各関連アカウント20-1のコンテンツ30-1を取得する(S102)。判定部2020は、注目アカウント10-2に関連づけられている各関連アカウント20-2のコンテンツ30-2を取得する(S104)。判定部2020は、コンテンツ30-1とコンテンツ30-2が類似しているか否かを判定する(S106)。これらが類似している場合(S106:YES)、処理実行部2040は所定の処理を実行する(S108)。一方、これらが類似していない場合(S106:NO)、図4の処理は終了する。
<ユーザアカウントについて>
 前述したように、注目アカウント10や関連アカウント20は、例えば SNS などのサービスでユーザが作成するユーザアカウントである。一般に、このようなユーザアカウントは、氏名などのユーザ情報を登録することで作成され、継続して使用される。
 しかしながら、情報処理装置2000が扱うユーザアカウントは、このようにユーザ情報を登録することで生成されるものに限定されない。例えば、Web ページ上の掲示板などでは、ユーザがコンテンツの投稿(テキストデータのアップロードなど)を行う際、その投稿に対して識別子が割り当てられる。情報処理装置2000は、この識別子をユーザアカウントとして扱ってもよい。この場合、例えば或るユーザが掲示板サイトにコンテンツを投稿し、その投稿に対して他のユーザがコメントをした場合、前者と後者のいずれか一方を注目アカウント10として扱い、他方の関連アカウント20として扱うことができる。
<注目アカウント10について>
 情報処理装置2000は、2つの注目アカウント10-1と注目アカウント10-2について、これらのアカウントが同一の人物のものであるか否かを推定する。ここで、注目アカウント10-1と注目アカウント10-2は、互いに同一のサービス(例えば SNS)を利用するためのユーザアカウントであってもよいし、互いに異なるサービスを利用するためのユーザアカウントであってもよい。
 ここで、複数のユーザアカウントのうち、どのユーザアカウントを注目アカウント10として扱うかを決める方法には、種々の方法がある。以下、その方法のバリエーションを例示する。
<<注目アカウント10を決める方法1>>
 例えば情報処理装置2000は、注目アカウント10として扱うユーザアカウントの指定を、情報処理装置2000のユーザから受け付ける。ユーザによって指定されるユーザアカウントは、2つであってもよいし、3つ以上であってもよい。3つ以上のユーザアカウントが指定された場合、例えば情報処理装置2000は、指定されたユーザアカウントについて作成可能な任意の2つのユーザアカウントの組み合わせ(n-2 combination)それぞれについて、その組み合わせに含まれる2つのユーザカウントを注目アカウント10として扱った処理を行う。すなわち、A、B、及びCというユーザアカウントを指定されたら、AとBを注目アカウント10とした処理、AとCを注目アカウント10とした処理、BとCを注目アカウント10とした処理をそれぞれ実行する。
<<注目アカウント10を決める方法2>>
 例えば情報処理装置2000は、注目アカウント10として扱うユーザアカウントを1つ指定する入力を、ユーザから受け付ける。情報処理装置2000は、ユーザによって指定されたユーザアカウントを注目アカウント10-1として扱う。さらに情報処理装置2000は、注目アカウント10-1のユーザ情報と類似するユーザ情報を持つ他のユーザアカウントを、注目アカウント10-2として扱う。ここでいうユーザ情報間の類似は、例えば、種々の情報の一部(ユーザIDの一部、名前の一部、生年月日の一部、又はメールアドレスの一部など)が共通していることである。注目アカウント10-1のユーザ情報と類似するユーザ情報を持つ他のユーザアカウントが複数存在する場合、情報処理装置2000は、それら複数のユーザアカウントそれぞれを注目アカウント10-2として扱う。
<<注目アカウント10を決める方法3>>
 情報処理装置2000は、ユーザアカウントを監視する監視システムと連携して動作し、この監視システムからユーザアカウントの指定を受け付けてもよい。例えばこの監視システムは、ユーザアカウントの利用態様(アップロードされるコンテンツの内容やアップロードの頻度など)を監視し、その利用態様が常識、サービスの利用規約、又は法律などに反しているユーザアカウントを特定する(すなわち、要注意のユーザアカウントを特定する)。監視システムは、特定したユーザアカウントを情報処理装置2000に通知する。情報処理装置2000は、監視システムから通知された複数のユーザアカウントについて作成可能な任意の2つのユーザアカウントの組み合わせそれぞれについて、その組み合わせに含まれる2つのユーザカウントを注目アカウント10として扱った処理を行う。なお、監視システムがユーザアカウントを1つずつ通知する場合、情報処理装置2000は、例えば所定期間の間に受けた複数の通知によって示される複数のユーザアカウントについて、上述した処理を行う。
<関連アカウント20について>
 前述したように、関連アカウント20は、注目アカウント10に関連付けられている他のアカウントであり、例えば SNS において注目アカウント10と友人関係にあるアカウントである。注目アカウント10に複数の関連アカウント20が関連づけられている場合、判定部2020は、その全ての関連アカウント20についてコンテンツ30を取得してもよいし、その一部の関連アカウント20についてコンテンツ30を取得してもよい。一部の関連アカウント20についてコンテンツ30を取得する場合、判定部2020は、例えば複数の関連アカウント20から所定数の関連アカウント20を任意に(例えばランダムに)選択する。
<コンテンツ30の取得:S102、S104>
 判定部2020は、関連アカウント20-1に関連づけられているコンテンツ30-1と、関連アカウント20-2に関連づけられているコンテンツ30-2を取得する(S102、S104)。例えば判定部2020は、各関連アカウント20について、その関連アカウント20のコンテンツ30が公開されている Web ページへ順次アクセスすることで、これらの Web ページから各コンテンツ30を自動的に収集する。
 また、SNS などのサービスでは、ユーザアカウントに関連づけられているコンテンツを取得するための API(Application Programming Interface) が提供されていることがある。そこで判定部2020は、関連アカウント20が利用しているサービスで提供されている API を利用して、関連アカウント20のコンテンツ30を取得してもよい。
 なお、判定部2020は、関連アカウント20に関連づけられているコンテンツ30の全てを取得してもよいし、所定の種類のコンテンツ30のみを取得してもよい。例えば、類似判定の対象を画像データのみとする場合、判定部2020は、関連アカウント20に関連づけられている画像データをコンテンツ30として取得する。
<コンテンツデータの比較:S106>
 判定部2020は、関連アカウント20-1のコンテンツデータと関連アカウント20-2のコンテンツデータとを比較し、これらの類似度合いが高い場合に、注目アカウント10-1と注目アカウント10-2が同一人物によって所有されていると推定する。この処理は、1)どの種類のコンテンツデータを比較対象とするか、及び2)どのような比較を行うかという点について、様々なバリエーションを採用しうる。以下、この2点に着目して、コンテンツデータの比較について説明する。
<<画像データの比較>>
 比較対象とするコンテンツデータの種類として、画像データが考えられる。例えば、SNS では、ユーザアカウントを利用して、人、建物、又は風景などの写真の画像データがアップロードされる。判定部2020は、このようにユーザカウントを利用してアップロードされた画像データを、そのユーザアカウントに関連づけられたコンテンツとして扱う。また、ユーザは、画像データが含まれる Web ページを参照する(リンクする)投稿を行ったり、他のユーザによってアップロードされた画像データを参照する投稿を行ったりすることもある。判定部2020は、このようにユーザが参照した画像データも、そのユーザのアカウントに関連付けられたコンテンツデータとして扱ってよい。なお、画像データには、動画データを構成する動画フレームも含まれる。画像データを利用することには、関連アカウント20-1で使用されている言語と関連アカウント20-2で使用されている言語が異なる場合であっても、コンテンツ30-1とコンテンツ30-2の類似を判定しやすいといった利点がある。以下、画像データに関する具体的な比較方法について、いくつか例示する。
<<<画像データに関する比較の方法1>>>
 判定部2020は、関連アカウント20-1に関連付けられた画像データから検出されるオブジェクトと、関連アカウント20-2に関連付けられた画像データから検出されるオブジェクトの類似度に着目する。例えば、判定部2020は、関連アカウント20-1に関連付けられた画像データから検出されるオブジェクトと、関連アカウント20-2に関連付けられた画像データから検出されるオブジェクトとの間で類似度を算出する。そして判定部2020は、類似度が所定値以上であるオブジェクトの組み(すなわち、互いに同一であると推定されるオブジェクトの組み)の数が所定数以上である場合に、関連アカウント20-1のコンテンツデータと関連アカウント20-2のコンテンツデータの類似度が高いと判定する。一方、類似度が所定値以上であるオブジェクトの組みの数が所定数未満である場合、判定部2020は、関連アカウント20-1のコンテンツデータと関連アカウント20-2のコンテンツデータの類似度が高くないと判定する。上記所定数は、判定部2020からアクセス可能な記憶装置に予め記憶させておく。
 ここで、画像データ32から検出するオブジェクトは、任意の種類のオブジェクトであってもよいし、特定の種類のオブジェクトであってもよい。後者の場合、例えば画像データ32に含まれるオブジェクトのうち、人物のみを検出対象とする。
 なお、画像データからオブジェクトを検出する技術や、検出されたオブジェクトの類似度合いを判定する技術には、既存の技術を利用することができる。
<<<画像データに関する比較の方法2>>>
 判定部2020は、関連アカウント20-1と関連アカウント20-2のそれぞれについて、関連付けられた画像データにおけるオブジェクトの出現頻度の分布を表すヒストグラムを生成し、ヒストグラム間の類似度合いを判定する。図5は、関連アカウント20について生成されるヒストグラムを例示する図である。図5では、関連アカウント20に複数の画像データ32が対応づけられている。ヒストグラム40は、画像データ32から検出されるオブジェクトの出現頻度の分布である。以下、関連アカウント20-1に関連づけられている画像データ32を画像データ32-1と表記し、画像データ32-1について生成されるヒストグラム40をヒストグラム40-1と表記する。同様に、関連アカウント20-2に関連づけられている画像データ32を画像データ32-2と表記し、画像データ32-2について生成されるヒストグラム40をヒストグラム40-2と表記する。
 判定部2020は、ヒストグラム40-1とヒストグラム40-2の類似度合いを判定する。例えば判定部2020は、ヒストグラム40-1とヒストグラム40-2の類似度を算出し、算出した類似度が所定値以上である場合に、コンテンツ30-1とコンテンツ30-2の類似度が高いと判定する。一方、ヒストグラム40-1とヒストグラム40-2との類似度が所定値未満である場合、判定部2020は、コンテンツ30-1とコンテンツ30-2の類似度が高くないと判定する。ここで、2つのヒストグラムの類似度を算出する技術には、既存の技術を利用することができる。また、上記所定値は、判定部2020からアクセス可能な記憶装置に記憶させておく。
 ヒストグラム40-1とヒストグラム40-2は、例えば以下のように生成される。まず判定部2020は、各画像データ32-1を対象としてオブジェクト認識処理を行うことで、それぞれに含まれるオブジェクトを認識する。さらに判定部2020は、各オブジェクトの出現数をカウントすることで、オブジェクトの出現頻度の分布を表すヒストグラム40-1を生成する。
 ここで、判定部2020は、画像データ32-1から検出される各オブジェクトに識別子を割り当てている。この際、例えば判定部2020は、互いに同じオブジェクトには同一の識別子を割り当てることにより、各オブジェクトを識別可能にすることで、オブジェクトの出現数をカウントできるようにする。そのためには、画像データ32から検出される各オブジェクトが同一であるか否かを判断すること(オブジェクトの同定)が必要である。すなわち、判定部2020は、画像データ32から検出したオブジェクトに識別子を割り当てる際、そのオブジェクトが既に検出されている他のオブジェクトと同じものであれば、当該既に検出されているオブジェクトに割り当てた識別子と同じものを割り当てる。一方、そのオブジェクトが既に検出されているいずれのオブジェクトとも異なる場合、どのオブジェクトにも割り当てていない新規の識別子を割り当てる。
 判定部2020は、画像データ32-2についても同様の処理を行うことにより、ヒストグラム40-2を生成する。この際、画像データ32-2から検出されたオブジェクトについては、他の画像データ32-2から検出されたオブジェクトとの同定だけでなく、画像データ32-1から検出されたオブジェクトとの同定も行う。すなわち、画像データ32-2から検出されたオブジェクトと同じオブジェクトが画像データ32-1から既に検出されている場合、判定部2020は、当該既に検出されているオブジェクトに割り当てた識別子を、画像データ32-2から検出されたオブジェクトにも割り当てる。オブジェクトの同定には、既存の種々の技術を利用することができる。
 ここで、ヒストグラム40-1とヒストグラム40-2の比較は、ヒストグラム40-1とヒストグラム40-2の一部のみを用いて行われてもよい。例えば判定部2020は、ヒストグラム40-1において出現頻度が上位N位(Nは2以上の自然数)までのオブジェクトの出現頻度と、ヒストグラム40-2において出現頻度が上位N位までのオブジェクトの出現頻度とを比較することにより、ヒストグラム40-1とヒストグラム40-2の類似度を算出する。
<<<画像データに関する比較の方法3>>>
 画像データに関する比較は、画像データから検出したオブジェクトについての比較ではなく、画像データのトピックについての比較で実現してもよい。ここで、或るデータにおけるトピックとは、そのデータによって表現されている主たる物事や事象を意味する。例えば、仕事、食事、スポーツ、旅行、ゲーム、又は政治といったトピックが考えられる。判定部2020は、関連アカウント20に関連付けられた各画像データ32をトピックで分類する。ここで、画像データをトピックで分類する技術には、既存の技術を利用することができる。
 例えば判定部2020は、画像データ32-1と画像データ32-2のそれぞれについて、トピックの出現頻度のヒストグラムを生成する。図6は、トピックのヒストグラムを例示する図である。判定部2020は、画像データ32-1から生成されたトピックのヒストグラムと、画像データ32-2から生成されたトピックのヒストグラムとの類似度が所定値以上である場合に、コンテンツ30-1とコンテンツ30-2の類似度が高いと判定する。一方、画像データ32-1から生成されたトピックのヒストグラムと、画像データ32-2から生成されたトピックのヒストグラムとの類似度が所定値未満である場合に、コンテンツ30-1とコンテンツ30-2の類似度が高くないと判定する。
<<テキストデータに関する比較>>
 判定部2020は、前述した画像データ32に関する比較と同様の比較を、関連アカウント20に関連付けられたテキストデータについて行ってもよい。例えば SNS において、ユーザの考えたことやユーザの近況などといった情報を表すテキストデータが、ユーザアカウントに関連付けてアップロードされる。判定部2020は、例えばこのようにユーザによってアップロードされたテキストデータを、コンテンツ30として扱う。
 その他にも例えば、ユーザは、Web ページを参照する投稿、他のユーザがアップロードしたテキストデータを参照する投稿、他のユーザのコンテンツに対するコメントの投稿などを行ったりすることもある。判定部2020は、このようにユーザが参照した Web ページに含まれるテキストデータや他のユーザがアップロードしたテキストデータ、及び他のユーザのコンテンツに対するコメントを表すテキストデータも、ユーザのアカウントに関連付けられたコンテンツデータとして扱ってよい。以下、テキストデータに関する具体的な比較方法について、いくつか例示する。
<<<テキストデータに関する比較の方法1>>>
 例えば判定部2020は、関連アカウント20-1に関連付けられたテキストデータと、関連アカウント20-2に関連付けられたテキストデータとから、キーワードの抽出を行う。例えば判定部2020は、双方のテキストデータで共通に現れるキーワードの数が所定数以上である場合に、コンテンツ30-1とコンテンツ30-2の類似度合いが高いと判定する。一方、判定部2020は、双方のテキストデータで共通に現れるキーワードの数が所定数未満である場合に、コンテンツ30-1とコンテンツ30-2の類似度合いが高くないと判定する。
 ここで、テキストデータから抽出するキーワードは、任意の単語であってもよいし、特定の単語であってもよい。後者の場合、例えばキーワードとして採用する単語のリストを予め用意しておき、そのリストに含まれる単語のみをキーワードとして抽出するようにする。なお、テキストデータからキーワードを抽出する技術には、既存の技術を利用することができる。
<<<テキストデータに関する比較の方法2>>>
 例えば判定部2020は、関連アカウント20に関連付けられた画像データから検出されるオブジェクトの出現頻度のヒストグラムに関する比較と同様の比較を、関連アカウント20に関連付けられたテキストデータから抽出されるキーワードについて行ってもよい。具体的には、判定部2020は、関連アカウント20-1と関連アカウント20-2のそれぞれについて、関連付けられたテキストデータにおけるキーワードの出現頻度の分布を表すヒストグラムを生成し、ヒストグラム間の類似度合いを判定する。
 図7は、キーワードの出現頻度のヒストグラムを例示する図である。図7では、関連アカウント20に関連づけられているテキストデータ34について、ヒストグラム50が生成されている。以下、関連アカウント20-1に関連づけられているテキストデータ34をテキストデータ34-1と表記し、テキストデータ34-1から生成されるヒストグラム50をヒストグラム50-1と表記する。同様に、関連アカウント20-2に関連づけられているテキストデータ34をテキストデータ34-2と表記し、テキストデータ34-2から生成されるヒストグラム50をヒストグラム50-2と表記する。
 例えば判定部2020は、ヒストグラム50-1とヒストグラム50-2の類似度を算出し、その類似度が所定値以上である場合に、コンテンツ30-1とコンテンツ30-2の類似度が高いと判定する。一方、ヒストグラム50-1とヒストグラム50-2との類似度が所定値未満である場合、判定部2020は、コンテンツ30-1とコンテンツ30-2の類似度が高くないと判定する。上記所定値は、判定部2020からアクセス可能な記憶装置に予め記憶させておく。
 ここで、ヒストグラム50-1とヒストグラム50-2の比較は、ヒストグラム40-1とヒストグラム40-2の比較と同様に、ヒストグラムの一部のみ(例えば上記N位まで)を用いて行われてもよい。
<<<テキストデータに関する比較の方法3>>>
 判定部2020は、テキストデータ34から抽出されるトピックの出現頻度についての比較により、コンテンツ30-1とコンテンツ30-2の類似度合いを判定してもよい。テキストデータ34から抽出されるトピックの出現頻度について比較する方法は、前述した、画像データから抽出されるトピックの出現頻度について比較すると同様である。なお、テキストデータからトピックを抽出する技術には、既存の技術を利用することができる。
<<音声データに関する比較>>
 判定部2020は、関連アカウント20に関連づけられている音声データを、コンテンツ30として扱ってもよい。ここでいう音声データは、音声単体で生成されたデータだけでなく、動画データに含まれる音声のデータも含まれる。以下、音声データに関する比較の方法について例示する。
<<<音声データに関する比較の方法1>>>
 判定部2020は、関連アカウント20-1に関連付けられた音声データと、関連アカウント20-2に関連付けられた音声データのそれぞれから、キーワードを抽出する。そして、これら音声データから抽出されたキーワードを、前述したテキストデータから抽出されたキーワードと同様に扱うことで、コンテンツ30-1とコンテンツ30-2の類似度合いを判定する。すなわち、共通するキーワードの数や、キーワードの出現頻度を表すヒストグラムの比較により、コンテンツ30-1とコンテンツ30-2の類似度合いを判定する。
<<<音声データに関する比較の方法2>>>
 判定部2020は、関連アカウント20-1に関連づけられた音声データから抽出されるトピックの出現頻度と、関連アカウント20-2に関連づけられた音声データから抽出されるトピックの出現頻度とを比較することで、コンテンツ30-1とコンテンツ30-2の類似度合いを判定する。トピックの出現頻度について比較する方法は、前述した、画像データから抽出されるトピックの出現頻度について比較すると同様である。なお、音声データからトピックを抽出する技術には、既存の技術を利用することができる。
<<<音声データに関する比較の方法3>>>
 判定部2020は、関連アカウント20-1に関連付けられた音声データと、関連アカウント20-2に関連付けられた音声データのそれぞれに対し、話者の抽出を行う。音声データについて話者の抽出を行う手法には、例えば、声紋識別などの既存の技術を利用することができる。例えば、音声データから、声紋を表すサウンドスペクトログラムデータを生成し、このサウンドスペクトログラムデータを識別情報として利用することで、話者を識別するといった手法がある。
 例えば判定部2020は、関連アカウント20-1と関連アカウント20-2のそれぞれについて、関連づけられた音声データにから抽出される話者の出現頻度のヒストグラムを生成する。図8は、話者の出現頻度のヒストグラムを例示する図である。図8では、関連アカウント20に関連づけられている音声データ36について、話者の出現頻度のヒストグラム60が生成されている。以下、関連アカウント20-1に関連づけられている音声データ36を音声データ36-1と表記し、音声データ36-1から生成されるヒストグラム60をヒストグラム60-1と表記する。同様に、関連アカウント20-2に関連づけられている音声データ36を音声データ36-2と表記し、音声データ36-2から生成されるヒストグラム60をヒストグラム60-2と表記する。
 例えば判定部2020は、ヒストグラム60-1とヒストグラム60-2の類似度を算出し、その類似度が所定値以上である場合に、コンテンツ30-1とコンテンツ30-2の類似度が高いと判定する。一方、ヒストグラム60-1とヒストグラム60-2との類似度が所定値未満である場合、判定部2020は、コンテンツ30-1とコンテンツ30-2の類似度が高くないと判定する。上記所定値は、判定部2020からアクセス可能な記憶装置に予め記憶させておく。
 ここで、ヒストグラム60-1とヒストグラム60-2の比較は、ヒストグラム40やヒストグラム50の比較と同様に、ヒストグラムの一部のみ(例えば上記N位まで)を用いて行われてもよい。
 音声データ36から抽出される話者に基づく比較は、ヒストグラムの比較に限定されない。例えば判定部2020は、「テキストデータに関する比較の方法1」で説明した方法と同様の比較方法を用いてもよい。すなわち、判定部2020は、関連アカウント20-1に関連付けられた音声データ36と、関連アカウント20-2に関連づけられた音声データ36で共通に現れる話者の数が所定数以上である場合に、コンテンツ30-1とコンテンツ30-2の類似度合いが高いと判定する。一方、判定部2020は、双方の音声データ36で共通に現れる話者の数が所定数未満である場合に、コンテンツ30-1とコンテンツ30-2の類似度合いが高くないと判定する。
<所定の処理>
 前述したように、関連アカウント20-1に関連付けられたコンテンツ30-1と、関連アカウント20-2に関連付けられたコンテンツ30-2の類似度が高いと判定された場合、注目アカウント10-1と注目アカウント10-2が同一の人物によって所有されている蓋然性が高い。そこで処理実行部2040は、コンテンツ30-1とコンテンツ30-2の類似度が高いと判定された場合、注目アカウント10-1と注目アカウント10-2について、所定の処理を行う。以下、処理実行部2040が行う処理のバリエーションを例示する。
<<所定の処理1>>
 例えば処理実行部2040は、コンテンツ30-1とコンテンツ30-2の類似度が高いと判定された場合、注目アカウント10-1及び注目アカウント10-2が同一の人物によって所有されている蓋然性が高いことを表す情報を出力する。この情報が出力されることにより、この情報を取得した情報処理装置2000のユーザは、同一人物によって所有されている蓋然性が高い注目アカウント10の組みを容易に把握することができる。
 上記情報の出力方法は様々である。例えば処理実行部2040は、注目アカウント10-1と注目アカウント10-2が同一の人物によって所有されている蓋然性が高いことを表す通知を、情報処理装置2000に接続されているディスプレイ装置に表示させる。図9は、ディスプレイ装置に表示される通知を例示する図である。その他にも例えば、処理実行部2040は、上記通知を、情報処理装置2000と通信可能に接続されている他のコンピュータに送信したり、情報処理装置2000と通信可能に接続されている記憶装置に記憶させたりしてもよい。
 また、情報処理装置2000が、注目アカウント10-1と注目アカウント10-2の複数の組み合わせについて、判定部2020による判定を行うとする。この場合、同一人物に所有されている蓋然性が高い注目アカウント10の組み合わせが、複数見つかることがある。そこで処理実行部2040は、同一の人物によって所有されている蓋然性が高い注目アカウント10の組み合わせを1つ以上示すリストを生成し、そのリストを前述した種々の方法で出力してもよい。このようなリストを出力することにより、情報処理装置2000のユーザが、同一人物によって所有されている蓋然性が高い注目アカウント10の複数の組みを容易に把握することができる。
<<所定の処理2>>
 その他にも例えば、処理実行部2040は、コンテンツ30-1とコンテンツ30-2の類似度合いが高いと判定された場合、コンテンツ30-1及びコンテンツ30-2に関する情報を出力する。以下、この情報を類似コンテンツ情報と呼ぶ。類似オブジェクト情報を出力することにより、情報処理装置2000のユーザは、同一人物によって所有されている蓋然性が高いと推定される注目アカウント10-1と注目アカウント10-2について、その推定の根拠となる情報を取得することができる。以下に、類似コンテンツ情報のバリエーションを例示する。
<<<バリエーション1:オブジェクトの画像>>>
 判定部2020が、画像データ32から抽出したオブジェクトの比較を行うとする。この場合、例えば処理実行部2040は、画像データ32について生成されるオブジェクトの出現頻度を表すヒストグラム40(図5参照)を類似コンテンツ情報に含める。ここで、ヒストグラム40と共に、ヒストグラム40が示す各オブジェクトの画像を類似コンテンツ情報に含めてもよい。その他にも例えば、処理実行部2040は、画像データ32-1から抽出されたオブジェクトと、画像データ32-2から抽出されたオブジェクトのうち、互いに類似していると判定されたオブジェクトの画像の組み合わせを、類似コンテンツ情報に含める。なお、類似コンテンツ情報にオブジェクトの画像を含める場合、そのオブジェクトが含まれている画像データ32全体を類似コンテンツ情報に含めてもよい。
 さらに処理実行部2040は、類似コンテンツ情報に含めるオブジェクトの画像について解析処理を行い、その結果を類似コンテンツ情報に含めてもよい。例えば処理実行部2040は、類似コンテンツ情報に含めるオブジェクト画像の中に人物の画像がある場合、その画像の人物の属性(年齢、身長、体型、及び性別)を推定してその結果を類似コンテンツ情報に含めたり、その画像の人物の附帯物(眼鏡、服装、荷物など)についての特徴を算出してその特徴に関する情報を類似コンテンツ情報に含めたりしてもよい。その他にも例えば、人物の画像の中からその人物の特徴を表す部位(顔、ほくろ、入れ墨、爪、又は指紋など)の画像を抽出して、その部位の画像を類似コンテンツ情報に含めてもよい。
 その他にも例えば、類似コンテンツ情報に含めるオブジェクト画像の中に車両(車、バイク、自転車など)の画像がある場合、処理実行部2040は、その車両のメーカ、車種、ナンバープレートの番号などを割り出して、割り出した情報を類似コンテンツ情報に含める。
 その他にも例えば、類似コンテンツ情報に含めるオブジェクト画像の中に、撮影場所(画像データ32が生成された場所)の特定に利用できるランドマーク(建物、標識、山、川、海など)の画像がある場合、処理実行部2040は、そのランドマークの名称を類似コンテンツ情報に含める。また、処理実行部2040は、そのランドマークの所在地を特定し、その所在地を表す情報(住所や GPS(Global Positioning System)座標)を類似コンテンツ情報に含めてもよい。なお、ランドマークの所在地は、例えば地図情報などを利用することで特定することができる。
<<<バリエーション2:キーワード>>>
 判定部2020が、テキストデータや音声データから抽出したキーワードの比較を行うとする。この場合、例えば処理実行部2040は、キーワードについて生成されたヒストグラム(図7参照)を類似コンテンツ情報に含める。この際、ヒストグラムが示す各キーワードを類似コンテンツ情報に含めてもよい。その他にも例えば、処理実行部2040は、コンテンツ30-1から抽出されたキーワードと、コンテンツ30-2から抽出されたキーワードのうち、互いに一致すると判定されたキーワードを、類似コンテンツ情報に含める。
 なお、キーワードがテキストデータから抽出された場合、処理実行部2040は、互いに一致すると判定されたキーワードだけでなく、そのキーワードが含まれていたセンテンスやテキストデータ全体を類似コンテンツ情報に含めてもよい。また、キーワードが音声データから抽出された場合、処理実行部2040は、互いに一致すると判定されたキーワードだけでなく、そのキーワードが含まれていた発言の音声データやキーワードが抽出された音声データ全体を類似コンテンツ情報に含めてもよい。
<<<バリエーション3:話者>>>
 判定部2020が、音声データから話者の抽出を行うとする。この場合、例えば判定部2020は、話者の出現頻度を表すヒストグラム60(図8参照)を類似コンテンツ情報に含める。この際、ヒストグラムによって示される各話者のサウンドスペクトログラムデータを類似コンテンツ情報に含めてもよい。その他にも例えば、音声データ36-1から抽出された話者と、音声データ36-2から抽出された話者のうち、互いに一致すると判定された話者のサウンドスペクトログラムデータを類似コンテンツ情報に含める。
<<<バリエーション4:トピック>>>
 判定部2020が、コンテンツ30から抽出したトピックの比較を行うとする。この場合、例えば処理実行部2040は、コンテンツ30から抽出されたトピックの出現頻度を表すヒストグラム(図6参照)を類似コンテンツ情報に含める。その他にも例えば、処理実行部2040は、コンテンツ30-1から抽出されたトピックと、コンテンツ30-2から抽出されたトピックのうち、互いに一致すると判定されたトピックを表す情報(トピックの名称など)を、類似コンテンツ情報に含める。
 以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。
 例えば情報処理装置2000は、コンテンツ30-1とコンテンツ30-2が類似している場合に、「注目アカウント10-1と注目アカウント10-2が同一の人物によって所有されている」と推定する代わりに、「注目アカウント10-1の所有者と注目アカウント10-2の所有者が互いに同一のグループに属している」と推定してもよい。この場合、処理実行部2040は、「注目アカウント10-1及び注目アカウント10-2が同一の人物によって所有されている蓋然性が高いことを表す情報」の代わりに、「注目アカウント10-1の所有者がと注目アカウント10-2の所有者が同一のグループの属している蓋然性が高いことを表す情報」を出力する。

Claims (23)

  1.  第1注目アカウントに関連付けられている第1関連アカウントと第2注目アカウントに関連付けられている第2関連アカウントについて、前記第1関連アカウントに関連づけられている第1コンテンツデータと前記第2関連アカウントに関連付けられている第2コンテンツデータとが類似しているか否かを判定する判定部と、
     前記第1コンテンツデータと前記第2コンテンツデータとが類似していると判定された場合、所定の処理を実行する処理実行部と、を有する情報処理装置。
  2.  前記判定部は、前記第1関連アカウントに関連付けられている画像データに含まれるオブジェクトの出現頻度の分布と、前記第2関連アカウントに関連づけられている画像データに含まれるオブジェクトの出現頻度の分布とが類似しているか否かを判定することで、前記第1コンテンツデータと前記第2コンテンツデータとが類似しているか否かを判定する、請求項1に記載の情報処理装置。
  3.  前記判定部は、前記第1関連アカウントに関連づけられているテキストデータ又は音声データに含まれる単語の出現頻度の分布と、前記第2関連アカウントに関連づけられているテキストデータ又は音声データに含まれる単語の出現頻度の分布とが類似しているか否かを判定することで、前記第1コンテンツデータと前記第2コンテンツデータとが類似しているか否かを判定する、請求項1に記載の情報処理装置。
  4.  前記判定部は、前記第1関連アカウントに関連づけられている音声データから抽出される話者の出現頻度の分布と、前記第2関連アカウントに関連づけられている音声データから抽出される話者の出現頻度の分布とが類似しているか否かを判定することで、前記第1コンテンツデータと前記第2コンテンツデータとが類似しているか否かを判定する、請求項1に記載の情報処理装置。
  5.  前記判定部は、前記第1関連アカウントに関連づけられているコンテンツデータから抽出されるトピックの出現頻度の分布と、前記第2関連アカウントに関連づけられているコンテンツデータから抽出されるトピックの出現頻度の分布とが類似しているか否かを判定することで、前記第1コンテンツデータと前記第2コンテンツデータとが類似しているか否かを判定する、請求項1に記載の情報処理装置。
  6.  前記処理実行部は、前記所定の処理として、前記第1注目アカウントと前記第2注目アカウントが同一人物によって所有されている蓋然性が高い旨を示す情報、又は前記第1注目アカウントの所有者と前記第2注目アカウントの所有者とが同一のグループに属している蓋然性が高い旨を示す情報を出力する、請求項1乃至5いずれか一項に記載の情報処理装置。
  7.  前記処理実行部は、前記所定の処理として、前記判定部によって生成された前記分布を出力する、請求項2乃至5いずれか一項に記載の情報処理装置。
  8.  前記処理実行部は、前記所定の処理として、前記第1コンテンツデータと前記第2コンテンツデータのうち、互いに一致又は類似するコンテンツデータを出力する、請求項1乃至7いずれか一項に記載の情報処理装置。
  9.  前記処理実行部は、画像データに含まれる人物の特徴的な部位を表す画像領域を抽出して出力する、請求項8に記載の情報処理装置。
  10.  前記処理実行部は、画像データに含まれる車両の種類、メーカ、及びナンバープレートのナンバーのうち、少なくとも1つを示す情報を出力する、請求項8に記載の情報処理装置。
  11.  前記処理実行部は、画像データに含まれるランドマークの名称又は所在地を出力する、請求項8に記載の情報処理装置。
  12.  コンピュータによって実行させる制御方法であって、
     第1注目アカウントに関連付けられている第1関連アカウントと第2注目アカウントに関連付けられている第2関連アカウントについて、前記第1関連アカウントに関連づけられている第1コンテンツデータと前記第2関連アカウントに関連付けられている第2コンテンツデータとが類似しているか否かを判定する判定ステップと、
     前記第1コンテンツデータと前記第2コンテンツデータとが類似していると判定された場合、所定の処理を実行する処理実行ステップと、を有する制御方法。
  13.  前記判定ステップにおいて、前記第1関連アカウントに関連付けられている画像データに含まれるオブジェクトの出現頻度の分布と、前記第2関連アカウントに関連づけられている画像データに含まれるオブジェクトの出現頻度の分布とが類似しているか否かを判定することで、前記第1コンテンツデータと前記第2コンテンツデータとが類似しているか否かを判定する、請求項12に記載の制御方法。
  14.  前記判定ステップにおいて、前記第1関連アカウントに関連づけられているテキストデータ又は音声データに含まれる単語の出現頻度の分布と、前記第2関連アカウントに関連づけられているテキストデータ又は音声データに含まれる単語の出現頻度の分布とが類似しているか否かを判定することで、前記第1コンテンツデータと前記第2コンテンツデータとが類似しているか否かを判定する、請求項12に記載の制御方法。
  15.  前記判定ステップにおいて、前記第1関連アカウントに関連づけられている音声データから抽出される話者の出現頻度の分布と、前記第2関連アカウントに関連づけられている音声データから抽出される話者の出現頻度の分布とが類似しているか否かを判定することで、前記第1コンテンツデータと前記第2コンテンツデータとが類似しているか否かを判定する、請求項12に記載の制御方法。
  16.  前記判定ステップにおいて、前記第1関連アカウントに関連づけられているコンテンツデータから抽出されるトピックの出現頻度の分布と、前記第2関連アカウントに関連づけられているコンテンツデータから抽出されるトピックの出現頻度の分布とが類似しているか否かを判定することで、前記第1コンテンツデータと前記第2コンテンツデータとが類似しているか否かを判定する、請求項12に記載の制御方法。
  17.  前記処理実行ステップにおいて、前記所定の処理として、前記第1注目アカウントと前記第2注目アカウントが同一人物によって所有されている蓋然性が高い旨を示す情報、又は前記第1注目アカウントの所有者と前記第2注目アカウントの所有者とが同一のグループに属している蓋然性が高い旨を示す情報を出力する、請求項12乃至16いずれか一項に記載の制御方法。
  18.  前記処理実行ステップにおいて、前記所定の処理として、前記判定ステップによって生成された前記分布を出力する、請求項13乃至16いずれか一項に記載の制御方法。
  19.  前記処理実行ステップにおいて、前記所定の処理として、前記第1コンテンツデータと前記第2コンテンツデータのうち、互いに一致又は類似するコンテンツデータを出力する、請求項12乃至18いずれか一項に記載の制御方法。
  20.  前記処理実行ステップにおいて、画像データに含まれる人物の特徴的な部位を表す画像領域を抽出して出力する、請求項19に記載の制御方法。
  21.  前記処理実行ステップにおいて、画像データに含まれる車両の種類、メーカ、及びナンバープレートのナンバーのうち、少なくとも1つを示す情報を出力する、請求項19に記載の制御方法。
  22.  前記処理実行ステップにおいて、画像データに含まれるランドマークの名称又は所在地を出力する、請求項19に記載の制御方法。
  23.  請求項12乃至22いずれか一項に記載の制御方法の各ステップをコンピュータに実行させるプログラム。
PCT/JP2018/013880 2018-03-30 2018-03-30 情報処理装置、制御方法、及びプログラム Ceased WO2019187107A1 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
US17/043,291 US20210019553A1 (en) 2018-03-30 2018-03-30 Information processing apparatus, control method, and program
PCT/JP2018/013880 WO2019187107A1 (ja) 2018-03-30 2018-03-30 情報処理装置、制御方法、及びプログラム
JP2020508875A JP7070665B2 (ja) 2018-03-30 2018-03-30 情報処理装置、制御方法、及びプログラム
US18/240,160 US20230410221A1 (en) 2018-03-30 2023-08-30 Information processing apparatus, control method, and program
US18/240,209 US20230410222A1 (en) 2018-03-30 2023-08-30 Information processing apparatus, control method, and program
US18/240,152 US12430695B2 (en) 2018-03-30 2023-08-30 Information processing apparatus, control method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/013880 WO2019187107A1 (ja) 2018-03-30 2018-03-30 情報処理装置、制御方法、及びプログラム

Related Child Applications (4)

Application Number Title Priority Date Filing Date
US17/043,291 A-371-Of-International US20210019553A1 (en) 2018-03-30 2018-03-30 Information processing apparatus, control method, and program
US18/240,160 Continuation US20230410221A1 (en) 2018-03-30 2023-08-30 Information processing apparatus, control method, and program
US18/240,152 Continuation US12430695B2 (en) 2018-03-30 2023-08-30 Information processing apparatus, control method, and program
US18/240,209 Continuation US20230410222A1 (en) 2018-03-30 2023-08-30 Information processing apparatus, control method, and program

Publications (1)

Publication Number Publication Date
WO2019187107A1 true WO2019187107A1 (ja) 2019-10-03

Family

ID=68059653

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/013880 Ceased WO2019187107A1 (ja) 2018-03-30 2018-03-30 情報処理装置、制御方法、及びプログラム

Country Status (3)

Country Link
US (4) US20210019553A1 (ja)
JP (1) JP7070665B2 (ja)
WO (1) WO2019187107A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022054663A (ja) * 2020-09-28 2022-04-07 楽天グループ株式会社 情報処理装置、情報処理方法およびプログラム
JPWO2023073857A1 (ja) * 2021-10-28 2023-05-04
US12430340B2 (en) 2022-11-18 2025-09-30 Nec Corporation Processing apparatus, processing method, and non-transitory storage medium

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019202627A1 (ja) * 2018-04-16 2019-10-24 三菱電機株式会社 障害物検出装置、障害物検出装置を利用した自動ブレーキ装置、障害物検出方法、および障害物検出方法を利用した自動ブレーキ方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009169901A (ja) * 2008-01-21 2009-07-30 Nec Corp 情報処理装置、情報処理方法、コンピュータプログラム及び記録媒体
US20120101808A1 (en) * 2009-12-24 2012-04-26 Minh Duong-Van Sentiment analysis from social media content
JP2013210781A (ja) * 2012-03-30 2013-10-10 Rakuten Inc 情報提供装置、情報提供方法、情報提供プログラム、及びそのプログラムを記録するコンピュータ読み取り可能な記録媒体
JP2015519645A (ja) * 2012-04-26 2015-07-09 グーグル・インク ソーシャルネットワークのグループの創設
US9208171B1 (en) * 2013-09-05 2015-12-08 Google Inc. Geographically locating and posing images in a large-scale image repository and processing framework
US20160093123A1 (en) * 2014-09-25 2016-03-31 Volkswagen Ag Diagnostic procedures and method of collecting vehicles
JP2017112448A (ja) * 2015-12-15 2017-06-22 日本放送協会 映像シーン分割装置及び映像シーン分割プログラム
JP2017142796A (ja) * 2016-02-12 2017-08-17 富士通株式会社 情報の特定及び抽出
JP2018037076A (ja) * 2016-08-25 2018-03-08 株式会社ピープルコミュニケーションズ Snsポータルシステム

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6556710B2 (en) * 2000-12-15 2003-04-29 America Online, Inc. Image searching techniques
US6826316B2 (en) * 2001-01-24 2004-11-30 Eastman Kodak Company System and method for determining image similarity
US7734627B1 (en) 2003-06-17 2010-06-08 Google Inc. Document similarity detection
US11409825B2 (en) * 2009-12-18 2022-08-09 Graphika Technologies, Inc. Methods and systems for identifying markers of coordinated activity in social media movements
US20110320560A1 (en) * 2010-06-29 2011-12-29 Microsoft Corporation Content authoring and propagation at various fidelities
US9043329B1 (en) * 2013-12-19 2015-05-26 Banjo, Inc. Dynamic event detection system and method
US9332031B1 (en) * 2013-08-09 2016-05-03 Google Inc. Categorizing accounts based on associated images
US9697381B2 (en) 2013-09-03 2017-07-04 Samsung Electronics Co., Ltd. Computing system with identity protection mechanism and method of operation thereof
US20150120583A1 (en) * 2013-10-25 2015-04-30 The Mitre Corporation Process and mechanism for identifying large scale misuse of social media networks
US9514417B2 (en) * 2013-12-30 2016-12-06 Google Inc. Cloud-based plagiarism detection system performing predicting based on classified feature vectors
US20150304368A1 (en) 2014-04-16 2015-10-22 Facebook, Inc. Sharing Locations with Friends on Online Social Networks
WO2016084071A1 (en) 2014-11-24 2016-06-02 Isityou Ltd. Systems and methods for recognition of faces e.g. from mobile-device-generated images of faces
KR20160120604A (ko) * 2015-04-08 2016-10-18 김근제 발광 수단 또는 색 정보를 이용한 코드 제공 장치 및 코드 식별 시스템
US10091296B2 (en) 2015-04-17 2018-10-02 Dropbox, Inc. Collection folder for collecting file submissions
US11094335B1 (en) 2016-07-22 2021-08-17 Educational Testing Service Systems and methods for automatic detection of plagiarized spoken responses
US20180129929A1 (en) * 2016-11-09 2018-05-10 Fuji Xerox Co., Ltd. Method and system for inferring user visit behavior of a user based on social media content posted online
US10866633B2 (en) * 2017-02-28 2020-12-15 Microsoft Technology Licensing, Llc Signing with your eyes
CN107609461A (zh) * 2017-07-19 2018-01-19 阿里巴巴集团控股有限公司 模型的训练方法、数据相似度的确定方法、装置及设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009169901A (ja) * 2008-01-21 2009-07-30 Nec Corp 情報処理装置、情報処理方法、コンピュータプログラム及び記録媒体
US20120101808A1 (en) * 2009-12-24 2012-04-26 Minh Duong-Van Sentiment analysis from social media content
JP2013210781A (ja) * 2012-03-30 2013-10-10 Rakuten Inc 情報提供装置、情報提供方法、情報提供プログラム、及びそのプログラムを記録するコンピュータ読み取り可能な記録媒体
JP2015519645A (ja) * 2012-04-26 2015-07-09 グーグル・インク ソーシャルネットワークのグループの創設
US9208171B1 (en) * 2013-09-05 2015-12-08 Google Inc. Geographically locating and posing images in a large-scale image repository and processing framework
US20160093123A1 (en) * 2014-09-25 2016-03-31 Volkswagen Ag Diagnostic procedures and method of collecting vehicles
JP2017112448A (ja) * 2015-12-15 2017-06-22 日本放送協会 映像シーン分割装置及び映像シーン分割プログラム
JP2017142796A (ja) * 2016-02-12 2017-08-17 富士通株式会社 情報の特定及び抽出
JP2018037076A (ja) * 2016-08-25 2018-03-08 株式会社ピープルコミュニケーションズ Snsポータルシステム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022054663A (ja) * 2020-09-28 2022-04-07 楽天グループ株式会社 情報処理装置、情報処理方法およびプログラム
JP7110293B2 (ja) 2020-09-28 2022-08-01 楽天グループ株式会社 情報処理装置、情報処理方法およびプログラム
JPWO2023073857A1 (ja) * 2021-10-28 2023-05-04
JP7687429B2 (ja) 2021-10-28 2025-06-03 日本電気株式会社 通知装置、通知方法及びプログラム
US12430340B2 (en) 2022-11-18 2025-09-30 Nec Corporation Processing apparatus, processing method, and non-transitory storage medium

Also Published As

Publication number Publication date
US12430695B2 (en) 2025-09-30
US20230410221A1 (en) 2023-12-21
US20210019553A1 (en) 2021-01-21
US20230410222A1 (en) 2023-12-21
JPWO2019187107A1 (ja) 2021-02-25
US20230410220A1 (en) 2023-12-21
JP7070665B2 (ja) 2022-05-18

Similar Documents

Publication Publication Date Title
JP6986527B2 (ja) ビデオを処理する方法及び装置
US12430695B2 (en) Information processing apparatus, control method, and program
KR102043938B1 (ko) 이미지 기반의 captcha 과제
WO2019200781A1 (zh) 票据识别方法、装置及存储介质
CN106874253A (zh) 识别敏感信息的方法及装置
WO2019062081A1 (zh) 业务员画像形成方法、电子装置及计算机可读存储介质
CN111241883B (zh) 防止远程被测人员作弊的方法和装置
CN109190588A (zh) 一种人口分类的方法及装置
US20210320997A1 (en) Information processing device, information processing method, and information processing program
US20190347472A1 (en) Method and system for image identification
CN112041847B (zh) 提供具有隐私标签的图像
CN107809370B (zh) 用户推荐方法及装置
CN109543117B (zh) 基于智能推荐的服务推送方法及终端设备
CN111738199B (zh) 图像信息验证方法、装置、计算装置和介质
CN115037790B (zh) 异常注册识别方法、装置、设备及存储介质
CN111353554A (zh) 预测缺失的用户业务属性的方法及装置
JPWO2015016262A1 (ja) 情報処理装置、認証システム、認証方法、及びプログラム
CN107656959A (zh) 一种留言方法、装置及留言设备
Rivest et al. Capture-recapture methods for estimating the size of a population: dealing with variable capture probabilities
KR20160044858A (ko) 얼굴 정보를 이용한 실종 가족 찾기 시스템 및 방법 그리고 이를 구현하는 프로그램을 기록한 기록 매체
US20230222167A1 (en) System, query generation apparatus, query generation method, and non-transitory computer readable medium
CN111241821B (zh) 确定用户的行为特征的方法和装置
WO2021139220A1 (zh) 疫情监控方法、装置、计算机设备和存储介质
US20190139149A1 (en) System and method for content reporting
CN117113307A (zh) 用户年龄的预测方法、装置、设备及介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18911484

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020508875

Country of ref document: JP

Kind code of ref document: A

122 Ep: pct application non-entry in european phase

Ref document number: 18911484

Country of ref document: EP

Kind code of ref document: A1