JP2007264718A - User interest analysis device, method, program - Google Patents
User interest analysis device, method, program Download PDFInfo
- Publication number
- JP2007264718A JP2007264718A JP2006085174A JP2006085174A JP2007264718A JP 2007264718 A JP2007264718 A JP 2007264718A JP 2006085174 A JP2006085174 A JP 2006085174A JP 2006085174 A JP2006085174 A JP 2006085174A JP 2007264718 A JP2007264718 A JP 2007264718A
- Authority
- JP
- Japan
- Prior art keywords
- user
- word
- file
- words
- influence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】ユーザの閲覧したファイル間を伝播している語から、ユーザの変わりゆく興味をリアルタイムに推定するアルゴリズムやそれを実装した装置などを提供すること。
【解決手段】ユーザが閲覧した履歴から複数のファイルに含まれる語をファイル毎にテキストとして入力する手段と、そのテキストから言語単位に分割する手段と、ユーザが閲覧した複数のファイル間でユーザが参照した「伝播する語」を抽出する手段と、一または複数の前記「伝播する語」を記憶する手段と、前記「伝播する語」の全てのファイルに対する出現頻度から所定の「影響度」と、「伝播する語」の特定のファイル内に出現する程度を表す所定のiDF値を求める手段と、「影響度」と前記iDF値との関数である「影響度iDF値」に応じてユーザの興味ある語の集合をユーザプロファイル情報として抽出する手段と、を備える。
【選択図】図1
An object of the present invention is to provide an algorithm for estimating in real time a user's changing interests from a word propagating between files viewed by the user, a device equipped with the algorithm, and the like.
A means for inputting words included in a plurality of files from a history viewed by a user as text for each file, a means for dividing the text into language units, and a user among a plurality of files viewed by the user. A means for extracting the referred “propagating word”, a means for storing one or a plurality of the “propagating words”, and a predetermined “influence” from the appearance frequencies of all the “propagating words” for all files. , A means for obtaining a predetermined iDF value representing the degree of occurrence of the “propagating word” in a specific file, and the “influence degree iDF value” which is a function of the “influence degree” and the iDF value. Means for extracting a set of interesting words as user profile information.
[Selection] Figure 1
Description
本発明は、ユーザ興味分析装置、その制御方法、および当該方法を実現するコンピュータ・プログラムに関する。 The present invention relates to a user interest analysis device, a control method thereof, and a computer program for realizing the method.
近年、インターネットを始めとしてユーザが参加できる、いわゆる双方向メディアは、様々なニーズに応じて、その種類も量も益々拡大している。その中でも、匿名で情報を発信することによって別人格でも意見交換ができる掲示板メディア、記入した所見を時系列で表示し、所見に応じて相互にハイパーリンクをすることで情報発信や意見交換をすることができるブログ(WEB Log)メディア、加入することにより友人関係や趣味・思考を共有・シェアできるコミュニティであるソーシャルメディアなどの発展が特に著しい。 In recent years, so-called interactive media that users can participate in, including the Internet, have been increasing in type and quantity according to various needs. Among them, bulletin board media that can exchange opinions even with different personalities by transmitting information anonymously, displaying the written findings in chronological order, and exchanging information and exchanging opinions by making hyperlinks according to the findings The blog (WEB Log) media that can be used, and social media that is a community that can share and share friendships, hobbies and thoughts by joining, are particularly remarkable.
このようなメディア上において、ユーザをプロファイリング、カテゴライズする試みや、ユーザに強い影響を与えるキーワードを見出す試みがなされている。なぜならば、ユーザの興味、嗜好、ニーズ、年代、性別、地域、職業、価値観など、いわゆる「属性」を評価することができれば、ユーザに対して的確なコンテンツ配信や広告配信を行うこと(これをターゲット配信と称する)ができ、また、ユーザ同士の意見交換が購買意思決定に影響を与えることも指摘されていることから、ユーザに強い影響を与えるキーワードを見出すことができれば、企業の商品の開発やマーケティング戦略に役立てたりすることが可能となると考えられている。 On such media, attempts have been made to profile and categorize users and to find keywords that have a strong influence on users. This is because if users can evaluate so-called “attributes” such as user interests, preferences, needs, age, gender, region, occupation, values, etc., accurate content distribution and advertisement distribution to users (this) Can be called target distribution), and it has been pointed out that the exchange of opinions between users has an influence on purchasing decision making, so if we can find keywords that strongly influence users, It can be used for development and marketing strategies.
そのため、例えばマーケティングの現場では、分析者が掲示板やブログに目を通したり、コミュニティに参加して影響力のあるキーワードをピックアップすることがなされているが、これはいわば手動で行っており、判断基準は分析者の経験や感性に基づいているので、統一的な指標で評価することができないし、膨大なメディアの中での分析作業は多くのリソースを必要とする。 Therefore, for example, in marketing sites, analysts read bulletin boards and blogs and participate in the community to pick up influential keywords. Since the standard is based on the analyst's experience and sensibility, it cannot be evaluated with a unified index, and analysis work in a vast amount of media requires a lot of resources.
ユーザをプロファイリング、カテゴライズする試みとしては、アンケートによるものがあるが、充分な量のサンプルの回収には大きな労力が発生する上に、アンケート回収後の的確なターゲティング配信のためにはユーザのブラウザの固有情報に紐付けることによって、またはユーザがログインしている状態でしかトレースできないため、特定のメディア内部でしか適用できず、汎用的に用いることはできない。また、様々な要因で、内容が不正確であることが指摘されている。 Attempts to profile and categorize users include surveys. However, collecting a sufficient amount of samples requires a lot of effort, and for accurate targeted distribution after the surveys are collected, Since it can be traced only by associating with unique information or when the user is logged in, it can be applied only within a specific medium and cannot be used for general purposes. In addition, it is pointed out that the contents are inaccurate due to various factors.
また、ユーザを自動的にプロファイリング、カテゴライズする試みとしては、ユーザの情報閲覧履歴や検索条件入力を解析し、ユーザの嗜好や興味に関する情報をユーザプロファイルとして保持する技術が知られている(例えば、特許文献1)。 In addition, as an attempt to automatically profile and categorize a user, a technique for analyzing a user's information browsing history and search condition input and holding information on the user's preference and interest as a user profile is known (for example, Patent Document 1).
しかし、上記のような手法は、属性の評価やキーワードの決定の過程において語彙の頻度を重要なファクターにしているため、例えば掲示板のような匿名性が高いメディアにおいては意見の極化や誹謗中傷的な内容によって、頻度の高い語彙が必ずしも影響力を持つものではないことが指摘されている。また、ブログメディアやソーシャルメディアも含めて、頻度が高くなるのは、必ずしも中心的な話題に出てくる影響力のある語彙ではなく、周辺的な話題で多く登場する語彙や一般的な語彙であることが多いので、真に影響力のあるキーワードを抽出して正確にユーザをプロファイリング、カテゴライズすることは困難であった。 However, the above methods make vocabulary frequency an important factor in the process of attribute evaluation and keyword determination. For example, in media with high anonymity, such as bulletin boards, the opinions are polarized and slandered. It has been pointed out that frequent vocabulary does not necessarily have an influence due to specific content. Also, including blog media and social media, the frequency is high, not necessarily influential vocabulary that appears in the central topic, but in vocabulary and general vocabulary that appears frequently in peripheral topics Because there are many cases, it is difficult to extract truly influential keywords and accurately profile and categorize users.
そこで、双方向性メディアの主要な構成要素であるテキスト情報によるコミュニケーションにおいて、文字すなわち語彙への興味が伝播していく過程に着目することにより、影響力のあるキーワードを定量的に見出すモデルが提案されている(非特許文献1)。この、コンテクスチャルな支配の強さすなわち影響の普及を表すモデルでは、テキストコンテンツおよび語彙に対してその媒介影響量を定義し、これを尺度することによって頻度が低くても影響力の大きいキーワードを抽出できるとしている。 Therefore, a model for quantitatively finding influential keywords is proposed by focusing on the process of interest in characters, that is, vocabulary, in communication using text information, which is the main component of interactive media. (Non-Patent Document 1). In this model representing the strength of contextual domination, that is, the spread of influence, we define the amount of mediation influence on text content and vocabulary, and measure this to measure keywords that have high influence even if they are infrequent. It can be extracted.
また、このようなメディア上で、ユーザごとに、上述のようにして抽出した影響力の大きいキーワードの集合から導かれる特徴をそのユーザのプロファイルと定義することによってユーザをプロファイリング、カテゴライズするアルゴリズムが提案されている(非特許文献2)。 In addition, an algorithm for profiling and categorizing a user by defining a feature derived from a set of influential keywords extracted as described above as the user's profile for each user on such media is proposed. (Non-Patent Document 2).
しかし、これらの提案のいずれにおいても伝播の向きや履歴を有効に生かすことができないため、ユーザの変わりゆく興味をリアルタイムに推定することができなかった。すなわち、このような双方向メディアに共通する特徴として、レスポンス、コメント、リンク、及びトラックバックを可能ならしめる技術によって、ユーザ同士が意見や情報の記述、交換、参照をすることが可能になっていることが挙げられるのであるが、このような技術によって可能になっている意見や情報の記述、交換、参照の時系列の情報に対してノードや閲覧順序を定義することによって、伝播の向きや履歴を有効に生かす有向リンクを定義することができる。また、ユーザは自身の興味に従ってファイル(例えばWEBページ)を閲覧するので、ユーザの閲覧したファイル集合に一貫して含まれる特徴的な語は、その時々のユーザの興味をリアルタイムに反映している。 However, in any of these proposals, since the propagation direction and history cannot be utilized effectively, the user's changing interest cannot be estimated in real time. That is, as a feature common to such interactive media, the technology that enables response, comment, link, and trackback enables users to describe, exchange, and refer to opinions and information. However, the direction and history of propagation can be defined by defining nodes and viewing order for time-series information of description, exchange, and reference of opinions and information enabled by such technology. It is possible to define a directed link that makes effective use of. In addition, since the user browses a file (for example, a WEB page) according to his / her interest, the characteristic words that are consistently included in the file set browsed by the user reflect the user's interest at that time in real time. .
そこで、本発明では、ユーザの閲覧したファイルをノード、閲覧順序を有向リンクとする有向グラフにおいて、ノード間を伝播している語の出現頻度を再帰的に計量し、その値の上位の語の集合を抽出することにより、ユーザの変わりゆく興味をリアルタイムに推定するアルゴリズムやそれを実装した装置、方法およびプログラムを提案する。 Therefore, in the present invention, in the directed graph in which the file browsed by the user is a node and the browsing order is a directed link, the appearance frequency of words propagating between the nodes is recursively measured, We propose an algorithm that estimates a user's changing interests in real time by extracting a set, and a device, method, and program that implement the algorithm.
(1)ファイルを閲覧するユーザの興味のある語を抽出するユーザ興味分析装置であって、ユーザが閲覧した履歴情報を利用してユーザが閲覧したファイルに含まれる複数の語をファイル毎にテキストとして入力する手段と、前記テキストから意味を有する最小の言語単位に形態素分割する手段と、ユーザが閲覧した複数のファイル間でユーザが参照した「伝播する語」を抽出する手段と、一または複数のその伝播する語を記憶する手段と、伝播する語の対象とするファイルに対する出現頻度から所定の「影響度」および伝播する語の特定のファイル内に出現する程度を表す所定のiDF値を求める手段と、前記影響度と前記iDF値との関数である「影響度iDF値」の値に応じてユーザの興味ある語をユーザプロファイル情報として抽出する手段と、そのユーザプロファイル情報を出力する手段と、を備えるユーザ興味分析装置を提供する。 (1) A user interest analysis device that extracts words of interest of a user who browses a file, and uses a history information browsed by the user as a text for a plurality of words included in the file browsed by the user. One or a plurality of means, a means for dividing morphemes into the smallest meaningful language units from the text, a means for extracting "propagating words" referenced by the user among a plurality of files viewed by the user, A means for storing the propagating word and a frequency of appearance of the propagating word as a target file to obtain a predetermined “influence” and a predetermined iDF value representing a degree of the propagating word appearing in a specific file. Meaning and extraction of user profile information as user profile information according to the value of “influence degree iDF value” which is a function of the influence degree and the iDF value It means that provides a user interested analyzer and means for outputting the user profile information.
(1)の発明によれば、まず、ユーザがインターネット上で閲覧したファイルの履歴からユーザがリンクなどによってさらに参照した語をファイル上で伝播する語として抽出する。次に、その伝播する語の後に参照されたファイルに対する影響度を数値化する。さらに、その伝播する語が全ファイル内に出現する程度であるiDF(Inverse Document Frequency)値を求め、影響度とiDF値との関数である影響度iDF値の値に応じてそのユーザにとって興味のある語を検出する。さらに、検出された語の特定の集合を影響度iDF値と共にユーザのプロファイル情報として出力する。以上の機能を備えることにより、変わり行くユーザの興味のある語をリアルタイムに分析可能とするユーザ興味分析装置が提供できる。 According to the invention of (1), first, a word further referred to by a user through a link or the like is extracted from a history of a file browsed on the Internet by the user as a word to be propagated on the file. Next, the degree of influence on the file referenced after the propagating word is quantified. Further, an iDF (Inverse Document Frequency) value is calculated so that the propagated word appears in all files, and the user is interested in the value of the influence iDF value that is a function of the influence and the iDF value. Detect a word. Further, a specific set of detected words is output as user profile information together with the influence iDF value. By providing the above functions, it is possible to provide a user interest analysis device that can analyze in real time a word of interest of a changing user.
また、このユーザ興味分析装置が出力したプロファイル情報を参照して、そのユーザの興味がある語に関連する商品の販売戦略に利用したり、コンテンツや広告を配信したり、ダイレクトメールなどを効率的にそのユーザに送信することができる。 In addition, referring to the profile information output by this user interest analysis device, it can be used for sales strategies for products related to the words that the user is interested in, deliver content and advertisements, and direct mail etc. efficiently Can be sent to that user.
(2)前記プロファイル情報を他のユーザに公開する手段をさらに備える、(1)に記載のユーザ興味分析装置。 (2) The user interest analysis device according to (1), further comprising means for disclosing the profile information to other users.
(2)の発明によれば、インターネット上のコミュニティにおいて、他のユーザの興味ある語を知ることにより、自分と共通する興味をもつユーザを見つけること(友達探し)やその分野に詳しそうなユーザを見つけて、質問すること(達人探し)などが可能になる。 According to the invention of (2), in the community on the Internet, by finding out the words that other users are interested in, it is possible to find users who have an interest in common with them (search for friends) and users who are likely to be familiar with the field. You can find and ask questions (search for masters).
(3)前記伝播する語に関連する語を検出するための類似語辞書を更に備え、前記影響度iDF値を前記伝播する語に関連する語に対しても算出する手段を備える、(1)または(2)に記載のユーザ興味分析装置。 (3) A similar word dictionary for detecting a word related to the propagating word is further included, and means for calculating the influence iDF value also for the word related to the propagating word is provided. Or the user interest analysis apparatus as described in (2).
(4)上記(1)〜(3)において、前記影響度iDF値が、所定の数式(後述)で求められる、ユーザ興味分析装置。 (4) The user interest analysis device according to (1) to (3), wherein the influence iDF value is obtained by a predetermined mathematical formula (described later).
また、上記(1)〜(4)の発明を備えた装置は、同等な制御方法、およびその制御方法をコンピュータに実行させるコンピュータ・プログラムによっても実現可能である。 Moreover, the apparatus provided with invention of said (1)-(4) is realizable also by the computer program which makes a computer perform the equivalent control method and the control method.
本発明によれば、ユーザの閲覧したファイルをノード、閲覧順序を有向リンクとする有向グラフにおいて、ノード間を伝播している語の影響力と出現頻度を加味した値を再帰的に計量し、その値の上位の語の集合を抽出することにより、ユーザの変わりゆく興味をリアルタイムに推定することができる。 According to the present invention, in a directed graph with a file viewed by a user as a node and a browsing order as a directed link, recursively measure a value that takes into account the influence and appearance frequency of words propagating between nodes, By extracting a set of words having higher values, the user's changing interest can be estimated in real time.
以下、本発明の実施形態について図を参照しながら説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
図1は、本発明に係るユーザ興味分析装置の機能ブロック図の一例を示したものである。ユーザ興味分析装置10は、図に示すように、ファイルテキスト入力手段2、形態素分割手段3(必須ではない)、伝播語抽出手段4、影響度算出手段5、iDF値算出手段6、データの一時保管に用いる記憶手段7、ユーザ興味語抽出手段8、プロファイル情報出力手段9、類義語辞書11で構成される。但し、本構成は一例を示したものであり、同等な機能を持つ他の構成をとってもよい。
FIG. 1 shows an example of a functional block diagram of a user interest analysis apparatus according to the present invention. As shown in the figure, the user
まず、ユーザ興味分析装置10は、ユーザのファイル閲覧履歴1を入力とし、ファイルテキスト入力手段2によって、ページ毎にテキストを抽出する。ファイル閲覧履歴は、一般にはインターネット・ブラウザの一時記憶ファイルに存在するが、掲示板やブログの閲覧履歴情報であってもよい。
First, the user
次に、抽出したテキストが文章で構成されている場合には、形態素分割手段3によって文章を必要な単位に分割する。ページ内のメタデータを用いる場合や抽出したページが単語のみで構成されている場合など、形態素分割手段3の処理がスキップされる場合もある。次の、伝播語抽出手段4によって、ユーザがある一定期間に参照したファイル群またはその中の必要部分を解析し、そのページ内で共通する語、または伝播する語を抽出する。共通する語とは、各ファイルに共通に出現するキーワードを指す。但し、後の例で述べるように、共通する語は、各ファイルで必ずしも完全一致した語である必要はなく、一部が一致する語や類義語を含むものとする。
Next, if the extracted text is composed of sentences, the morpheme dividing means 3 divides the sentences into necessary units. There are cases where the process of the morpheme dividing
また、伝播する語とは、ユーザが、あるファイルから次のファイルを参照するきっかけ(トリガー)や影響を与えた語を言う。伝播する語についても、各ページで完全一致する必要はなく、一部が一致する語や類義語を含むものとする。類義語は、周知のシソーラス(類義語辞書)などを用いて定義される。なお、伝播する語については後述の例でさらに詳しく説明する。 In addition, the word to be propagated means a word (trigger) or an influence that the user refers to the next file from a certain file. Propagating words do not need to be completely matched on each page, and include partially matching words and synonyms. Synonyms are defined using a known thesaurus (synonym dictionary). Note that the word to be propagated will be described in more detail in an example described later.
次に、影響度算出手段5、およびiDF値算出手段6によって、抽出された一または複数の伝播する語それぞれについて、その伝播の影響力を表す影響度と、伝播する語の出現頻度(ファイル数)の関数であるiDF(Inverse Document Frequency)値を算出する。伝播の影響度とは、伝播する語の、後に参照されたファイルに対する影響力(重み)を表す量である。例えば、TF値(Term Frequency)の定義を適用することができる。TF値は、一般的には、対象とする文書に対象とする単語が出現する頻度を表すが、本発明においては、文書はユーザが閲覧したファイル群またはその中の必要部分を対象とする。以下、伝播の影響度EDT(Effect of Diffusible Term)と称する。
Next, with respect to each of one or a plurality of propagated words extracted by the influence degree calculating means 5 and the iDF value calculating
また、iDF値とは、対象とする語句が対象とする文書に出現する頻度の関数であり、一般にはこの頻度の増加に伴って減少する関数として定義される。以下、先に述べた影響度と、このiDF値との積を「影響度iDF値」と呼ぶことにする。影響度iDF値は、G.Saltonの提唱したTFiDFの一般式(G. Salton, M. McGill, Introduction to Modern Information Retrieval, New York, McGraw−Hill, 1983)、またはそれを変形した数式を用いることが便利であるが、語句の伝播に注目してその影響度を定義している特長を備えていればよい。例えば、本発明の実施形態の一例として、次の数式を用いて計算している。
ここで、
tは伝播する語、
EDTは、伝播する語がユーザが所定の時間中に閲覧したファイル群の中に出現する頻度、
Nは、ユーザが所定の時間中に閲覧した全ファイル数、
DF(t)は、伝播する語tを含むファイル数、
を表す。
所定の時間とは、ユーザ分析装置が分析する対象期間を指し、分析対象やニーズに従って個別に定めることができる。例えば、数時間であっても、数ヶ月であってもよい。
here,
t is the word to propagate,
EDT is the frequency at which the propagated word appears in the file group that the user browsed during a predetermined time,
N is the total number of files viewed by the user during a given time,
DF (t) is the number of files containing the word t to propagate,
Represents.
The predetermined time refers to a target period analyzed by the user analysis device, and can be determined individually according to the analysis target and needs. For example, it may be several hours or months.
上記の例では、影響度として一般的なTF値に対する定義を用いたが、影響度を他の方法で定義してもよい。また、上記iDF(t)式において、対数を用いなくても良いが、対数を用いる場合は、logの底として、10を用いる他、自然対数eや、2などを用いることも可能である。従って、影響度算出手段5、iDF値算出手段6は、それぞれ複数の数式から選択することができるため、対応する複数の手段を備える。図1ではこれらを5a、5b、6a、6bで表している。 In the above example, the definition for the general TF value is used as the influence degree, but the influence degree may be defined by another method. In the iDF (t) equation, the logarithm may not be used. However, when the logarithm is used, it is possible to use a natural logarithm e, 2 or the like in addition to using 10 as the base of the log. Accordingly, each of the influence degree calculating means 5 and the iDF value calculating means 6 can be selected from a plurality of mathematical expressions, and therefore includes a plurality of corresponding means. In FIG. 1, these are represented by 5a, 5b, 6a and 6b.
さらに、算出された影響度とiDF値を用いて、ユーザ興味語抽出手段8によって、この影響度iDF値を先に抽出された伝播する語それぞれについて求め、この値に応じてユーザが興味を持った語を抽出する。例えば、影響度iDF値が大きい語をユーザが興味を持った語として抽出することができる。
Further, using the calculated influence degree and iDF value, the user interest
最後に、プロファイル情報出力手段9によって、影響度iDF値が予め定められた閾値を比較して、そのユーザのプロファイルを出力する。 Finally, the profile information output means 9 compares the threshold value with the influence degree iDF value determined in advance, and outputs the profile of the user.
図2は、ユーザ興味分析装置を他の実施形態で示したものである。図2のユーザ興味分析装置20は、一般的なコンピュータ・システムで実現される。すなわち、CPU21、入力部22、出力部23、通信部24、プログラムメモリ25、作業用メモリ26、ユーザプロファイル27で構成される。また、前述の類義語辞書11をオプションとして追加してもよい。
FIG. 2 shows a user interest analysis apparatus according to another embodiment. 2 is realized by a general computer system. That is, it is composed of a
入力部22は、ユーザからの操作入力を受付ける一般的なマウスやキーボードなどの入力機器でよく、出力部23は、液晶やCRTなどの表示ディスプレイでよい。また、通信部24は、LANやインターネット通信網とのデータの送受信を行う。
プログラムメモリ25には、CPU21が実行する本装置の各機能を備えるプログラムが格納されている。すなわち、装置全体の制御部、入力したファイルからキーワードを抽出するキーワード抽出部、影響度iDF値を所定のアルゴリズムで求める影響度iDF値算出部、およびプロファイル作成部などのプログラムが格納されている。プログラムは機能別に分割されている必要はなく、単一のプログラムで構成されてもよい。
The
The
プログラムメモリ25は、ROMやフラッシュメモリであってもよいし、ハードディスク(HDD)からロードされるRAMであってもよい。作業用メモリ26は、CPU21が処理する中間データを一時的に格納するもので、一般的にはRAMまたはHDDで構成される。
The
ユーザプロファイル27は、プログラムメモリ25に格納されたプログラムを実行した結果を格納する記憶部である。また、類義語辞書11は、既に述べたように、テキストから抽出した単語群に対する類義語を定義するための辞書であり、キーワード抽出部から必要に応じて参照される。
The
図3は、前述の伝播する語の概念を示す図である。この図においては、例として、あるユーザが閲覧したページの履歴が示されている。まず、ユーザはページ1の中に興味ある語を発見した。ユーザはそれをより詳しく調べるために、その語を検索ページに入力してファイルを検索するか、あるいは直接その語からハイパーリンクが張られている場合はこれをクリックしてページ2を閲覧する。もちろん検索やハイパーリンク以外の遷移手段であってもよい。同様に、ページ2からページ3へと移りページ3を閲覧したが、そこでは興味ある語の記述がなかったためにページ2ヘ戻り、ページ2から更に別のページ4を閲覧し、ページ4から更に別のページ5へと閲覧を繰り返している。
FIG. 3 is a diagram showing the concept of the above-mentioned propagating word. In this figure, as an example, a history of pages viewed by a certain user is shown. First, the user found an interesting word in
このようなページの閲覧履歴は、閲覧したページをノードとし、ページからページへの閲覧順序を有向リンク(エッジ)とする有向グラフで表現することができる。有向グラフとは、ノード間のエッジに方向性があるグラフをいう。 The browsing history of such a page can be expressed by a directed graph in which the viewed page is a node and the browsing order from the page to the page is a directed link (edge). A directed graph is a graph in which the edge between nodes has directionality.
図示するように、このユーザが閲覧したページ1〜5にはすべて「共通する語」36が含まれているが、ユーザが興味のある語は必ずしもこの共通する語36でなく、検索バーを用いて検索した語やハイパーリンク上に記載された語であることも多い。このように、ページ間を遷移(ジャンプ)するトリガーとなった語または影響力を持った語を、「伝播する語」と呼んでいる(図では、伝播する語37として示している)。すなわち、伝播する語は、たまたまページ間で共通して出現する語(共通する語)よりもそのユーザの興味をリアルタイムに表していると考えられる。一方、共通する語だけを単に頻度順に抽出しても、上位頻出語として抽出されるのは、例えば、「商品」、「インターネット」などのような一般名詞や、「する」、「である」などの動詞であることが多く、ユーザが真に興味のある語(影響力のある語)を見出すことは容易ではない。そこで、本発明では、このファイル間を伝播する語がユーザの興味を最も端的に示し、しかも、参照するファイル数の上限の調整または分析の対象期間の調整により、興味が変わり行く過程をリアルタイムに示すようにコントロールできる点に注目する。
As shown in the figure, the
図4は、ファイル閲覧におけるユーザの興味ある語が変わって行く例を示したものである。まず、ユーザは、新製品ニュース41(ページ1)で、X社が新製品として液晶TVの最新モデルである製品Aを発売したことを知る。かねてから液晶TVに興味があったユーザは、早速X社の製品情報サイト42(ページ2)へ行き製品Aの情報を見る。ここでユーザは、製品Aの情報の詳細を見ていくうちに、他社の類似製品と比較したいとの衝動にかられ、価格比較サイト43(ページ3)で液晶TVの複数のメーカの製品リストを表示した。ここでユーザはX社の新製品Aよりも同等な機能で製品Aより価格が安いY社の製品Bに興味を持った。そこでY社の製品情報サイト44(ページ4)へ飛び、製品Bの情報を見る。そこでたまたま製品Bが製品Cの後継機ではあるが、製品Cよりかなり価格が高いことを知ったユーザは、今度は製品Cに興味を持ち同じY社の製品情報サイト45(ページ5)で製品Cの情報を閲覧した。製品Cにさらに興味を持ったユーザは、更に最も安く手に入る店を探すために、再び価格比較サイト46(ページ6)にもどり、そこから最安値で販売しているショップZを知る。ショップZサイト47(ページ7)へ移ったユーザは、最終的に購入を決意し、そのまま購入ページ48(ページ8)から製品Cを発注した。 FIG. 4 shows an example in which a user's words of interest in file browsing change. First, the user learns from the new product news 41 (page 1) that company X has released the product A, which is the latest model of a liquid crystal TV, as a new product. A user who has been interested in a liquid crystal TV for a long time immediately goes to the product information site 42 (page 2) of Company X and sees information about the product A. Here, as the user looks at the details of the product A information, he / she is urged to compare it with similar products from other companies, and the price comparison site 43 (page 3) lists product lists of multiple manufacturers of LCD TVs. Is displayed. Here, the user became interested in the product B of Y company which has the same function as the new product A of X company and is cheaper than the product A. Therefore, the user jumps to the product information site 44 (page 4) of company Y and sees information about product B. Therefore, a user who knows that product B is a successor of product C, but that the price is considerably higher than product C, is now interested in product C, and the product is on product information site 45 (page 5) of the same company Y. Browse C information. The user who is more interested in the product C returns to the price comparison site 46 (page 6) again and finds the shop Z selling at the lowest price, in order to find the cheapest available store. The user who moved to the shop Z site 47 (page 7) finally decided to purchase, and ordered the product C from the purchase page 48 (page 8).
以上のような想定で、このユーザがたどったページ1からページ8に含まれるテキストすべてをユーザ興味分析装置を用いて分析すると、キーワードとして、「液晶TV」、「X社」、「製品A」、「Y社」、「製品B」、「製品C」が抽出される。ここで、「液晶TV」という語は、すべてのページに共通して出現しているが、「製品A」、「製品B」、「製品C」という語はその製品のメーカサイトで仕様の説明などのページ内に多く出現しているものとする。例えば、図に示すように、「液晶TV」は各ページに1回、「製品B」、「製品C」は、Y社の製品仕様のページに各5回ずつ出現している。また、この例では、製品Aの仕様はユーザは参照していないので、「製品A」が出現した回数は、ページ1、ページ2、ページ3において各1回である。一方、ユーザの興味は当初は製品Aにあったが、しだいに製品B、製品Cへと移り、最終的に製品Cを注文しているので、「製品C」が出現した回数は、ページ3に1回、ページ4に1回、ページ5に5回、ページ6〜8に各1回となる。
Based on the above assumption, when all the texts included in
図5は、図4の例において各キーワードの影響度iDF値を実際に計算した例を示す。ここで影響度iDF値は、前述の<数1>の数式を用いて算出した。今回ユーザが参照した総ページ数Nは8であり、例えば、「製品C」が出現したのは、ページ3〜8の6回であるのでDF値は6となる。また、「製品C」はページ5において5回、ページ3、4、6、7、8にそれぞれ出現しているので、影響度は、5+1+1+1+1+1=10となる。従って、影響度iDF値は、10*8/(log(6+1))=94.7となる。同様に他のキーワードについて影響度iDF値を求め、それらを大きい順に並べると図5に示す表となる。
FIG. 5 shows an example in which the influence degree iDF value of each keyword is actually calculated in the example of FIG. Here, the influence degree iDF value was calculated using the above-described mathematical formula (1). The total number of pages N referred to by the user this time is 8. For example, since “product C” has appeared 6 times from
この表でわかるように、「液晶TV」は、すべてのページに出現する共通語であるが、影響度iDF値は低く、「製品C」や「製品B」のほうがはるかにユーザの興味を示している語であることがわかる。このようにして影響度iDF値の上位の語の集合を集めることによりそのユーザのプロファイルを作成することができる。ここで影響度iDF値の上位の語の選別には、予め与えられた閾値などを用いてもよい。 As can be seen from this table, “Liquid Crystal TV” is a common word that appears on all pages, but the impact iDF value is low, and “Product C” and “Product B” show much more interest to users. It is understood that In this way, a user profile can be created by collecting a set of high-order words of influence degree iDF values. Here, a threshold value or the like given in advance may be used to select words higher in the influence degree iDF value.
図6は、インターネットの掲示板におけるユーザの興味ある語が変わり行く具体例を示したものである。この図では、Aさん、Bさん、Cさん、Dさんの間で交わされた以下のような掲示板でのやりとりを示している。 FIG. 6 shows a specific example in which a user's words of interest on an Internet bulletin board change. In this figure, the following message exchanges between A, B, C, and D are shown.
Aさんは、近く旅行に行くことを決め旅先での宿を探すために、“今度、3泊4日で函館あたりに旅行に行くのですがお勧めのホテルなどの情報教えてください”(61)とのコメントを掲示板に書き込んだ。それに対して、Bさんから、“函館ならXホテルがお勧めです。綺麗だし価格もリーゾナブルです”(62)とのレスがあった。また、Cさんからは“Aさんは、温泉は好きですか。函館へ行くのならよい温泉旅館がありますよ”(63)とのコメントが返ってきた。Aさんは、早速、Bさん、Cさんにお礼をいうと共に、Cさんに、“Cさん、ありがとうございます。温泉も大好きです”(64)との返事を入れた。そこで、Cさんは、Y旅館とZ旅館を紹介した(65)。一方、そのやりとりを見ていたDさんは、“Aさん、函館へ行くのなら、定山渓まで足を伸ばしてはいかがでしょう。お勧めはこちら”(66)と、Aさんが行く予定の函館ではなく、定山渓のQホテルとR旅館をホームページのリンク付で紹介した。これを見たAさんは、函館から定山渓まで足を伸ばすのも悪くないと考えて、“早速、定山渓の温泉旅館も調べてみます”(67)との返答を行った。その後、Aさんは、Dさんが紹介してくれたURLのQホテルとR旅館のホームページ(68、69)を調べて、最終的にR旅館に予約を入れた。以下、各コメント61〜69(QホテルとR旅館のホームページを含む)を、ページ1〜ページ9と呼ぶことにする。
Mr. A decides to go on a trip nearby, and in order to find an accommodation at his destination, “Tell me about a recommended hotel, etc. I would like to travel around Hakodate in 3 days and 4 nights” (61 ) Was posted on the bulletin board. On the other hand, Mr. B responded that “X Hotel is recommended for Hakodate. It is beautiful and the price is reasonable” (62). In addition, Mr. C responded, “A-san likes hot springs. If you go to Hakodate, there are good hot spring inns” (63). Mr. A immediately thanked Mr. B and Mr. C and responded to Mr. C, “Thank you Mr. C. I love hot springs” (64). Therefore, Mr. C introduced Y inn and Z inn (65). On the other hand, Mr. D, who was watching the exchange, said, “If you go to Hakodate, why don't you go to Jozankei? Recommended here” (66). Rather, I introduced Q Hotel and R Ryokan in Jozankei with links on the website. Mr. A, who saw this, thought that it would not be bad to go from Hakodate to Jozankei, and responded, “I will immediately check the hot spring inn in Jozankei” (67). After that, Mr. A checked the homepage (68, 69) of Q Hotel and R Ryokan of URL introduced by Mr. D, and finally made a reservation at R Ryokan. Hereinafter, the
このやりとりの中で出現する主なキーワードは、ページ1では、「函館」、「旅行」、「お勧め」、「ホテル」である。また、ページ2では、「函館」、「ホテル」、「お勧め」「綺麗」、「価格」、「リーゾナブル」などがキーワードとなる。同様に、ページ3からページ8までのキーワードを抽出し、接続詞や助詞などキーワードとなりにくい語を除いて、影響度iDF値の大きい順に並べる。これを図7の表に示す。
The main keywords appearing in this exchange are “Hakodate”, “Travel”, “Recommended”, and “Hotel” on
Aさんは、当初、函館のお勧めのホテルを探すつもりで掲示板にコメントを書き込んだのであるが、Cさんのコメントを見て、温泉に興味を持ち、その後、Dさんが書き込んだ温泉旅館のホームページへのリンクが決め手となって、当初の行き先である函館とはかなり離れた定山渓の温泉旅館を予約することになったのである。 At first, Mr. A wrote a comment on the bulletin board with the intention of finding a recommended hotel in Hakodate, but after seeing Mr. C's comment, he became interested in the hot spring, and then Mr. D wrote the hot spring inn. The link to the homepage became the decisive factor, and it was decided to book a hot spring inn in Jozankei that was quite far from Hakodate, the original destination.
この例からわかるように、Aさんの行動(興味)に重要な影響を与えた語は、「温泉」であることは明らかである。図7の表からも、「温泉」の影響度iDF値が最上位に位置しており、このことが読み取れる。また、Aさんが、当初興味を持っていた「函館」や「旅行」は下位に位置し、興味がしだいに薄れていったことがわかる。 As can be seen from this example, it is clear that the word that has an important influence on the behavior (interest) of Mr. A is “hot spring”. Also from the table of FIG. 7, the influence degree iDF value of “hot spring” is located at the top, which can be read. It can also be seen that “Hakodate” and “Travel”, which Mr. A was initially interested in, were located at the lower level and their interest gradually faded away.
このように、本発明のユーザ興味分析装置を用いて、ユーザが所定の期間閲覧したページを時系列に分析していくことで、ユーザの興味の移り代わりをリアルタイムに調べることができる。そして、このユーザの興味に対して大きな影響力を持つ語(上記の例では、「温泉」)を見出すことができれば、そのような情報を多数集め、商品企画やマーケティングツールとして大いに役立てることができる。 As described above, by using the user interest analysis apparatus of the present invention to analyze the pages browsed by the user for a predetermined period in time series, the user's interests can be examined in real time. And if you can find a word that has a great influence on the user's interest (in the above example, "hot spring"), you can collect a lot of such information and use it as a product planning and marketing tool. .
図8は、図6の掲示板の例において、類義語を考慮した影響度iDF値の計算の例を示す図である。すなわち、「ホテル」と「旅館」は類義語として定義し、両者をまとめて一つの語と考えて、「ホテル・旅館」を図7の他の上位3つまでの語と比較したものである。ここで、「ホテル」と「旅館」を合わせて一つの語と扱ったためその合計の出現頻度は高くなり、影響度iDF値も上昇する。従って、ユーザの興味は、旅館であろうとホテルであろうと「宿」にあることは間違いない。ただし、それでも「ホテル・旅館」の影響度iDF値は、「温泉」の値には及んでいない。ユーザ興味分析装置の目的は、このような影響力の強い語を見つけ出すことである。従って、最適な影響度iDF値を求める数式も複数のものから選択できるようになっている。 FIG. 8 is a diagram illustrating an example of calculating the influence iDF value in consideration of the synonyms in the example of the bulletin board in FIG. 6. That is, “hotel” and “ryokan” are defined as synonyms, and both are considered as one word, and “hotel / ryokan” is compared with the other top three words in FIG. Here, since “hotel” and “ryokan” are treated as one word, the total appearance frequency increases and the influence iDF value also increases. Therefore, there is no doubt that the user's interest is in the “inn” whether it is an inn or a hotel. However, the impact iDF value of “Hotel / Ryokan” does not reach the value of “Onsen”. The purpose of the user interest analyzer is to find such powerful words. Accordingly, a formula for obtaining the optimum influence degree iDF value can be selected from a plurality of formulas.
図9は、ユーザ興味分析装置の他の応用例を示す図である。ユーザA、ユーザB、ユーザCの各端末(91〜93)には、ユーザ興味分析装置がそれぞれ備えられ、各ユーザは、ユーザ興味分析装置の出力である自己のプロファイルをインターネット94を介して公開することに同意しているとする。もちろん、プロファイルの中に非公開としたい情報があれば、それを除いた形で公開できるようにしてもよいし、不特定多数に公開するのではなく、会員のユーザにのみ公開するようにしてもよい。この公開されたユーザプロファイル情報は、プロファイルサーバ95の公開プロファイルDB96に集積される。公開プロファイルDB96の中には、各ユーザ毎にそのユーザのプロファイルテーブルA、B、C(97〜99)が作成される。プロファイルテーブルには、各ユーザの興味ある語がその順位と共に並べられているので、これを公開することによって、さまざまなコミュニティ形成のツールとなり得る。
FIG. 9 is a diagram illustrating another application example of the user interest analysis apparatus. Each terminal (91 to 93) of user A, user B, and user C is provided with a user interest analysis device, and each user publishes his / her profile, which is the output of the user interest analysis device, via the
例えば、ユーザAが、「釣り」に興味がある場合、同じ趣味を持つユーザをこの公開プロファイルDB96から探すことができる。すなわちこの場合、ユーザ興味分析装置は、“友達探し”のツールである。この例では、ユーザCのプロファイルテーブルC99には「釣り」に関連する語が上位にあるので、ユーザAはユーザCが同じ趣味を持つ人物であることがわかり直接コンタクトをとるかもしれない。ユーザCの興味ある語は、ユーザAも分かっているので大いに話が弾むことも期待できる。
For example, when the user A is interested in “fishing”, a user having the same hobby can be searched from the
また、公開プロファイルDB96には、興味ある語の影響度iDF値の順位だけでなく、興味ある語が出現したページ総数や、EDT値、ページの履歴の期間などの数値も同時に参照できるようにしておけば、その興味ある語がどのくらいの規模(ボリューム)でそのユーザのプロファイルを形成しているかを判断することができる。例えば、「釣り」またはその類義語が出現する総ページ数(ユーザCが所定の期間に閲覧したページ)が、人並み外れて膨大であれば、ユーザCは相当釣り好きの人か、あるいは達人であるとの推定もできる。すなわち、ユーザ興味分析装置は、“達人探し”のツールともなり得るのである。
In addition, the
このように、本発明のユーザ興味分析装置によって得られたユーザプロファイル情報は、それを公開するユーザが多くなればなるほど、商品企画やマーケティングツールとして大いに役立つばかりか、個人的な趣味の友人探しや、達人探しのツールとしても用いることができる。また、プロファイルを一般には公開したくないユーザにとっても、家族内や気心の知れた友人どうしでのみ公開することにしておけば、お互いにプレゼントを考えるとき、旅行に誘うとき、食事に誘うときなどの基本情報として、さまざまな用途に使用できる可能性がある。 As described above, the user profile information obtained by the user interest analysis device of the present invention is not only useful as a product planning or marketing tool as the number of users who publish it increases, but also for finding friends for personal hobbies. It can also be used as a tool for searching for experts. Also, for users who don't want to share their profile with the general public, if they decide to share it only with their family members or other enthusiastic friends, when they want to give each other gifts, invite them to a trip, invite them to a meal, etc. As basic information, there is a possibility that it can be used for various purposes.
以上、本発明を実施形態や実施例を用いて説明したが、本発明の技術的範囲は、上記の実施形態などに限られるものではない。上記実施形態に多様なバリエーションまたは改良を加えることが可能である。 As mentioned above, although this invention was demonstrated using embodiment and an Example, the technical scope of this invention is not restricted to said embodiment etc. above. Various variations or improvements can be added to the above embodiment.
なお、本発明の図1または図2の実施形態であるユーザ興味分析装置は、コンピュータ上のプログラムによっても実現可能である。上記プログラムを格納する記憶媒体は、電子的、磁気的、光学的、電磁的、赤外線または半導体システム(または、装置または機器)であることができる。この記憶媒体の例には、半導体またはソリッド・ステート記憶装置、磁気テープ、取り外し可能なコンピュータ可読の媒体の例には、半導体またはソリッド・ステート記憶装置、磁気テープ、取り外し可能なフロッピー(登録商標)・ディスク、ランダム・アクセス・メモリ(RAM)、リードオンリー・メモリ(ROM)、リジッド磁気ディスクおよび光ディスクが含まれる。現時点における光ディスクの例には、コンパクト・ディスク−リードオンリー・メモリ(CD−ROM)、コンパクト・ディスク−リード/ライト(CD−R/W)およびDVDが含まれる。 Note that the user interest analysis apparatus according to the embodiment of FIG. 1 or 2 of the present invention can also be realized by a program on a computer. The storage medium storing the program can be an electronic, magnetic, optical, electromagnetic, infrared, or semiconductor system (or apparatus or device). Examples of this storage medium include a semiconductor or solid state storage device, magnetic tape, removable computer readable media examples include a semiconductor or solid state storage device, magnetic tape, a removable floppy. Includes disks, random access memory (RAM), read only memory (ROM), rigid magnetic disks and optical disks. Current examples of optical disks include compact disk-read only memory (CD-ROM), compact disk-read / write (CD-R / W) and DVD.
1 ファイル閲覧履歴
2 ファイルテキスト入力手段
3 形態素分割手段
4 伝播語抽出手段
5 影響度算出手段
5a、5b 影響度算出手段
6 iDF値算出手段
6a、6b iDF値算出手段
7 記憶手段
8 ユーザ興味語抽出手段
9 プロファイル情報出力手段
10 ユーザ興味分析装置(第一の実施形態)
11 類義語辞書
20 ユーザ興味分析装置(第二の実施形態)
21 CPU
22 入力部
24 出力部
24 通信部
25 プログラムメモリ
26 作業用メモリ
27 ユーザプロファイル
36 共通する語
37 伝播する語
41 新製品ニュース
42 製品情報サイト
43 価格比較サイト
44 Y社製品情報サイト(製品B仕様ページ)
45 Y社製品情報サイト(製品C仕様ページ)
46 価格比較サイト
47 ショプZサイト
48 購入ページ
61〜69 ページ1〜9
91〜93 ユーザ端末
94 インターネット
96 プロファイルサーバ
97〜99 プロファイルテーブル
DESCRIPTION OF
11
21 CPU
22
45 Y company product information site (product C specification page)
46
91-93
Claims (9)
前記ユーザが閲覧した前記ファイルの履歴から前記ファイルに含まれる複数の語を前記ファイル毎にテキストとして入力する手段と、
前記テキストから所定の単位に分割する手段と、
前記ユーザが閲覧した複数の前記ファイル間でユーザが参照した伝播する語を抽出する手段と、
一または複数の前記伝播する語を記憶する手段と、
前記伝播する語の複数の前記ファイルに対する出現頻度から、所定の影響度と前記伝播する語の特定の前記ファイル内に出現する程度を表す所定のiDF値を求める手段と、
前記影響度と前記iDF値との関数である影響度iDF値に応じて前記ユーザの興味ある語の集合をユーザプロファイル情報として抽出する手段と、
前記ユーザプロファイル情報を出力する手段と、
を備える、ユーザ興味分析装置。 A user interest analysis device that extracts words of interest of a user browsing a file,
Means for inputting, as text for each file, a plurality of words included in the file from the history of the file viewed by the user;
Means for dividing the text into predetermined units;
Means for extracting a propagated word referred to by a user among the plurality of files viewed by the user;
Means for storing one or more of the propagated words;
Means for obtaining a predetermined iDF value representing a predetermined influence degree and a degree of appearance of the propagating word in a specific file from the appearance frequencies of the propagating word with respect to the plurality of files;
Means for extracting a set of words of interest of the user as user profile information according to an influence iDF value which is a function of the influence and the iDF value;
Means for outputting the user profile information;
A user interest analysis device comprising:
前記影響度iDF値を前記伝播する語に関連する語に対しても算出する手段を備える、請求項1または2に記載のユーザ興味分析装置。 Further comprising a similar word dictionary for detecting a word related to the propagating word;
The user interest analysis device according to claim 1, further comprising means for calculating the influence degree iDF value for a word related to the word to be propagated.
tは伝播する語、
EDTは、伝播する語tがユーザが閲覧したファイル群の中に出現する頻度、
Nは、ユーザが所定の時間中に閲覧した複数のファイル数、
DF(t)は、伝播する語tを含むファイル数。 The user interest analysis device according to claim 1, wherein the influence iDF value is obtained by the following mathematical formula.
t is the word to propagate,
EDT is the frequency at which the propagated word t appears in the file group viewed by the user,
N is the number of files viewed by the user during a predetermined time,
DF (t) is the number of files including the word t to be propagated.
前記ユーザが閲覧した前記ファイルの履歴から前記ファイルに含まれる複数の語を前記ファイル毎にテキストとして入力するステップと、
前記テキストから所定の単位に形態素分割するステップと、
前記ユーザが閲覧した複数の前記ファイル間でユーザが参照した伝播する語を抽出するステップと、
一または複数の前記伝播する語を記憶するステップと、
前記伝播する語の複数の前記ファイルに対する出現頻度から、所定の影響度と前記伝播する語の特定の前記ファイル内に出現する程度を表す所定のiDF値を求めるステップと、
前記影響度と前記iDF値との積である影響度iDF値が高い順に前記ユーザの興味ある語の集合をユーザプロファイル情報として抽出するステップと、
前記ユーザプロファイル情報を出力するステップと、
を含む、ユーザ興味分析方法。 A user interest analysis method for extracting words of interest of a user browsing a file,
Inputting a plurality of words included in the file from the history of the file viewed by the user as text for each file;
Dividing the morpheme into predetermined units from the text;
Extracting the propagating word referred to by the user among the plurality of files viewed by the user;
Storing one or more of the propagating words;
Obtaining a predetermined iDF value representing a predetermined influence degree and a degree of appearance of the propagating word in a specific file from the appearance frequencies of the propagating word with respect to the plurality of files;
Extracting a set of words of interest of the user as user profile information in descending order of the influence iDF value, which is the product of the influence and the iDF value;
Outputting the user profile information;
A user interest analysis method including:
前記ユーザが閲覧した前記ファイルの履歴から前記ファイルに含まれる複数の語を前記ファイル毎にテキストとして入力するステップと、
前記テキストから意味を有する最小の言語単位に形態素分割するステップと、
前記ユーザが閲覧した複数の前記ファイル間でユーザが参照した伝播する語を抽出するステップと、
一または複数の前記伝播する語を記憶するステップと、
前記伝播する語の全ての前記ファイルに対する出現頻度から、所定の影響度と前記伝播する語の特定の前記ファイル内に出現する程度を表す所定のiDF値を求めるステップと、
前記影響度と前記iDF値との関数である影響度iDF値に応じて前記ユーザの興味ある語の集合をユーザプロファイル情報として抽出するステップと、
前記ユーザプロファイル情報を出力するステップと、
をコンピュータに実行させる、コンピュータ・プログラム。 There is a user interest analysis computer program that extracts words of interest of the user browsing the file,
Inputting a plurality of words included in the file from the history of the file viewed by the user as text for each file;
Dividing morphemes from the text into the smallest linguistic units having meaning;
Extracting the propagating word referred to by the user among the plurality of files viewed by the user;
Storing one or more of the propagating words;
Obtaining a predetermined iDF value representing a predetermined degree of influence and a degree of occurrence of the word to be propagated in a specific file from the appearance frequencies of all the words to be propagated;
Extracting a set of words of interest of the user as user profile information according to an influence iDF value that is a function of the influence and the iDF value;
Outputting the user profile information;
A computer program that causes a computer to execute.
The computer program according to claim 6, wherein the file is a WEB page.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2006085174A JP2007264718A (en) | 2006-03-27 | 2006-03-27 | User interest analysis device, method, program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2006085174A JP2007264718A (en) | 2006-03-27 | 2006-03-27 | User interest analysis device, method, program |
Related Child Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2011144495A Division JP2011198393A (en) | 2011-06-29 | 2011-06-29 | User interest analyzing device, method, and program |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2007264718A true JP2007264718A (en) | 2007-10-11 |
Family
ID=38637697
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2006085174A Pending JP2007264718A (en) | 2006-03-27 | 2006-03-27 | User interest analysis device, method, program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2007264718A (en) |
Cited By (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010128981A (en) * | 2008-11-28 | 2010-06-10 | Nippon Telegr & Teleph Corp <Ntt> | Method, device and program for extracting operation sequence |
| JP2011146004A (en) * | 2010-01-18 | 2011-07-28 | Zigsow Kk | User profiling system using web community site |
| US8095652B2 (en) | 2008-02-29 | 2012-01-10 | International Business Machines Corporation | Analysis system, information processing apparatus, activity analysis method and program product |
| WO2012176317A1 (en) * | 2011-06-23 | 2012-12-27 | サイバーアイ・エンタテインメント株式会社 | Image recognition system-equipped interest graph collection system using relationship search |
| JP2013105364A (en) * | 2011-11-15 | 2013-05-30 | Nippon Telegr & Teleph Corp <Ntt> | Document feature extraction device, document feature extraction method, and document feature extraction program |
| WO2015190474A1 (en) * | 2014-06-12 | 2015-12-17 | Emotion Intelligence株式会社 | Perk management system and perk management method |
| CN106506234A (en) * | 2016-12-05 | 2017-03-15 | 深圳市彬讯科技有限公司 | A kind of SOA services monitor in real time is reported and service performance metrics method |
| US10198426B2 (en) | 2014-07-28 | 2019-02-05 | International Business Machines Corporation | Method, system, and computer program product for dividing a term with appropriate granularity |
| JP2020184151A (en) * | 2019-05-07 | 2020-11-12 | 株式会社ビービット | User-noteworthy word analyzer, method and program |
-
2006
- 2006-03-27 JP JP2006085174A patent/JP2007264718A/en active Pending
Non-Patent Citations (6)
| Title |
|---|
| CSNG200600523002, 臼井 大介, "確率的手法を用いたWebページ推薦システム", 情報処理学会研究報告 Vol.2006 No.27, 20060317, 第2006巻 第27号, 25〜32, JP, 社団法人情報処理学会 * |
| CSNJ200610068089, 吉田 博哉, "ユーザの嗜好に基づいたRSSニュースリーダに関する基礎研究", 第68回(平成18年)全国大会講演論文集(3) データベースとメディア ネットワーク, 20060307, 3−185〜3−186, JP, 社団法人情報処理学会 * |
| CSNJ200910008075, 松井 一樹, "電子人格:サイバースペースにおけるコミュニティ形成支援", 第55回(平成9年後期)全国大会講演論文集(4) インタフェース コンピュータと人間社会, 19970924, 4−147〜4−148, JP, 社団法人情報処理学会 * |
| JPN6010073577, 臼井 大介, "確率的手法を用いたWebページ推薦システム", 情報処理学会研究報告 Vol.2006 No.27, 20060317, 第2006巻 第27号, 25〜32, JP, 社団法人情報処理学会 * |
| JPN6010073578, 松井 一樹, "電子人格:サイバースペースにおけるコミュニティ形成支援", 第55回(平成9年後期)全国大会講演論文集(4) インタフェース コンピュータと人間社会, 19970924, 4−147〜4−148, JP, 社団法人情報処理学会 * |
| JPN6010073579, 吉田 博哉, "ユーザの嗜好に基づいたRSSニュースリーダに関する基礎研究", 第68回(平成18年)全国大会講演論文集(3) データベースとメディア ネットワーク, 20060307, 3−185〜3−186, JP, 社団法人情報処理学会 * |
Cited By (14)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8095652B2 (en) | 2008-02-29 | 2012-01-10 | International Business Machines Corporation | Analysis system, information processing apparatus, activity analysis method and program product |
| JP2010128981A (en) * | 2008-11-28 | 2010-06-10 | Nippon Telegr & Teleph Corp <Ntt> | Method, device and program for extracting operation sequence |
| JP2011146004A (en) * | 2010-01-18 | 2011-07-28 | Zigsow Kk | User profiling system using web community site |
| US9600499B2 (en) | 2011-06-23 | 2017-03-21 | Cyber Ai Entertainment Inc. | System for collecting interest graph by relevance search incorporating image recognition system |
| JPWO2012176317A1 (en) * | 2011-06-23 | 2015-02-23 | サイバーアイ・エンタテインメント株式会社 | Interest graph collection system by relevance search with image recognition system |
| WO2012176317A1 (en) * | 2011-06-23 | 2012-12-27 | サイバーアイ・エンタテインメント株式会社 | Image recognition system-equipped interest graph collection system using relationship search |
| JP2013105364A (en) * | 2011-11-15 | 2013-05-30 | Nippon Telegr & Teleph Corp <Ntt> | Document feature extraction device, document feature extraction method, and document feature extraction program |
| WO2015190474A1 (en) * | 2014-06-12 | 2015-12-17 | Emotion Intelligence株式会社 | Perk management system and perk management method |
| JP2016001422A (en) * | 2014-06-12 | 2016-01-07 | Emotion Intelligence株式会社 | Privilege management system and privilege management method |
| US10198426B2 (en) | 2014-07-28 | 2019-02-05 | International Business Machines Corporation | Method, system, and computer program product for dividing a term with appropriate granularity |
| CN106506234A (en) * | 2016-12-05 | 2017-03-15 | 深圳市彬讯科技有限公司 | A kind of SOA services monitor in real time is reported and service performance metrics method |
| CN106506234B (en) * | 2016-12-05 | 2019-09-10 | 深圳市彬讯科技有限公司 | A kind of SOA service real time monitoring reports and service performance metrics method |
| JP2020184151A (en) * | 2019-05-07 | 2020-11-12 | 株式会社ビービット | User-noteworthy word analyzer, method and program |
| JP7403735B2 (en) | 2019-05-07 | 2023-12-25 | 株式会社ビービット | User attention word analysis device, method and program |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US10748164B2 (en) | Analyzing sentiment in product reviews | |
| Kim et al. | A scientometric review of emerging trends and new developments in recommendation systems | |
| Eickhoff et al. | Lessons from the journey: a query log analysis of within-session learning | |
| TW201944266A (en) | Chatbot search system, chatbot search method, and program | |
| Zhang et al. | Mining users trust from e-commerce reviews based on sentiment similarity analysis | |
| US8713028B2 (en) | Related news articles | |
| Lewandowski | Understanding search engines | |
| KR101566616B1 (en) | Advertisement decision supporting system using big data-processing and method thereof | |
| CN105488697A (en) | Potential customer mining method based on customer behavior characteristics | |
| Akritidis et al. | Identifying the productive and influential bloggers in a community | |
| EP2188712A2 (en) | Recommendation systems and methods | |
| Vosecky et al. | Searching for quality microblog posts: Filtering and ranking based on content analysis and implicit links | |
| JPWO2009096523A1 (en) | Information analysis apparatus, search system, information analysis method, and information analysis program | |
| Huang et al. | A novel recommendation model with Google similarity | |
| Wang et al. | An approach to rank reviews by fusing and mining opinions based on review pertinence | |
| US20180089193A1 (en) | Category-based data analysis system for processing stored data-units and calculating their relevance to a subject domain with exemplary precision, and a computer-implemented method for identifying from a broad range of data sources, social entities that perform the function of Social Influencers | |
| Jansen et al. | Real time search on the web: Queries, topics, and economic value | |
| JP2007264718A (en) | User interest analysis device, method, program | |
| Lin et al. | Blog popularity mining using social interconnection analysis | |
| Alghamdi et al. | The use and impact of Goodreads rating and reviews, for readers of Arabic books | |
| Guo et al. | An opinion feature extraction approach based on a multidimensional sentence analysis model | |
| JP2011198393A (en) | User interest analyzing device, method, and program | |
| Chen et al. | A method of potential customer searching from opinions of network villagers in virtual communities | |
| Zhang et al. | Predicting temporary deal success with social media timing signals | |
| Tuma et al. | Online reviews as a source of marketing research data: a literature analysis |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20081224 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101215 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101221 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110221 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110329 |
|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120312 |