JP2024008018A - Tagging support device, program and content search device - Google Patents
Tagging support device, program and content search device Download PDFInfo
- Publication number
- JP2024008018A JP2024008018A JP2022109501A JP2022109501A JP2024008018A JP 2024008018 A JP2024008018 A JP 2024008018A JP 2022109501 A JP2022109501 A JP 2022109501A JP 2022109501 A JP2022109501 A JP 2022109501A JP 2024008018 A JP2024008018 A JP 2024008018A
- Authority
- JP
- Japan
- Prior art keywords
- content
- character string
- search
- tagging
- tagged
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、タグ付与支援装置、プログラム及びコンテンツ検索装置に関する。 The present invention relates to a tagging support device, a program, and a content search device.
従来、SNS(Social Networking Service)等のコンテンツには、投稿者によってハッシュタグが付加されているものがある。ハッシュタグは、コンテンツを検索するための検索タグであり、ハッシュ記号(#)を言葉やフレーズの先頭に付したものである。ハッシュタグを付すことによって、同じハッシュタグが付された他の投稿者の投稿を一覧で表示することができ、特定の話題や同じ興味・関心を持つユーザの投稿を効率よく閲覧できる。
ハッシュタグは、投稿者によって自由に付加することができる反面、一貫性がないという問題がある。
BACKGROUND ART Conventionally, some content on SNS (Social Networking Service) and the like has a hashtag added by the poster. A hash tag is a search tag for searching for content, and is a hash symbol (#) added to the beginning of a word or phrase. By adding a hashtag, you can display a list of posts by other posters with the same hashtag, allowing you to efficiently view posts on a specific topic or by users with the same interests.
Hashtags can be added freely by the poster, but there is a problem that they are inconsistent.
このような状況下において、例えば、「発信装置が発信するコンテンツに挿入するタグを提案する最適タグ提案装置であって、特定の単語が出現するコンテンツ毎に、当該コンテンツに挿入されているタグを収集し、前記特定の単語毎に、当該特定の単語が出現するコンテンツから収集したタグをクラスタリングし、クラスタ毎に、当該クラスタに属するタグの中から、各タグの収集数に応じて代表タグを決定し、前記発信装置から、発信するコンテンツへのタグの挿入要求を受けた場合、当該発信するコンテンツに前記特定の単語が出現する度に、当該特定の単語のクラスタを収集し、収集したクラスタの代表タグの中から、各クラスタの収集数に応じて候補タグを決定し、前記発信装置に返却し、クラスタリングの際に、同一コンテンツに挿入されているタグ同士を接続することでネットワーク化し、各ネットワークをそれぞれクラスタとする、最適タグ提案装置。」が開示されている(例えば、特許文献1)。 Under such circumstances, for example, an optimal tag suggestion device that proposes tags to be inserted into content transmitted by a sending device, for each content in which a specific word appears, For each specific word, the tags collected from the content in which the specific word appears are clustered, and for each cluster, a representative tag is selected from among the tags belonging to the cluster according to the number of collected tags. When a request for inserting a tag into content to be transmitted is received from the transmission device, each time the specific word appears in the content to be transmitted, a cluster of the specific word is collected, and a cluster of the specific word is collected. Determine candidate tags from among the representative tags according to the number of collected clusters and return them to the transmitting device, and during clustering, create a network by connecting tags inserted in the same content, An optimal tag proposal device that uses each network as a cluster is disclosed (for example, Patent Document 1).
上述の特許文献1に記載の技術は、コンテンツに高頻度で出現する単語を予め単語DBに登録し、単語DBに登録されている単語ごとに、既にコンテンツに挿入されているタグを収集して、最適タグリストDBを作成する。そして、新たなコンテンツに対するタグとして、コンテンツに含まれる単語と、最適タグリストDBとに基づいて、最適タグリストDBにある代表タグを候補タグとして返却する。
そのため、既存のコンテンツのタグを利用するものであり、既存のコンテンツにタグ付けがされていることが前提のものであった。また、最適タグリストDBを作成する作業が煩雑であった。
The technology described in Patent Document 1 mentioned above registers words that appear frequently in content in a word DB in advance, and collects tags that have already been inserted into the content for each word registered in the word DB. , create an optimal tag list DB. Then, as a tag for the new content, a representative tag in the optimal tag list DB is returned as a candidate tag based on the words included in the content and the optimal tag list DB.
Therefore, it uses the tags of existing content, and is based on the assumption that the existing content has been tagged. Further, the task of creating the optimal tag list DB was complicated.
そこで、本発明は、より簡単な処理によってコンテンツに適したタグを付与することが可能なタグ付与支援装置、プログラム及びコンテンツ検索装置を提供することを目的とする。 SUMMARY OF THE INVENTION Therefore, an object of the present invention is to provide a tagging support device, a program, and a content search device that can add tags suitable for content through simpler processing.
本発明は、以下のような解決手段により、前記課題を解決する。
第1の発明は、テキストを有するコンテンツにおける一部の文字列を、前記コンテンツから抽出する文字列抽出手段と、前記文字列抽出手段が抽出した前記文字列を、前記コンテンツにタグ付けするタグ付与手段と、前記タグ付与手段がタグ付けをしたタグ付コンテンツを、検索用データベースに記憶させるコンテンツ登録手段と、を備える、タグ付与支援装置である。
第2の発明は、第1の発明のタグ付与支援装置において、キーワードを記憶したキーワード記憶部を備え、前記文字列抽出手段は、前記キーワード記憶部に記憶された前記キーワードが前記コンテンツに含まれる場合に、前記キーワードを前記文字列として抽出する、タグ付与支援装置である。
第3の発明は、第1の発明又は第2の発明のタグ付与支援装置において、前記コンテンツの前記テキストを解析して名詞を抽出する名詞抽出手段を備え、前記文字列抽出手段は、前記名詞抽出手段が抽出した前記名詞のうち所定の名詞を、前記文字列として抽出する、タグ付与支援装置である。
第4の発明は、第3の発明のタグ付与支援装置において、前記文字列抽出手段は、前記名詞抽出手段が抽出した前記名詞のうち、前記テキストに有する前記名詞の出現数が閾値以上である前記所定の名詞を、前記文字列として抽出する、タグ付与支援装置である。
第5の発明は、第3の発明のタグ付与支援装置において、前記文字列抽出手段は、前記検索用データベースに登録された前記タグ付コンテンツを用いて、前記名詞抽出手段が抽出した前記名詞に対して重要度を示すスコアを付与し、閾値以上の前記スコアを有する前記所定の名詞を、前記文字列として抽出する、タグ付与支援装置である。
第6の発明は、第1の発明から第5の発明までのいずれかのタグ付与支援装置において、前記文字列抽出手段は、テキストの文脈から固有名詞を抽出する学習モデルを用いて前記コンテンツから固有名詞である前記文字列を抽出する、タグ付与支援装置である。
第7の発明は、第1の発明から第6の発明までのいずれかのタグ付与支援装置において、前記文字列抽出手段が抽出した前記文字列に関連する関連語を、複数の関連語を記憶した関連語記憶部から取得する関連語取得手段を備え、前記タグ付与手段は、前記関連語取得手段が取得した前記関連語を、前記コンテンツにさらにタグ付けする、タグ付与支援装置である。
第8の発明は、第1の発明から第7の発明までのいずれかのタグ付与支援装置において、前記文字列抽出手段が抽出した前記文字列を出力する文字列出力手段と、前記文字列出力手段が出力した前記文字列のうちユーザによって指定された指定文字列を受け付ける指定文字列受付手段と、を備え、前記タグ付与手段は、前記指定文字列受付手段が受け付けた前記指定文字列を、前記コンテンツにタグ付けする、タグ付与支援装置である。
第9の発明は、第1の発明から第8の発明までのいずれかのタグ付与支援装置としてコンピュータを機能させるためのプログラムである。
第10の発明は、第1の発明から第8の発明までのいずれかのタグ付与支援装置によりタグ付けがされた前記タグ付コンテンツが格納された前記検索用データベースに対して通信可能に接続されたコンテンツ検索装置であって、検索語を受け付ける検索語受付手段と、前記検索語受付手段が受け付けた前記検索語に関連する関連語を、複数の関連語を記憶した関連語記憶部から取得する検索関連語取得手段と、前記検索語受付手段が受け付けた前記検索語及び前記検索関連語取得手段が取得した前記関連語のいずれかに合致するタグを有する前記タグ付コンテンツを、前記検索用データベースから抽出するコンテンツ抽出手段と、前記コンテンツ抽出手段が抽出した前記タグ付コンテンツに基づいて、前記タグごとのタグ一覧を生成して出力するタグ一覧出力手段と、を備える、コンテンツ検索装置である。
第11の発明は、第10の発明のコンテンツ検索装置において、前記タグ一覧出力手段が出力した前記タグ一覧から一の前記タグの選択を受け付けるタグ選択受付手段と、前記タグ選択受付手段が受け付けた前記タグが付与された前記タグ付コンテンツの一覧を出力するコンテンツ一覧出力手段と、を備え、前記コンテンツ一覧出力手段は、各タグ付コンテンツに付与された前記タグを含む、前記タグ付コンテンツの一覧を出力する、コンテンツ検索装置である。
The present invention solves the above problems by the following solving means.
A first invention includes a character string extraction means for extracting a part of character strings in a content having text from the content, and a tag for tagging the content with the character string extracted by the character string extraction means. and content registration means for storing tagged content tagged by the tagging means in a search database.
A second invention is the tagging support device according to the first invention, which includes a keyword storage unit storing keywords, and the character string extraction means is arranged such that the keyword stored in the keyword storage unit is included in the content. This is a tagging support device that extracts the keyword as the character string.
A third invention is the tagging support device according to the first invention or the second invention, further comprising a noun extracting means for analyzing the text of the content to extract a noun, and the character string extracting means is configured to extract a noun from the text of the content. The tagging support device extracts a predetermined noun from among the nouns extracted by the extraction means as the character string.
In a fourth invention, in the tagging support device according to the third invention, the character string extraction means is configured such that, among the nouns extracted by the noun extraction means, the number of occurrences of the nouns in the text is equal to or greater than a threshold value. The tagging support device extracts the predetermined noun as the character string.
In a fifth invention, in the tagging support device according to the third invention, the character string extraction means uses the tagged content registered in the search database to add the noun to the noun extracted by the noun extraction means. The tagging support device assigns a score indicating importance to the noun, and extracts the predetermined noun having the score equal to or higher than a threshold value as the character string.
A sixth invention is the tagging support device according to any one of the first to fifth inventions, wherein the character string extraction means extracts proper nouns from the content using a learning model that extracts proper nouns from the context of the text. This is a tagging support device that extracts the character string that is a proper noun.
A seventh invention is the tagging support device according to any one of the first to sixth inventions, wherein a plurality of related words related to the character string extracted by the character string extraction means are stored. The tagging support device further includes a related word acquisition means that acquires the related word from the related word storage section, and the tagging means further tags the content with the related word acquired by the related word acquisition means.
An eighth invention is the tagging support device according to any one of the first to seventh inventions, including a character string output means for outputting the character string extracted by the character string extraction means, and a character string output means for outputting the character string extracted by the character string extraction means. specified character string receiving means for receiving a specified character string specified by a user from among the character strings outputted by the means; This is a tagging support device that tags the content.
A ninth invention is a program for causing a computer to function as the tagging support device according to any one of the first invention to the eighth invention.
A tenth invention is provided that the content is communicably connected to the search database in which the tagged content tagged by the tagging support device according to any one of the first to eighth inventions is stored. A content search device comprising: a search word receiving means for accepting a search word; and a related word related to the search word accepted by the search word receiving means from a related word storage unit storing a plurality of related words. a search related word acquisition means, and the tagged content having a tag that matches either the search word accepted by the search word reception means or the related word acquired by the search related word acquisition means is stored in the search database. The present invention is a content search device comprising: a content extracting means for extracting content from the content; and a tag list outputting means for generating and outputting a tag list for each of the tags based on the tagged content extracted by the content extracting means.
An eleventh invention is the content search device according to the tenth invention, wherein the tag selection receiving means receives a selection of one of the tags from the tag list outputted by the tag list outputting means; content list output means for outputting a list of the tagged contents to which the tags have been added, the content list output means to output a list of the tagged contents including the tags added to each tagged content. This is a content search device that outputs.
本発明によれば、より簡単な処理によってコンテンツに適したタグを付与することが可能なタグ付与支援装置、プログラム及びコンテンツ検索装置を提供することができる。 According to the present invention, it is possible to provide a tagging support device, a program, and a content search device that can add tags suitable for content through simpler processing.
以下、本発明を実施するための形態について、図を参照しながら説明する。なお、これは、あくまでも一例であって、本発明の技術的範囲は、これに限られるものではない。
(実施形態)
<コンテンツ検索支援システム100の全体構成>
図1は、本実施形態に係るコンテンツ検索支援システム100の全体構成を示す図である。
図2は、本実施形態に係るタグ付与支援サーバ1及びコンテンツ検索サーバ5の機能ブロックを示す図である。
Hereinafter, embodiments for carrying out the present invention will be described with reference to the drawings. Note that this is just an example, and the technical scope of the present invention is not limited to this.
(Embodiment)
<Overall configuration of content
FIG. 1 is a diagram showing the overall configuration of a content
FIG. 2 is a diagram showing functional blocks of the tagging support server 1 and content search server 5 according to this embodiment.
図1に示すコンテンツ検索支援システム100は、タグ付与支援サーバ1(タグ付与支援装置)が、検索用データベース(DB)3に記憶されているタグが付与されていないコンテンツに対してタグを付与する。また、コンテンツ検索支援システム100は、タグ付与支援サーバ1が、端末7から受信したコンテンツに対してタグを付与して、検索用DB3に登録する。さらに、コンテンツ検索支援システム100は、コンテンツ検索サーバ5(コンテンツ検索装置)が、端末8から検索語を受け付けた場合に、検索語をタグとして有するコンテンツの一覧を、端末8に送信する。
In the content
コンテンツ検索支援システム100は、タグ付与支援サーバ1と、検索用DB3と、関連語辞書4(関連語記憶部)と、コンテンツ検索サーバ5と、端末7と、端末8とを備え、各々通信ネットワークNを介して接続されている。
通信ネットワークNは、タグ付与支援サーバ1と、検索用DB3と、関連語辞書4と、コンテンツ検索サーバ5と、端末7と、端末8との間のネットワークであり、例えば、インターネット回線等の通信網である。また、通信ネットワークNは、有線であってもよいし、無線であってもよい。
The content
The communication network N is a network between the tagging support server 1, the
<タグ付与支援サーバ1>
タグ付与支援サーバ1は、コンテンツに適したタグを、コンテンツに付与する処理を行うサーバである。
図2(A)に、タグ付与支援サーバ1の機能ブロックを示す。
図2(A)に示すように、タグ付与支援サーバ1は、制御部10と、記憶部20と、通信インタフェース部29とを備える。
<Tagging support server 1>
The tagging support server 1 is a server that performs a process of adding a tag suitable for the content to the content.
FIG. 2(A) shows functional blocks of the tagging support server 1.
As shown in FIG. 2(A), the tagging support server 1 includes a control section 10, a storage section 20, and a communication interface section 29.
制御部10は、タグ付与支援サーバ1の全体を制御する中央処理装置(CPU)である。制御部10は、記憶部20に記憶されているオペレーティングシステム(OS)や、各種のアプリケーションプログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、各種機能を実行する。
制御部10は、コンテンツ取得部11と、文字列抽出処理部12(名詞抽出手段、文字列抽出手段)と、関連語取得部13(関連語取得手段)と、文字列出力部14(文字列出力手段)と、指定文字列受付部15(指定文字列受付手段)と、タグ付与部16(タグ付与手段)と、タグ付コンテンツ登録部17(コンテンツ登録手段)とを備える。
The control unit 10 is a central processing unit (CPU) that controls the entire tagging support server 1. The control unit 10 cooperates with the above-mentioned hardware and executes various functions by appropriately reading and executing the operating system (OS) and various application programs stored in the storage unit 20.
The control unit 10 includes a content acquisition unit 11, a character string extraction processing unit 12 (noun extraction means, character string extraction means), a related word acquisition unit 13 (related word acquisition means), and a character string output unit 14 (character string extraction means). (output means), a designated character string receiving section 15 (designated character string receiving means), a tagging section 16 (tagging means), and a tagged content registration section 17 (content registration means).
コンテンツ取得部11は、タグを付与するコンテンツを取得する。より具体的には、コンテンツ取得部11は、検索用DB3からタグが付与されていないコンテンツを抽出することで、タグを付与するコンテンツを取得する。また、コンテンツ取得部11は、端末7からタグ付与対象のコンテンツを受信する。
ここで、コンテンツ取得部11が取得するコンテンツは、例えば、ウェブページである。そして、ウェブページは、例えば、HTML(Hypertext Markup Language)に代表されるマークアップ言語で記述されたテキストを含む。
The content acquisition unit 11 acquires content to be tagged. More specifically, the content acquisition unit 11 acquires content to be tagged by extracting untagged content from the
Here, the content acquired by the content acquisition unit 11 is, for example, a web page. A web page includes, for example, text written in a markup language such as HTML (Hypertext Markup Language).
文字列抽出処理部12は、コンテンツ取得部11が取得したコンテンツから文字列を抽出する。ここで、文字列抽出処理部12が抽出する文字列は、テキストを有するコンテンツにおける一部の文字列であって、例えば、コンテンツの内容を端的に表すものであり、キーワードやキーフレーズである。
文字列抽出処理部12は、キーワード辞書22(キーワード記憶部)(後述する)に記憶されたキーワードがコンテンツに含まれる場合に、当該キーワードを文字列として抽出してもよい。
また、文字列抽出処理部12は、コンテンツのテキストを解析して名詞を抽出し、抽出した名詞のうち所定の名詞を、文字列として抽出してもよい。ここで、所定の名詞とは、例えば、複合名詞や固有名詞等をいう。
さらに、文字列抽出処理部12は、コンテンツのテキストを解析して名詞を抽出し、抽出した名詞のうち、テキストに有する数が閾値以上である名詞を、文字列として抽出してもよい。
The character string extraction processing unit 12 extracts character strings from the content acquired by the content acquisition unit 11. Here, the character string extracted by the character string extraction processing unit 12 is a part of the character string in the content having text, and is, for example, a keyword or key phrase that directly represents the content of the content.
When the content includes a keyword stored in the keyword dictionary 22 (keyword storage unit) (described later), the character string extraction processing unit 12 may extract the keyword as a character string.
Further, the character string extraction processing unit 12 may analyze the text of the content to extract nouns, and extract a predetermined noun from among the extracted nouns as a character string. Here, the predetermined noun refers to, for example, a compound noun or a proper noun.
Further, the character string extraction processing unit 12 may analyze the text of the content to extract nouns, and extract, as a character string, nouns whose number in the text is equal to or greater than a threshold value among the extracted nouns.
また、文字列抽出処理部12は、検索用DB3に登録されたタグ付コンテンツを用いて、抽出した名詞に対して重要度を示すスコアを付与し、閾値以上のスコアを有する名詞を、文字列として抽出してもよい。ここで、重要度を示すスコア付与は、例えば、TF-IDFを用いて行うことができる。
さらに、文字列抽出処理部12は、学習モデル記憶部23に記憶された、テキストの文脈から固有名詞を抽出する学習モデルを用いて、コンテンツから固有名詞である文字列を抽出してもよい。
関連語取得部13は、文字列抽出処理部12が抽出した文字列に関連する関連語を、関連語辞書4から取得する。ここで、関連語とは、類語や同義語等を含む語である。
In addition, the character string extraction processing unit 12 uses the tagged content registered in the
Further, the character string extraction processing unit 12 may extract a character string that is a proper noun from the content using a learning model that extracts a proper noun from the context of a text, which is stored in the learning model storage unit 23.
The related word acquisition unit 13 acquires related words related to the character string extracted by the character string extraction processing unit 12 from the
文字列出力部14は、文字列抽出処理部12が抽出した文字列を、端末7に出力する。また、文字列出力部14は、関連語取得部13が取得した関連語を、端末7に出力する。
指定文字列受付部15は、文字列出力部14が出力した文字列及び関連語のうち、端末7のユーザが指定した指定文字列を、端末7から受け付ける。
なお、文字列出力部14及び指定文字列受付部15による処理は、任意である。例えば、コンテンツ取得部11が端末7からコンテンツを取得した場合には、制御部10は、文字列出力部14及び指定文字列受付部15による処理を行うようにしてもよい。他方、コンテンツ取得部11が検索用DB3からコンテンツを取得した場合には、制御部10は、文字列出力部14及び指定文字列受付部15による処理を行わないようにしてもよい。
The character string output unit 14 outputs the character string extracted by the character string extraction processing unit 12 to the
The designated character string receiving unit 15 receives from the terminal 7 a designated character string designated by the user of the terminal 7 from among the character strings and related words output by the character string output unit 14 .
Note that the processing by the character string output unit 14 and specified character string reception unit 15 is arbitrary. For example, when the content acquisition unit 11 acquires content from the
タグ付与部16は、文字列抽出処理部12が抽出した文字列を、対応するコンテンツに付与する。また、タグ付与部16は、関連語取得部13が取得した関連語を、対応するコンテンツに付与する。さらに、タグ付与部16は、文字列出力部14による処理を行った場合には、指定文字列受付部15が受け付けた指定文字列を、対応するコンテンツに付与する。
タグ付コンテンツ登録部17は、タグ付与部16がタグを付与したタグ付コンテンツを、検索用DB3に登録する。ここで、タグ付コンテンツ登録部17は、コンテンツが検索用DB3に記憶されているものである場合には、検索用DB3に記憶されているコンテンツをタグ付コンテンツに更新してもよい。
これらの各機能の詳細については、後述する。
The tagging
The tagged content registration unit 17 registers the tagged content to which the tag is attached by the tagging
Details of each of these functions will be described later.
記憶部20は、タグ付与支援サーバ1の動作に必要なプログラム、データ等を記憶するためのハードディスク、半導体メモリ素子等の記憶装置である。
記憶部20は、プログラム記憶部21と、キーワード辞書22と、学習モデル記憶部23とを備える。
プログラム記憶部21は、タグ付与支援サーバ1として機能させるための各種のプログラムを記憶する記憶領域である。プログラム記憶部21は、タグ付与支援プログラム21aを記憶している。タグ付与支援プログラム21aは、上述した制御部10の各機能を実行するためのプログラムである。
The storage unit 20 is a storage device such as a hard disk or a semiconductor memory device for storing programs, data, etc. necessary for the operation of the tagging support server 1.
The storage unit 20 includes a
The
キーワード辞書22は、キーワードを記憶する記憶領域である。キーワード辞書22は、予めタグとして用いるための複数のキーワード(語)が記憶されている。なお、キーワード辞書22には、キーワードのみならず、キーフレーズを記憶していてもよい。
学習モデル記憶部23は、種々の学習モデルを記憶するための記憶領域である。学習モデル記憶部23は、例えば、テキストの文脈から固有名詞を抽出する学習モデルを記憶していてもよい。
通信インタフェース部29は、検索用DB3や、関連語辞書4や、端末7との間で通信を行うためのインタフェースである。
The keyword dictionary 22 is a storage area that stores keywords. The keyword dictionary 22 stores in advance a plurality of keywords (words) to be used as tags. Note that the keyword dictionary 22 may store not only keywords but also key phrases.
The learning model storage unit 23 is a storage area for storing various learning models. The learning model storage unit 23 may store, for example, a learning model for extracting proper nouns from the context of a text.
The communication interface unit 29 is an interface for communicating with the
<検索用DB3>
検索用DB3は、コンテンツを記憶するデータベースである。コンテンツ検索支援システム100のタグ付与支援サーバ1による処理が行われる前は、検索用DB3には、タグの付与がされていないコンテンツが記憶されていてもよい。検索用DB3に記憶され、タグの付与がされていないコンテンツは、タグ付与支援サーバ1によってタグが付与されて、タグ付コンテンツとして検索用DB3に記憶される。
また、検索用DB3は、コンテンツ検索サーバ5によるコンテンツの検索時に用いられる。
<関連語辞書4>
関連語辞書4は、例えば、一般的な関連語を掲載した辞書である。関連語辞書4は、同一又は類似の意味を持つ複数の関連語が関連付けられて記憶されている。関連語辞書4は、例えば、シソーラスであってもよい。
<Search DB3>
The
Further, the
<
The
<コンテンツ検索サーバ5>
コンテンツ検索サーバ5は、タグ付コンテンツが記憶された検索用DB3から検索語に基づくタグを有するコンテンツを検索して抽出する処理を行うサーバである。
図2(B)に、コンテンツ検索サーバ5の機能ブロックを示す。
図2(B)に示すコンテンツ検索サーバ5は、制御部50と、記憶部60と、通信インタフェース部69とを備える。
<Content search server 5>
The content search server 5 is a server that performs a process of searching and extracting content having a tag based on a search word from the
FIG. 2(B) shows functional blocks of the content search server 5.
The content search server 5 shown in FIG. 2(B) includes a control section 50, a storage section 60, and a
制御部50は、コンテンツ検索サーバ5の全体を制御するCPUである。制御部50は、記憶部60に記憶されているOSや、各種のアプリケーションプログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、各種機能を実行する。
制御部50は、検索語受付部51(検索語受付手段)と、検索関連語取得部52(検索関連語取得手段)と、コンテンツ抽出部53(コンテンツ抽出手段)と、一覧生成処理部54(タグ一覧出力手段)と、タグ選択処理部55(タグ選択受付手段、コンテンツ一覧出力手段)とを備える。
The control unit 50 is a CPU that controls the entire content search server 5. The control unit 50 cooperates with the above-mentioned hardware and executes various functions by appropriately reading and executing the OS and various application programs stored in the storage unit 60.
The control unit 50 includes a search term reception unit 51 (search term reception unit), a search related term acquisition unit 52 (search related term acquisition unit), a content extraction unit 53 (content extraction unit), and a list generation processing unit 54 ( tag list output means) and a tag selection processing section 55 (tag selection reception means, content list output means).
検索語受付部51は、端末8から検索語を受け付ける。
検索関連語取得部52は、検索語受付部51が受け付けた検索語に関連する関連語を、関連語辞書4から取得する。
コンテンツ抽出部53は、検索語受付部51が受け付けた検索語及び検索関連語取得部52が取得した関連語のいずれかに合致するタグを有するタグ付コンテンツを、検索用DB3から抽出する。
The search term accepting unit 51 accepts search terms from the
The search related
The content extraction unit 53 extracts tagged content having a tag that matches either the search term accepted by the search term acceptance unit 51 or the related term acquired by the search related
一覧生成処理部54は、コンテンツ抽出部53が抽出したタグ付コンテンツに基づいて、タグごとのタグ一覧を生成して、端末8に出力する。
タグ選択処理部55は、タグ一覧から一のタグの選択を受け付けて、受け付けたタグが付与されたタグ付コンテンツの一覧を生成して、端末8に出力する。
これらの各機能の詳細については、後述する。
The list generation processing unit 54 generates a tag list for each tag based on the tagged content extracted by the content extraction unit 53 and outputs it to the
The tag selection processing unit 55 receives the selection of one tag from the tag list, generates a list of tagged contents to which the accepted tag is added, and outputs the list to the
Details of each of these functions will be described later.
記憶部60は、コンテンツ検索サーバ5の動作に必要なプログラム、データ等を記憶するためのハードディスク、半導体メモリ素子等の記憶装置である。
記憶部60は、プログラム記憶部61を備える。
プログラム記憶部61は、コンテンツ検索サーバ5として機能させるための各種のプログラムを記憶する記憶領域である。プログラム記憶部61は、コンテンツ検索プログラム61aを記憶している。コンテンツ検索プログラム61aは、上述した制御部50の各機能を実行するためのプログラムである。
通信インタフェース部69は、検索用DB3や、関連語辞書4や、端末8との間で通信を行うためのインタフェースである。
The storage unit 60 is a storage device such as a hard disk or a semiconductor memory device for storing programs, data, etc. necessary for the operation of the content search server 5.
The storage unit 60 includes a
The
The
なお、コンピュータとは、制御部、記憶装置等を備えた情報処理装置をいい、タグ付与支援サーバ1及びコンテンツ検索サーバ5は、共に制御部、記憶部等を備えた情報処理装置であり、コンピュータの概念に含まれる。
また、タグ付与支援サーバ1や、コンテンツ検索サーバ5は、それぞれ1つのサーバに限定されるものではない。複数のサーバで構成されていてもよく、タグ付与支援サーバ1や、コンテンツ検索サーバ5を構成するハードウェアの数に制限はない。
Note that a computer refers to an information processing device equipped with a control section, a storage device, etc., and the tagging support server 1 and the content search server 5 are both information processing devices equipped with a control section, a storage section, etc. included in the concept of
Further, the tagging support server 1 and the content search server 5 are not limited to one server each. It may be composed of a plurality of servers, and there is no limit to the number of hardware that constitutes the tagging support server 1 and the content search server 5.
例えば、タグ付与支援サーバ1や、コンテンツ検索サーバ5のハードウェアは、必要に応じてWebサーバ、DB(データベース)サーバ、アプリケーションサーバ等の各種サーバを含んで構成してもよく、1台のサーバで構成しても、それぞれ別のサーバで構成してもよい。また、タグ付与支援サーバ1や、コンテンツ検索サーバ5は、例えば、クラウドであってもよい。
さらに、タグ付与支援サーバ1と、コンテンツ検索サーバ5との機能を有する1つのサーバにより実現されてもよい。
For example, the hardware of the tagging support server 1 and the content search server 5 may be configured to include various servers such as a Web server, a DB (database) server, and an application server, as necessary. It may be configured with , or each may be configured with separate servers. Further, the tagging support server 1 and the content search server 5 may be, for example, a cloud.
Furthermore, it may be realized by one server having the functions of the tagging support server 1 and the content search server 5.
<端末7、8>
図1に示す端末7は、例えば、コンテンツを作成するユーザや、コンテンツに対してタグ付けを行うユーザが使用する端末である。
また、端末8は、例えば、検索用DB3に記憶されたコンテンツを検索したいユーザが使用する端末である。
端末7及び端末8は、それぞれ、例えば、パーソナルコンピュータ(PC)や、タブレット端末等で構成することができる。図示していないが、端末7及び端末8は、各々制御部、記憶部、表示部、入力部、通信インタフェース部等を備える。
なお、端末7と端末8とは、別の端末ではなく、同一の端末で両機能を行ってもよい。
<
The
Further, the
The
Note that the
<コンテンツの説明>
次に、コンテンツ検索支援システム100で扱うコンテンツの例を説明する。
図3は、本実施形態に係るタグ付与支援サーバ1でタグを付与するコンテンツ30の例を示す図である。
図3に示すコンテンツ30は、ある企業の商材に関するウェブページである。コンテンツ30は、商材に関する説明が、テキスト文書によってされている。
コンテンツ30は、商材に関する様々な情報を含む。特に、「概要」や「特長」の箇所には、当該コンテンツ30の内容を端的に表す内容が含まれている。
以降の例では、検索用DB3に記憶されるコンテンツ30は、図3に例示したような、コンテンツ検索支援システム100を導入する企業の商材に関するウェブページであるとして説明する。また、タグ付与に係る処理の際には、コンテンツ30のうち、「概要」及び「特長」の箇所に対して処理を行うものとする。
<Content description>
Next, an example of content handled by the content
FIG. 3 is a diagram showing an example of
In the following example, the
<処理の説明>
次に、タグ付与支援サーバ1の処理について説明する。
図4は、本実施形態に係るタグ付与支援サーバ1のコンテンツタグ付与処理を示すフローチャートである。
この処理の前提として、検索用DB3には、タグが付与されていないコンテンツが少なくとも記憶されている。なお、検索用DB3には、タグ付コンテンツが記憶されていてもよい。
<Processing explanation>
Next, the processing of the tagging support server 1 will be explained.
FIG. 4 is a flowchart showing the content tagging process of the tagging support server 1 according to the present embodiment.
As a premise of this process, the
図4のステップS(以下、単に「S」という。)11において、制御部10(コンテンツ取得部11)は、検索用DB3からタグが付与されていないコンテンツを抽出する。ここで、タグが付与されていないコンテンツが複数抽出された場合には、制御部10は、コンテンツごとに、S12以降の処理を行う。
S12において、制御部10(文字列抽出処理部12)は、コンテンツにおける一部の文字列を、コンテンツから抽出する文字列抽出処理を行う。コンテンツにおける一部の文字列をコンテンツから抽出する処理には、複数の方法が想定され、いずれの方法を用いてもよい。
In step S (hereinafter simply referred to as "S") 11 in FIG. 4, the control unit 10 (content acquisition unit 11) extracts untagged content from the
In S12, the control unit 10 (character string extraction processing unit 12) performs character string extraction processing to extract some character strings in the content from the content. A plurality of methods can be assumed for the process of extracting a part of character strings from the content, and any of the methods may be used.
ここで、文字列を抽出する処理について、実施例に基づき説明する。
(実施例1)
実施例1は、キーワード辞書22を用いるものである。
制御部10は、キーワード辞書22に登録されているキーワードが、コンテンツに含まれるか否かを、キーワード辞書22を参照してキーワードごとに確認する。
そして、制御部10は、キーワード辞書22のキーワードであって、コンテンツに含まれるキーワードを、タグ付けをする文字列として取得する。
例えば、キーワード辞書22に「電子レンジ」、「加熱処理」、「耐熱仕様」、「パウチ」のキーワードが登録されている場合には、図3に示すコンテンツ30では、上記のキーワードの全てが取得される。
Here, the process of extracting a character string will be explained based on an example.
(Example 1)
In the first embodiment, a keyword dictionary 22 is used.
The control unit 10 refers to the keyword dictionary 22 and checks for each keyword whether the keyword registered in the keyword dictionary 22 is included in the content.
Then, the control unit 10 acquires a keyword included in the content, which is a keyword from the keyword dictionary 22, as a character string to be tagged.
For example, if the keywords "microwave oven,""heattreatment,""heat-resistantspecifications," and "pouch" are registered in the keyword dictionary 22, all of the above keywords are acquired in the
(実施例2)
実施例2は、コンテンツから名詞を抽出し、所定の名詞をキーワードとして抽出するものである。
制御部10は、コンテンツのテキストに対して、例えば、形態素解析を行って名詞を抽出する。
そして、制御部10は、抽出した名詞のうち、例えば、複合名詞や固有名詞を、タグ付けをする文字列として取得する。また、制御部10は、抽出した名詞のうち出現数が閾値以上である頻出する名詞を、タグ付けをする文字列として取得してもよい。
図3に示すコンテンツ30では、複合名詞や固有名詞として、例えば、「電子レンジ」や、「加熱処理」、「耐熱仕様」、「○○(固有名詞)」が、文字列として取得される。また、コンテンツ30では、頻出する名詞として、例えば、「レンジ」が、文字列として取得される。
(Example 2)
In the second embodiment, nouns are extracted from content, and predetermined nouns are extracted as keywords.
The control unit 10 performs, for example, morphological analysis on the text of the content to extract nouns.
Then, the control unit 10 acquires, for example, a compound noun or a proper noun from among the extracted nouns as a character string to be tagged. Furthermore, the control unit 10 may acquire frequently appearing nouns whose number of appearances is equal to or greater than a threshold value among the extracted nouns, as character strings to be tagged.
In the
(実施例3)
実施例3は、コンテンツから名詞を抽出し、統計値を用いてキーワードを抽出するものである。
制御部10は、検索用DB3に登録されたコンテンツ(タグ付であってもなくてもよい)を用いて、抽出した名詞に対して重要度を示すスコアを付与する。
このスコアの付与は、例えば、TF-IDFを用いて行うことができる。
ここで、TF-IDFは、その文書の特徴語を抽出する時に使う値であり、いくつかの文書があったときに、それらに出てくる単語とその頻度とから、ある文書にとって重要な単語は何かということを数値化するものである。TF(Term Frequency)とは、文書内の出現数を表し、ある文書内で出現する回数が多ければ、その単語は重要である可能性が高いことを示す。IDF(Inversed Document Frequency)は、単語の出現文書数であり、多くの文書に出現している単語は特徴語になりにくいことを示す。
そして、制御部10は、TF-IDFを用いて算出された閾値以上のスコアを有する名詞を、文字列として抽出する。
(Example 3)
In the third embodiment, nouns are extracted from content and keywords are extracted using statistical values.
The control unit 10 uses the content (which may or may not be tagged) registered in the
This scoring can be done using, for example, TF-IDF.
Here, TF-IDF is a value used when extracting the characteristic words of the document, and when there are several documents, the important words for a certain document are determined from the words that appear in them and their frequency. It is something that quantifies what something is. TF (Term Frequency) represents the number of occurrences in a document, and the more times a word appears in a document, the more likely it is to be important. IDF (Inversed Document Frequency) is the number of documents in which a word appears, and indicates that a word that appears in many documents is unlikely to become a feature word.
Then, the control unit 10 extracts nouns having scores equal to or higher than the threshold value calculated using TF-IDF as character strings.
(実施例4)
実施例4は、学習モデルを用いて、テキストの文脈から固有名詞を抽出するものである。
ここで、学習モデルとしては、例えば、BERT(Bidirectional Encoder Representations from Transformers)-CRF(Conditional Random Fields)等のディープラーニングを用いて学習することができる。
(Example 4)
Example 4 uses a learning model to extract proper nouns from the context of a text.
Here, as the learning model, for example, deep learning such as BERT (Bidirectional Encoder Representations from Transformers) and CRF (Conditional Random Fields) can be used for learning.
なお、制御部10は、文字列の抽出において、上記で説明した実施例のいずれかの方法を用いてもよいし、複数の方法を用いてもよい。
制御部10は、例えば、実施例1で取得したキーワードの全てを文字列とするのではなく、その中からキーワードの出現数が複数回のものを文字列としてもよい。
Note that the control unit 10 may use any of the methods in the embodiments described above, or may use a plurality of methods, in extracting the character string.
For example, the control unit 10 may not use all of the keywords acquired in the first embodiment as character strings, but may use keywords that appear a plurality of times as character strings.
図4のS13において、制御部10は、S12の処理で抽出した文字列に関連する関連語を、関連語辞書4から取得する。
例えば、文字列として「在宅勤務」を抽出した場合に、制御部10は、関連語辞書4を参照し、同義語として、例えば、「テレワーク」を、関連語として、例えば、「オンラインシステム」を、それぞれ取得する。
S14において、制御部10(タグ付与部16)は、S12の処理で抽出した文字列と、S13の処理で取得した関連語とをタグとして、当該コンテンツに付与する。
S15において、制御部10(タグ付コンテンツ登録部17)は、タグが付与されたタグ付コンテンツに、S11の処理で抽出したコンテンツから置き換えることで、タグが付与されたタグ付コンテンツを検索用DB3に登録する。その後、制御部10は、本処理を終了する。
In S13 of FIG. 4, the control unit 10 acquires related words related to the character string extracted in the process of S12 from the
For example, when extracting "telework" as a character string, the control unit 10 refers to the
In S14, the control unit 10 (tagging unit 16) adds the character string extracted in the process of S12 and the related word acquired in the process of S13 as a tag to the content.
In S15, the control unit 10 (tagged content registration unit 17) replaces the tagged content with the tag with the content extracted in the process of S11, so that the tagged content with the tag is stored in the
なお、上記では、既に検索用DB3に登録されているコンテンツについて、タグを付与するものを説明した。このコンテンツ検索支援システム100を導入する際には、当該処理を行うことで、検索用DB3に格納済のタグが付与されていないコンテンツに、タグを付与することができる。
Note that in the above description, tags are added to content already registered in the
また、例えば、コンテンツを端末7から検索用DB3に登録する際にも、タグ付与支援サーバ1は、コンテンツタグ付与処理を行うことができる。その際には、例えば、図4のS11の処理の代わりに、制御部10(コンテンツ取得部11)は、端末7からコンテンツを取得する。そして、例えば、S13の処理の後に、制御部10(文字列出力部14)は、抽出した文字列及び関連語を端末7に出力し、端末7のユーザが、タグの候補になる文字列を確認できるようにしてもよい。そして、制御部10(指定文字列受付部15)は、ユーザが指定した指定文字列を端末7から受け付けることで、S14において、制御部10(タグ付与部16)は、端末7から受け付けた指定文字列をタグとして、当該コンテンツに付与する。
このようにすれば、タグ付与支援サーバ1は、ユーザが確認したタグの候補からユーザが指定したタグを、コンテンツに付与することができる。
Also, for example, when registering content from the
In this way, the tagging support server 1 can add the tag specified by the user from the tag candidates confirmed by the user to the content.
次に、コンテンツ検索サーバ5の処理につい説明する。
図5は、本実施形態に係るコンテンツ検索サーバ5のコンテンツ検索処理を示すフローチャートである。
図6及び図7は、本実施形態に係る端末8での表示例を示す図である。
図5のS51において、制御部50(検索語受付部51)は、コンテンツを検索する検索語を、端末8から受け付ける。検索語は、端末8のユーザが指定するキーワードである。
Next, the processing of the content search server 5 will be explained.
FIG. 5 is a flowchart showing content search processing by the content search server 5 according to this embodiment.
6 and 7 are diagrams showing display examples on the
In S51 of FIG. 5, the control unit 50 (search term accepting unit 51) accepts a search term for searching for content from the
S52において、制御部50(検索関連語取得部52)は、S51で受け付けた検索語に関連する関連語を、関連語辞書4から取得する。
S53において、制御部50(コンテンツ抽出部53)は、S51で受け付けた検索語と、S52の処理で取得した関連語のいずれかに合致するタグを有するタグ付コンテンツを、検索用DB3から抽出する。
S54において、制御部50(一覧生成処理部54)は、抽出したタグ付コンテンツに基づいてタグごとに一覧にしたタグ一覧を生成し、生成したタグ一覧を端末8に出力する。
In S52, the control unit 50 (search related term acquisition unit 52) acquires related terms related to the search term accepted in S51 from the
In S53, the control unit 50 (content extraction unit 53) extracts, from the
In S54, the control unit 50 (list generation processing unit 54) generates a tag list for each tag based on the extracted tagged content, and outputs the generated tag list to the
S55において、制御部50(タグ選択処理部55)は、ユーザによるタグ一覧から一のタグの選択を、端末8から受け付けたか否かを判断する。一のタグの選択を受け付けた場合(S55:YES)には、制御部50は、処理をS56に移す。他方、一のタグの選択を受け付けていない場合(S55:NO)には、制御部50は、本処理を終了する。
S56において、制御部50(タグ選択処理部55)は、受け付けたタグが付与されたタグ付コンテンツの一覧を生成し、生成したコンテンツの一覧を端末8に出力する。その後、制御部50は、本処理を終了する。
In S55, the control unit 50 (tag selection processing unit 55) determines whether or not the user's selection of one tag from the tag list is received from the
In S56, the control unit 50 (tag selection processing unit 55) generates a list of tagged contents to which the accepted tags have been added, and outputs the generated list of contents to the
図6は、端末8に出力されたタグ一覧画面80の例を示す。
検索する際のタグ一覧画面80には、検索条件領域81のみが表示されている。そして、端末8において、ユーザが、検索条件領域81にある検索語入力領域81aに検索語を指定し、検索ボタン81bの選択操作をすると、タグ一覧画面80は、検索条件領域81の下側に一覧領域82を含むものに変更される。
図6に示すタグ一覧画面80では、検索条件領域81の条件としてキーワード検索が指定された状態で、検索語入力領域81aに「セキュリティ」を指定した場合の検索結果画面である。制御部50は、検索用DB3から検索語「セキュリティ」と、「セキュリティ」の関連語とのいずれかを含むタグを有するタグ付コンテンツを取得する。そして、制御部50は、取得したタグ付コンテンツに付与されたタグごとに、タグ付コンテンツの数を集計して、タグ及び集計数を含むタグ一覧を生成して出力する。
FIG. 6 shows an example of a
Only the
The
なお、図6に示すタグ一覧画面80の例では、トピックと記載された一覧については、上記のコンテンツ検索処理によって作成されたものである。他方、対象分野や技術分野と記載された一覧は、タグ付コンテンツのうち、所定箇所に基づいて作成されたものである。
そして、ユーザが1つのトピックを選択する操作(一のタグの選択操作)をすることで、制御部50は、図7に示すコンテンツ一覧画面90を、端末8に出力する。
In the example of the
Then, when the user performs an operation to select one topic (select operation for one tag), the control unit 50 outputs a
コンテンツ一覧画面90は、概要領域91を含み、各コンテンツの概要を出力するものである。
概要領域91は、タグ領域91aを含む。タグ領域91aは、概要領域91に出力されているコンテンツに付与されているタグを出力する領域である。各タグには、文字列とカッコ内の数字とが記載されている。カッコ内の数字は、当該文字列がタグとして付与されている検索用DB3に格納されたタグ付コンテンツの数を示す。
ユーザがタグ領域91aにあるタグを選択すると、コンテンツ一覧画面90の上部にある検索領域92の入力領域には、選択されたタグが出力されるので、さらに当該タグが付与されたコンテンツを検索して出力することも可能である。
The
When the user selects a tag in the
このように、本実施形態によれば、コンテンツ検索支援システム100は、以下のような効果がある。
(1)タグ付与支援サーバ1は、コンテンツにおける一部の文字列をコンテンツから抽出し、抽出した文字列を、コンテンツにタグ付けし、タグ付コンテンツを、検索用DB3に記憶させる。
よって、タグ付与支援サーバ1は、コンテンツに適したタグを、コンテンツに付与することができる。
As described above, according to this embodiment, the content
(1) The tagging support server 1 extracts some character strings from the content, tags the extracted character strings to the content, and stores the tagged content in the
Therefore, the tagging support server 1 can add tags suitable for the content to the content.
(2)タグ付与支援サーバ1は、キーワード辞書22に記憶されたキーワードがコンテンツに含まれる場合に、キーワードを文字列として抽出する。
よって、キーワード辞書22に記憶されたキーワードを、タグとして取得することができるため、より簡単な処理によってコンテンツに適したタグをコンテンツに付与することができる。また、キーワード辞書22に依存したタグを付与することができるため、付与するタグのばらつきを抑えることができる。
(2) When the keyword stored in the keyword dictionary 22 is included in the content, the tagging support server 1 extracts the keyword as a character string.
Therefore, the keywords stored in the keyword dictionary 22 can be acquired as tags, so tags suitable for the content can be added to the content through simpler processing. Furthermore, since tags can be added depending on the keyword dictionary 22, variations in tags to be added can be suppressed.
(3)タグ付与支援サーバ1は、コンテンツのテキストを解析して名詞を抽出し、抽出した名詞のうち所定の名詞を、文字列として抽出する。
また、抽出した名詞のうち、当該コンテンツに有する当該名詞の出現数が閾値以上である所定の名詞を、文字列として抽出する。
さらに、検索用DB3に登録されたタグ付コンテンツを用いて、抽出した名詞に対して重要度を示すスコアを付与し、閾値以上のスコアを有する所定の名詞を、文字列として抽出する。
よって、例えば、複合名詞や固有名詞等をタグとして付与することができ、付与したタグは、コンテンツの特徴を表すものになり得る。
また、出現数が多い名詞をタグとして付与することができ、付与したタグは、コンテンツの特徴を表すものになり得る。
さらに、重要度を示すスコアが閾値以上の名詞をタグとして付与することができ、付与したタグは、コンテンツの特徴を表すものになり得る。
(3) The tagging support server 1 analyzes the text of the content to extract nouns, and extracts predetermined nouns from among the extracted nouns as character strings.
Further, among the extracted nouns, a predetermined noun whose appearance count in the content is equal to or greater than a threshold is extracted as a character string.
Furthermore, using the tagged content registered in the
Therefore, for example, a compound noun, a proper noun, or the like can be added as a tag, and the added tag can represent the characteristics of the content.
Further, nouns that appear frequently can be added as tags, and the added tags can represent characteristics of the content.
Furthermore, a noun whose score indicating importance is equal to or higher than a threshold value can be added as a tag, and the added tag can represent a feature of the content.
(4)タグ付与支援サーバ1は、学習モデル記憶部23に記憶され、テキストから固有名詞を抽出する学習モデルを用いて、コンテンツから固有名詞である文字列を抽出する。
よって、より簡単な処理によって抽出した固有名詞を、タグとして付与することができ、付与したタグは、コンテンツの特徴を表すものになり得る。
(4) The tagging support server 1 extracts character strings that are proper nouns from the content using a learning model that is stored in the learning model storage unit 23 and that extracts proper nouns from text.
Therefore, proper nouns extracted through simpler processing can be added as tags, and the added tags can represent the characteristics of the content.
(5)タグ付与支援サーバ1は、抽出した文字列に関連する関連語を、関連語辞書4から取得し、取得した関連語を、コンテンツにさらにタグ付けする。
よって、コンテンツに付与するタグを拡張することができる。
(5) The tagging support server 1 obtains related words related to the extracted character string from the
Therefore, tags added to content can be expanded.
(6)タグ付与支援サーバ1は、抽出した文字列を出力し、出力した文字列のうちユーザによって指定された指定文字列を受け付け、受け付けた指定文字列を、コンテンツにタグ付けする。
よって、コンテンツに付与するタグの候補をユーザに提示することができる。そして、タグの候補のうちユーザが指定したタグを、コンテンツに付与することができる。その結果、ユーザが不適切と考えたタグを付与しないようにできる。
(6) The tagging support server 1 outputs the extracted character strings, receives a designated character string designated by the user from among the outputted character strings, and tags the content with the received designated character string.
Therefore, candidates for tags to be added to content can be presented to the user. Then, the tag specified by the user among the tag candidates can be added to the content. As a result, tags that the user considers inappropriate can be prevented from being added.
(7)コンテンツ検索サーバ5は、受け付けた検索語に関連する関連語を、関連語辞書4から取得し、検索語及び関連語のいずれかに合致するタグを有するタグ付コンテンツを、検索用DB3から抽出して、抽出したタグ付コンテンツに基づいて、タグごとのタグ一覧を生成して出力する。
よって、タグ付与支援サーバ1によりタグが付与されたコンテンツについて、タグを用いて検索ができる。その際、検索語に合致するタグのみならず、検索語の関連語に合致するタグが付与されたコンテンツを抽出するので、検索により抽出されるコンテンツの幅を広げることができる。
(7) The content search server 5 acquires related words related to the received search word from the
Therefore, content that has been tagged by the tagging support server 1 can be searched using the tag. At this time, not only content tagged with a tag matching the search term but also a tag matching a word related to the search term is extracted, so the range of content extracted by the search can be expanded.
(8)コンテンツ検索サーバ5は、タグ一覧から一のタグの選択を受け付け、受け付けたタグが付与されたタグ付コンテンツのコンテンツ一覧を出力する。そして、コンテンツ一覧は、タグ付コンテンツに付与されたタグを含む。
よって、タグを用いて、さらに当該タグが付与されたタグ付コンテンツを検索することができる。
(8) The content search server 5 accepts the selection of one tag from the tag list, and outputs a content list of tagged content to which the accepted tag has been added. The content list includes tags added to tagged content.
Therefore, using the tag, it is possible to further search for tagged content to which the tag has been added.
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されるものではない。また、実施形態に記載した効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載したものに限定されない。なお、上述した実施形態及び後述する変形形態は、適宜組み合わせて用いることもできるが、詳細な説明は省略する。 Although the embodiments of the present invention have been described above, the present invention is not limited to the embodiments described above. Further, the effects described in the embodiments are merely a list of the most preferable effects resulting from the present invention, and the effects of the present invention are not limited to those described in the embodiments. In addition, although the embodiment mentioned above and the modification mentioned later can be used in combination suitably, detailed description is abbreviate|omitted.
(変形形態)
(1)本実施形態では、コンテンツのうち所定の箇所の記載からタグとして付与する文字列を抽出するものを例に説明したが、これに限定されない。文字列を抽出する対象は、別の箇所であってもよいし、コンテンツの全ての記載であってもよい。しかしながら、コンテンツの特徴が記載された箇所を含んで文字列を抽出するのがより望ましい。
(Deformed form)
(1) In the present embodiment, an example has been described in which a character string to be added as a tag is extracted from the description of a predetermined portion of the content, but the present invention is not limited to this. The target for extracting character strings may be another location or all descriptions of the content. However, it is more desirable to extract a character string that includes a portion where the characteristics of the content are described.
(2)本実施形態では、タグが付与されていないコンテンツを対象としてタグを付与するものを例に説明したが、これに限定されない。既に他の手法によりタグが付与されているコンテンツであってもよい。その場合には、タグ付与支援サーバで付与したタグと、既に付与されているタグとを別管理にしてもよい。そのようにすれば、既存のシステムで用いられているコンテンツについても、新たな検索処理としてコンテンツ検索サーバによる処理によりコンテンツを検索することができる。特に、データの移行処理等を簡単に行うことができる。 (2) In the present embodiment, an example has been described in which tags are added to content that is not tagged, but the present invention is not limited to this. It may be content that has already been tagged using another method. In that case, the tags assigned by the tag assignment support server and the tags that have already been assigned may be managed separately. In this way, content that is used in an existing system can be searched for by processing by the content search server as a new search process. In particular, data migration processing and the like can be easily performed.
1 タグ付与支援サーバ
3 検索用DB
4 関連語辞書
5 コンテンツ検索サーバ
7,8 端末
10,50 制御部
11 コンテンツ取得部
12 文字列抽出処理部
13 関連語取得部
14 文字列出力部
15 指定文字列受付部
16 タグ付与部
17 タグ付コンテンツ登録部
20,60 記憶部
21a タグ付与支援プログラム
22 キーワード辞書
23 学習モデル記憶部
30 コンテンツ
51 検索語受付部
52 検索関連語取得部
53 コンテンツ抽出部
54 一覧生成処理部
55 タグ選択処理部
61a コンテンツ検索プログラム
80 タグ一覧画面
90 コンテンツ一覧画面
100 コンテンツ検索支援システム
N 通信ネットワーク
1
4 Related word dictionary 5
Claims (11)
前記文字列抽出手段が抽出した前記文字列を、前記コンテンツにタグ付けするタグ付与手段と、
前記タグ付与手段がタグ付けをしたタグ付コンテンツを、検索用データベースに記憶させるコンテンツ登録手段と、
を備える、タグ付与支援装置。 Character string extraction means for extracting a part of character strings in content having text from the content;
tagging means for tagging the content with the character string extracted by the character string extraction means;
Content registration means for storing the tagged content tagged by the tagging means in a search database;
A tagging support device comprising:
キーワードを記憶したキーワード記憶部を備え、
前記文字列抽出手段は、前記キーワード記憶部に記憶された前記キーワードが前記コンテンツに含まれる場合に、前記キーワードを前記文字列として抽出する、タグ付与支援装置。 The tagging support device according to claim 1,
Equipped with a keyword storage unit that stores keywords,
The character string extraction means is a tagging support device that extracts the keyword as the character string when the keyword stored in the keyword storage unit is included in the content.
前記コンテンツの前記テキストを解析して名詞を抽出する名詞抽出手段を備え、
前記文字列抽出手段は、前記名詞抽出手段が抽出した前記名詞のうち所定の名詞を、前記文字列として抽出する、タグ付与支援装置。 The tagging support device according to claim 1,
comprising noun extraction means for analyzing the text of the content and extracting nouns,
The character string extraction means is a tagging support device that extracts a predetermined noun from among the nouns extracted by the noun extraction means as the character string.
前記文字列抽出手段は、前記名詞抽出手段が抽出した前記名詞のうち、前記テキストに有する前記名詞の出現数が閾値以上である前記所定の名詞を、前記文字列として抽出する、タグ付与支援装置。 In the tagging support device according to claim 3,
The character string extraction means is a tagging support device that extracts, as the character string, the predetermined noun, of which the number of occurrences of the noun in the text is equal to or greater than a threshold value, from among the nouns extracted by the noun extraction means. .
前記文字列抽出手段は、前記検索用データベースに登録された前記タグ付コンテンツを用いて、前記名詞抽出手段が抽出した前記名詞に対して重要度を示すスコアを付与し、閾値以上の前記スコアを有する前記所定の名詞を、前記文字列として抽出する、タグ付与支援装置。 In the tagging support device according to claim 3,
The character string extraction means uses the tagged content registered in the search database to assign a score indicating importance to the noun extracted by the noun extraction means, and assigns a score that is equal to or higher than a threshold. A tagging support device that extracts the predetermined noun having the character string as the character string.
前記文字列抽出手段は、テキストの文脈から固有名詞を抽出する学習モデルを用いて前記コンテンツから固有名詞である前記文字列を抽出する、タグ付与支援装置。 The tagging support device according to claim 1,
The character string extraction means is a tagging support device that extracts the character string that is a proper noun from the content using a learning model that extracts a proper noun from the context of a text.
前記文字列抽出手段が抽出した前記文字列に関連する関連語を、複数の関連語を記憶した関連語記憶部から取得する関連語取得手段を備え、
前記タグ付与手段は、前記関連語取得手段が取得した前記関連語を、前記コンテンツにさらにタグ付けする、タグ付与支援装置。 In the tagging support device according to any one of claims 1 to 6,
comprising a related word acquisition means for acquiring a related word related to the character string extracted by the character string extraction means from a related word storage unit storing a plurality of related words;
The tagging device further tags the content with the related word acquired by the related word acquiring device.
前記文字列抽出手段が抽出した前記文字列を出力する文字列出力手段と、
前記文字列出力手段が出力した前記文字列のうちユーザによって指定された指定文字列を受け付ける指定文字列受付手段と、
を備え、
前記タグ付与手段は、前記指定文字列受付手段が受け付けた前記指定文字列を、前記コンテンツにタグ付けする、タグ付与支援装置。 In the tagging support device according to any one of claims 1 to 6,
a character string output means for outputting the character string extracted by the character string extraction means;
specified character string receiving means for receiving a specified character string specified by a user from among the character strings output by the character string output means;
Equipped with
The tagging means is a tagging support device for tagging the content with the designated character string received by the designated character string receiving means.
テキストを有するコンテンツにおける一部の文字列を、前記コンテンツから抽出する文字列抽出手段と、
前記文字列抽出手段が抽出した前記文字列を、前記コンテンツにタグ付けするタグ付与手段と、
前記タグ付与手段がタグ付けをしたタグ付コンテンツを、検索用データベースに記憶させるコンテンツ登録手段と、
として機能させるためのプログラム。 computer,
Character string extraction means for extracting a part of character strings in content having text from the content;
tagging means for tagging the content with the character string extracted by the character string extraction means;
Content registration means for storing the tagged content tagged by the tagging means in a search database;
A program to function as
検索語を受け付ける検索語受付手段と、
前記検索語受付手段が受け付けた前記検索語に関連する関連語を、複数の関連語を記憶した関連語記憶部から取得する検索関連語取得手段と、
前記検索語受付手段が受け付けた前記検索語及び前記検索関連語取得手段が取得した前記関連語のいずれかに合致するタグを有する前記タグ付コンテンツを、前記検索用データベースから抽出するコンテンツ抽出手段と、
前記コンテンツ抽出手段が抽出した前記タグ付コンテンツに基づいて、前記タグごとのタグ一覧を生成して出力するタグ一覧出力手段と、
を備える、コンテンツ検索装置。 A content search device communicably connected to the search database in which the tagged content tagged by the tagging support device according to claim 1 is stored,
a search term reception means for accepting a search term;
Search related word acquisition means for acquiring related words related to the search word accepted by the search word reception means from a related word storage unit storing a plurality of related words;
Content extracting means for extracting the tagged content having a tag that matches either the search word accepted by the search word receiving means or the related word obtained by the search related word obtaining means from the search database; ,
tag list output means for generating and outputting a tag list for each of the tags based on the tagged content extracted by the content extraction means;
A content search device comprising:
前記タグ一覧出力手段が出力した前記タグ一覧から一の前記タグの選択を受け付けるタグ選択受付手段と、
前記タグ選択受付手段が受け付けた前記タグが付与された前記タグ付コンテンツの一覧を出力するコンテンツ一覧出力手段と、
を備え、
前記コンテンツ一覧出力手段は、各タグ付コンテンツに付与された前記タグを含む、前記タグ付コンテンツの一覧を出力する、コンテンツ検索装置。 The content search device according to claim 10,
tag selection reception means for accepting selection of one of the tags from the tag list output by the tag list output means;
content list output means for outputting a list of the tagged contents to which the tags received by the tag selection reception means are attached;
Equipped with
The content list output means is a content search device that outputs a list of the tagged content including the tag attached to each tagged content.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2022109501A JP2024008018A (en) | 2022-07-07 | 2022-07-07 | Tagging support device, program and content search device |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2022109501A JP2024008018A (en) | 2022-07-07 | 2022-07-07 | Tagging support device, program and content search device |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2024008018A true JP2024008018A (en) | 2024-01-19 |
Family
ID=89544410
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2022109501A Pending JP2024008018A (en) | 2022-07-07 | 2022-07-07 | Tagging support device, program and content search device |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2024008018A (en) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2025182182A1 (en) * | 2024-02-27 | 2025-09-04 | 富士フイルム株式会社 | Information processing device, information processing method, and information processing program |
-
2022
- 2022-07-07 JP JP2022109501A patent/JP2024008018A/en active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2025182182A1 (en) * | 2024-02-27 | 2025-09-04 | 富士フイルム株式会社 | Information processing device, information processing method, and information processing program |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US10896212B2 (en) | System and methods for automating trademark and service mark searches | |
| US11100124B2 (en) | Systems and methods for similarity and context measures for trademark and service mark analysis and repository searches | |
| Abainia et al. | A novel robust Arabic light stemmer | |
| US8082264B2 (en) | Automated scheme for identifying user intent in real-time | |
| US9594747B2 (en) | Generation of a semantic model from textual listings | |
| US8838633B2 (en) | NLP-based sentiment analysis | |
| US8543580B2 (en) | Mining translations of web queries from web click-through data | |
| US9594730B2 (en) | Annotating HTML segments with functional labels | |
| US20100287162A1 (en) | method and system for text summarization and summary based query answering | |
| CN106960030B (en) | Information pushing method and device based on artificial intelligence | |
| CN112989208B (en) | Information recommendation method and device, electronic equipment and storage medium | |
| CN103064956A (en) | Method, computing system and computer-readable storage media for searching electric contents | |
| WO2010014082A1 (en) | Method and apparatus for relating datasets by using semantic vectors and keyword analyses | |
| CN108319583B (en) | Method and system for extracting knowledge from Chinese language material library | |
| CN1936893B (en) | Method and system for generating input method word frequency database based on Internet information | |
| CN102054024A (en) | Information processing apparatus, information extracting method, program, and information processing system | |
| CN108280081B (en) | Method and device for generating webpage | |
| WO2014040521A1 (en) | Searching method, system and storage medium | |
| CN111160007B (en) | Search method and device based on BERT language model, computer equipment and storage medium | |
| CN110245357B (en) | Main entity identification method and device | |
| CN102550049A (en) | Acquisition of out-of-vocabulary translations by dynamically learning extraction rules | |
| JP2024008018A (en) | Tagging support device, program and content search device | |
| JP6106489B2 (en) | Semantic analyzer and program | |
| RU2711123C2 (en) | Method and system for computer processing of one or more quotes in digital texts for determination of their author | |
| WO2014049310A2 (en) | Method and apparatuses for interactive searching of electronic documents |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20250527 |