JP2018173681A - Search result summarizing apparatus, program and method - Google Patents
Search result summarizing apparatus, program and method Download PDFInfo
- Publication number
- JP2018173681A JP2018173681A JP2017069536A JP2017069536A JP2018173681A JP 2018173681 A JP2018173681 A JP 2018173681A JP 2017069536 A JP2017069536 A JP 2017069536A JP 2017069536 A JP2017069536 A JP 2017069536A JP 2018173681 A JP2018173681 A JP 2018173681A
- Authority
- JP
- Japan
- Prior art keywords
- information
- search result
- content
- search
- user terminal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】インターネット検索の検索結果に含まれる各コンテンツの内容を自動的に抽出・要約して、所定のソフトウェアに入力して要約情報を示す資料等として生成・出力する。【解決手段】ユーザ端末20から送信される検索要求情報に対して検索サーバ30で生成される検索結果情報に基づいて、所定の検索結果要約情報を生成する検索結果要約サーバ10が、検索サーバ30で生成された検索結果情報に含まれる、一又は二以上のコンテンツ情報を特定する識別情報としてURLを受信し、受信したURLに基づいて対応するコンテンツ情報にアクセスし、アクセスしたコンテンツ情報から、所定の重要情報を抽出し、抽出された重要情報を、所定の要約情報として生成し、コンテンツ情報に対応する一又は二以上の要約情報を、該当するユーザ端末20に送信する構成としてある。【選択図】図1The present invention automatically extracts and summarizes the contents of each content included in a search result of an Internet search, inputs the contents into predetermined software, and generates and outputs the data as summary information. A search result summary server that generates predetermined search result summary information based on search result information generated by a search server in response to search request information transmitted from a user terminal. The URL is received as identification information for specifying one or more content information included in the search result information generated in step (b), and the corresponding content information is accessed based on the received URL. The important information is extracted, the extracted important information is generated as predetermined summary information, and one or more summary information corresponding to the content information is transmitted to the corresponding user terminal 20. [Selection] Figure 1
Description
本発明は、インターネット等のネットワークを介してアクセスされ抽出される大量の検索結果に含まれるコンテンツを効率的に参照・閲覧等するための技術に関する。 The present invention relates to a technique for efficiently referencing / browsing content included in a large amount of search results accessed and extracted via a network such as the Internet.
インターネットの普及・拡大に伴い、様々な情報がインターネット等のネットワークを介して収集・参照・引用等されるようになっている。
インターネット上には、大量(無数)の情報、所謂コンテンツが、コンテンツサイト(WEBサイト)として機能する情報処理装置により提供・公開されており、インターネットに接続された端末・装置等を介して、任意のコンテンツにアクセスして種々の情報を閲覧・参照等することができる。
With the spread and expansion of the Internet, various information is collected, referenced, and quoted through a network such as the Internet.
On the Internet, a large amount (infinite number) of information, so-called content, is provided / published by an information processing device functioning as a content site (WEB site), and can be arbitrarily accessed via a terminal / device connected to the Internet. Various contents can be browsed / referenced by accessing the contents.
ここで、インターネット上に無数に存在するコンテンツの中から所望の情報を得ようとする場合には、一般に、検索エンジンサイトと呼ばれるコンテンツサイトが利用される。
ただ、検索エンジンサイトで得られる情報の検索結果は、検索キーワード等が含まれるコンテンツのタイトルやテキストの一部などが、一覧形式で羅列して出力・表示されるだけである。このため、個々のコンテンツの内容を参照するには、検索結果として一覧形式で表示されている各コンテンツサイトのインターネット上のリソース(資源)を特定するURL(Uniform Resource Locator)にリンクされたタイトルやサマリ等を一つずつ選択(クリック)して、該当するコンテンツサイトにアクセスする必要があり、操作や作業が煩瑣な面があった。
Here, in order to obtain desired information from countless contents on the Internet, a content site called a search engine site is generally used.
However, the search result of the information obtained on the search engine site is simply output / displayed in a list format such as the title of the content including the search keyword or a part of the text. For this reason, in order to refer to the contents of individual contents, titles linked to URLs (Uniform Resource Locators) that identify resources on the Internet of each content site displayed in a list format as search results, It is necessary to select (click) the summaries one by one and access the corresponding content site, which is cumbersome to operate and work.
また、各コンテンツサイトで公開されているテキストや画像などの情報を引用して、例えば会議やプレゼンテーションなどに用いる資料等を作成しようとする場合、各コンテンツサイトにアクセスした上で、当該コンテンツで提供されているテキストや画像などを個別に選択して引用する必要がある。このため、特に大量の検索結果が抽出された場合には、有用な資料等を作成することは、極めて煩雑で負荷の大きい作業が要求されることになる。
このようなことから、インターネット検索において、簡易かつ効率的に複数のコンテンツの内容を閲覧・参照でき、必要に応じてコンテンツ内容を引用できるような技術が望まれていた。
In addition, when quoting information such as texts and images published on each content site to create materials used for meetings, presentations, etc., the content is provided after accessing each content site. It is necessary to select and quote individual texts and images. For this reason, particularly when a large amount of search results are extracted, it is extremely complicated and requires a heavy load to create useful materials.
For this reason, there has been a demand for a technique capable of browsing and referring to the contents of a plurality of contents easily and efficiently in the Internet search and quoting the contents of the contents as necessary.
ここで、インターネット検索における情報の閲覧や参照などの容易化や利便性の向上を目的として、これまで、例えば特許文献1,2に示されるような技術が提案されている。
特許文献1には、ユーザ単位でインターネット上の閲覧履歴情報を収集・分類して閲覧履歴のサマリを生成し、当該ユーザのユーザ端末に送信する技術が開示されている。
特許文献2には、検索エンジンで抽出された検索結果となる各コンテンツのURLにアクセスして、各コンテンツのHTMLドキュメント等を例えば10行未満のテキストに要約して検索結果の表示用レイアウトを作成し、ユーザにメール送信したりプリントアウトして出力する技術が開示されている。
Here, for the purpose of facilitating browsing and reference of information in the Internet search and improving convenience, techniques as disclosed in Patent Documents 1 and 2, for example, have been proposed so far.
Patent Document 1 discloses a technique of collecting browsing history information on the Internet for each user, generating a summary of browsing history, and transmitting it to the user terminal of the user.
In Patent Document 2, a URL for each content that is a search result extracted by a search engine is accessed, and an HTML document or the like of each content is summarized into, for example, less than 10 lines of text to create a search result display layout. However, a technique for sending a mail to a user or printing it out is disclosed.
しかしながら、特許文献1に開示されているのは、特定のユーザが過去に閲覧したコンテンツについて、その閲覧履歴の要約が作成されるというもので、複数のユーザで検索エンジンサイトを利用する場合や、これから新たに検索を行おうとする場合などには全く対応することができなかった。
また、特許文献2に開示されているのは、検索エンジンの検索結果として、該当するコンテンツに含まれるテキスト文などを数行に要約して表示・出力するというもので、これは検索エンジンの検索結果そのものであり、その結果がメール送信やプリントアウトされたとしても、上述したインターネット検索における課題を解決することにはならなかった。
However, what is disclosed in Patent Document 1 is that a summary of browsing history is created for a content that a specific user has browsed in the past, and when a search engine site is used by a plurality of users, In the case of a new search from now on, it was not possible to cope with it at all.
Patent Document 2 discloses that a search engine search result is displayed and output in several lines, such as a text sentence included in the corresponding content, which is displayed and output. This is the result itself, and even if the result was sent by e-mail or printed out, it did not solve the problem in the Internet search described above.
このように、特許文献1,2を含めて、従来のインターネット検索技術では、検索結果として抽出された各コンテンツで公開されている具体的な内容は、各コンテンツサイトにアクセスして一つ一つ個々に確認・参照等する必要があり、したがって、例えば各コンテンツに含まれるテキストや画像などの情報を引用した資料等を作成するには、各コンテンツサイトに一つ一つアクセスした上でテキストや画像などの読み込み・引用等の作業が必要であった。
このため、例えば大量に検索・抽出されたコンテンツの内容を、機械的・一括的にまとめて全体の概念整理や把握のために有効な資料等を作成する、というようなことを実現することはできなかった。
As described above, in the conventional Internet search technology including Patent Documents 1 and 2, specific contents disclosed in each content extracted as a search result are accessed one by one by accessing each content site. For example, in order to create materials that cite information such as text and images included in each content, access to each content site one by one, It was necessary to read and quote images.
For this reason, for example, it is possible to create a material that is useful for organizing and grasping the overall concept by collecting the contents of a large amount of searched / extracted contents mechanically and collectively. could not.
本発明は、以上のような従来の技術が有する課題を解決するために提案されたものであり、インターネット検索の検索結果に含まれる各コンテンツの内容を自動的に抽出・要約するとともに、当該要約結果を所定のソフトウェアに入力して要約情報として生成・出力することにより、複数のコンテンツの内容を容易かつ迅速に把握できるとともに、要約情報を情報参照用の資料等としてそのまま活用することが可能となる、特にインターネット検索の結果をプレゼンテーション用の資料などに利用する場合に好適な、検索結果要約装置とそれに用いられるプログラム及び方法の提供を目的とする。 The present invention has been proposed in order to solve the problems of the conventional techniques as described above, and automatically extracts and summarizes the contents of each content included in the search result of the Internet search. By inputting the result into the specified software and generating / outputting it as summary information, it is possible to easily and quickly grasp the contents of multiple contents, and the summary information can be used as it is as information reference materials. In particular, it is an object of the present invention to provide a search result summarizing apparatus, a program used therefor, and a method suitable for using the result of the Internet search as a presentation material.
上記目的を達成するため、本発明の検索結果要約装置は、ユーザ端末から送信される検索要求情報に対して検索サーバで生成される検索結果情報に基づいて、所定の検索結果要約情報を生成する情報処理装置であって、前記検索サーバで生成された検索結果情報に含まれる、一又は二以上のコンテンツ情報を特定する識別情報を受信する識別情報受信手段と、前記識別情報に基づいて、対応するコンテンツ情報にアクセスするコンテンツ情報アクセス手段と、アクセスした前記コンテンツ情報から、所定の重要情報を抽出する重要情報抽出手段と、抽出された前記重要情報を、所定の要約情報として生成する要約情報生成手段と、前記コンテンツ情報に対応する一又は二以上の前記要約情報を、該当するユーザ端末に送信する要約情報送信手段と、を備える構成としてある。 In order to achieve the above object, a search result summarizing apparatus according to the present invention generates predetermined search result summary information based on search result information generated by a search server in response to search request information transmitted from a user terminal. An information processing apparatus, the identification information receiving means for receiving identification information for specifying one or more content information included in the search result information generated by the search server, and a response based on the identification information Content information access means for accessing content information to be performed, important information extraction means for extracting predetermined important information from the accessed content information, and summary information generation for generating the extracted important information as predetermined summary information And a summary information transmitter that transmits one or more of the summary information corresponding to the content information to a corresponding user terminal. If, it is constituted with a.
また、本発明は、上記のような本発明に検索結果要約装置で実行される検索結果要約装置プログラムとして構成することができる。
さらに、本発明は、上記のような本発明に係る検索結果要約装置及びプログラムによって実施可能な検索結果要約装置方法として構成することもできる。
Further, the present invention can be configured as a search result summarization apparatus program executed by the search result summarization apparatus according to the present invention as described above.
Furthermore, the present invention can also be configured as a search result summarization apparatus method that can be implemented by the search result summarization apparatus and program according to the present invention as described above.
本発明によれば、インターネット検索の検索結果に含まれる各コンテンツの内容を自動的に抽出・要約することができ、また、その要約結果を所定のソフトウェアに入力して要約情報として生成・出力することができる。
これにより、複数のコンテンツの内容を容易かつ迅速に把握することができ、また、要約情報を情報参照用の資料等としてそのまま活用することも可能となる。
したがって、例えばインターネット検索の結果をプレゼンテーション用の資料などに利用する場合にも、検索結果を簡易かつ効率よく、閲覧・参照・発表などに用いる有用な資料等として活用することができるようになる。
According to the present invention, the contents of each content included in the search result of the Internet search can be automatically extracted and summarized, and the summary result is input to predetermined software and generated and output as summary information. be able to.
As a result, the contents of a plurality of contents can be grasped easily and quickly, and the summary information can be used as it is as information reference materials.
Therefore, for example, even when the result of the Internet search is used as a presentation material, the search result can be used as a useful material used for browsing / referencing / presentation, etc. easily and efficiently.
以下、本発明に係る検索結果要約装置の実施形態について、図面を参照しつつ説明する。
ここで、以下に示す本発明の検索結果要約装置は、プログラム(ソフトウェア)の命令によりコンピュータで実行される処理,手段,機能によって実現される。プログラムは、コンピュータの各構成要素に指令を送り、以下に示す本発明に係る所定の処理や機能等を行わせることができる。すなわち、本発明における各処理や手段,機能は、プログラムとコンピュータとが協働した具体的手段によって実現される。
Hereinafter, embodiments of a search result summarizing apparatus according to the present invention will be described with reference to the drawings.
Here, the search result summarization apparatus of the present invention described below is realized by processing, means, and functions executed by a computer in accordance with instructions of a program (software). The program can send commands to each component of the computer to perform the following predetermined processing and functions according to the present invention. That is, each process, means, and function in the present invention are realized by specific means in which a program and a computer cooperate.
なお、プログラムの全部又は一部は、例えば、磁気ディスク,光ディスク,半導体メモリ,その他任意のコンピュータで読取り可能な記録媒体により提供され、記録媒体から読み出されたプログラムがコンピュータにインストールされて実行される。また、プログラムは、記録媒体を介さず、通信回線を通じて直接にコンピュータにロードし実行することもできる。また、本発明に係る検索結果要約装置は、単一の情報処理装置(例えば一台のパーソナルコンピュータ等)で構成することもでき、複数の情報処理装置(例えば複数台のサーバコンピュータ群等)で構成することもできる。 Note that all or part of the program is provided by, for example, a magnetic disk, optical disk, semiconductor memory, or any other computer-readable recording medium, and the program read from the recording medium is installed in the computer and executed. The The program can also be loaded and executed directly on a computer through a communication line without using a recording medium. Further, the search result summarizing apparatus according to the present invention can be constituted by a single information processing apparatus (for example, one personal computer), and a plurality of information processing apparatuses (for example, a plurality of server computer groups). It can also be configured.
[システム構成]
図1に、本発明の一実施形態に係る検索結果要約サーバ10を備えた検索結果要約システム1の構成を模式的に示す。
また、図2に、図1に示す検索結果要約システム1における各装置の機能構成を示す。
これらの図に示すように、本発明の一実施形態に係る検索結果要約システム1は、検索結果要約サーバ10と、一又は二以上のユーザ端末20(20a〜20n)と、検索サーバ30と、一又は二以上のコンテンツサイトサーバ40(40a〜40n)とを備えて構成されている。
そして、これら検索結果要約サーバ10・ユーザ端末20・検索サーバ30・コンテンツサイトサーバ40は、LAN・WAN等を含むインターネット100を介して接続され、それぞれ相互にネットワーク通信が可能となっている。
[System configuration]
FIG. 1 schematically shows a configuration of a search result summary system 1 including a search result summary server 10 according to an embodiment of the present invention.
FIG. 2 shows a functional configuration of each device in the search result summary system 1 shown in FIG.
As shown in these drawings, a search result summary system 1 according to an embodiment of the present invention includes a search result summary server 10, one or more user terminals 20 (20a to 20n), a search server 30, One or two or more content site servers 40 (40a to 40n) are provided.
The search result summary server 10, the user terminal 20, the search server 30, and the content site server 40 are connected via the Internet 100 including a LAN, a WAN, and the like, and are capable of network communication with each other.
[検索結果要約サーバ]
検索結果要約サーバ10は、インターネット100を介して、ユーザ端末20から送信される検索要求情報に対して検索サーバ30で生成される検索結果情報に基づいて、所定の検索結果要約情報を生成する情報処理装置であり、本発明の検索結果要約装置を構成している。
この検索結果要約サーバ10は、例えば、1又は2以上のサーバコンピュータやパーソナルコンピュータ、クラウドコンピューティングサービス上に構築された1又は2以上の仮想サーバからなるサーバシステム等、所定のプログラム(ソフトウェア)が実装された情報処理装置によって構成することができる。
Search result summary server
The search result summary server 10 generates predetermined search result summary information based on search result information generated by the search server 30 for search request information transmitted from the user terminal 20 via the Internet 100. It is a processing device and constitutes the search result summarizing device of the present invention.
The search result summary server 10 includes, for example, a predetermined program (software) such as a server system including one or two or more server computers, personal computers, or one or more virtual servers constructed on a cloud computing service. It can be configured by an information processing apparatus mounted.
そして、本実施形態に係る検索結果要約サーバ10は、図2に示すように、検索結果要約サーバ10は、URLリスト受信部11、URLサイトアクセス部12、コンテンツ情報抽出部13、重要情報抽出部14、要約情報生成部15、要約情報送信部16の各部として機能するように構成される。
URLリスト受信部11は、検索サーバ30で生成された検索結果情報に含まれる、一又は二以上のコンテンツ情報を特定する識別情報を受信する手段であり、本発明に係る識別情報受信手段を構成している。
具体的には、URLリスト受信部11は、ユーザ端末20において抽出され送信されてくる、検索サーバ30の検索結果情報に含まれる一又は二以上のコンテンツ情報を特定する識別情報となる一又は二以上のURL(URLリスト)を受信する。
As shown in FIG. 2, the search result summary server 10 according to the present embodiment includes the URL list reception unit 11, the URL site access unit 12, the content information extraction unit 13, and the important information extraction unit. 14, the summary information generation unit 15 and the summary information transmission unit 16 are configured to function as respective units.
The URL list receiving unit 11 is means for receiving identification information for specifying one or more pieces of content information included in the search result information generated by the search server 30, and constitutes the identification information receiving means according to the present invention. doing.
Specifically, the URL list receiving unit 11 is one or two serving as identification information that identifies one or more pieces of content information included in the search result information of the search server 30 extracted and transmitted by the user terminal 20. The above URL (URL list) is received.
URLサイトアクセス部12は、URLリスト受信部11で受信される識別情報(URLリスト)に基づいて、対応するコンテンツサイトサーバ40のコンテンツ情報にアクセスする手段であり、本発明に係るコンテンツ情報アクセス手段を構成している。
具体的には、URLサイトアクセス部12は、ユーザ端末20から送信されるURLリストに示される複数のコンテンツサイトに対応した複数のURLにそれぞれアクセスを実行する。
これにより、検索サーバ30で検索された複数のコンテンツサイトについて、ユーザ端末20に代わって検索結果要約サーバ10がアクセスすることで、各コンテンツサイトで提供されるコンテンツ情報が、検索結果要約サーバ10において一括して自動的に取得されることになる。
The URL site access unit 12 is means for accessing the content information of the corresponding content site server 40 based on the identification information (URL list) received by the URL list receiving unit 11, and the content information access unit according to the present invention. Is configured.
Specifically, the URL site access unit 12 accesses a plurality of URLs corresponding to a plurality of content sites indicated in the URL list transmitted from the user terminal 20.
As a result, the search result summary server 10 accesses the plurality of content sites searched by the search server 30 instead of the user terminal 20, so that the content information provided in each content site is stored in the search result summary server 10. It will be automatically acquired in a batch.
コンテンツ情報抽出部13は、URLサイトアクセス部12によりアクセスされたコンテンツサイトで提供されているコンテンツ情報に含まれるテキスト情報や画像情報などのコンテンツを構成する所定の情報・データを抽出する手段である。
具体的には、コンテンツ情報抽出部13は、コンテンツ情報に含まれる各種の情報・データのうち、「タイトル」を示すテキストデータと、「本文」に含まれるテキストデータ及び画像データを、各コンテンツサイト毎のコンテンツ情報として識別・抽出する。
The content information extracting unit 13 is means for extracting predetermined information / data constituting the content such as text information and image information included in the content information provided on the content site accessed by the URL site access unit 12. .
Specifically, the content information extraction unit 13 converts the text data indicating the “title” and the text data and image data included in the “body” among the various information / data included in the content information to each content site. Each content information is identified and extracted.
これによって、各コンテンツサイトで提供されるコンテンツ情報に含まれる「タイトル」及び「本文」以外の情報、例えば宣伝広告などを示す情報・データを、重要情報として抽出すべきコンテンツ情報から除外することができるようになる。
なお、このようなコンテンツ情報からの「タイトル」及び「本文」の抽出は、コンテンツ情報を構成するHTMLデータに含まれるタグ(識別子)に基づいて行うことができる。
例えば、「タイトル」については「<title>〜</title>」のタグで区分されたデータを、また「本文」については「<body>〜</body>」のタグで区分されたデータを抽出した上で、記述されているテキストの長さやタグ情報等に基づき本文分を推定することができる。
As a result, information other than the “title” and “text” included in the content information provided at each content site, such as information / data indicating advertisements, may be excluded from the content information to be extracted as important information. become able to.
The extraction of “title” and “text” from such content information can be performed based on a tag (identifier) included in HTML data constituting the content information.
For example, for “title”, data classified by tags “<title> ˜ </ title>”, and for “text”, data classified by tags “<body> ˜ </ body >>” are used. After the extraction, the body part can be estimated based on the length of the described text, tag information, and the like.
重要情報抽出部14は、コンテンツ情報抽出部13により抽出されたコンテンツ情報となる本文データから、所定の重要情報を抽出する手段であり、本発明に係る重要情報抽出手段を構成している。
具体的には、重要情報抽出部14は、本文データに含まれるテキスト情報及び画像情報の中から、重要情報として、所定数のセンテンスと画像を、重要文・重要画像として抽出する。本実施形態では、3つのセンテンスと、本文データ中に含まれる全ての画像を、重要情報として抽出するようになっている(図6参照)。
なお、抽出するセンテンス及び画像の数は、特に限定されるものではなく、例えば2つ以下や4つ以上のセンテンスや、所定数の画像のみを、重要情報として抽出することは勿論可能である。また、本文データ中に含まれるセンテンスが3つ以下であれば、全てのセンテンスが重要文として抽出され、また、本文データ中に画像が含まれない場合には、重要画像は抽出されない。
The important information extracting unit 14 is means for extracting predetermined important information from the body data that is the content information extracted by the content information extracting unit 13, and constitutes important information extracting means according to the present invention.
Specifically, the important information extracting unit 14 extracts a predetermined number of sentences and images as important information / important images as important information from text information and image information included in the body data. In the present embodiment, three sentences and all images included in the text data are extracted as important information (see FIG. 6).
Note that the number of sentences and images to be extracted is not particularly limited. For example, it is possible to extract only 2 or 4 sentences or only a predetermined number of images as important information. Further, if there are three or less sentences included in the body data, all sentences are extracted as important sentences, and if no image is included in the body data, no important images are extracted.
また、重要情報抽出部14による重要情報抽出は、日本語だけでなく他の言語、例えば英語等の外国語であっても可能である(図8(a)参照)。
また、外国語で抽出・生成された重要文を日本語に翻訳することもできる(図8(b)参照)。
なお、外国語の日本語への翻訳は、例えばインターネット上で提供されている翻訳機能を用いることで実現することができる。
The important information extraction unit 14 can extract important information not only in Japanese but also in other languages, for example, foreign languages such as English (see FIG. 8A).
In addition, important sentences extracted and generated in a foreign language can be translated into Japanese (see FIG. 8B).
The translation of a foreign language into Japanese can be realized by using a translation function provided on the Internet, for example.
ここで、重要情報抽出部14による重要情報の抽出処理は、既存の重要文抽出処理技術を用いて実行される。
例えば、本文データに含まれるテキストを形態素解析して、句読点を含む文節に分解してセンテンス単位に分割・抽出して、各センテンスにおける特定の語やキーワードの出現頻度や位置、類似度などに基づいて、各センテンスに特徴ベクトルを付与し、より異なる複数方向(例えば3方向)の特徴ベクトルが付与された複数のセンテンス(例えば3センテンス)を、重要文として抽出することができる。
また、抽出された複数の重要文センテンスに対して、最も近い位置に配置された画像や、最もデータ容量が大きい画像を、そのコンテンツの主要画像と推定することができ、その画像を重要画像として抽出することができる。
Here, the important information extraction processing by the important information extraction unit 14 is executed by using an existing important sentence extraction processing technique.
For example, text included in body data is analyzed by morphological analysis, broken down into phrases containing punctuation marks, divided and extracted into sentence units, and based on the appearance frequency, position, similarity, etc. of specific words and keywords in each sentence Thus, a feature vector is assigned to each sentence, and a plurality of sentences (for example, three sentences) to which feature vectors in different directions (for example, three directions) are assigned can be extracted as important sentences.
In addition, it is possible to estimate the image arranged at the closest position or the image with the largest data capacity as the main image of the content with respect to the plurality of extracted important sentence sentences. Can be extracted.
なお、「重要文抽出」は、文書から重要な情報を持った文を抽出するための既存の技術であり、上述した手法は既存の重要文抽出処理技術の一例である。本実施形態では、任意の重要文抽出処理技術を用いて、重要情報抽出部14による処理を実行することができる。
また、「形態素解析」は、自然言語で書かれた文を形態素(言語で意味を持つ最小単位)に分割する、コンピュータによる自然言語処理技術である。このような形態素解析についても、公知の技術を用いることができる。
本実施形態では、検索結果要約サーバ10が、形態素解析を含む重要文抽出処理の機能を備えたサーバコンピュータ等により構成されることで実現できるものである。
“Important sentence extraction” is an existing technique for extracting a sentence having important information from a document, and the above-described method is an example of an existing important sentence extraction processing technique. In the present embodiment, the processing by the important information extraction unit 14 can be executed using any important sentence extraction processing technique.
“Morphological analysis” is a natural language processing technique by a computer that divides a sentence written in a natural language into morphemes (the smallest unit having meaning in a language). A known technique can also be used for such morphological analysis.
In the present embodiment, the search result summary server 10 can be realized by a server computer or the like having a function of important sentence extraction processing including morphological analysis.
要約情報生成部15は、重要情報抽出部14により抽出された重要情報を、所定の要約情報として生成する手段であり、本発明の要約情報生成手段を構成している。
具体的には、要約情報生成部15は、重要情報抽出部14により重要情報として抽出されたテキスト情報及び画像情報を、所定のプレゼンテーション用ソフトウェアに入力して、コンテンツサイト毎のスライド形式の情報として生成する。
また、要約情報生成部15は、コンテンツサイト毎に生成した要約情報を、複数のコンテンツサイトの要約情報を示す一覧形式の情報として生成することができる。
このように要約情報として生成されるスライド形式や一覧形式の情報は、使用するプレゼンテーション用ソフトウェアの機能として実現することができる。
The summary information generation unit 15 is means for generating the important information extracted by the important information extraction unit 14 as predetermined summary information, and constitutes summary information generation means of the present invention.
Specifically, the summary information generation unit 15 inputs text information and image information extracted as important information by the important information extraction unit 14 into predetermined presentation software, and uses the information as slide format for each content site. Generate.
In addition, the summary information generation unit 15 can generate summary information generated for each content site as information in a list format indicating summary information of a plurality of content sites.
Information in slide format or list format generated as summary information in this way can be realized as a function of presentation software to be used.
ここで、プレゼンテーション用ソフトウェア(プレゼンテーションソフトウェア)とは、スライド形式で情報を表示するためのソフトウェア(アプリケーション)で、文字情報を編集・配置する機能や、画像情報を編集・配置する機能、スライドショーを含む内容表示機能などを備えるものであり、例えば、Microsoft社の「PowerPoin」(登録商標)などが知られている。
この種のプレゼンテーション用ソフトウェアは、任意の情報をスライド形式のファイル情報として生成・出力することができ、また、複数のスライド形式の情報を一覧形式にして出力することができ、必要な情報を、見やすく・分かりやすく・使いやすくまとめることができることから、打合せや会議、講演、授業、説明会などの参照資料として広く活用されている。
Here, presentation software (presentation software) is software (application) for displaying information in a slide format, and includes a function for editing and arranging character information, a function for editing and arranging image information, and a slide show. For example, a “PowerPoint” (registered trademark) manufactured by Microsoft Corporation is known.
This kind of presentation software can generate and output arbitrary information as slide-format file information, and can output multiple slide-format information in a list format. Because it is easy to see, understand, and easy to use, it is widely used as a reference material for meetings, meetings, lectures, classes, and briefings.
そこで、本実施形態では、要約情報生成部15で生成される要約情報を、プレゼンテーション用ソフトウェアを用いて生成することで、検索結果に対応するコンテンツ情報を、コンテンツサイト単位のスライド形式や一覧形式のファイル情報として生成・出力することができ、閲覧・参照用の資料として利用できるとともに、そのまま会議や講演等のプレゼンテーション用の資料としても活用できるようにしている。
具体的には、本実施形態では、各コンテンツサイト毎にスライド2ページのファイルで構成される要約情報を生成するようにし、1ページ目は、当該コンテンツの「タイトル」と、重要情報として抽出された「本文」中の重要文及び重要画像と、当該コンテンツサイト(引用元)のURLを、所定のレイアウトで配置(貼り付け)して表示した「サマリーページ」とし、2ページ目は、「本文」に含まれるテキストデータを全て配置(貼り付け)して表示した「全文ページ」として生成するようになっている(図6参照)。
Therefore, in the present embodiment, the summary information generated by the summary information generation unit 15 is generated using presentation software, so that the content information corresponding to the search result is converted into a slide format or list format in units of content sites. It can be generated and output as file information, can be used as browsing and reference materials, and can be used as it is for presentation materials such as meetings and lectures.
Specifically, in this embodiment, summary information composed of a file of two slide pages is generated for each content site, and the first page is extracted as the “title” of the content and important information. In addition, an important sentence and an important image in the “text” and the URL of the content site (quoting source) are arranged (pasted) in a predetermined layout and displayed as a “summary page”. Is generated as a “full-text page” displayed by arranging (pasting) all the text data included in “” (see FIG. 6).
このようなコンテンツサイト毎に2ページ1ファイルのスライド形式の要約情報とすることで、1ページ目のサマリーページによりそのコンテンツサイトの概要やポイントなどを把握・理解させることができ、また、2ページ目の全文ページにより、詳細な内容等を確認させることできるようになり、さらに、必要に応じて引用元である当該コンテンツサイト自体へのアクセスも可能となり、有用な要約情報として提供することができるようになる。
さらに、上記のようにコンテンツサイト単位で2ページ1ファイルに生成されたスライド形式のデータを、複数のコンテンツサイトの全データを一覧形式の情報として生成することができる(図7参照)。これによって、複数のコンテンツサイトの一覧の中から、所望のコンテンツサイトを選択して、上述した要約情報を参照させたり、当該コンテンツサイト自体へのアクセスを行わせることができるようになり、より利便性の高い情報の提供が可能となる。
By making the summary information in the slide format of two pages and one file for each content site, the summary page of the first page can be grasped and understood by the summary page of the first page. The full text page of the eyes allows you to check the detailed content, etc., and also allows access to the content site itself, which is the citation source, as needed, providing it as useful summary information It becomes like this.
Furthermore, as described above, it is possible to generate the data in the slide format generated in the two-page one file for each content site as a list format information of all the data of the plurality of content sites (see FIG. 7). This makes it possible to select a desired content site from a list of a plurality of content sites and to refer to the summary information described above or to access the content site itself, which is more convenient. It is possible to provide highly reliable information.
なお、以上のように要約情報を2ページ1ファイルのスライド形式で生成するのは、あくまでも一例であり、他の形態・形式で生成することも勿論可能である。
また、要約情報の生成に用いるプレゼンテーション用ソフトウェアとしては、既存の利用可能なソフトウェアであればよく、特定のプレゼンテーション用ソフトウェアに限定さるものではない。
さらに、プレゼンテーション用ソフトウェアのみに限らず、本実施形態に係る要約情報として生成・出力できるものであれば、例えば、文書作成用ソフトウェア(ワープロソフト)、表計算用ソフトウェア(表計算ソフト)、図面作成用ソフトウェア(作図ソフト)など、他の用途・機能のソフトウェアを用いることもできる。
Note that the generation of the summary information in the slide format of two pages and one file as described above is merely an example, and it is of course possible to generate the summary information in other forms and formats.
The presentation software used to generate summary information may be any existing software that can be used, and is not limited to specific presentation software.
Furthermore, not only the presentation software but also any information that can be generated and output as summary information according to the present embodiment, for example, document creation software (word processing software), spreadsheet software (spreadsheet software), drawing creation, for example. Software for other uses / functions such as software (drawing software) can also be used.
要約情報送信部16は、要約情報生成部15で生成されたコンテンツ情報に対応する一又は二以上の要約情報を、該当するユーザ端末20に送信する手段であり、本発明の要約情報送信手段を構成する。
具体的には、要約情報送信部16は、上述したプレゼンテーション用ソフトウェアのファイル形式(スライド形式・一覧形式)で生成された要約情報を、一つの送信用ファイルデータとして結合・圧縮して、検索結果の送信元となるユーザ端末20にダウンロードデータとして送信するようになっている(図5参照)。
The summary information transmission unit 16 is a unit that transmits one or more summary information corresponding to the content information generated by the summary information generation unit 15 to the corresponding user terminal 20, and the summary information transmission unit of the present invention. Configure.
Specifically, the summary information transmission unit 16 combines and compresses the summary information generated in the above-described presentation software file format (slide format / list format) as a single file data for transmission, and performs a search result. Is transmitted as download data to the user terminal 20 serving as the transmission source (see FIG. 5).
ここで、要約情報送信部16による送信用データの結合・圧縮処理は、例えばZIP形式によるファイル圧縮フォーマットなど、既存のデータ圧縮技術等を用いることで実現できる。
このようなファイルの結合・圧縮処理を行うことで、ユーザ端末20に送信するデータ容量をできる限り少なくすることができ、ネットワーク負荷やユーザ端末20での処理負担を減らすことができるとともに、複数のコンテンツサイトに対応した複数の要約情報を、単一の圧縮ファイルとして処理することができ、ユーザ端末20における取り扱いを容易化することができるようになる。
Here, the combining / compression processing of the transmission data by the summary information transmitting unit 16 can be realized by using an existing data compression technique such as a ZIP file compression format.
By performing such file combination / compression processing, the data capacity to be transmitted to the user terminal 20 can be reduced as much as possible, the network load and processing load on the user terminal 20 can be reduced, and a plurality of A plurality of pieces of summary information corresponding to the content site can be processed as a single compressed file, and handling in the user terminal 20 can be facilitated.
なお、要約情報送信部16における要約情報の結合・圧縮処理は、必ずしも必須であるものではなく、例えば要約情報の数やデータ容量によっては、要約情報送信部16は、データを結合・圧縮することなく、そのままユーザ端末20に送信することもできる。
以上のような本実施形態に係る検索結果要約サーバ10で実現される各手段の具体的な機能・動作については、ユーザ端末20に出力・表示される表示画面例も参照しつつ後述する(図3〜9参照)。
The summary information combining / compressing process in the summary information transmitting unit 16 is not necessarily required. For example, depending on the number of summary information and the data capacity, the summary information transmitting unit 16 may combine and compress data. Alternatively, it can be transmitted to the user terminal 20 as it is.
Specific functions and operations of each means realized by the search result summary server 10 according to the present embodiment as described above will be described later with reference to a display screen example output and displayed on the user terminal 20 (FIG. 3-9).
[ユーザ端末]
ユーザ端末20(20a〜20n)は、インターネットの閲覧・検索等が可能なWEBブラウザ21が実装された、例えばPC、タブレット端末、スマートフォン等で構成される情報処理装置であり、インターネット100を介して、検索結果要約サーバ10や検索サーバ30・コンテンツサイトサーバ40に接続可能なウェブクライアントとして機能する、本発明に係るユーザ端末を構成している。
各ユーザ端末20は、WEBブラウザ21を介して所望のキーワード等を入力した検索要求を検索サーバ30に送信することができ、検索サーバ30で生成された検索結果を受信できるようになっている。
[User terminal]
The user terminals 20 (20a to 20n) are information processing apparatuses configured with, for example, a PC, a tablet terminal, a smartphone, and the like, in which a WEB browser 21 capable of browsing / searching the Internet is mounted. The user terminal according to the present invention functions as a web client connectable to the search result summary server 10, the search server 30, and the content site server 40.
Each user terminal 20 can transmit a search request in which a desired keyword or the like is input via the WEB browser 21 to the search server 30 and can receive a search result generated by the search server 30.
ここで、WEBブラウザ21は、インターネット100を介して提供されるコンテンツサイト(WEBサイト・WEBページ)を、表示手段(ディスプレイ等)に表示したり、出力手段(プリンタ等)で出力・印刷したり、データとして保存・加工・編集したり、WEBページに含まれるハイパーリンクをたどる等の機能を備えたソフトウェアであり、例えば、Google社の「Chrome」(登録商標)や、Microsoft社の「InternetExplorer」(登録商標)などが知られている。
このようなWEBブラウザ21により、検索サーバ30で提供される検索サイト(検索エンジン)を表示し、任意のキーワード等を入力して検索要求情報を検索サーバ30に送信することができ、その検索要求に対する検索結果情報を検索サーバ30から受信できるようなっている。
Here, the WEB browser 21 displays a content site (WEB site / WEB page) provided via the Internet 100 on a display means (display or the like), or outputs / prints it on an output means (printer or the like). Software that has functions such as saving, processing, editing as data, and following hyperlinks included in WEB pages. For example, “Chrome” (registered trademark) of Google Inc. or “Internet Explorer” of Microsoft Corp. (Registered trademark) and the like are known.
With such a WEB browser 21, a search site (search engine) provided by the search server 30 can be displayed, and an arbitrary keyword or the like can be input to transmit search request information to the search server 30. Can be received from the search server 30.
そして、本実施形態では、各ユーザ端末20のWEBブラウザ21が、検索サーバ30で生成された検索結果情報に含まれる、一又は二以上のコンテンツ情報を特定する識別情報を抽出するURLリスト抽出部22として機能するように構成されている(図2参照)。このURLリスト抽出部22が、本発明に係る識別情報抽出手段を構成する。
具体的には、WEBブラウザ21は、検索サーバ30から検索結果情報を受信すると、その検索結果に含まれる各コンテンツサイトのURLを抽出して、一又は二以上のURLを列挙・羅列したURLリストを生成する。
In the present embodiment, the WEB browser 21 of each user terminal 20 extracts a URL list extraction unit that extracts identification information specifying one or more content information included in the search result information generated by the search server 30. It is comprised so that it may function as 22 (refer FIG. 2). The URL list extraction unit 22 constitutes identification information extraction means according to the present invention.
Specifically, when the WEB browser 21 receives the search result information from the search server 30, the URL of each content site included in the search result is extracted, and one or two or more URLs are listed and listed. Is generated.
検索サーバ30から送信される検索結果情報は、例えば検索キーワード等が含まれるコンテンツサイトのタイトルや内容の抜粋等とともに、各コンテンツサイトのインターネット上のリソース(資源)を特定するURLが含まれている(図4参照)。
本実施形態に係るWEBブラウザ21では、そのような検索結果に含まれるURLのみを抽出して抜き出し、一又は二以上のURLを列挙したURLリストとして生成できるようになっている。
URLは、例えば「http」等の特定のスキーム名を含む所定形式の文字列によって構成されており、WEBブラウザ21では、そのような特定の文字列を識別することで、検索結果情報からURLのみを抽出することができるようになっている。
The search result information transmitted from the search server 30 includes, for example, URLs that identify resources (resources) on the Internet of each content site, as well as the titles and content excerpts of content sites that include search keywords and the like. (See FIG. 4).
In the WEB browser 21 according to the present embodiment, only URLs included in such a search result are extracted and extracted, and a URL list in which one or more URLs are listed can be generated.
The URL is composed of a character string of a predetermined format including a specific scheme name such as “http”, and the WEB browser 21 identifies only the URL from the search result information by identifying such a specific character string. Can be extracted.
なお、このようなURLの抽出処理は、WEBブラウザ21に実装された機能として、あるいは、WEBブラウザ21の拡張機能を用いて実装可能な機能として実現することができる。
そして、このようにWEBブラウザ21で抽出・生成された検索結果のURLリスト情報が、検索結果要約サーバ10に送信されてURLリスト受信部11で受信され、上述したように、URLリストに対応するコンテンツサイトへのアクセスと、アクセス結果に基づく要約情報の生成処理が実行されるようになる。
Such URL extraction processing can be realized as a function implemented in the WEB browser 21 or as a function that can be implemented by using an extended function of the WEB browser 21.
Then, the URL list information of the search result extracted and generated by the WEB browser 21 is transmitted to the search result summary server 10 and received by the URL list receiving unit 11, and corresponds to the URL list as described above. Access to the content site and generation processing of summary information based on the access result are executed.
[検索サーバ]
検索サーバ30は、通信網となるインターネット100を介して、ユーザ端末20に対して検索エンジンサイトを利用可能に提供する情報処理装置であり、例えば検索エンジンサイトを含むコンテンツサイトを提供するサービス提供事業者等が管理・運営するPCやサーバ群等によって構成される。
検索サーバ30が提供する検索エンジンサイトは、インターネット経由でアクセス可能な様な情報(コンテンツ)を検索する機能及びそのプログラムであり、例えば、「Google」や「Yahoo」,「BING」(いずれも登録商標)などの検索エンジンサイトが知られている。
そして、このような検索サーバ30が、本発明に係る検索サーバを構成している。
Search server
The search server 30 is an information processing apparatus that provides a search engine site to the user terminal 20 through the Internet 100 serving as a communication network. For example, a service providing business that provides a content site including the search engine site It is composed of a PC and a server group managed and operated by a person.
The search engine site provided by the search server 30 has a function and a program for searching for information (content) that can be accessed via the Internet. For example, “Google”, “Yahoo”, “BING” (all registered) Search engine sites such as trademark) are known.
Such a search server 30 constitutes a search server according to the present invention.
具体的には、検索サーバ30は、提供する検索エンジンサイトを介してユーザ端末20から送信される検索要求情報を受信すると、その検索要求に基づく検索処理を実行し、その検索結果を示す検索結果情報を、検索要求の送信元となるユーザ端末20に送信する。
この検索サーバ30から送信される検索結果に基づいて、ユーザ端末20におけるURLリストの生成と、検索結果要約サーバ10における要約情報の生成が実行されることになる。
なお、図1では、一つの検索サーバ30のみが示してあるが、これは図示・説明の便宜上であり、本実施形態において、複数の検索サーバ30を備えることができることは言うまでもない。
Specifically, when the search server 30 receives the search request information transmitted from the user terminal 20 via the provided search engine site, the search server 30 executes a search process based on the search request, and the search result indicating the search result The information is transmitted to the user terminal 20 that is the transmission source of the search request.
Based on the search result transmitted from the search server 30, generation of a URL list in the user terminal 20 and generation of summary information in the search result summary server 10 are executed.
In FIG. 1, only one search server 30 is shown, but this is for convenience of illustration and explanation, and it goes without saying that a plurality of search servers 30 can be provided in this embodiment.
[コンテンツサイトサーバ]
コンテンツサイトサーバ40(40a〜40n)は、通信網となるインターネット100を介して、ユーザ端末20に対してコンテンツサイト(WEBサイト)などを提供する情報処理装置であり、例えばコンテンツサイト等を提供するサービス提供事業者等のデータセンタやオフィスなどに設置されるPCやサーバ群等によって構成される。
本実施形態では、図2に示すように、各コンテンツサイトサーバ40a,40b・・・40nが、それぞれ独自の情報等を提供するコンテンツサイトA,コンテンツサイトB・・・コンテンツサイトNを管理・運営している。
このコンテンツサイトサーバ40が、本発明に係るコンテンツ情報を提供する手段を構成している。
[Content site server]
The content site server 40 (40a to 40n) is an information processing apparatus that provides a content site (WEB site) or the like to the user terminal 20 via the Internet 100 serving as a communication network. For example, the content site server 40 provides a content site or the like. It is composed of PCs and server groups installed in data centers and offices of service providers.
In this embodiment, as shown in FIG. 2, each of the content site servers 40a, 40b,... 40n manages and operates a content site A, a content site B,. doing.
The content site server 40 constitutes means for providing content information according to the present invention.
[動作]
次に、以上のような構成からなる本実施形態に係る検索結果要約サーバ10を備える検索結果要約システム1の具体的な処理・動作(検索結果要約方法)について、図3〜9を参照しつつ説明する。
図3は、本実施形態に係る検索結果要約システム1における処理動作を示すフローチャートである。
まず、前提として、インターネット検索を行おうとするユーザは、ユーザ端末20を操作して、検索サーバ30が提供する検索エンジンサイトにアクセスし、任意の検索要求を行い、検索結果を受信する。
[Operation]
Next, specific processing / operation (search result summarizing method) of the search result summarizing system 1 including the search result summarizing server 10 according to the present embodiment configured as described above will be described with reference to FIGS. explain.
FIG. 3 is a flowchart showing processing operations in the search result summarizing system 1 according to the present embodiment.
First, as a premise, a user who wants to perform an Internet search operates the user terminal 20 to access a search engine site provided by the search server 30, makes an arbitrary search request, and receives a search result.
検索エンジンサイトから送信される検索結果は、図4に示すように、例えば検索キーワード(「人工知能」)が含まれるコンテンツサイトのタイトルや内容の抜粋等とともに、各コンテンツサイトのURLが含まれている。ユーザ端末20のWEBブラウザ21では、URLリスト抽出部22により、検索結果に含まれるURLが抽出され(ステップ01)、複数のURLが列挙されたURLリストが生成される。
生成されたURLリストは、インターネット100を介して検索結果要約サーバ10に送信される(ステップ02)。
As shown in FIG. 4, the search result transmitted from the search engine site includes, for example, the content site title including the search keyword (“artificial intelligence”), an excerpt of the content, and the URL of each content site. Yes. In the WEB browser 21 of the user terminal 20, the URL list extraction unit 22 extracts URLs included in the search result (step 01), and generates a URL list in which a plurality of URLs are listed.
The generated URL list is transmitted to the search result summary server 10 via the Internet 100 (step 02).
ユーザ端末20からURLリストを送信された検索結果要約サーバ10では、URLリスト受信部11によりURLリストが受信され、URLサイトアクセス部12により、URLリストに示されるURLに基づいて、対応する複数の各コンテンツサイト(コンテンツサイトサーバ40)に対するアクセスが実行される(ステップ03)。
アクセスされた各コンテンツサイトからは、コンテンツ情報抽出部13により、当該コンテンツサイトで提供されているコンテンツ情報に含まれる「タイトル」及び「本文」のテキスト情報・画像情報が抽出される(ステップ04)。
In the search result summary server 10 to which the URL list is transmitted from the user terminal 20, the URL list receiving unit 11 receives the URL list, and the URL site access unit 12 receives a plurality of corresponding URLs based on the URLs indicated in the URL list. Access to each content site (content site server 40) is executed (step 03).
From each accessed content site, the content information extraction unit 13 extracts text information and image information of “title” and “body” included in the content information provided on the content site (step 04). .
そして、抽出された「本文」データに基づいて、重要情報抽出部14により、「本文」に含まれる重要文と重要画像が抽出される(ステップ05)。
本実施形態では、本文データに含まれるテキスト情報及び画像情報の中から、3つのセンテンスと、本文データ中に含まれる全画像が、重要文・重要画像として抽出される(図6参照)。
重要文・重要画像が抽出されると、要約情報生成部15により、プレゼンテーション用ソフトウェアを用いて要約情報が生成される(ステップ06)。
Then, based on the extracted “text” data, the important information extraction unit 14 extracts important sentences and important images included in the “text” (step 05).
In this embodiment, three sentences and all images included in the body data are extracted as important sentences / important images from the text information and the image information included in the body data (see FIG. 6).
When the important sentence / important image is extracted, summary information is generated by the summary information generation unit 15 using presentation software (step 06).
具体的には、要約情報生成部15は、コンテンツサイト毎に、プレゼンテーション用ソフトウェアのスライド2ページのファイルを生成し、1ページ目に、コンテンツの「タイトル」・「本文」中の重要文及び重要画像・引用元(コンテンツサイト)のURLを配置(貼り付け)した「サマリーページ」を、2ページ目に、「本文」の全テキストを配置(貼り付け)した「全文ページ」を生成する(図6参照)。
また、要約情報生成部15は、コンテンツサイト単位で2ページ1ファイルに生成されたスライド形式のデータを、複数のコンテンツサイトの全データを一覧形式の情報として生成することができる(図7参照)。
Specifically, the summary information generation unit 15 generates a slide two-page file of presentation software for each content site, and on the first page, important sentences and important sentences in the “title” and “text” of the content The “summary page” in which the URL of the image / citation site (content site) is arranged (pasted) is generated on the second page, and the “full text page” in which all the text of “body” is arranged (pasted) is generated (see FIG. 6).
In addition, the summary information generation unit 15 can generate all the data of a plurality of content sites as information in a list format for the slide format data generated in a two-page 1 file for each content site (see FIG. 7). .
生成された要約情報は、要約情報送信部16により、プレゼンテーション用ソフトウェアのファイル形式(スライド形式・一覧形式)で生成された要約情報が一つの送信用ファイルデータとして結合・圧縮され、検索結果の送信元となるユーザ端末20に送信される(ステップ07)。
これにより、ユーザ端末20では、送信されたダウンロードデータを受信して(図5参照)、WEBブラウザ21により結合・圧縮されたデータを解凍・展開することにより、プレゼンテーション用ソフトウェアのファイル形式(スライド形式・一覧形式)で生成された要約情報が利用可能となり、必要な要約情報をWEBブラウザ21に出力・表示・編集等することができるようになる(ステップ08)。
The generated summary information is combined and compressed by the summary information transmission unit 16 in the presentation software file format (slide format / list format) as one transmission file data, and the search result is transmitted. It is transmitted to the original user terminal 20 (step 07).
As a result, the user terminal 20 receives the transmitted download data (see FIG. 5), and decompresses / decompresses the data combined and compressed by the WEB browser 21, thereby providing a file format (slide format) of the presentation software. (Summary format) The summary information generated can be used, and the necessary summary information can be output / displayed / edited to the WEB browser 21 (step 08).
以上説明したように、本実施形態に係る検索結果要約サーバ10を備えた検索結果要約システム1によれば、検索結果要約サーバ10により、ユーザ端末20から要求された検索結果に含まれる各コンテンツの内容が、重要文・重要画像を含む所定の要約情報として自動的に生成され、しかも、その要約情報がプレゼンテーション用ソフトウェアのファイルとして出力され、ユーザ端末20において利用可能に提供される。
特に、本実施形態では、要約情報が、コンテンツサイト毎に2ページ1ファイルのスライド形式で生成され、1ページ目には当該コンテンツサイトのサマリーページが、2ページ目にはコンテンツの全文ページが提供されるようになっており、検索結果に多数のコンテンツサイトが含まれていても、各コンテンツの内容を容易かつ迅速に把握することができるようになる。
As described above, according to the search result summary system 1 including the search result summary server 10 according to the present embodiment, each content included in the search result requested from the user terminal 20 by the search result summary server 10. The contents are automatically generated as predetermined summary information including an important sentence / important image, and the summary information is output as a presentation software file and provided to be usable in the user terminal 20.
In particular, in this embodiment, summary information is generated in a slide format of two pages and one file for each content site, the summary page of the content site is provided on the first page, and the full text page of the content is provided on the second page. Thus, even if a large number of content sites are included in the search result, the contents can be easily and quickly grasped.
また、要約情報がプレゼンテーション用ソフトウェアによりコンテンツサイト単位のスライド形式で生成・出力されることで、要約情報は、複数のコンテンツサイトの閲覧・参照用の資料として利用できるとともに、そのまま会議や講演等のプレゼンテーション用の資料としても活用することができる。
これにより、インターネット検索の結果をプレゼンテーション用の資料などに利用したい場合にも、迅速かつ効率よく、閲覧・参照・発表などの資料として用いることができるようになる。
In addition, the summary information is generated and output in slide format for each content site by the presentation software, so that the summary information can be used as materials for browsing and referring to multiple content sites, as well as for meetings and lectures. It can also be used as a presentation material.
As a result, even when it is desired to use the result of the Internet search as a presentation material, it can be used quickly and efficiently as a material for browsing, referring to, and presenting.
以上、本発明について、好ましい実施形態を示して説明したが、本発明は、上述した実施形態に限定されるものではなく、本発明の範囲で種々の変更実施が可能であることは言うまでもない。
例えば、上述した実施形態では、ユーザ端末20にWEBブラウザ21が、検索エンジンサイトの検索結果に含まれるURLを抜き出してURLリストを生成するURLリスト抽出部22(識別情報抽出手段)を構成するようになっており(図2参照)、そのURLリストが検索結果要約サーバ10で受信されるようになっていた。
しかしながら、検索結果に含まれるURLを抽出して検索結果要約サーバ10で受信できるようにする構成としては、URLリスト抽出部22に対応する構成・機能を、検索結果要約サーバ10に持たせることもできる。
While the present invention has been described with reference to the preferred embodiment, it is needless to say that the present invention is not limited to the above-described embodiment, and various modifications can be made within the scope of the present invention.
For example, in the above-described embodiment, the WEB browser 21 forms the URL list extraction unit 22 (identification information extraction unit) that extracts the URL included in the search result of the search engine site and generates the URL list in the user terminal 20. The URL list is received by the search result summary server 10 (see FIG. 2).
However, as a configuration for extracting the URL included in the search result so that the search result summary server 10 can receive it, the search result summary server 10 may have a configuration / function corresponding to the URL list extraction unit 22. it can.
具体的には、図9に示すように、検索結果要約サーバ10のURLリスト受信部11が、上述したWEBブラウザ21のURLリスト抽出部22と同様に、検索サーバ30で生成された検索結果情報に含まれる一又は二以上のコンテンツ情報を特定する識別情報(URL)を抽出(受信)する、本発明に係る識別情報抽出手段として機能・構成することができる。
この場合には、図9に示すように、ユーザ端末20(WEBブラウザ21)は、検索要求を検索結果要約サーバ10に送信し、検索結果要約サーバ10のURLリスト受信部(URLリスト抽出部)11が、その検索要求を検索サーバ30に送信し、検査結果を受信する。
Specifically, as shown in FIG. 9, the search result information generated by the search server 30 by the URL list receiving unit 11 of the search result summary server 10 is the same as the URL list extraction unit 22 of the WEB browser 21 described above. Can be functioned and configured as an identification information extraction unit according to the present invention that extracts (receives) identification information (URL) that specifies one or more pieces of content information included in the information.
In this case, as shown in FIG. 9, the user terminal 20 (WEB browser 21) transmits a search request to the search result summary server 10, and a URL list receiving unit (URL list extraction unit) of the search result summary server 10. 11 transmits the search request to the search server 30 and receives the inspection result.
そして、検索結果を受信したURLリスト受信部11は、検索結果に含まれるURLを抽出して、URLサイトアクセス部12に出力して、上記実施形態と同様の要約情報の生成処理を実行することができる。
このような構成によれば、ユーザ端末20(WEBブラウザ21)は、任意の検索要求を検索結果要約サーバ10に送信するだけで、検索結果に基づく要約情報を取得することができ、ユーザが要約情報をより簡易に取得することが可能となり、また、WEBブラウザ21にURLリスト抽出部22としての機能・構成を備える必要がなくなり、ユーザ端末20(WEBブラウザ21)の汎用性を高めることができるようになる。
Then, the URL list receiving unit 11 that has received the search result extracts the URL included in the search result, outputs it to the URL site access unit 12, and executes the same summary information generation process as in the above embodiment. Can do.
According to such a configuration, the user terminal 20 (WEB browser 21) can acquire summary information based on the search result only by transmitting an arbitrary search request to the search result summary server 10, and the user can summarize Information can be acquired more easily, and the WEB browser 21 does not need to have a function / configuration as the URL list extraction unit 22, so that versatility of the user terminal 20 (WEB browser 21) can be improved. It becomes like this.
本発明は、例えばパーソナルコンピュータやスマートフォン等を介してインターネット検索を行うユーザ向けに、検索結果の要約情報を提供するサービスや社内システムなどに好適に利用可能である。 The present invention can be suitably used for, for example, a service that provides summary information of search results, an in-house system, and the like for a user who performs an Internet search via a personal computer, a smartphone, or the like.
1 検索結果要約システム
10 検索結果要約サーバ
11 URLリスト受信部
12 URLサイトアクセス部
13 コンテンツ情報抽出部
14 重要情報抽出部
15 要約情報生成部
16 要約情報送信部
20 ユーザ端末
22 URLリスト抽出部
30 検索サーバ
40 コンテンツサイトサーバ
DESCRIPTION OF SYMBOLS 1 Search result summary system 10 Search result summary server 11 URL list receiving part 12 URL site access part 13 Content information extraction part 14 Important information extraction part 15 Summary information generation part 16 Summary information transmission part 20 User terminal 22 URL list extraction part 30 Search Server 40 Content site server
Claims (5)
前記検索サーバで生成された検索結果情報に含まれる、一又は二以上のコンテンツ情報を特定する識別情報を受信する識別情報受信手段と、
前記識別情報に基づいて、対応するコンテンツ情報にアクセスするコンテンツ情報アクセス手段と、
アクセスした前記コンテンツ情報から、所定の重要情報を抽出する重要情報抽出手段と、
抽出された前記重要情報を、所定の要約情報として生成する要約情報生成手段と、
前記コンテンツ情報に対応する一又は二以上の前記要約情報を、該当するユーザ端末に送信する要約情報送信手段と、を備える
ことを特徴とする検索結果要約装置。 An information processing apparatus that generates predetermined search result summary information based on search result information generated by a search server for search request information transmitted from a user terminal,
Identification information receiving means for receiving identification information specifying one or more content information included in the search result information generated by the search server;
Content information access means for accessing the corresponding content information based on the identification information;
Important information extracting means for extracting predetermined important information from the accessed content information;
Summary information generating means for generating the extracted important information as predetermined summary information;
A search result summarizing apparatus comprising: summary information transmitting means for transmitting one or more of the summary information corresponding to the content information to a corresponding user terminal.
前記検索サーバで生成された検索結果情報に含まれる、一又は二以上のコンテンツ情報を特定する識別情報を抽出する識別情報抽出手段を備え、
前記識別情報受信手段が、
前記ユーザ端末で抽出された前記識別情報を当該ユーザ端末から受信する
ことを特徴とする請求項1記載の検索結果要約装置。 The user terminal is
Comprising identification information extracting means for extracting identification information for specifying one or more content information included in the search result information generated by the search server,
The identification information receiving means
The search result summarizing apparatus according to claim 1, wherein the identification information extracted by the user terminal is received from the user terminal.
前記コンテンツ情報に含まれるテキスト情報及び画像情報の中から、前記重要情報を抽出し、
前記要約情報生成手段が、
抽出された前記テキスト情報及び画像情報を、所定のプレゼンテーション用ソフトウェアに入力して、前記要約情報として生成する
ことを特徴とする請求項1又は2記載の検索結果要約装置。 The important information extracting means is
Extracting the important information from text information and image information included in the content information,
The summary information generating means includes
3. The search result summarizing apparatus according to claim 1, wherein the extracted text information and image information are input to predetermined presentation software and generated as the summary information.
前記検索サーバで生成された検索結果情報に含まれる、一又は二以上のコンテンツ情報を特定する識別情報を受信する識別情報受信手段、
前記識別情報に基づいて、対応するコンテンツ情報にアクセスするコンテンツ情報アクセス手段、
アクセスした前記コンテンツ情報から、所定の重要情報を抽出する重要情報抽出手段と、
抽出された前記重要情報を、所定の要約情報として生成する要約情報生成手段、
前記コンテンツ情報に対応する一又は二以上の前記要約情報を、該当するユーザ端末に送信する要約情報送信手段、として機能させる
ことを特徴とする検索結果要約プログラム。 A computer constituting an information processing apparatus that generates predetermined search result summary information based on search result information generated by a search server for search request information transmitted from a user terminal,
Identification information receiving means for receiving identification information for specifying one or more content information included in the search result information generated by the search server;
Content information access means for accessing the corresponding content information based on the identification information;
Important information extracting means for extracting predetermined important information from the accessed content information;
Summary information generating means for generating the extracted important information as predetermined summary information;
A search result summarizing program that causes one or more summary information corresponding to the content information to function as summary information transmitting means for transmitting to the corresponding user terminal.
コンピュータが、
前記検索サーバで生成された検索結果情報に含まれる、一又は二以上のコンテンツ情報を特定する識別情報を受信する識別情報受信手順、
前記識別情報に基づいて、対応するコンテンツ情報にアクセスするコンテンツ情報アクセス手順、
アクセスした前記コンテンツ情報から、所定の重要情報を抽出する重要情報抽出手順と、
抽出された前記重要情報を、所定の要約情報として生成する要約情報生成手順、
前記コンテンツ情報に対応する一又は二以上の前記要約情報を、該当するユーザ端末に送信する要約情報送信手順、とを実行する
ことを特徴とする検索結果要約方法。 A method of generating predetermined search result summary information based on search result information generated by a search server for search request information transmitted from a user terminal by a programmed computer,
Computer
An identification information receiving procedure for receiving identification information for specifying one or more content information included in the search result information generated by the search server;
A content information access procedure for accessing corresponding content information based on the identification information;
Important information extraction procedure for extracting predetermined important information from the accessed content information;
Summary information generation procedure for generating the extracted important information as predetermined summary information,
A search result summarizing method comprising: executing a summary information transmission procedure for transmitting one or more of the summary information corresponding to the content information to a corresponding user terminal.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017069536A JP6840597B2 (en) | 2017-03-31 | 2017-03-31 | Search result summarizing device, program and method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017069536A JP6840597B2 (en) | 2017-03-31 | 2017-03-31 | Search result summarizing device, program and method |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2018173681A true JP2018173681A (en) | 2018-11-08 |
| JP6840597B2 JP6840597B2 (en) | 2021-03-10 |
Family
ID=64106568
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2017069536A Active JP6840597B2 (en) | 2017-03-31 | 2017-03-31 | Search result summarizing device, program and method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6840597B2 (en) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2020106988A (en) * | 2018-12-26 | 2020-07-09 | Jcc株式会社 | Method for notifying of distribution of public information, server device, and system for notifying of distribution of public information |
| JP2020154777A (en) * | 2019-03-20 | 2020-09-24 | 株式会社野村総合研究所 | Presentation data creation support system |
| JP7317198B1 (en) | 2022-12-28 | 2023-07-28 | 真太郎 上田 | Information retrieval device |
| JP7356612B1 (en) | 2023-03-31 | 2023-10-04 | 住友化学株式会社 | Computer program, information processing method, and information processing device |
-
2017
- 2017-03-31 JP JP2017069536A patent/JP6840597B2/en active Active
Cited By (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2020106988A (en) * | 2018-12-26 | 2020-07-09 | Jcc株式会社 | Method for notifying of distribution of public information, server device, and system for notifying of distribution of public information |
| JP2020154777A (en) * | 2019-03-20 | 2020-09-24 | 株式会社野村総合研究所 | Presentation data creation support system |
| JP7171480B2 (en) | 2019-03-20 | 2022-11-15 | 株式会社野村総合研究所 | Presentation data creation support system |
| JP7317198B1 (en) | 2022-12-28 | 2023-07-28 | 真太郎 上田 | Information retrieval device |
| JP2024095090A (en) * | 2022-12-28 | 2024-07-10 | 真太郎 上田 | Information retrieval device |
| JP7356612B1 (en) | 2023-03-31 | 2023-10-04 | 住友化学株式会社 | Computer program, information processing method, and information processing device |
| WO2024204142A1 (en) * | 2023-03-31 | 2024-10-03 | 住友化学株式会社 | Computer program, information processing method, and information processing device |
| JP2024145637A (en) * | 2023-03-31 | 2024-10-15 | 住友化学株式会社 | COMPUTER PROGRAM, INFORMATION PROCESSING METHOD, AND INFORMATION PROCESSING APPARATUS |
Also Published As
| Publication number | Publication date |
|---|---|
| JP6840597B2 (en) | 2021-03-10 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US20220171915A1 (en) | Automated augmentation of text, web and physical environments using multimedia content | |
| US9411790B2 (en) | Systems, methods, and media for generating structured documents | |
| KR101120301B1 (en) | Persistent saving portal | |
| US8464158B2 (en) | Method and arrangement for sharing information search results | |
| Denoue et al. | An annotation tool for Web browsers and its applications to information retrieval. | |
| US8924251B2 (en) | Systems and methods for providing one or more pages from an electronic document | |
| US20110137943A1 (en) | Apparatus for deciding word-related keywords, and method and program for controlling operation of same | |
| JP2010073114A6 (en) | Image information retrieving apparatus, image information retrieving method and computer program therefor | |
| US10366051B2 (en) | Method and system for file conversion | |
| US7715625B2 (en) | Image processing device, image processing method, and storage medium storing program therefor | |
| JP6840597B2 (en) | Search result summarizing device, program and method | |
| TW201423554A (en) | Conversion of non-book documents for consistency in e-reader experience | |
| JP2021120790A (en) | Sentence structure drawing device | |
| JP2008269069A (en) | Information processing system and information processing method | |
| NL2025417B1 (en) | Intelligent Content Identification and Transformation | |
| US11645472B2 (en) | Conversion of result processing to annotated text for non-rich text exchange | |
| KR20060101803A (en) | How to create and view electronic documents with dynamic reading | |
| JP2022187507A (en) | TECHNICAL RESEARCH SUPPORT DEVICE, TECHNICAL RESEARCH SUPPORT METHOD, AND TECHNICAL RESEARCH SUPPORT PROGRAM | |
| Kásler et al. | Framework for semi automatically generating topic maps | |
| US20230305995A1 (en) | Information processing apparatus, non-transitory computer readable medium storing program, and information processing method | |
| JP2009245061A (en) | Retrieval server and computer program | |
| CN119645268B (en) | Intelligent interaction method and system for documents | |
| JP2012256259A (en) | Client server system, client apparatus, server apparatus, comment screen generation method in client server system, program of client apparatus, and program of server apparatus | |
| JP2001117942A (en) | INFORMATION SEARCHING DEVICE, INFORMATION SEARCHING METHOD, AND COMPUTER-READABLE RECORDING MEDIUM RECORDING PROGRAM FOR CAUSING COMPUTER TO EXECUTE THE METHOD | |
| JP2009266065A (en) | Method and device for creating related term dictionary, and program for the same |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191128 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200911 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200929 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201127 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210209 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210217 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6840597 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |