KR20050004274A - Search engine, search system, method for making a database in a search system, and recording media - Google Patents
Search engine, search system, method for making a database in a search system, and recording media Download PDFInfo
- Publication number
- KR20050004274A KR20050004274A KR10-2004-7019523A KR20047019523A KR20050004274A KR 20050004274 A KR20050004274 A KR 20050004274A KR 20047019523 A KR20047019523 A KR 20047019523A KR 20050004274 A KR20050004274 A KR 20050004274A
- Authority
- KR
- South Korea
- Prior art keywords
- page
- index page
- keyword
- database
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
순회로보트(3)가 취득한 인덱스 페이지의 갱신일을 링크처의 갱신일과 비교하여, 링크처의 쪽이 새로운 경우에는 인덱스 페이지의 갱신일을 링크처의 페이지의 갱신일로 치환한다. 순회로보트가 추출한 인덱스 페이지의 키워드에 링크처의 페이지로부터 추출한 키워드를 추가한다.The update date of the index page acquired by the circuit boat 3 is compared with the update date of the link destination, and when the link destination is new, the update date of the index page is replaced with the update date of the link page. The keyword extracted from the linked page is added to the keyword of the index page extracted by the circuit boat.
Description
본 발명은 네트워크상에 분산된 데이터를 검색하는 검색엔진과, 검색시스템, 검색시스템에서의 데이터베이스 작성방법 및, 기록매체에 관한 것이다.The present invention relates to a search engine for searching distributed data on a network, a search system, a database creation method in a search system, and a recording medium.
알타비스타(Altavista)(http://www.altavista.com/), 라이코스(Lycos)(http://www.lycos.com/), 야후(Yahoo!)(http://www.yahoo.com/)등 로보트를 이용한 네트워크상의 검색엔진은 다수 존재한다. 이들은 로보트로 칭해지는 기계적으로 네트워크상에서 정보를 수집하는 소프트웨어를 이용하고 있다. 그리고, 수집한 데이터를 데이터베이스화[페이지 정보에 대해 형태소해석(形態素解析; morphological analysis)을 수행하고, 인덱스 테이블을 작성하여 데이터베이스에 격납하는 것]하여, 이용자가 검색할 수 있도록 하고 있다.Altavista (http://www.altavista.com/), Lycos (http://www.lycos.com/), Yahoo! (http://www.yahoo.com There are many search engines on the network using robots. They use software that collects information over a network, mechanically called robots. The collected data is then databased (morphological analysis of the page information, the index table is created and stored in the database) so that the user can search the data.
상기 로보트는 네트워크상에서 HTML(Hyper Text Markup Language)로 기술된 문장을 탐색하고, 거기에 기재되어 있는 링크처를 찾아 가서, 네트워크상에 존재하는 데이터를 수집한다. 데이터베이스화에 대해서는 풀텍스트 검색을 하는 것도 있지만, 타이틀이나 URL이라는 부분만을 검색대상으로 하는 것과 같은 것도 있다.The robot searches a sentence described in Hyper Text Markup Language (HTML) on a network, finds a link described therein, and collects data existing on the network. There are full-text searches for the database, but some search only for titles and URLs.
상기 데이터베이스는 양이 많으므로 분산화되어 있는 경우도 있다. 그러나, 어디까지나 양이 많기 때문에 단순한 분할이고, 어떠한 의미를 갖고 분할하고 있는 것은 아니다.Since the said database is large, it may be distributed. However, since the quantity is large, it is a simple division and is not divided with any meaning.
상기 검색에서는 키워드검색이 수행된다. 즉, 찾고 싶은 문장에 포함되어 있을 어(語)를 입력하여 검색을 수행한다.In the search, keyword search is performed. In other words, a search is performed by inputting a language included in a sentence to be searched.
한편, 인기가 있는 사이트에 대한 억세스 집중을 분산시켜 트래픽을 경감시키기 위해 미러사이트가 설치되는 것이 있다. 예컨대, Point Cast Network(PCN)사의 I-Server(http://www.pointcast.com/products/iserver.html)에서는 PCN 본사로 정기적으로 정보를 프리페치하여 미러사이트를 관리하고 있다.On the other hand, mirror sites are installed to reduce traffic by distributing the concentration of access to popular sites. For example, I-Server (http://www.pointcast.com/products/iserver.html) of Point Cast Network (PCN) manages mirror sites by prefetching information to PCN headquarters on a regular basis.
종래, 네트워크상에서 분산된 데이터의 검색엔진에 있어서는 다음과 같은 문제점이 있었다.Conventionally, the following problems exist in a search engine for distributed data on a network.
(1) 증대하는 데이터를 취급하는 것이 곤란하게 되고 있다.(1) It is difficult to handle increasing data.
예컨대, WWW(World Wide Web)상의 페이지 데이터가 1996년에 세계에 4000만 이상 있는 것으로 말해지고 있고, 금후도 지수함수적으로 증가하는 것으로 예상된다. 현재, 페이지수도, 1페이지당 데이터양도 급격하게 증대하는 경향에 있다.For example, page data on the World Wide Web (WWW) is said to be over 40 million in the world in 1996, and is expected to increase exponentially in the future. At present, the number of pages and the amount of data per page also tend to increase rapidly.
이와 같이 급증하는 데이터를 단순하게 양에 의해 분할하는 것 만으로는 데이터베이스 관리가 극히 곤란하다.It is extremely difficult to manage the database simply by dividing such rapidly increasing data by quantity.
(2) 갱신빈도가 낮은 정보는 억세스가 적은 경향이 있다. 갱신빈도가 낮은 페이지는 일반적으로 정보가 오래되어, 억세스가 적은 경향이 있다. 이 때문에, 갱신빈도가 높은 페이지를 우선적으로 표시하는 검색시스템이 유효하다.(2) Information with low update frequency tends to have less access. Pages with low update frequency tend to be outdated and have little access. For this reason, a retrieval system that preferentially displays pages with high update frequency is effective.
(3) 종래 검색엔진에 도메인, 또는 URL을 등록하면, 로보트가 도메인 또는 URL을 순회하고, 순회에 의해 추출된 파일로부터 그 검색 키워드를 추출하면 동시에 갱신일을 취득한다. 그리고, 취득한 갱신일에 따라 파일의 새로움을 판단하여, 검색결과의 표시에 우선도를 부여한다.(3) When a domain or URL is registered in a conventional search engine, the robot traverses the domain or URL, and when the search keyword is extracted from the file extracted by the traversal, the update date is acquired at the same time. Then, the newness of the file is judged according to the acquired update date, and priority is given to the display of the search results.
그러나, 프레임태그에 의해 구성된 인덱스 페이지의 경우, 각 프레임에서 링크되는 페이지가 갱신되어도 인덱스 페이지가 갱신되지 않는 한, 갱신일이 예전인 채로 되어 버려, 검색결과와 내용이 일치되지 않는다는 문제가 있다. 또한, 갱신빈도가 낮은 페이지를 검색대상으로부터 제외하는 시스템의 경우, 프레임 대응의 페이지가 특별히 불리하게 취급되어 버린다는 문제가 있다.However, in the case of the index page constituted by the frame tag, even if the page linked in each frame is updated, unless the index page is updated, the update date remains as it is, and there is a problem that the contents do not match the search result. In addition, in the case of a system in which a page with a low update frequency is excluded from the search object, there is a problem that a page corresponding to a frame is treated particularly disadvantageously.
본 발명은 상기한 점을 감안하여 발명된 것으로, 데이터베이스화된 네트워크상에 산재하는 팽대된 검색대상 데이터의 갱신일자를 링크처의 페이지의 갱신일자의 최신의 갱신일자로 변경하는 것에 의해 정확한 갱신빈도정보를 얻을 수 있는 검색엔진, 검색시스템, 검색시스템에 있어서 데이터베이스 작성방법 및, 기억매체를 제공함에 그 목적이 있다.The present invention has been invented in view of the above, and the correct update frequency information is changed by changing the update date of the expanded search target data scattered on the database network to the latest update date of the update date of the linked page. The purpose of the present invention is to provide a method for creating a database and a storage medium in a search engine, a search system, and a search system.
또한 본 발명은, 데이터베이스화된 인덱스 페이지의 키워드에 링크처의 페이지의 키워드를 취득해서, 추가하는 것이 가능한 검색엔진, 검색시스템, 검색시스템에 있어서 데이터베이스 작성방법 및, 기억매체를 제공함에 다른 목적이 있다.Another object of the present invention is to provide a database creation method and a storage medium in a search engine, a search system, and a search system that can acquire and add a keyword of a linked page to a keyword of a database indexed page. have.
도 1은 본 발명의 1실시형태에 있어서 검색엔진의 구성예를 나타낸 도면,1 is a diagram showing a configuration example of a search engine in one embodiment of the present invention;
도 2는 인덱스 페이지의 구성을 나타낸 도면,2 is a diagram illustrating a configuration of an index page;
도 3은 본 발명의 1실시형태의 동작을 나타낸 플로우차트,3 is a flowchart showing the operation of one embodiment of the present invention;
도 4는 순회로보트, 웹서버 및, 유저의 각각의 동작을 나타낸 플로우차트,4 is a flowchart showing each operation of a circuit boat, a web server, and a user;
도 5는 등록하는 도메인 또는 URL을 입력하는 화면예를 나타낸 도면,5 is a diagram illustrating an example of a screen for inputting a domain or URL to be registered;
도 6은 등록한 URL의 화면예를 나타낸 도면,6 is a diagram showing a screen example of a registered URL;
도 7은 키워드를 입력하는 경우의 화면예를 나타낸 도면,7 is a diagram showing a screen example when a keyword is input;
도 8은 검색엔진에 의한 검색결과의 화면예를 나타낸 도면이다.8 is a diagram illustrating a screen example of a search result by a search engine.
상기 목적을 달성하기 위한 본 발명에 따른 검색엔진은, 네트워크상의 정보의 인덱스 페이지에 있어서, 적어도 URL(Uniform Resource Locator) 또는 도메인, 갱신일 및, 키워드를 포함하는 인덱스 페이지를 격납한 데이터베이스와, 지정된 도메인 또는 URL을 기초로 상기 데이터베이스를 순회하여, 상기 인덱스 페이지의 갱신일과, 이 인덱스 페이지로부터 링크하는 웹사이트상의 페이지의 갱신일을 취득하여, 그 중 최신 갱신일을 인덱스 페이지의 갱신일로 하는 순회로보트를 구비하여 구성된다.In order to achieve the above object, a search engine according to the present invention includes a database storing an index page including at least a URL (Uniform Resource Locator) or a domain, an update date, and a keyword in an index page of information on a network, and a designated domain. Or a circuit boat which traverses the database on the basis of a URL, obtains an update date of the index page and an update date of a page on a website linked from the index page, and the latest update date is an update date of the index page. It is composed.
또한 본 발명에 따른 검색엔진은, 네트워크상의 인덱스 페이지에 있어서, 적어도 URL(Uniform Resource Locator) 또는 도메인 및 키워드를 포함하는 인덱스 페이지를 격납한 데이터베이스와, 지정된 도메인 또는 URL을 기초로 상기 데이터베이스를 순회하여, 상기 인덱스 페이지와, 이 인덱스 페이지로부터 링크하는 페이지의키워드를 취득하여, 이 취득한 페이지의 키워드를 상기 인덱스 페이지의 키워드에 부가하는 순회로보트를 구비하여 구성된다.In addition, the search engine according to the present invention, in the index page on the network, iterates through a database storing an index page including at least a Uniform Resource Locator (URL) or a domain and a keyword, and the database based on a specified domain or URL. And a circulation boat for acquiring the keywords of the index page and the page to be linked from the index page, and adding the keywords of the obtained page to the keywords of the index page.
또한 본 발명에 따른 검색시스템은, 네트워크상의 정보의 인덱스 페이지에 있어서, 적어도 URL(Uniform Resource Locator) 또는 도메인, 갱신일 및, 키워드를 포함하는 인덱스 페이지를 격납한 데이터베이스와, 지정된 도메인 또는 URL을 기초로 상기 데이터베이스를 순회하여, 상기 인덱스 페이지의 갱신일과, 이 인덱스 페이지로부터 링크하는 웹사이트상의 페이지의 갱신일을 취득하여, 그 중 최신 갱신일을 인덱스 페이지의 갱신일로 하는 순회로보트 및, 지정된 키워드를 기초로 상기 데이터베이스를 검색하는 엔진을 구비하여 구성된다.In addition, the search system according to the present invention, in the index page of the information on the network, at least based on a database containing an index page containing a Uniform Resource Locator (URL) or domain, an update date, and a keyword, and a designated domain or URL. Iterating the database, obtaining an update date of the index page and an update date of a page on a website linked from the index page, and a circuit boat in which the latest update date is the update date of the index page, and the designated keyword. It is configured with an engine for searching the database.
또한 본 발명의 검색시스템은, 네트워크상의 인덱스 페이지에 있어서, 적어도 URL(Uniform Resource Locator) 또는 도메인 및 키워드를 포함하는 인덱스 페이지를 격납한 데이터베이스와, 지정된 도메인 또는 URL을 기초로 상기 데이터베이스를 순회하여, 상기 인덱스 페이지와, 이 인덱스 페이지로부터 링크하는 페이지의 키워드를 취득하여, 이 취득한 페이지의 키워드를 상기 인덱스 페이지의 키워드에 부가하는 순회로보트 및, 지정된 키워드를 기초로 상기 데이터베이스를 검색하는 검색엔진을 구비하여 구성된다.In addition, the search system of the present invention, in the index page on the network, iterates over a database storing at least an index page including a Uniform Resource Locator (URL) or a domain and a keyword, and the database based on a designated domain or URL, A circulation boat for acquiring a keyword of a page to be linked from the index page, adding a keyword of the acquired page to a keyword of the index page, and a search engine for searching the database based on a specified keyword; It is configured by.
또한 본 발명에 의하면, 네트워크상의 정보의 인덱스 페이지에 있어서, 적어도 URL(Uniform Resource Locator) 또는 도메인, 갱신일 및, 키워드를 포함하는 인덱스 페이지를 격납한 데이터베이스를 갖추고, 검색요구에 따라 데이터베이스 검색을 수행하는 검색시스템에 있어서의 데이터베이스 작성방법에 있어서, 지정된 도메인 또는 URL을 기초로 상기 데이터베이스를 순회하여, 상기 인덱스 페이지의 갱신일과, 이 인덱스 페이지로부터 링크하는 웹사이트상의 페이지에서 갱신일을 취득하고, 상기 취득한 갱신일중 최신 갱신일을 인덱스 페이지의 갱신일로 설정하는 것을 특징으로 한다.According to the present invention, there is provided an index page of information on a network, the database including at least a URL (Uniform Resource Locator) or a database storing an index page including a domain, an update date, and keywords, and performing a database search according to a search request. In the database creation method in the retrieval system, the database is traversed based on a specified domain or URL to obtain an update date of the index page and an update date from pages on a website linked from the index page, and the obtained update date. The latest update date of the index page is set as the update date.
또한 본 발명에 의하면, 네트워크상의 정보의 인덱스 페이지에 있어서, 적어도 URL 또는 도메인, 갱신일 및, 키워드를 포함하는 인덱스 페이지를 격납한 데이터베이스를 갖추고, 검색요구에 따라 데이터베이스 검색을 수행하는 검색시스템에 있어서의 데이터베이스 작성방법에 있어서, 지정된 도메인 또는 URL을 기초로 상기 데이터베이스를 순회하여, 상기 인덱스 페이지의 것과, 이 인덱스 페이지로부터 링크하는 페이지의 키워드를 취득하고, 상기 취득한 페이지의 키워드를 상기 인덱스 페이지의 키워드에 부가하는 것을 특징으로 한다.According to the present invention, there is provided an index page of information on a network, comprising: a database including at least a URL or domain, an update date, and an index page including a keyword and performing a database search in accordance with a search request. In the method for creating a database, the database is traversed based on a specified domain or URL to obtain a keyword of the index page and a page to be linked from the index page, and convert the keyword of the obtained page to the keyword of the index page. It is characterized by adding.
또한 본 발명에 의하면, 네트워크상의 정보의 인덱스 페이지에 있어서, 적어도 URL(Uniform Resource Locator) 또는 도메인, 갱신일 및, 키워드를 포함하는 인덱스 페이지를 격납한 데이터베이스를 갖추고, 검색요구에 따라 데이터베이스 검색을 수행하는 검색시스템에 있어서의 데이터베이스를 컴퓨터에서 작성시키기 위한 프로그램을 갖춘 기억매체에 있어서, 지정된 도메인 또는 URL을 기초로 상기 데이터베이스를 순회하여, 상기 인덱스 페이지의 갱신일과, 이 인덱스 페이지로부터 링크하는 웹사이트상의 페이지의 갱신일을 취득시키는 수순과, 상기 취득한 갱신일중 최신 갱신일을 인덱스 페이지의 갱신일로 설정하는 수순을 컴퓨터에서 실행시키기 위한 프로그램이 기억된다.According to the present invention, there is provided an index page of information on a network, the database including at least a URL (Uniform Resource Locator) or a database storing an index page including a domain, an update date, and keywords, and performing a database search according to a search request. A storage medium having a program for creating a database in a retrieval system on a computer, wherein the database is traversed based on a specified domain or URL to update the index page and pages on a website linked from the index page. The program for causing the computer to execute the procedure for acquiring the update date of the data and the procedure for setting the latest update date among the acquired update dates as the update date of the index page.
또한, 본 발명에 의하면, 네트워크상의 정보의 인덱스 페이지에 있어서, 적어도 URL(Uniform Resource Locator) 또는 도메인, 갱신일 및, 키워드를 포함하는 인덱스 페이지를 격납한 데이터베이스를 갖추고, 검색요구에 따라 데이터베이스 검색을 수행하는 검색시스템에 있어서의 데이터베이스를 컴퓨터에서 작성시키기 위한 프로그램을 갖춘 기억매체에 있어서, 지정된 도메인 또는 URL을 기초로 상기 데이터베이스를 순회하여, 상기 인덱스 페이지와, 이 인덱스 페이지로부터 링크하는 페이지의 키워드를 취득하는 수순과, 상기 취득한 페이지의 키워드를 상기 인덱스 페이지의 키워드에 부가하는 수순을 컴퓨터에서 실행시키기 위한 프로그램이 기억된다.In addition, according to the present invention, in an index page of information on a network, a database including at least a URL (Uniform Resource Locator) or a domain storing an index page including a domain, an update date, and a keyword, and performs a database search according to a search request. A storage medium equipped with a program for creating a database in a computer in a retrieval system, wherein the database is traversed based on a specified domain or URL to obtain keywords of the index page and the page linked from the index page. And a program for causing the computer to execute the procedure to add the keyword of the acquired page to the keyword of the index page.
또한, 데이터베이스의 순회는 인덱스 페이지와 동일 도메인을 대상으로 한다.Also, the database traversal targets the same domain as the index page.
또한, 인덱스 페이지 및 링크처의 페이지는 프레임태그에 의해 구성되고, 상기 프레임내 페이지의 최신의 갱신일이 인덱스 페이지의 갱신일로서 설정된다.Further, the index page and the page to which the destination is linked are constituted by frame tags, and the latest update date of the pages in the frame is set as the update date of the index page.
본 발명에 의하면, 순회로보트가 취득한 인덱스 페이지의 갱신일을 링크처의 페이지의 갱신일과 비교하고, 링크처의 페이지의 갱신일의 쪽이 새로운 경우는 인덱스 페이지의 갱신일을 링크처의 페이지의 갱신일로 치환한다.According to the present invention, the update date of the index page acquired by the circuit boat is compared with the update date of the linked page, and when the update date of the linked page is new, the update date of the index page is replaced with the update date of the linked page. .
또한, 순회로보트가 추출한 인덱스 페이지의 키워드에 링크처의 페이지로부터 추출한 키워드를 추가한다.In addition, the keyword extracted from the linked page is added to the keyword of the index page extracted by the circulation boat.
또한, 이상의 각 장치에 관한 발명은 방법에 관한 설명으로서도 성립한다.In addition, the invention concerning each apparatus mentioned above is also established as a description about a method.
또한 상기 발명은 상당하는 수순 또는 수단을 컴퓨터에서 실행시키기 위한프로그램을 기억한 기계판독 가능한 매체로서도 성립한다.The invention also holds as a machine-readable medium storing a program for executing a corresponding procedure or means on a computer.
플래쉬아이등의 로보트 순회형 검색엔진의 경우, 프레임 대응의 페이지에 대해서는 인덱스 페이지가 갱신되지 않고서 주로 프레임 마다 링크되는 페이지가 갱신되기 때문에, 갱신빈도가 극히 낮은 것으로서 취급되어 버린다. 본 발명에 의하면, 프레임 대응의 검색서비스에 있어서도 비프레임 대응의 페이지와 마찬가지의 검색기능을 얻을 수 있게 된다.In the case of a robot traversal type search engine such as a flash eye, since the page linked to each frame is mainly updated without updating the index page for the frame-compatible page, the update frequency is treated as extremely low. According to the present invention, a search function similar to a non-frame page can be obtained even in a search service corresponding to a frame.
또한 데이터베이스의 효율화의 관점으로부터, 일반적으로 데이터베이스의 용량이 큰 쪽이 많은 페이지에 대해 검색 가능하게 되기 때문에, 정보량이 올라가거나 비트율도 올라간다. 그러나, 등록을 무진장으로 증가하면, 1개의 키워드에 대한 검색페이지수도 증가하기 때문에, 검색하는 쪽도 그 중으로부터 필요한 정보를 추출하는 것이 곤란하게 되어 간다. 본 발명에 의하면, 검색정보를 인덱스 페이지에 수집하는 것이 가능하기 때문에, 효율적인 검색이 가능하게 된다.In addition, from the viewpoint of the efficiency of the database, in general, the larger the database, the more pages can be searched for, so that the amount of information increases and the bit rate also increases. However, if the registration is increased indefinitely, the number of search pages for one keyword also increases, making it difficult for the searcher to extract necessary information therefrom. According to the present invention, since the search information can be collected in the index page, efficient search is possible.
(실시예)(Example)
이하, 예시도면을 참조하여 본 발명에 따른 실시예를 상세히 설명한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.
먼저, 어구를 정의한다.First, the phrase is defined.
페이지(page)라는 것은 하이퍼텍스트의 페이지를 의미하는 것으로 한다. WWW의 세계에서 하나의 페이지는 유니크한 URL을 갖는다.Page means a page of hypertext. In the world of WWW, a page has a unique URL.
URL(Uniform Resource Locator)이라는 것은 페이지 데이터를 억세스하는데 필요한 정보이다. URL은 프로토콜, 도메인명, 포트번호, 패스명의 정보를 포함한다.URL (Uniform Resource Locator) is information required to access page data. The URL contains the protocol, domain name, port number, and path name information.
로보트(Robot)라는 것은 Hyper Text Markup Language(HTML)나 Standard Generalized Markup Languaged(SGML)과 같은 하이퍼텍스트로 기술된 문서를 읽고, 그곳에 쓰여져 있는 링크를 기계적으로 찾아감으로부터 문서를 네트워크상에서 수집하는 것으로, 소프트웨어에 의해 실현된다. 로보트 대신 스파이더(spider) 또는 원더러(Wanderer)등으로 칭해지는 것도 있다.Robot is a collection of documents on the network from reading hypertext written documents such as Hyper Text Markup Language (HTML) or Standard Generalized Markup Languaged (SGML), and mechanically finding the links written there. Realized by software. Instead of robots, there are also called spiders or wanderers.
로보트의 기본적인 동작은 다음과 같이 된다.The basic operation of the robot is as follows.
(수순1) 지정된 홈페이지를 visiting list에 등록한다.(Step 1) Register the designated homepage in the visiting list.
(수순2) 로보트는 visiting list에 따라 페이지를 취득한다.(Step 2) The robot gets a page according to the visiting list.
(수순3) 취득된 페이지를 해석해서 URL을 추출한다.(Step 3) The obtained page is analyzed and the URL is extracted.
(수순4) 추출된 URL을 visiting list에 추가한다(단, URL의 중복등록은 하지 않는다).(Step 4) Add the extracted URL to the visiting list (but do not register duplicate URL).
이후, 수순2∼4를 반복한다. 또한, 페이지의 취득빈도는 해당 페이지의 갱신빈도에 따라 결정되도록 하여도 된다.Thereafter, steps 2 to 4 are repeated. In addition, the acquisition frequency of the page may be determined according to the update frequency of the page.
다음에, 본 실시형태에 대해 설명한다.Next, this embodiment is described.
본 실시형태에서는 네트워크중에 분산된 데이터의 일례로서 페이지를 취급하는 것으로 한다.In this embodiment, the page is treated as an example of data distributed in the network.
도 1은 본 발명의 검색엔진을 포함하는 검색시스템 전체의 구성도를 나타낸다. 동도에 나타낸 바와 같이, 네트워크(1)에는 웹서버(9,11), 유저PC(13), 검색서버(19) 및, 검색엔진(21)이 접속된다. 검색엔진(21)은 순회로보트(3; robot)와, 데이터베이스(5) 및, 엔진(17)으로 구성된다. 순회로보트(3)는 등록된 도메인, URL에 억세스하여, 갱신일을 취득하고, 키워드를 추출한다. 또한, 링크처의 페이지에 억세스하여, 갱신일을 취득하고, 키워드를 추출한다. 취득한 갱신일 및 추출한 키워드를 데이터베이스(5)에 등록한다. 데이터베이스는 인덱스 페이지로 이루어진 visiting list를 격납한다. 인덱스 페이지는 예컨대 도 2에 나타낸 바와 같이 URL, 키워드 및, 속성정보로 이루어지고, 속성정보는 갱신일자를 포함한다. 엔진(17)은 지정된 키워드를 기초로 데이터베이스(5)를 검색한다. 검색엔진(19)은 예컨대 Infoseek등으로 대표되는 검색서버(19)이다.1 is a block diagram of an entire search system including a search engine of the present invention. As shown in the diagram, the network 1 is connected with a web server 9, 11, a user PC 13, a search server 19, and a search engine 21. FIG. The search engine 21 is composed of a circuit boat 3 (robot), a database 5, and an engine 17. The circuit boat 3 accesses a registered domain and URL, obtains an update date, and extracts a keyword. In addition, the linked page is accessed, an update date is obtained, and a keyword is extracted. The acquired update date and the extracted keyword are registered in the database 5. The database stores a visiting list of index pages. The index page is composed of, for example, a URL, a keyword, and attribute information as shown in FIG. 2, and the attribute information includes an update date. The engine 17 searches the database 5 based on the designated keyword. The search engine 19 is, for example, a search server 19 represented by Infoseek or the like.
다음에, 도 3 내지 도 8을 참조하여 본 발명의 검색엔진의 동작에 대해 설명한다.Next, the operation of the search engine of the present invention will be described with reference to Figs.
처음에, 유저는 프레임을 포함하는 홈페이지를 작성하고, 웹서버(9)(11)에 업로드하고 있는 것으로 한다.First, a user creates a home page including a frame and uploads it to the web server 9 (11).
도 3의 단계(S1)에 있어서, 유저는 도메인 또는 URL을 등록한다. 즉, 유저PC(13)의 화면상에, 예컨대 도 5에 나타낸 바와 같은 도메인 또는 URL입력화면(검색엔진의 등록화면)이 표시된다. 유저는 검색도메인 또는 URL을 입력하고, 등록보턴(15)을 선택한다. 이 결과, 도 4에 나타낸 바와 같이 순회로보트(3)는 유저에 의해 입력된 도메인 또는 URL을 데이터베이스(5)내의 visiting list에 등록한다.In step S1 of Fig. 3, the user registers a domain or URL. That is, on the screen of the user PC 13, a domain or URL input screen (registration screen of the search engine) as shown in FIG. 5, for example, is displayed. The user enters a search domain or URL and selects registration button 15. As a result, as shown in FIG. 4, the circuit boat 3 registers the domain or URL input by the user to the visiting list in the database 5. As shown in FIG.
다음에, 도 3의 단계(S3)에 있어서, 인덱스 페이지에 대한 억세스가 수행된다. 즉, 도 4에 나타낸 바와 같이 순회로보트(3)는 등록된 도메인 또는 URL을 웹서버(11)에 송신하고, 웹서버는 수신한 도메인 또는 URL을 기초로 인덱스 페이지를억세스하며, 순회로보트에 송신한다.Next, in step S3 of Fig. 3, access to the index page is performed. That is, as shown in FIG. 4, the circuit boat 3 transmits the registered domain or URL to the web server 11, and the web server accesses the index page based on the received domain or URL, and transmits to the circuit boat. do.
순회로보트(3)는 웹서버(11)로부터 송신된 인덱스 페이지의 갱신일(A)을 취득한다. 다음에, 도 3의 단계(S7)에 있어서, 그 인덱스 페이지에 등록되어 있는 키워드를 추출한다.The circulation boat 3 acquires the update date A of the index page sent from the web server 11. Next, in step S7 of Fig. 3, keywords registered in the index page are extracted.
다음에, 도 3의 단계(S9)에 있어서 링크처에 억세스한다. 즉, 도 4에 나타낸 바와 같이 순회로보트(3)는 인덱스 페이지에 포함되는 링크처 억세스를 웹서버(9)(11)에 송신한다. 웹서버(9)(11)는 링크처 억세스를 기초로 웹서버(9)(11)상의 링크처의 페이지에 억세스하여, 그 페이지를 순회로보트(3)에 송신한다. 다음에, 도 3의 단계(S11)에 있어서, 갱신일(B)을 취득한다. 즉, 도 4에 나타낸 바와 같이 순회로보트(3)는 링크처의 페이지의 갱신일(B)을 취득하고, 더욱이 키워드를 추출한다. 그리고, 도 3의 단계(S13)에 있어서, 갱신일(A와 B)의 비교를 수행하고, 단계(S15)에 있어서 갱신일을 갱신한다. 즉, 도 4에 나타낸 바와 같이 인덱스 페이지의 갱신일(A) 보다도 링크처 페이지의 갱신일(B)의 쪽이 큰(날자가 새로운) 경우에는 인덱스 페이지의 갱신일을 B로 한다. 그리고, 도 3의 단계(S17)에 있어서, 키워드를 추출하고, 단계(S19)에 있어서 인덱스 페이지의 키워드에 추가한다. 그리고, 단계(S21)에 있어서 순회가 종료되었는가의 여부를 판단한다. 순회가 종료되지 않았다면, 단계(S9)로 되돌아가서, 단계(S9 내지 S21)를 재차 반복하여 실행한다.Next, in step S9 of Fig. 3, the link destination is accessed. That is, as shown in Fig. 4, the circuit boat 3 transmits the link destination access included in the index page to the web server 9 (11). The web server 9 (11) accesses the page of the link destination on the web server (9) 11 based on the link destination access, and transmits the page to the circuit boat 3. Next, in step S11 of FIG. 3, the update date B is acquired. In other words, as shown in Fig. 4, the circuit boat 3 acquires the update date B of the page to be linked, and further extracts the keyword. And in step S13 of FIG. 3, a comparison of update date A and B is performed, and an update date is updated in step S15. That is, as shown in Fig. 4, when the update date B of the linked page is larger (the date is new) than the update date A of the index page, the update date of the index page is B. In step S17 of FIG. 3, the keyword is extracted and added to the keyword of the index page in step S19. In step S21, it is determined whether or not the circulation has ended. If the circulation has not been completed, the process returns to step S9 to repeat steps S9 to S21 again.
한편, 단계(S21)에 있어서, 순회를 종료한 것으로 판단하면, 단계(S23)에 있어서 순회로보트(3)는 얻어진 갱신일과 키워드를 데이터베이스(5)에 등록한다.On the other hand, if it is determined in step S21 that the circulation has ended, the circulation boat 3 registers the obtained update date and keywords in the database 5 in step S23.
도 6은 순회로보트(3)가 프레임내의 페이지의 최신 갱신일을 인덱스 페이지의 갱신일로 하는 일례를 나타낸 도면이다. 즉, 도 5에 나타낸 도메인 또는 URL의 등록화면을 이용해서 유저에 의해, 예컨대www.domain.com/index.html이 등록된 것으로 한다. 또한, 현재의 인덱스 페이지의 갱신날자는 2000년 3월 14일인 것으로 한다. 그리고, 프레임이 2000년 2월 14일의 갱신날자를 갖는 title.html의 링크처 페이지와, 2000년 8월 1일의 갱신날자를 갖는 menu.html의 링크처 페이지 및, 2000년 8월 8일의 갱신날자를 갖는 welcom.html의 링크처 페이지로 구성되어 있는 것으로 한다. 순회로보트(3)는 이들 링크처 페이지의 갱신날자를 취득하고, 그들의 갱신날자를 비교하여, 가장 새로운 갱신날자인 2000년 8월 8일을 인덱스 페이지의 갱신날자로서 설정한다.FIG. 6 is a diagram showing an example in which the circuit boat 3 sets the latest update date of the page in the frame as the update date of the index page. In other words, for example, www.domain.com/index.html is registered by the user using the registration screen of the domain or URL shown in FIG. It is also assumed that the update date of the current index page is March 14, 2000. Then, the link page of title.html having the date of update of February 14, 2000, the link page of menu.html having the date of update of August 1, 2000, and August 8, 2000 It is assumed that it consists of a link page of welcom.html having an update date of. The circuit boat 3 acquires the update dates of these linked pages, compares them, and sets August 8, 2000, which is the newest update date, as the update date of the index page.
또한, 유저가 검색을 수행하는 경우에는, 예컨대 검색서버(19)의 페이지(예컨대, 플래시아이나 Infoseek등에 의해 제공되는 홈페이지등)에 의해 제공되는, 예컨대 도 7에 나타낸 바와 같은 검색을 위한 키워드 입력화면으로부터 키워드를 입력하고, 검색보턴(17)을 선택하면, 도 1에 나타낸 엔진(17)에 의해 키워드 검색이 수행되어, 예컨대 도 8에 나타낸 바와 같은 검색결과가 표시된다. 본 예에서는 검색결과로서, 「www.domain.com/index.html2000년 8월 8일 갱신」이 검색서버(19)의 페이지에 표시된다.In addition, when a user performs a search, for example, a keyword input screen for a search as shown in FIG. When a keyword is input from the search button and the search button 17 is selected, a keyword search is performed by the engine 17 shown in FIG. 1, and the search result as shown in FIG. 8 is displayed, for example. In this example, " www.domain.com/index.html August 8, 2000 update" is displayed on the page of the search server 19 as a search result.
또한, 순회로보트(3)가 순회하는 범위로서는 각 프레임의 지정으로 링크되어 있는 페이지로 한정되어도 된다. 또한, 동일 도메인내로 한정하여도 된다.In addition, the range that the circuit boat 3 traverses may be limited to pages linked by designation of each frame. Moreover, you may limit to the same domain.
본 발명은 로보트를 이용한 네트워크상의 검색시스템에 이용할 수 있다.The present invention can be used for a search system on a network using a robot.
Claims (8)
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2000/008430 WO2002044946A1 (en) | 2000-11-29 | 2000-11-29 | Search engine |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR10-2002-7006827A Division KR100496384B1 (en) | 2000-11-29 | 2000-11-29 | Search engine, search system, method for making a database in a search system, and recording media |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20050004274A true KR20050004274A (en) | 2005-01-12 |
Family
ID=11736729
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR10-2002-7006827A Expired - Fee Related KR100496384B1 (en) | 2000-11-29 | 2000-11-29 | Search engine, search system, method for making a database in a search system, and recording media |
KR10-2004-7019523A Ceased KR20050004274A (en) | 2000-11-29 | 2000-11-29 | Search engine, search system, method for making a database in a search system, and recording media |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR10-2002-7006827A Expired - Fee Related KR100496384B1 (en) | 2000-11-29 | 2000-11-29 | Search engine, search system, method for making a database in a search system, and recording media |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP3586272B2 (en) |
KR (2) | KR100496384B1 (en) |
WO (1) | WO2002044946A1 (en) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8307275B2 (en) * | 2005-12-08 | 2012-11-06 | International Business Machines Corporation | Document-based information and uniform resource locator (URL) management |
JP4983401B2 (en) * | 2007-05-25 | 2012-07-25 | 富士ゼロックス株式会社 | Information processing apparatus and control program |
JP2008299788A (en) * | 2007-06-04 | 2008-12-11 | Fujitsu Ltd | WEB SERVER DEVICE, WEB SERVER PROGRAM, AND WEB SERVER DEVICE MANAGEMENT METHOD |
JP5531741B2 (en) * | 2010-04-09 | 2014-06-25 | 船井電機株式会社 | Television equipment |
JP2020197876A (en) * | 2019-05-31 | 2020-12-10 | Gmo Tech株式会社 | Information processing system, program, and information processing method |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03174653A (en) * | 1989-12-01 | 1991-07-29 | Matsushita Electric Ind Co Ltd | Method and device for control of key word |
JPH117449A (en) * | 1997-06-16 | 1999-01-12 | Hitachi Ltd | Hypertext information collection method |
JPH11212852A (en) * | 1998-01-28 | 1999-08-06 | Nec Software Chubu Ltd | Tcp/ip communication home page reading method, device therefor and information recording medium |
JP2908425B1 (en) * | 1998-04-10 | 1999-06-21 | 日本電気ソフトウェア株式会社 | Marking / redisplay method for homepages using frames |
JPH11296428A (en) * | 1998-04-14 | 1999-10-29 | Nec Home Electron Ltd | Method and device for checking update of home page and readable recording medium storing control program for update check |
-
2000
- 2000-11-29 WO PCT/JP2000/008430 patent/WO2002044946A1/en active IP Right Grant
- 2000-11-29 KR KR10-2002-7006827A patent/KR100496384B1/en not_active Expired - Fee Related
- 2000-11-29 KR KR10-2004-7019523A patent/KR20050004274A/en not_active Ceased
- 2000-11-29 JP JP2002508887A patent/JP3586272B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP3586272B2 (en) | 2004-11-10 |
WO2002044946A1 (en) | 2002-06-06 |
KR100496384B1 (en) | 2005-06-21 |
JPWO2002044946A1 (en) | 2004-04-02 |
KR20020070293A (en) | 2002-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6321228B1 (en) | Internet search system for retrieving selected results from a previous search | |
US7552109B2 (en) | System, method, and service for collaborative focused crawling of documents on a network | |
KR100403714B1 (en) | System and method for facilitating internet search by providing web document layout image and web site structure | |
US6311194B1 (en) | System and method for creating a semantic web and its applications in browsing, searching, profiling, personalization and advertising | |
US6094649A (en) | Keyword searches of structured databases | |
US8655864B1 (en) | Mobile SiteMaps | |
US7383299B1 (en) | System and method for providing service for searching web site addresses | |
US7167901B1 (en) | Method and apparatus for improved bookmark and histories entry creation and access | |
KR100505848B1 (en) | Search System | |
EP1211616A2 (en) | Data storage and retrieval system | |
US20010039563A1 (en) | Two-level internet search service system | |
WO2001016807A1 (en) | An internet search system for tracking and ranking selected records from a previous search | |
JP4769822B2 (en) | Information search service providing server, method and system using page group | |
US6711569B1 (en) | Method for automatic selection of databases for searching | |
US20080189262A1 (en) | Word pluralization handling in query for web search | |
KR100496384B1 (en) | Search engine, search system, method for making a database in a search system, and recording media | |
JP2004206492A (en) | Document display method and gateway device with link destination selection function using the same | |
KR100445943B1 (en) | Method and System for Retrieving Information using Proximity Search Formula | |
KR20000017909A (en) | Apparatus for searching information over the internet and information search method using the same | |
WO2007027469A2 (en) | Mobile sitemaps | |
JP3632354B2 (en) | Information retrieval device | |
KR100371805B1 (en) | Method and system for providing related web sites for the current visitting of client | |
JP3604069B2 (en) | Apparatus for calculating relevance between documents, method therefor, and recording medium therefor | |
Gong et al. | An implementation of web image search engines | |
JPH11265402A (en) | Data processing system and recording medium recording program for controlling data processing system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A107 | Divisional application of patent | ||
A201 | Request for examination | ||
PA0104 | Divisional application for international application |
Comment text: Divisional Application for International Patent Patent event code: PA01041R01D Patent event date: 20041130 |
|
PA0201 | Request for examination | ||
PG1501 | Laying open of application | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20050129 Patent event code: PE09021S01D |
|
E601 | Decision to refuse application | ||
PE0601 | Decision on rejection of patent |
Patent event date: 20050824 Comment text: Decision to Refuse Application Patent event code: PE06012S01D Patent event date: 20050129 Comment text: Notification of reason for refusal Patent event code: PE06011S01I |