KR20040103763A - A method of managing web sites registered in search engine - Google Patents
A method of managing web sites registered in search engine Download PDFInfo
- Publication number
- KR20040103763A KR20040103763A KR1020040003125A KR20040003125A KR20040103763A KR 20040103763 A KR20040103763 A KR 20040103763A KR 1020040003125 A KR1020040003125 A KR 1020040003125A KR 20040003125 A KR20040003125 A KR 20040003125A KR 20040103763 A KR20040103763 A KR 20040103763A
- Authority
- KR
- South Korea
- Prior art keywords
- website
- predetermined
- registered
- search engine
- pop
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G06F17/30—
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
본 발명은 인터넷 상에서 소정의 웹사이트에 대한 정보를 제공하는 검색 엔진에 관한 것이다.The present invention relates to a search engine that provides information about a given website on the Internet.
본 발명의 바람직한 일실시예에 따른 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법은, 상기 웹사이트 정보를 데이터베이스 수단에 기록하는 단계; 상기 등록된 웹사이트의 웹페이지를 구성하는 하이퍼텍스트 마크업 언어(HTML) 파일을 추출하는 단계; 상기 추출된 HTML 파일을 분석하여 팝업 창을 생성시키는 소정의 함수를 검출하는 단계; 검출된 상기 함수로 인해 생성되는 팝업 창의 개수에 따라 소정의 카운터 값을 소정치 만큼 증가시키는 단계; 상기 카운터 값이 선정된 값 이상인지 여부를 판단하는 단계; 및 상기 카운터 값이 선정된 값 이상인 경우, 상기 등록된 웹사이트에 대하여 소정의 처리를 수행하도록 제어하는 단계를 포함하는 것을 특징으로 한다.According to a preferred embodiment of the present invention, a method for managing a registered website in a search engine comprises: recording the website information in a database means; Extracting a hypertext markup language (HTML) file constituting a web page of the registered website; Analyzing the extracted HTML file to detect a predetermined function that generates a pop-up window; Increasing a predetermined counter value by a predetermined value according to the number of pop-up windows generated by the detected function; Determining whether the counter value is greater than or equal to a predetermined value; And if the counter value is greater than or equal to a predetermined value, controlling to perform a predetermined process on the registered website.
Description
본 발명은 인터넷 상에서 소정의 웹사이트에 대한 정보를 제공하는 검색 엔진에 관한 것이다. 더욱 상세하게는, 검색 엔진에 등록되어 있는 소정의 웹사이트에 대한 정보를 분석하여, 소정의 스팸 사이트 또는 성인 사이트를 추적함으로써 검색 엔진 사용자에게 불필요한 정보를 제공하지 않도록 하기 위한 등록된 웹사이트를 관리하기 위한 방법에 관한 것이다.The present invention relates to a search engine that provides information about a given website on the Internet. More specifically, it analyzes information about a predetermined website registered in a search engine, and manages a registered website so as not to provide unnecessary information to search engine users by tracking predetermined spam sites or adult sites. It relates to a method for doing so.
알타비스타(http://www.altavista.com), 라이코스(http://www.lycos.com), 야후(http://www.yahoo.com) 등과 같은 통상의 검색 엔진은 통상 웹사이트 정보를 소정의 기준에 따라 분류 및 저장하고 관리하기 위한 데이터베이스, 웹 상을 지속적으로 순회하면서 새로운 웹사이트 정보를 기계적으로 수집하기 위한 소프트웨어로 구현되는 검색 로봇(robot), 수집된 데이터를 데이터베이스화하여 상기 검색 엔진을 이용하는 이용자로 하여금 검색할 수 있도록 하는 검색 엔진 소프트웨어로 구성된다.Conventional search engines such as AltaVista (http://www.altavista.com), Lycos (http://www.lycos.com), Yahoo (http://www.yahoo.com), and the like, typically have website information. A database for classifying, storing, and managing the data according to predetermined criteria, a search robot implemented as software for mechanically collecting new website information while continuously circulating on the web, and storing the collected data as a database. It consists of search engine software that allows a user using a search engine to search.
상슬힌 검색 엔진 서비스를 제공하기 위한 전체 시스템의 블록도가 도 1에 도시되어 있다. 도 1을 참조하면, 사용자는 사용자 단말기(110)를 통하여 인터넷을 통해 검색 엔진 서버(150)로 접속한다. 사용자가 소정의 검색어를 입력하면, 검색 엔진 서버(150)는 검색 엔진 소프트웨어(140)로 해당 검색어에 대한 웹사이트 정보를 쿼리(query)하고, 검색 엔진 소프트웨어(140)는 해당 데이터베이스(130)를 검색하여 소정의 웹사이트 정보를 알려 준다. 검색 로봇(120)은 상기 설명한 바와 같이, 웹 상을 지속적으로 순회하면서 웹 서버(160)로부터 새로운 웹사이트 정보를 기계적으로 수집하기 위한 소프트웨어로 구현되는 엔티티(entity)이다. 검색 로봇(120)은 네트워크 상에서 HTML(HyperText Markup Language)로 기술된 문장을 탐색하고, 기재되어 있는 링크처를 파싱(parsing)하여 네트워크 상에 존재하는 다수의 웹사이트로부터 데이터를 수집한다. 이와 같이 검색 로봇(120)에 의해 수집된 데이터는 데이터베이스화되는데, 여기에서 데이터베이스화라 함은 웹사이트에 위치하는 소정의 정보에 대해 형태소 분석(morphological analysis)을 수행하고,인덱스 테이블을 작성하여 데이터베이스(130)에 저장하는 일련의 수순을 의미한다. 데이터베이스(130)는 검색 로봇(120)에 의해 수집된 모든 웹사이트 정보를 저장하기 위한 것이다. 검색 엔진 소프트웨어(140)는 검색 결과를 사용자에게 보여주는 기능을 한다. 이 소프트웨어는 데이터베이스(130)에 저장된 수많은 페이지를 검색하고, 특정 알고리즘에 따라 결정된 배열 순서에 따라 검색 용어와 일치되는 문자열을 포함하고 있는 웹사이트의 목록을 검색 서비스 이용자에게 제공하도록 동작한다. 위와 같은 종래의 검색 엔진은 다음과 같은 방법으로 웹사이트에 대한 정보를 검색 엔진에 등록하고, 상기 정보를 사용자에게 제공한다.A block diagram of the overall system for providing an untapped search engine service is shown in FIG. Referring to FIG. 1, a user accesses the search engine server 150 through the Internet through the user terminal 110. When a user enters a predetermined search term, the search engine server 150 queries the search engine software 140 for website information about the search term, and the search engine software 140 queries the corresponding database 130. Search and inform the website information. As described above, the search robot 120 is an entity implemented in software for mechanically collecting new website information from the web server 160 while continuously circulating on the web. The search robot 120 retrieves the text described in HyperText Markup Language (HTML) on the network, parses the described link and collects data from a number of websites present on the network. As such, the data collected by the search robot 120 is databased. Here, databaseization is performed by performing morphological analysis on predetermined information located on a website, and creating an index table. 130 means a sequence of steps to store. The database 130 is for storing all website information collected by the search robot 120. Search engine software 140 functions to present search results to the user. The software operates to retrieve numerous pages stored in the database 130 and provide a search service user with a list of web sites containing strings matching the search terms in an arrangement order determined by a particular algorithm. The conventional search engine as described above registers information about a website with a search engine in the following manner and provides the information to a user.
(1) 상술한 바와 같이 검색 로봇을 이용하여 소정의 정보를 수집하고, 수집된 정보를 전문 서퍼(surfer)의 검수를 거쳐 상기 웹사이트를 검색 엔진에 등록한다.(1) As described above, predetermined information is collected using a search robot, and the collected information is registered by a professional surfer to register the website with a search engine.
(2) 등록하고자 하는 웹사이트의 주제에 따라 분류된 디렉토리를 선택하고, 상기 선택된 디렉토리에 대해 상기 웹사이트 등록 신청을 하며, 전문 서퍼의 검수를 거쳐 검색 엔진에 등록된다. 검색 엔진에 따라 이러한 디렉토리 등록의 경우에는 소정의 등록료를 받고 등록에 소요되는 시간을 줄여주는 서비스를 제공하기도 한다.(2) Select a directory classified according to the subject of the website to be registered, apply for the website registration with respect to the selected directory, and register the search engine after inspection by a professional surfer. Depending on the search engine, such a directory registration may provide a service that reduces a registration time and receives a predetermined registration fee.
상기의 방법 등으로 검색 엔진에 등록된 웹사이트는 소정의 정보를 검색하고자 하는 사용자의 검색어 입력에 따라, 통합 웹 검색 또는 디렉토리 검색 등의 다양한 검색 방식에 따라 검색되어 사용자에게 제공된다. 상기 통합 웹 검색은 다른 용어로 "단어별 검색"이라고도 하는데, 이 검색 방법은 데이타베이스에 모든 웹사이트들의 범용 리소스 로케이터(URL)를 저장하고 특정 키워드(keyword)를 입력함으로써 원하는 정보를 찾는 방법을 말한다.The website registered in the search engine by the above method is searched and provided to the user according to various search methods such as integrated web search or directory search according to a user's search word input to search for predetermined information. The integrated web search is also referred to as "word search" in other terms. This search method stores a general purpose resource locator (URL) of all websites in a database and enters a specific keyword to find the desired information. Say.
상술한 종래 기술에 의한 웹사이트의 검색 서비스 제공 방법에서는 다음과 같은 문제점이 있다.The above-described conventional method for providing a search service for a website has the following problems.
(1) 검색 엔진에 등록된 웹사이트 중에서 처음 검색 엔진에 등록될 당시의 웹사이트에 포함된 콘텐츠와 등록 이후 웹사이트에 포함된 콘텐츠가 다를 경우가 있다. 예를 들어, 처음 등록 당시에는 소정의 콘텐츠를 포함한 웹사이트였으나 시간이 경과함에 따라 점차 훼손되어 다수의 팝업 창을 생성하는 스팸 사이트로 변경될 수 있다는 문제점이 있다. 이러한 다수의 팝업 창을 생성하는 스팸 사이트의 경우에는 주로 성인 콘텐츠를 담고 있는 경우가 많고, 해당 URL로 이동시는 물론, 해당 URL을 벗어 나는 경우 동시 다발적으로 수 개에서 수십 개의 팝업 창을 생성함으로써 사용자에게 많은 불편을 야기하고 있다.(1) Among the websites registered with the search engine, there is a case where the contents included in the website at the time of registration with the search engine are different from those included in the website after registration. For example, at the time of registration, it was a website containing a predetermined content, but there is a problem that it may be changed to a spam site that is gradually damaged as time passes and generates a plurality of pop-up windows. Spam sites that generate a large number of pop-up windows often contain adult content. By moving to and from the URL, the spam site generates several to several dozen pop-up windows simultaneously. It causes a lot of inconvenience to the user.
(2) 또한, 대부분의 검색 엔진 운영업체에서는 통상의 키워드에 대한 일반 웹사이트 등록 비용과 성인물 콘텐츠에 관현된 키워드에 대한 성인 웹사이트 등록의 경우 청구하는 등록 비용을 달리하는 경우가 많다. 이는 일반 웹사이트보다 성인 웹사이트의 경우가 실정법 위반의 가능성이 높으므로, 검색 엔진 운영자 입장에서도 이러한 성인 웹사이트의 등록 관리에 대한 부담을 안고 있기 때문인데, 이러한 점을 악용하여 등록시에는 일반 콘텐츠와 통상의 일반 키워드를 이용하여 검색 엔진에 등록하고, 등록 이후에 웹사이트의 HTML 소스를 바꾸어 해당 사이트에서 성인물 콘텐츠를 제공하는 경우는 물론, 해당 사이트와 링크된 사이트에서 성인물 콘텐츠를 제공하는 등의 문제점이 있다. 이러한 사이트를 "변질 사이트"라고 정의할 수 있다. 이러한 변질 사이트는 검색 엔진 사용자의 불편 신고 또는 전문 서퍼 등의 인위적인 검색 없이는 발견되기가 매우 어렵다는 문제점이 있다.(2) In addition, most search engine operators often differ from the general website registration cost for ordinary keywords and the registration fee charged for adult website registration for keywords that are related to adult content. This is because adult websites are more likely to violate the actual law than general websites, and search engine operators are also burdened with managing the registration of such adult websites. Registering a search engine using ordinary general keywords, and changing the HTML source of the website after registration, providing adult content on the site as well as providing adult content on the site linked to the site. There is this. Such a site can be defined as a "denatured site". Such a deterioration site has a problem that it is very difficult to be found without a search engine user's inconvenience report or an artificial search such as a professional surfer.
상술한 문제점들을 해결하기 위한 해결책으로서 사용자들의 고발 신고 또는 전문 서퍼 등의 전문 인력을 통한 등록 웹사이트의 지속적인 모니터링이 필요하지만, 이러한 종래 기술에 따른 해결 방법은 상술한 문제점들에 대한 궁극적인 해결책이 될 수 없음은 자명하고, 이러한 문제점을 인터넷 상에서 소정의 알고리즘을 통하여 자동적으로 수행될 수 있는 방법이 도출될 수 있다면 상술한 문제점을 일거에 해결할 수 있는 유용한 수단이 될 수 있을 것이다.As a solution for solving the above-mentioned problems, it is necessary to continuously report the complaints of users or to monitor the registration website through a professional person such as a professional surfer. However, the solution according to the related art is the ultimate solution to the above-mentioned problems. It is obvious that this can not be done, and if a method capable of automatically performing such a problem through a predetermined algorithm on the Internet can be derived, it can be a useful means to solve the above-mentioned problems at once.
본 발명에 따른 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법은 상술한 종래 기술의 문제점을 해결하기 위한 것으로서, 상술한 다수의 팝업 창을 생성하는 스팸 사이트 또는 변질 사이트를 소정의 알고리즘을 이용하여 자동적으로 검출해 낼 수 있도록 함으로써 검색 엔진 사용자에게 불편을 초래하지 아니하는 검색 엔진 서비스를 제공하는 것을 그 목적으로 한다.The method for managing a website registered in a search engine according to the present invention is to solve the above-mentioned problems of the prior art, and the spam site or the altered site for generating the above-mentioned pop-up window using a predetermined algorithm. It is an object of the present invention to provide a search engine service that does not cause inconvenience to a search engine user by enabling automatic detection.
또한, 본 발명에 따른 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법은 스팸 사이트 또는 변질 사이트를 자동적으로 검출하고, 검출된 스팸 사이트 또는 변질 사이트 운영자에 대한 제재 조치를 가하도록 함으로써 검색 엔진에서 등록된 웹사이트 자체의 자정이 강화될 수 있도록 하는 것을 그 목적으로 한다.In addition, a method for managing a registered website in a search engine according to the present invention automatically detects a spam site or altered site, and registers the search engine by applying sanctions to the detected spam or altered site operator. Its aim is to ensure that midnight on the website itself is enhanced.
또한, 본 발명에 따른 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법은 스팸 사이트 또는 변질 사이트의 검출 및 검출된 스팸 사이트 또는 변질 사이트들에 대한 경고 등의 제재 조치를 소정의 알고리즘에 의해 자동적으로 수행되도록 함으로써, 상술한 사이트들의 검출을 위해 소요될 수 있는 다수의 인력 자원을 절약할 수 있도록 하는 것을 그 목적으로 한다.In addition, the method for managing a registered website in the search engine according to the present invention automatically detects spam sites or altered sites and sanctions such as warnings of detected spam or altered sites by a predetermined algorithm. By doing so, it is possible to save a number of manpower resources that may be required for the detection of the sites described above.
도 1은 웹사이트 검색 엔진 서비스를 제공하기 위한 시스템의 일예를 도시한 구성 블록도이다.1 is a block diagram illustrating an example of a system for providing a website search engine service.
도 2는 본 발명의 바람직한 일실시예에 따른 검색 엔진에서 등록된 웹사이트를 관리하기 위한 시스템을 도시한 구성 블록도이다.2 is a block diagram illustrating a system for managing a registered website in a search engine according to an exemplary embodiment of the present invention.
도3a 내지 도 3b는 본 발명의 일실시예에 따른 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법을 도시한 흐름도이다.3A-3B are flowcharts illustrating a method for managing a registered website in a search engine according to an embodiment of the present invention.
도 3c는 본 발명의 일실시예에 따른 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법에서 생성되는 팝업 창의 개수를 측정하기 위한 웹사이트 URL의 트리 구조를 도시한 도면이다.3C is a diagram illustrating a tree structure of a website URL for measuring the number of pop-up windows generated in a method for managing a registered website in a search engine according to an embodiment of the present invention.
도 4a 내지 도 4b는 본 발명의 바람직한 일실시예에 따른 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법에 있어서, 검색 로봇이 웹사이트를 순회하여 추출한 얻은 스팸 사이트의 HTML 파일의 일예를 도시한 도면이다.4A to 4B illustrate an example of an HTML file of a spam site obtained by a search robot traversing a website in a method for managing a website registered in a search engine according to an exemplary embodiment of the present invention. Drawing.
도 5a 내지 도 5d는 본 발명의 또 다른 일실시예에 따른 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법을 도시한 흐름도이다.5A through 5D are flowcharts illustrating a method for managing a registered website in a search engine according to another exemplary embodiment of the present invention.
도 6a 내지 도 6b는 본 발명의 바람직한 일실시예에 따른 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법에 있어서, 검색 로봇이 웹사이트를 순회하여 추출한 얻은 성인 사이트의 HTML 파일의 일예를 도시한 도면이다.6A to 6B illustrate an example of an HTML file of an adult site obtained by a search robot traversing a website in a method for managing a website registered in a search engine according to an exemplary embodiment of the present invention. Drawing.
도 7은 본 발명의 바람직한 일실시예에 따른 검색 엔진에서 웹사이트의 등록을 관리하기 위한 방법에 있어서, 스팸 또는 성인 사이트로 판별된 웹사이트의 등록자에게 소정의 제재 조치를 가하는 방법을 도시하는 흐름도이다.FIG. 7 is a flowchart illustrating a method of applying a predetermined sanction to a registrant of a website determined to be spam or an adult site in a method for managing registration of a website in a search engine according to an exemplary embodiment of the present invention. to be.
도 8은 본 발명에 따른 검색 엔진에서 등록된 웹사이트를 관리하는 방법에서 채용될 수 있는 범용 컴퓨터 시스템의 내부 블록도이다.8 is an internal block diagram of a general purpose computer system that may be employed in a method for managing a registered website in a search engine according to the present invention.
<도면의 주요 부분에 대한 부호의 설명><Explanation of symbols for the main parts of the drawings>
201 : 인터페이스 모듈 202 : 웹사이트 등록 모듈201: interface module 202: website registration module
203 : 웹사이트 관리 모듈 204 : 웹사이트 정보 DB203: Website Management Module 204: Website Information DB
205 : 웹사이트 분석 모듈 207 : 검색 로봇205: Website Analysis Module 207: Search Robot
208 : 메일 서버 209 : SMS 서버208: mail server 209: SMS server
본 발명의 바람직한 일실시예에 따른 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법은, 상기 웹사이트 정보를 데이터베이스 수단에 기록하는 단계; 상기 등록된 웹사이트의 웹페이지를 구성하는 하이퍼텍스트 마크업 언어(HTML) 파일을 추출하는 단계; 추출된 상기 HTML 파일을 분석하여 팝업 창을 생성시키는 소정의 함수를 검출하는 단계; 검출된 상기 함수로 인해 생성되는 팝업 창의 개수에 따라 소정의 카운터 값을 소정치 만큼 증가시키는 단계; 상기 카운터 값이 선정된 값 이상인지 여부를 판단하는 단계; 및 상기 카운터 값이 선정된 값 이상인 경우, 등록된 상기 웹사이트에 대하여 소정의 처리를 수행하도록 제어하는 단계를 포함하는 것을 특징으로 한다.According to a preferred embodiment of the present invention, a method for managing a registered website in a search engine comprises: recording the website information in a database means; Extracting a hypertext markup language (HTML) file constituting a web page of the registered website; Analyzing the extracted HTML file to detect a predetermined function for generating a pop-up window; Increasing a predetermined counter value by a predetermined value according to the number of pop-up windows generated by the detected function; Determining whether the counter value is greater than or equal to a predetermined value; And if the counter value is greater than or equal to the predetermined value, controlling to perform a predetermined process on the registered website.
또한, 본 발명의 또 다른 일실시예에 따른 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법은, 상기 웹사이트에 대한 정보를 데이터베이스 수단에 소정의 필드 별로 분류하여 기록하는 단계; 소정의 성인 키워드가 기록되어 있는 성인 키워드 데이터베이스를 유지하는 단계; 상기 웹사이트의 웹페이지를 구성하는 HTML 파일을 추출하는 단계; 추출된 상기 HTML 파일을 분석하여, 상기 HTML 파일에 포함된 리디렉션 태그를 추출하는 단계; 추출된 상기 리디렉션(redirection) 태그의 타겟 URL과 연관된 소정의 문자열을 추출하는 단계; 상기 성인 키워드 데이터베이스를 참조하여 추출된 상기 문자열에 대응하는 성인 키워드가 있는지를 검색하는 단계; 및 상기 성인 키워드가 있는 경우, 상기 등록된 웹사이트에 대하여 소정의 처리를 수행하도록 제어하는 단계를 포함하는 것을 특징으로 한다.In addition, a method for managing a website registered in a search engine according to another embodiment of the present invention, comprising: classifying and recording information about the website by a predetermined field in a database means; Maintaining an adult keyword database in which predetermined adult keywords are recorded; Extracting an HTML file constituting a web page of the website; Analyzing the extracted HTML file and extracting a redirect tag included in the HTML file; Extracting a predetermined string associated with a target URL of the extracted redirection tag; Searching whether there is an adult keyword corresponding to the extracted string by referring to the adult keyword database; And if the adult keyword is present, controlling to perform a predetermined process on the registered website.
본 명세서에서 사용되는 스팸 사이트라 함은 웹페이지의 HTML(HyperText Markup Language) 파일 등에 다양한 방법으로 소정의 함수 등을 삽입하여 해당 URL 방문시 또는 해당 URL을 벗어나는 경우 소정의 개수의 팝업 창을 생성하는 웹사이트를 의미한다. 또한, 본 명세서에서 사용되는 변질 사이트라 함은, 소정의 웹페이지를 통해 제공되는 콘텐츠가 성인 콘텐츠인 웹사이트로서, 등록시 성인 사이트로 등록되지 아니한, 즉 등록 이후에 성인 사이트로 변질된 웹사이트를 의미한다. 부가적으로, 성인 사이트라 함은 19세 미만의 청소년들에게 매우 유해한 콘텐츠를 담고 있는 웹사이트를 의미한다.Spam site used in the present specification is to insert a predetermined function, etc. in a variety of ways, such as HTML (HyperText Markup Language) file of the web page to generate a predetermined number of pop-up windows when visiting the URL or when the URL is out of the URL Means website. In addition, the altered site used in the present specification refers to a website whose content provided through a predetermined web page is adult content, which is not registered as an adult site at the time of registration, that is, a website that has been altered into an adult site after registration. it means. In addition, adult site means a website containing content that is very harmful to adolescents under 19 years of age.
이하 첨부된 도면을 참조하여 본 발명의 바람직한 일실시예에 따른 검색 엔진에서 웹사이트의 등록을 관리하는 방법에 대하여 상술한다.Hereinafter, a method of managing registration of a website in a search engine according to an exemplary embodiment of the present invention will be described in detail with reference to the accompanying drawings.
도 2는 본 발명의 바람직한 일실시예에 따른 검색 엔진에서 등록된 웹사이트를 관리하기 위한 시스템을 도시한 구성 블록도이다. 도2를 참조하면, 본 발명의 바람직한 일실시예에 따른 검색 엔진에서 등록된 웹사이트를 관리하기 위한 시스템은 인터페이스 모듈(201), 웹사이트 등록 모듈(202), 웹사이트 관리 모듈(203), 웹사이트 정보 데이터베이스(204), 웹사이트 분석 모듈(205), 및 검색 로봇(207)으로 구성될 수 있다. 또한, 본 발명의 바람직한 일실시예에 의하면 검색 엔진에서 등록된 웹사이트를 관리하기 위한 시스템은 웹사이트의 등록자에게 소정의 메시지를 발송하기 위한 메일 서버(208), 또는 SMS 서버(209)를 포함할 수 있다. 이러한 메일 서버(208)와 SMS 서버(209)는 검색 엔진 서비스 제공 시스템 내에 포함될 수도 있고, 제3자가 운영하는 시스템 내에 위치할 수도 있다. 또한, 도 2에는 인터페이스 모듈(201), 다종의 모듈들, 및 메일 서버(208) 또는 SMS 서버(209)가 별개의 엔티티인 것처럼 도시되어 있으나 이는 설명의 편의를 위한 것일 뿐, 동일한 엔티티일 수 있다. 또한, 상기 도 2에 도시된 구성 요소들은 물리적으로도 동일한 장소에 위치할 수도 있고, 다른 실시예에 따르면 물리적으로 이격되어 있을 수도 있다.2 is a block diagram illustrating a system for managing a registered website in a search engine according to an exemplary embodiment of the present invention. 2, a system for managing a website registered in a search engine according to an exemplary embodiment of the present invention includes an interface module 201, a website registration module 202, a website management module 203, Website information database 204, website analysis module 205, and search robot 207. Further, according to a preferred embodiment of the present invention, a system for managing a website registered in a search engine includes a mail server 208 or an SMS server 209 for sending a predetermined message to a registrant of the website. can do. The mail server 208 and the SMS server 209 may be included in a search engine service providing system or may be located in a system operated by a third party. In addition, although the interface module 201, the various modules, and the mail server 208 or the SMS server 209 are shown as separate entities in FIG. 2, this is for convenience of description and may be the same entity. have. In addition, the components shown in FIG. 2 may be physically located in the same place, or according to another embodiment may be physically spaced apart.
먼저, 인터페이스 모듈(201)은 소정의 웹사이트를 검색 엔진에 등록하고자 하는 등록자 측에 구비된 컴퓨터 단말기와 검색 엔진의 등록 관리 시스템 사이의 데이터 전송 및 물리적 전송 장비 간의 인터페이스 역할을 담당하는 모듈이다.First, the interface module 201 is a module that serves as an interface between data transmission and physical transmission equipment between a computer terminal provided at a registrant who wants to register a predetermined website in a search engine and a registration management system of the search engine.
웹사이트 등록 모듈(202)은 상기 등록자로부터 소정의 웹사이트에 대한 등록 신청을 수신하고, 웹사이트 등록 신청에 포함된 웹사이트에 대한 정보 데이터를 수집 및 분류하는 기능을 담당한다. 이러한 웹사이트 등록 모듈(202)은 웹사이트 등록에 대한 소정의 과금을 수행하는 과금 모듈(도시되지 아니함)을 더 포함할 수 있고, 과금 모듈은 등록을 원하는 웹사이트의 종류(일반적인 내용을 담고 있는 일반 사이트 또는 성인 콘텐츠를 담고 있는 성인 사이트)에 따라 그 과금 내역을 달리 적용하도록 동작할 수 있다.The website registration module 202 is responsible for receiving a registration request for a predetermined website from the registrant, and collecting and classifying information data about the website included in the website registration request. The website registration module 202 may further include a charging module (not shown) for performing a predetermined charging for website registration, and the charging module may include a type of website (general contents) to be registered. General charging sites or adult sites containing adult content).
웹사이트 관리 모듈(203)은 본 발명에 따른 웹사이트의 등록 관리를 총괄하는 모듈로서, 검색 로봇(207)이 수집한 웹사이트에 대한 정보를 기초로 상기 웹사이트가 선정된 기준에 적합하게 운영되고 있는지를 판단하고, 비정상적으로 운영되는 웹사이트, 즉 스팸 또는 변질 사이트인 것으로 판단되는 경우, 상기 등록자에 대해 소정의 조치를 자동적으로 취하도록 제어하는 기능을 담당한다. 또한, 웹사이트 관리 모듈(203)은 메일 서버(208)나 단문자 메시지 서비스(SMS) 서버(209)와 연동함으로써 상기 스팸 또는 변질 사이트의 등록자에 대해 이메일을 발송하거나 상기 등록자의 이동통신단말기로 SMS를 전송함으로써 웹사이트의 부정 운영에 대한 경고를 할 수 있다.The website management module 203 is a module that manages the registration management of the website according to the present invention, and operates according to the criteria for selecting the website based on the information on the website collected by the search robot 207. If it is determined that the web site is abnormally operated, that is, a spam or deteriorated site, the registrant controls the registrant to automatically take a predetermined action. In addition, the website management module 203 interoperates with the mail server 208 or the short message service (SMS) server 209 to send an e-mail to the registrant of the spam or altered site, or to the subscriber's mobile communication terminal. By sending an SMS, you can warn about misuse of the website.
웹사이트 정보 데이터베이스(204)는 등록된 웹사이트에 대한 정보를 분류하여 기록하는 역할을 담당한다. 웹사이트 정보 데이터베이스(204)에는 웹사이트의 범용 리소스 로케이터(URL), 해당 웹사이트의 키워드, 해당 웹사이트의 등록자 정보(등록자 이름, 주소, 이메일 주소, 이동통신단말기 번호 등), 해당 웹사이트의 디렉토리 정보 등의 다양한 정보가 각 필드 별로 분류 및 저장되어 있을 수 있다. 본 발명에 따른 웹사이트 정보 데이터베이스(204)에 저장된 정보는 시스템 관리자 및 상기 웹사이트의 등록자에 의해서 수정될 수 있고, 웹사이트의 콘텐츠가 바뀌는 경우 등록자가 직접 수정하지 아니하더라도 검색 로봇(207)이 수집한 데이터의 분석 결과(해당 웹사이트의 URL 에 대응하는 새로운 키워드 등) 등에 따라 자동적으로 해당 정보가 갱신되도록 동작할 수 있다.The website information database 204 is responsible for classifying and recording information about registered websites. The website information database 204 includes a universal resource locator (URL) of the website, keywords of the website, registrant information (registrant name, address, email address, mobile terminal number, etc.) of the website, Various information such as directory information may be classified and stored for each field. The information stored in the website information database 204 according to the present invention can be modified by the system administrator and the registrant of the website, and if the contents of the website are changed, the search robot 207 does not modify the registrant directly. The information may be automatically updated according to the analysis result of the collected data (new keyword corresponding to the URL of the website).
웹사이트 분석 모듈(205)은 검색 로봇(207)이 수집한 웹사이트의 정보를 분석하는 역할을 담당한다. 검색 로봇(207)이 수집하는 데이터의 종류와 분석 방법에 대해서는 아래 도 3에 대한 설명과 함께 상술한다.The website analysis module 205 is responsible for analyzing the information of the website collected by the search robot 207. The type and analysis method of data collected by the search robot 207 will be described with reference to FIG. 3 below.
상술한 본 발명의 일실시예에 따른 검색 엔진에서 등록된 웹사이트를 관리하기 위한 시스템을 구성하는 각 구성 요소들은 설명의 편의를 위하여 단순히 기능적으로 구분된 것일 뿐, 각 구성 요소의 실제 물리적 위치와는 무관하다. 또한, 상술한 모듈들은 하드웨어로 구현될 수도 있고, 특정 코드를 이용한 소프트웨어로서 구현될 수 있음은 당업자에게 자명하다.Each component constituting the system for managing the registered website in the search engine according to the embodiment of the present invention described above is merely functionally separated for convenience of description, and the actual physical location of each component Is irrelevant. In addition, it will be apparent to those skilled in the art that the above-described modules may be implemented in hardware and may be implemented as software using specific codes.
<스팸 페이지 검출 방법><How to detect spam pages>
도3은 본 발명의 바람직한 일실시예에 따른 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법을 도시하는 흐름도이다. 도 3에 도시된 등록된 웹사이트의 관리 방법은 등록된 웹사이트 중에서 소정의 스팸 사이트를 검출하여, 해당 사이트의 운영자에게 소정의 조치를 취하도록 하는 것이다. 이하 도 4a 및 도 4b, 및 도 7을 참조하여 도 3에 도시된 본 발명의 바람직한 일실시예에 따른 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법에 대해 상술한다.3 is a flowchart illustrating a method for managing a registered website in a search engine according to a preferred embodiment of the present invention. In the method of managing a registered website shown in FIG. 3, a predetermined spam site is detected from the registered website, and the operator of the corresponding site takes a predetermined action. Hereinafter, a method for managing a registered website in a search engine according to an exemplary embodiment of the present invention shown in FIG. 3 will be described with reference to FIGS. 4A, 4B, and 7.
도 3a 내지 도 3b에 도시된 본 발명의 바람직한 일실시예에 따른 검색 엔진에서 웹사이트의 등록을 관리하기 위한 방법은 다음과 같이 수행된다. 소정의 웹사이트를 검색 엔진에 등록하고자 하는 등록자는 등록을 원하는 웹사이트에 대한 정보와 함께 웹사이트 등록 신청을 한다(단계 301). 상기 웹사이트에 대한 정보는 웹사이트 정보 데이터베이스에 정보 필드((등록자 이름, 주소, 이메일 주소, 이동통신단말기 번호 등) 별로 분류되어 기록되고(단계 302), 상기 웹사이트는 검색 엔진에 등록된다(단계 303). 이러한 등록 단계(단계 303)는 몇 개의 루트를 통해 수행될 수 있는데, 먼저 상술한 것과 같이 웹사이트 관리자가 검색 엔진에 자신의 웹사이트의 등록을 의뢰함으로써 등록되는 경우가 있고, 검색 로봇이 웹 상을 무작위로 돌아다니면서 얻어온 웹사이트 정보를 이용하여 웹사이트가 검색 엔진에 등록되는 경우가 있을 수 있다. 전자의 경우에는 웹사이트 등록자 자신이 웹사이트의 주제(예를 들면, "피카츄", "변리사 시험" 등)를 정하여 상기 웹사이트의 주제와 가장 근접한 카테고리에 웹사이트의 등록을 신청하고, 신청된 웹사이트에 대해서는 전문 서퍼의 검수를 거쳐 소정의 조건(웹사이트의 완성도, 등록 비용을 지불하지 아니하는 경우에는 비상업적 사이트 요건 충족 여부 등)을 만족하는 것으로 판단되는 경우에 검색 엔진에 등록될 수 있다. 본 발명에 따른 검색 엔진에서 웹사이트의 등록을 관리하기 위한 방법에서는 검색 엔진에 등록되는 루트를 상기 등록자의 신청에 의한 경우로 한정하여 설명하고 있지만, 본 발명에 따른 검색 엔진에서 웹사이트의 등록을 관리하기 위한 방법 및 그 시스템은 검색 엔진에 웹사이트가 등록되는 다종 다양한 방법에 대해서도 동일하게 적용될 수 있다.The method for managing registration of a website in a search engine according to one preferred embodiment of the present invention shown in Figs. 3A to 3B is performed as follows. The registrant who wants to register a predetermined website in the search engine makes a website registration request together with information about the website that he / she wants to register (step 301). The information about the website is classified and recorded by information fields (registrant name, address, email address, mobile terminal number, etc.) in the website information database (step 302), and the website is registered with a search engine ( Step 303. This registration step (step 303) may be performed through several routes, which are first registered by requesting a website administrator to register their website with a search engine, as described above. In some cases, the website registrant itself may register the website's subject matter (eg, "Pikachu") by using the website information obtained by the robot randomly traversing the web. Apply for registration of a website in the category that most closely matches the subject of the website, In the case of a web surfer, it can be registered in a search engine when it is determined that the predetermined conditions (website completion, noncommercial site requirements are met if the registration fee is not paid, etc.) are satisfied. In the method for managing the registration of the website in the search engine according to the description of the route registered in the search engine limited to the case by the registrant's application, but in the search engine according to the present invention to manage the registration of the website The method and the system can be equally applied to various other methods of registering a website with a search engine.
웹사이트가 등록되면, 검색 엔진은 검색 로봇을 제어하여 등록된 웹사이트의 웹페이지를 구성하는 HTML 파일을 추출하고, 추출된 HTML 파일을 분석하여 상기 HTML 파일에 포함된 팝업 창 생성을 담당하는 함수를 추출한다(단계 304).When the website is registered, the search engine controls a search robot to extract an HTML file constituting the webpage of the registered website, analyze the extracted HTML file, and generate a popup window included in the HTML file. Is extracted (step 304).
본 발명의 일실시예에 따른 분석 방법은 웹사이트의 HTML 파일을 분석함으로써, 팝업 창을 생성하기 위한 함수를 추출하는 것이다.An analysis method according to an embodiment of the present invention extracts a function for generating a pop-up window by analyzing an HTML file of a website.
도 4a 및 도 4b는 도 3a의 단계 304에서 수행되는, 웹사이트의 HTML 파일을 분석하여 HTML 파일에 포함된 팝업 창을 생성하기 위한 함수를 포함하는 다양한 일예들을 도시하는 도면이다. 이하, 도 4a 및 도 4b를 참조하여 본 발명에 따른 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법에서 HTML 파일의 분석이 어떻게 수행되는지에 대해 상술한다.4A and 4B are diagrams illustrating various examples performed in step 304 of FIG. 3A including a function for analyzing a website's HTML file and generating a popup window included in the HTML file. Hereinafter, with reference to Figs. 4a and 4b will be described how the analysis of the HTML file is performed in the method for managing the website registered in the search engine according to the present invention.
도 4a 는 소정의 웹사이트를 벗어나는 경우 팝업 창이 생성되도록 하는 스팸 사이트의 HTML 파일의 일예를 도시한 도면이다. 도 4a를 참조하면, 스크립트 언어로서는 자바스크립트 언어로 표현된 HTML 파일의 일예가 도시되어 있다. 스크립트 내에 정의된 leave() 함수는 본 HTML 파일을 포함하는 웹사이트를 벗어나는 경우 "www.yourserver.com/page-to-open.html"로 특정되는 팝업 창이 생성되도록 한다. 함수 내의 toolbar, menubar, location, height, width 등의 변수들은 생성되는 팝업 창의 크기 또는 위치 등을 지정하기 위한 것이다.4A illustrates an example of an HTML file of a spam site that causes a pop-up window to be generated when leaving a predetermined website. Referring to FIG. 4A, an example of an HTML file expressed in the JavaScript language is illustrated as the script language. The leave () function defined in the script causes the pop-up window specified as "www.yourserver.com/page-to-open.html" to be generated when leaving the web site including this HTML file. Variables such as toolbar, menubar, location, height, and width in the function are used to specify the size or position of the popup window to be created.
도 4b는 소정의 웹사이트를 방문시 팝업 창이 생성되도록 하는 스팸 사이트의 HTML 파일의 일예를 도시한 도면이다. 도 4b를 참조하면, 스크립트 언어로서는 자바스크립트 언어로 표현된 HTML 파일의 일예가 도시되어 있다. 스크립트 내에 정의된 TripodShowPopup 함수는 도 4b에 도시된 HTML 파일을 포함하는 웹사이트를 방문하는 경우 "http://jhkimg.hihome.com/"으로 특정되는 팝업 창이 생성되도록 한다. 함수 내의 각종 변수들은 생성되는 팝업 창의 크기 또는 위치를 지정하기 위한 것이다.4B is a diagram illustrating an example of an HTML file of a spam site that causes a pop-up window to be generated when visiting a predetermined website. Referring to FIG. 4B, an example of an HTML file expressed in the JavaScript language is illustrated as the script language. The TripodShowPopup function defined in the script causes a pop-up window specified as "http://jhkimg.hihome.com/" to be generated when visiting a website including the HTML file shown in FIG. 4B. Various variables in the function are for specifying the size or position of the popup window to be created.
도 4a 및 도 4b에 도시된 HTML 파일의 일예 이외에도 다양한 방법으로 팝업 창을 생성하도록 할 수 있다. 즉, 본 발명에 따른 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법에서는 이와 같이 다양한 방법으로 팝업 창을 생성하기 위한 HTML 파일들을 분석함으로써 도 4a 및 도 4b에 도시된 일예 이외의 팝업 창 생성을위한 HTML 파일을 추출하도록 구현될 수 있다.In addition to the example of the HTML file illustrated in FIGS. 4A and 4B, the popup window may be generated in various ways. That is, in the method for managing a website registered by a search engine according to the present invention, popup windows other than the example shown in FIGS. 4A and 4B are generated by analyzing HTML files for generating a popup window in various ways. It can be implemented to extract the HTML file for.
단계 304에서 팝업 창 생성 함수를 추출하는 것과 함께, 본 발명의 바람직한 일실시예에 따르면 다양한 방법으로 분기하여 소정의 팝업 창을 생성하는 웹사이트를 분석할 수 있다.In addition to extracting the pop-up window generating function in step 304, according to an exemplary embodiment of the present invention, a web site for generating a predetermined pop-up window may be analyzed by branching in various ways.
단계 304에서 추출된 팝업 창 생성 함수를 분석하여, 팝업 창 생성 함수에 포함되어 있는 팝업 창 URL을 방문하고, 상기 팝업 창의 HTML 파일(제2 HTML 파일)을 추출한다(단계 306). 추출된 제2 HTML 파일을 분석하여 상기 제2 HTML 파일에 포함된 팝업 창 생성 함수를 또 추출한다(단계 307). 당업자라면 주지하는 바와 같이, 팝업 창의 속성상 하나의 웹사이트에서 생성된 팝업 창이 존재하는 경우 상기 팝업 창의 HTML 파일에서 또 다른 팝업 창을 생성한다면 사용자에게는 이러한 연쇄적인 팝업 창이 모두 표시되게 된다. 따라서, 해당 웹사이트에서 생성하는 팝업 창의 개수와, 상기 팝업 창으로 인해 생성되는 제2의 팝업 창의 개수를 모두 포함한 것이 사용자에게 표시되는 팝업 창의 수가 될 수 있다. 이와 같이 해당 웹사이트의 HTML 파일로 인해 생성되는 팝업 창의 개수는 물론, 상기 팝업 창의 HTML 파일로 인해 생성되는 팝업 창의 개수를 모두 합산하고, 합산된 팝업 창의 개수에 따라 소정의 카운터 값을 소정치 만큼 증가시킨다(단계 305).The pop-up window generating function extracted in step 304 is analyzed to visit the pop-up window URL included in the pop-up window generating function and extract the HTML file (the second HTML file) of the pop-up window (step 306). The extracted second HTML file is analyzed to extract a popup window generating function included in the second HTML file (step 307). As will be appreciated by those skilled in the art, if there is a pop-up window generated by a website due to the property of the pop-up window, if the user generates another pop-up window from the HTML file of the pop-up window, the user will be presented with all such chained pop-up windows. Therefore, the number of pop-up windows generated by the corresponding website and the number of second pop-up windows generated by the pop-up window may be the number of pop-up windows displayed to the user. As such, the total number of pop-up windows generated by the HTML file of the website as well as the pop-up windows generated by the HTML file of the pop-up window are added together, and a predetermined counter value is set by a predetermined value according to the sum of the pop-up windows. Increase (step 305).
본 발명의 또 다른 일실시예에 따른 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법에서는, 단계 304에서 등록된 HTML 파일을 분석하여 상기 HTML 파일에 포함된 리디렉션 태그를 추출하고, 상기 리디렉션 태그에 포함된 타겟 URL이 생성하는 팝업 창의 개수 까지 합산하도록 동작할 수 있다. 단계 304에서 도 3b로분기하여, 소정의 웹사이트의 HTML 파일에 포함된 리디렉션 태그를 추출한다(단계 311). 이러한 리디렉션 태그의 일예는 이하의 도 6a에서 상술한다. 추출된 리디렉션 태그를 분석하고, 검색 로봇을 제어하여 상기 리디렉션 태그에 포함된 타겟 URL의 제3 HTML 파일을 추출하도록 한다(단계 312). 추출된 제3 HTML 파일을 분석하여 상기 제3 HTML 파일에 포함된 팝업 창 생성 함수를 추출하고(단계 313), 다시 도 3a의 단계 305로 회귀한다.In a method for managing a registered website in a search engine according to another embodiment of the present invention, in step 304, the registered HTML file is analyzed to extract a redirect tag included in the HTML file, It may be operated to add up to the number of pop-up windows generated by the included target URL. In step 304, the process branches to FIG. 3B to extract the redirect tag included in the HTML file of the predetermined website (step 311). One example of such a redirect tag is detailed below in FIG. 6A. The extracted redirect tag is analyzed and the search robot is controlled to extract the third HTML file of the target URL included in the redirect tag (step 312). The extracted third HTML file is analyzed to extract a popup window generating function included in the third HTML file (step 313), and the process returns to step 305 of FIG. 3A.
단계 305에서는 상술한 바와 같이, (1) 해당 웹사이트에서 생성되는 팝업 창의 개수와, (2) 상기 팝업 창으로 인해 생성되는 제2의 팝업 창의 개수와, (3) 상기 해당 웹사이트의 HTML 파일에 포함된 리디렉션 태그로 인해 이동하는 타겟 URL로 특정되는 웹사이트의 HTML 파일로 인해 생성되는 제3의 팝업 창의 개수를 모두 합산하여, 상기 합산된 팝업 창의 개수에 따라 카운터 값을 소정치 만큼 증가시킨다.In step 305, as described above, (1) the number of pop-up windows generated by the website, (2) the number of second pop-up windows generated by the pop-up window, and (3) the HTML file of the website. The number of the third pop-up windows generated by the HTML file of the website specified by the moving target URL due to the redirect tag included in the sum is added, and the counter value is increased by a predetermined value according to the sum of the pop-up windows. .
도 3c는 본 발명의 일실시예에 따른 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법에서 생성되는 팝업 창의 개수를 측정하기 위한 웹사이트 URL의 트리 구조를 도시한 도면이다. 도 3c를 참조하면, 소정의 웹사이트 A(http://www.test_xxx.com)에 연결되어 있는 웹사이트 B 내지 F의 일예가 도시되어 있다. 웹사이트 A의 HTML 파일에 팝업 창인 웹사이트 B(http://www.test2.com)와, 웹사이트 A의 HTML 파일에 포함된 리디렉션 태그의 타겟 URL인 웹사이트 C(http://www.test3.com)이 도시되어 있고, 웹사이트 B와 연결된 웹사이트 D(http://www.test4.com)와, 웹사이트 D의 HTML 파일에 포함된 리디렉션 태그의 타겟 URL인 웹사이트 E(http://www.test5.com)와, 웹사이트 D의 HTML 파일에 포함된 팝업 창 생성 함수의 팝업 창 URL인 웹사이트 F(http://www.test6.com)이 각각 도시되어 있다. 도 3c에 도시된 것과 같이, 본 발명의 일실시예에 의하면, 하나의 웹사이트 A와 링크된 웹사이트 B 내지 F의 HTML 파일을 분석하여 웹사이트 A 방문시 사용자에게 표시되는 모든 팝업 창의 개수를 측정하는 것이 가능하다.3C is a diagram illustrating a tree structure of a website URL for measuring the number of pop-up windows generated in a method for managing a registered website in a search engine according to an embodiment of the present invention. Referring to FIG. 3C, an example of websites B to F connected to a predetermined website A (http://www.test_xxx.com) is shown. Website B (http://www.test2.com), which is a pop-up window in the HTML file of Website A, and Website C (http: // www. test3.com), website D (http://www.test4.com) associated with website B, and website E (http), which is the target URL of the redirect tag included in the HTML file of website D. http://www.test5.com) and website F (http://www.test6.com), which are the pop-up window URLs of the pop-up window generating function included in the HTML file of the website D, are respectively shown. As shown in FIG. 3C, according to an embodiment of the present invention, an HTML file of websites B to F linked to one website A is analyzed to determine the number of all pop-up windows displayed to the user when the website A is visited. It is possible to measure.
단계 305에서 생성되는 팝업 창의 개수에 따라 카운터 값을 소정치 만큼 증가시키게 되면, 해당 카운터 값이 소정치 이상인지 여부를 판단한다(단계 308). 본 발명의 바람직한 일실시예에 의하면 상기 소정치는 3일 수 있다. 상기 카운터 값이 소정치 이상인 경우, 해당 웹사이트는 선정된 개수 이상의 팝업 창을 생성하는, 이른바 "스팸 사이트"로 판단할 수 있게 되고, 해당 웹사이트에 대해서는 도 7에 도시된 소정의 제재 조치를 취하도록 동작한다(단계 309).If the counter value is increased by a predetermined value according to the number of pop-up windows generated in step 305, it is determined whether the corresponding counter value is equal to or greater than the predetermined value (step 308). According to a preferred embodiment of the present invention, the predetermined value may be three. If the counter value is more than a predetermined value, the website can be determined as a so-called "spam site" that generates a pop-up window of a predetermined number or more, and the predetermined sanction measures shown in FIG. Take action (step 309).
<성인 페이지 검출 방법><Adult Page Detection Method>
도 5a 내지 도 5b는 본 발명의 또 다른 일실시예에 따른 검색 엔진에서 등록된 웹사이트를 관리하기 위하여 변질 페이지를 검출하여 해당 변질 페이지에 소정의 제재 조치를 취하기 위한 방법을 도시한 흐름도이다.5A to 5B are flowcharts illustrating a method for detecting a corrupted page and taking a predetermined sanction on the corrupted page in order to manage a registered website in a search engine according to another exemplary embodiment of the present invention.
도 5a에는 이러한 성인 키워드를 선정하여 소정의 성인 키워드 데이터베이스를 구축하기 위한 방법의 일예가 도시되어 있다.5A shows an example of a method for selecting such an adult keyword and building a predetermined adult keyword database.
소정의 웹사이트가 성인 사이트인지 여부를 판단하기 위한 기준이 되는 성인 키워드를 선정하여 성인 키워드 데이터베이스를 구축하는 방법은 다음의 단계를 포함할 수 있다. 먼저 하나 이상의 성인 사이트를 선정한다(단계 501). 성인 사이트의 선정은 본 발명에 따른 웹사이트 등록 관리 시스템의 관리자가 직접 선정할 수 있고, 본 발명에 따른 시스템의 데이터베이스 수단에서 소정의 웹사이트 카테고리 정보 필드를 검색하여 성인 사이트로 등록된 웹사이트 중 하나 이상이 자동적으로 선정되도록 설정할 수도 있다. 선정된 성인 사이트의 웹페이지에 포함된 문자열을 추출하고(단계 502), 추출된 문자열 별로 빈도 수를 기록한다(단계 503). 빈도 수를 기록하기 위하여, 추출된 문자열을 테이블 형태로 기록하고, 해당 문자열이 한 번 추출될 때 마다 상기 테이블의 빈도 수 필드 값을 하나 씩 증가시키는 방법을 이용할 수 있다. 분석 결과 검출된 문자열을 상술한 빈도 수를 기준으로 소정의 주기(일별, 주별, 또는 월별)마다 상기 기록된 문자열을 소팅(sorting) 하고(단계 504), 상위에 위치한 문자열들을 추출하여 이들을 성인 키워드로 선정하여 이를 성인 키워드 데이터베이스에 저장한다(단계 505). 또한, 본 발명의 다른 일실시예에 의하면 성인 키워드 선정시에는 소팅을 하지 아니하고 검출된 문자열은 모두 성인 키워드로 선정하도록 설정하는 것도 가능하다. 이 경우 성인 키워드가 아닌 문자열이 성인 키워드로 선정될 가능성이 있지만, 소팅으로 인한 성인 키워드 선정에 필요한 시스템의 부하 가중을 피할 수 있다는 효과가 있을 수 있다.A method of constructing an adult keyword database by selecting an adult keyword as a criterion for determining whether a predetermined website is an adult site may include the following steps. First, one or more adult sites are selected (step 501). Selection of an adult site can be directly selected by an administrator of the website registration management system according to the present invention. Among the websites registered as an adult site by searching for a predetermined website category information field in the database means of the system according to the present invention. One or more may be set to be selected automatically. The character string included in the web page of the selected adult site is extracted (step 502), and the frequency number is recorded for each extracted character string (step 503). In order to record the frequency number, the extracted character string may be recorded in a table form, and the frequency field value of the table may be increased by one each time the character string is extracted once. Based on the frequency detected as a result of the analysis, the recorded strings are sorted at predetermined intervals (daily, weekly, or monthly) (step 504), and the upper strings are extracted to extract the adult keywords. Is selected and stored in the adult keyword database (step 505). In addition, according to another embodiment of the present invention, when selecting an adult keyword, it is also possible to set all detected strings to be selected as adult keywords without sorting. In this case, a character string other than an adult keyword may be selected as an adult keyword, but it may have an effect that a load weighting system required for selecting an adult keyword due to sorting may be avoided.
도 5b 및 도 5c에는 도 5a에 도시된 방법을 통하여 구축된 성인 키워드 데이터베이스를 이용하여 소정의 변질 사이트를 검출하기 위한 방법의 일예가 도시되어 있다.5B and 5C illustrate an example of a method for detecting a predetermined altered site using an adult keyword database constructed through the method shown in FIG. 5A.
도 5b에 도시된 본 발명의 바람직한 일실시예에 따른 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법은 다음과 같이 수행된다. 소정의 웹사이트를 검색엔진에 등록하고자 하는 등록자는 등록을 원하는 웹사이트에 대한 정보와 함께 웹사이트 등록 신청을 한다(단계 511). 상기 웹사이트에 대한 정보는 웹사이트 정보 데이터베이스에 정보 필드((등록자 이름, 주소, 이메일 주소, 이동통신단말기 번호 등) 별로 분류되어 기록되고(단계 512), 상기 웹사이트는 검색 엔진에 등록된다(단계 513). 이러한 단계 513은 도 3a에서 상술한 등록 단계(단계 303)과 동일할 수 있다.A method for managing a registered website in a search engine according to a preferred embodiment of the present invention shown in FIG. 5B is performed as follows. The registrant, who wants to register a predetermined website in the search engine, registers a website with information about the website that he / she wants to register (step 511). Information about the website is classified and recorded by information fields (registrant name, address, email address, mobile terminal number, etc.) in the website information database (step 512), and the website is registered with a search engine ( Step 513. This step 513 may be the same as the registration step (step 303) described above in FIG. 3A.
다음으로, 소정의 성인 키워드가 기록된 성인 키워드 데이터베이스를 유지한다(단계 514). 상기 성인 키워드 데이터베이스는 상술한 도 5a에 도시된 방법에 의해 구축될 수 있다.Next, an adult keyword database in which predetermined adult keywords are recorded is maintained (step 514). The adult keyword database may be constructed by the method shown in FIG. 5A described above.
웹사이트가 등록되면, 검색 엔진은 검색 로봇을 제어하여 등록된 웹사이트의 웹페이지를 구성하는 HTML 파일을 추출한다(단계 515). 추출된 HTML 파일을 분석하여 상기 HTML 파일에 포함된 리디렉션 태그를 추출한다(단계 516). 이러한 리디렉션 태그의 일예가 도 6a 및 도 6b에 도시되어 있다.When the website is registered, the search engine controls the search robot to extract an HTML file constituting the web page of the registered website (step 515). The extracted HTML file is analyzed to extract the redirect tag included in the HTML file (step 516). One example of such a redirect tag is shown in FIGS. 6A and 6B.
도 6a 내지 도 6b는 본 발명의 바람직한 일실시예에 따른 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법에 있어서, 검색 로봇이 웹사이트를 순회하여 추출한 얻은 성인 사이트의 HTML 파일의 일예를 도시한 도면이다.6A to 6B illustrate an example of an HTML file of an adult site obtained by a search robot traversing a website in a method for managing a website registered in a search engine according to an exemplary embodiment of the present invention. Drawing.
도 6a는 리디렉션 페이지에 포함된 문자열을 이용하는 변질 사이트에 포함된 HTML 파일의 일예를 도시한 도면이다. 당업자라면 주지하는 바와 같이 리디렉션은 접속된 웹사이트에서 새로운 웹사이트로의 이동을 설정하기 위한 것으로서, 도 6a에 도시된 HTML 파일의 형태로 구현될 수 있다. 도 6a의 상단에 도시된 메타 태그를 이용한 일예를 보면, 메타 태그 중 http-equiv 속성을 이용하고 있다. 상기 메타 태그는 통상 정해진 시간(도 6a의 content 항목에서 지정되는 시간) 경과 후에 자동으로 다른 문서로 이동하도록 설정하기 위한 것으로서, 주로 홈페이지의 주소가 변경되는 경우 옛 주소로 접속한 사용자에게 주소 변경 안내를 보여 주고 소정의 시간 경과시 자동으로 새로운 주소로 이동할 수 있도록 하는데 주로 사용된다. 도 6a의 상단에 도시된 메타 태그는 "http;//www.sexhouse.com"으로 리디렉션하도록 동작한다. 또한, 도 6a 중단 및 하단의 경우에도 각각 self.location 태그 및 location.replace 태그 등을 이용하여 현재의 웹페이지를 "http://www.sexhouse.com"으로 리디렉션하도록 동작한다.FIG. 6A illustrates an example of an HTML file included in an altered site using a string included in a redirect page. As will be appreciated by those skilled in the art, redirection is intended to set up a movement from a connected website to a new website, which may be implemented in the form of an HTML file shown in FIG. 6A. In the example of using the meta tag illustrated in the upper part of FIG. 6A, the http-equiv attribute is used among the meta tags. The meta tag is generally set to automatically move to another document after a predetermined time (the time specified in the content item of FIG. 6A). When the address of the homepage is changed, the user changes to the old address. It is mainly used to show and to move to a new address automatically after a certain time. The meta tag shown at the top of FIG. 6A operates to redirect to "http; // www.sexhouse.com". In addition, in the case of the interruption and the bottom of FIG. 6A, the current web page is redirected to "http://www.sexhouse.com" using the self.location tag and the location.replace tag, respectively.
도 6b에는 이러한 리디렉션 태그가 포함된 HTML 파일의 일예가 도시되어 있다. 도 6b에 도시된 HTML 파일은 실제 성인 사이트에 포함된 HTML 파일로서, 상술한 메타 태그 등을 이용하여 다수의 성인 사이트로의 리디렉션이 수행되도록 동작한다. 도 6b에 도시된 HTML 파일의 일예에 따르면 해당 웹사이트는 "http://www.sexhouse.com/rating.html", "http://www.porno.com", "http://www.hardcore.com", 및 "http://www.pussy.com"으로 리디렉션 된다.6B shows an example of an HTML file including such a redirect tag. The HTML file illustrated in FIG. 6B is an HTML file included in an actual adult site, and operates to redirect to a plurality of adult sites using the meta tag and the like. According to an example of the HTML file shown in FIG. 6B, the corresponding website is "http://www.sexhouse.com/rating.html", "http://www.porno.com", "http: // www. hardcore.com ", and" http://www.pussy.com ".
추출된 리디렉션 태그에 포함된 타겟 URL을 추출한다(단계 517). 본 발명의 바람직한 일실시예에 의하면, 단계 517에서 추출된 타겟 URL을 이용하여 다음의 방법으로 변질 사이트 여부를 판별한다.The target URL included in the extracted redirect tag is extracted (step 517). According to a preferred embodiment of the present invention, using the target URL extracted in step 517 to determine whether or not the altered site by the following method.
먼저, 상기 추출된 타겟 URL 자체에 포함된 문자열을 분석하여 변질 사이트 여부를 판별한다. 이 경우에는, 상기 추출된 타겟 URL의 문자열을 분석한다(단계518). 도 6a내지 도 6b에 도시된 변질 사이트의 HTML 파일의 일예에서는 추출된 타겟 URL은 http://www.sexhouse.com" 등일 수 있고, 상기 타겟 URL에서 추출된 문자열로는 "www", "sex", 또는 "sexhouse" 등일 수 있다. 도 6a 및 도 6b에 도시된 HTML 파일의 일예에서는 타겟 URL의 문자열로서 영어가 기재되어 있지만, 이러한 문자열로는 한글(한글 도메인 네임) 또는 숫자일 수 있다. 또한, 본 발명의 바람직한 일실시예에 따르면 상기 문자열은 본 발명에 따른 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법이 적용되는 모든 나라의 자국어 도메인 네임을 포함할 수 있다.First, by analyzing the character string contained in the extracted target URL itself to determine whether the site is altered. In this case, the extracted character string of the target URL is analyzed (step 518). In an example of the HTML file of the altered site illustrated in FIGS. 6A to 6B, the extracted target URL may be http://www.sexhouse.com, and the like, and the strings extracted from the target URL include “www” and “sex. "," "Sexhouse", etc. In the example of the HTML file shown in Figs. 6A and 6B, English is described as a string of a target URL, but the string may be a Korean (Hangul domain name) or a number. In addition, according to a preferred embodiment of the present invention, the string may include national language domain names of all countries to which the method for managing a registered website in the search engine according to the present invention is applied.
다음으로, 상기 추출된 타겟 URL로 특정되는 웹사이트에 포함된 HTML 파일의 문자열을 분석하여 변질 사이트 여부를 판별한다. 이 경우에는, 단계 517에서 타겟 URL을 추출한 다음, 도 5d에 도시된 방법으로 소정의 문자열을 추출하게 된다. 검색 로봇을 제어하여 단계 517에서 추출된 타겟 URL로 특정되는 웹사이트를 방문하여 상기 웹사이트에 포함된 HTML 파일을 추출하도록 제어한다(단계 543). 추출된 HTML 파일에 포함된 문자열을 분석하고(단계 544), 다시 도 5a의 단계 519로 회귀한다.Next, by analyzing the character string of the HTML file included in the website specified by the extracted target URL to determine whether or not the altered site. In this case, after extracting the target URL in step 517, a predetermined character string is extracted by the method shown in FIG. 5D. The search robot is controlled to visit a website specified by the target URL extracted in step 517 to extract an HTML file included in the website (step 543). The string included in the extracted HTML file is analyzed (step 544), and the flow returns to step 519 of FIG. 5A.
상술한 바와 같이, 상기 타겟 URL 자체에 포함된 문자열 또는 상기 타겟 URL로 특정되는 웹사이트의 HTML 파일에 포함된 문자열을 추출한 다음, 상기 성인 키워드 데이터베이스를 참조하여(단계 519) 상기 성인 키워드 데이터베이스에 추출된 문자열에 대응하는 성인 키워드가 기록되어 있는지 여부를 검색한다(단계 520). 검색 결과 상기 문자열에 대응하는 성인 키워드가 있는 경우에는 도 5c로 분기하고, 없는 경우에는 다시 단계 515로 회귀한다. 본 발명에 따른 변질 사이트 판별 방법에 의하면, 변질 사이트 여부를 판별하기 위하여 상기 타겟 URL 자체에 포함된 문자열을 분석하는 방법을 이용하거나, 상기 타겟 URL로 특정되는 웹사이트의 HTML 파일에 포함된 문자열을 분석하는 방법을 이용할 수도 있고, 양 방법을 하이브리드 방식으로 병용함으로써 소정의 웹사이트가 변질 사이트인지 여부를 판별할 수 있도록 동작할 수 있다.As described above, a string included in the target URL itself or a string included in the HTML file of the website specified by the target URL is extracted, and then extracted into the adult keyword database by referring to the adult keyword database (step 519). It is searched whether or not an adult keyword corresponding to the matched string is recorded (step 520). If there is an adult keyword corresponding to the character string as a result of the search, the process branches to FIG. 5C. According to the method of determining the alteration site according to the present invention, in order to determine whether or not the alteration site using a method of analyzing the string included in the target URL itself, or the character string contained in the HTML file of the website specified by the target URL It is also possible to use a method for analyzing or to operate both methods in a hybrid manner so as to determine whether a predetermined website is a deteriorated site.
도 5c를 참조하면, 단계 520에서 상기 문자열에 대응하는 성인 키워드가 있는 경우에는 상기 성인 키워드를 타겟 URL의 문자열에 포함하고 있는 것으로 판단된 웹사이트가 변질 사이트인지 여부를 판단하기 위해서 상기 웹사이트 정보 데이터베이스를 참조하여 상기 웹사이트의 등록정보를 검색한다(단계 522). 상술한 바와 같이, 변질 사이트는 종래 웹사이트 등록 당시에는 일반 사이트로 등록되었던 웹사이트가 등록 이후에 성인 사이트로 변질된 경우를 의미하기 때문이다.Referring to FIG. 5C, when there is an adult keyword corresponding to the character string in step 520, the website information is determined to determine whether the website determined to include the adult keyword in the character string of the target URL is a deteriorated site. The registration information of the website is retrieved by referring to the database (step 522). As described above, the altered site means that the website, which was registered as a general site at the time of registering the website, is changed to an adult site after registration.
웹사이트 정보 데이터베이스 수단에 저장된 상기 웹사이트의 웹사이트 카테고리 정보를 검색하여 상기 웹사이트가 성인 사이트로 등록되어 있는지 여부를 판단(단계 523)하고, 성인 사이트로 등록되어 있지 아니한 웹사이트의 경우에는 상기 웹사이트를 변질 사이트로 판단할 수 있다.The website category information of the website stored in the website information database means is searched to determine whether the website is registered as an adult site (step 523), and for a website not registered as an adult site, The website can be judged as a deteriorating site.
단계 523에서 해당 웹사이트를 변질 사이트로 판단한 경우에는 도 7로 분기(단계 514)하여, 상기 웹사이트에 대하여 소정의 조치를 취하도록 할 수 있고, 변질 사이트가 아닌 경우에는 도 5b의 단계 505로 회귀한다.If it is determined in step 523 that the website is an altered site, it branches to FIG. 7 (step 514) to take a predetermined action on the website, and if it is not the altered site, to step 505 of FIG. 5B. Regress
<스팸 사이트 또는 변질 사이트에 대한 제재 조치><Sanctions against spam or altered sites>
도 7은 본 발명의 바람직한 일실시예에 따른 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법에 있어서, 스팸 또는 변질 사이트로 판별된 웹사이트의 등록자에게 소정의 제재 조치를 가하는 방법을 도시하는 흐름도이다.FIG. 7 is a flowchart illustrating a method for applying a predetermined sanction to a registrant of a website determined to be a spam or altered site in a method for managing a registered website in a search engine according to an exemplary embodiment of the present invention. to be.
도 7을 참조하면, 상술한 도 3a의 단계 308에서 스팸 사이트로 판단된 경우 또는 도 5c의 단계 523에서 변질 사이트로 판단된 경우의 자동 제재 조치가 도시되어 있다. 스팸 또는 변질 사이트로 판단된 경우, 웹사이트 관리 모듈은 웹사이트 정보 데이터베이스를 검색하여 해당 웹사이트의 등록자의 정보를 획득하고(단계 710), 웹사이트 관리 모듈은 상기 등록자의 정보를 수신한다(단계 720 및 750). 본 발명의 일실시예에 따르면, 웹사이트 관리 모듈은 상기 등록자 정보에서 등록자의 이메일 주소 또는 이동통신단말기 번호 등의 연락 정보를 추출하고(단계 730), 메일 서버 또는 SMS 서버를 제어하여 상기 연락 정보로 소정의 메시지를 전송하도록 동작한다(단계 740).Referring to FIG. 7, an automatic sanction measure is shown when it is determined as a spam site in step 308 of FIG. 3A or when it is determined as a deterioration site in step 523 of FIG. 5C. If determined to be a spam or altered site, the website management module searches the website information database to obtain the registrant information of the website (step 710), and the website management module receives the registrant's information (step 720 and 750). According to an embodiment of the present invention, the website management module extracts contact information such as an e-mail address or a mobile communication terminal number of the registrant from the registrant information (step 730), and controls the contact information by controlling a mail server or an SMS server. And transmits the predetermined message to the client (step 740).
본 발명의 또 다른 일실시예에 따르면, 웹사이트 관리 모듈은 상기 등록자 정보에서 등록자의 기타 등록 웹사이트 정보를 추출(단계 760)하고, 동일한 등록자 명의로 등록된 기타 웹사이트에 대한 분석(단계 770)을 자동적으로 수행하도록 제어한다. 동일 등록자 명의의 웹사이트라면 동일 또는 유사한 방법으로 스팸 또는 변질 사이트를 운영할 가능성이 높기 때문이다. 본 실시예의 경우, 기타 웹사이트의 분석 결과가 스팸 또는 변질 사이트로 판단된 경우에는 도 7의 단계 710이 반복될 수 있다.According to another embodiment of the present invention, the website management module extracts the registrant's other registered website information from the registrant information (step 760) and analyzes other websites registered under the same registrant name (step 770). ) To automatically execute. This is because websites with the same registrant's name are more likely to run spam or altered sites in the same or similar way. In the case of this embodiment, if it is determined that the analysis result of the other website is a spam or a deteriorated site, step 710 of FIG. 7 may be repeated.
본 발명의 바람직한 일실시예에 의하면, 소정의 웹사이트가 상술한 분석 및판단 방법에 의하여 스팸 또는 변질 사이트로 판단된 경우, 상기 웹사이트의 등록자에게 자동적으로 이메일, 단문자 메시지 등을 발송하여 해당 웹사이트의 문제점을 지적하고 일정 유예 기간을 두어 시정을 요구하도록 동작할 수 있다. 또한, 일정 유예 기간 경과 후 자동적으로 상기 분석 및 판단 프로세스를 수행하도록 설정할 수 있고, 이 경우에도 시정이 안된 경우에는 등록 취소 등의 제재 조치를 취하는 것도 가능하다. 또한, 본 발명의 다른 일실시예에 의하면, 상기 웹사이트의 등록자에게는 추후 다른 웹페이지를 등록하고자 하는 경우 등록 절차를 까다롭게 하는 등의 제재를 가하는 것도 가능하다.According to a preferred embodiment of the present invention, when a predetermined website is determined to be a spam or altered site by the above-described analysis and determination method, an e-mail, a short text message, etc. is automatically sent to a registrant of the website. It can act to point out problems with the website and allow for a period of grace. In addition, the analysis and determination process may be automatically performed after a certain grace period has elapsed, and in this case, if the correction is not corrected, sanctions such as cancellation of registration may be taken. In addition, according to another embodiment of the present invention, the registrant of the website may be subject to sanctions such as to complicate the registration process in the case of registering another web page in the future.
본 발명의 실시예들은 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터 판독 가능 매체를 포함한다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 상기 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다. 프로그램 명령의예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.Embodiments of the invention include a computer readable medium containing program instructions for performing various computer-implemented operations. The computer readable medium may include program instructions, data files, data structures, etc. alone or in combination. The medium or program instructions may be those specially designed and constructed for the purposes of the present invention, or they may be of the kind well-known and available to those having skill in the computer software arts. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tape, optical media such as CD-ROMs, DVDs, and magnetic disks, such as floppy disks. Magneto-optical media, and hardware devices specifically configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like. The medium may be a transmission medium such as an optical or metal wire, a waveguide, or the like including a carrier wave for transmitting a signal specifying a program command, a data structure, or the like. Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like.
도 8은 본 발명에 따른 검색 엔진에서 등록된 웹페이지를 관리하기 위한 방법에서 채용될 수 있는 범용 컴퓨터 시스템의 내부 블록도이다.8 is an internal block diagram of a general purpose computer system that may be employed in a method for managing a registered web page in a search engine in accordance with the present invention.
컴퓨터 시스템은 램(RAM: Random Access Memory)(860)과 롬(ROM: Read Only Memory)(870)을 포함하는 주기억장치와 연결되는 하나 이상의 프로세서(840)를 포함한다. 프로세서(840)는 중앙처리장치(CPU)로 불리기도 한다. 당업계에서 널리 알려져 있는 바와 같이, 롬(870)은 데이터(data)와 명령(instruction)을 단방향성으로 CPU에 전달하는 역할을 하며, 램(860)은 통상적으로 데이터와 명령을 양방향성으로 전달하는 데 사용된다. 램(860) 및 롬(870)은 컴퓨터 판독 가능 매체의 어떠한 적절한 형태를 포함할 수 있다. 대용량 기억장치(Mass Storage)(810)는 양방향성으로 프로세서(840)와 연결되어 추가적인 데이터 저장 능력을 제공하며, 상기된 컴퓨터 판독 가능 기록 매체 중 어떠한 것일 수 있다. 대용량 기억장치(810)는 프로그램, 데이터 등을 저장하는데 사용되며, 통상적으로 주기억장치보다 속도가 느린 하드디스크와 같은 보조기억장치이다. CD 롬(820)과 같은 특정 대용량 기억장치가 사용될 수도 있다. 프로세서(840)는 비디오 모니터, 트랙볼, 마우스, 키보드, 마이크로폰, 터치스크린 형 디스플레이, 카드 판독기, 자기 또는 종이 테이프 판독기, 음성 또는 필기 인식기, 조이스틱, 또는 기타 공지된 컴퓨터 입출력장치와 같은 하나 이상의 입출력 인터페이스(830)와 연결된다. 마지막으로, 프로세서(840)는 네트워크 인터페이스(850)를 통하여 유선 또는 무선 통신 네트워크에 연결될 수 있다. 이러한 네트워크 연결을 통하여 상기된 방법의 절차를 수행할 수 있다. 상기된 장치 및 도구는 컴퓨터 하드웨어 및 소프트웨어 기술 분야의 당업자에게 잘 알려져 있다.The computer system includes one or more processors 840 connected with main memory including random access memory (RAM) 860 and read only memory (ROM) 870. The processor 840 is also called a central processing unit (CPU). As is well known in the art, the ROM 870 serves to pass data and instructions to the CPU unidirectionally, and the RAM 860 typically transfers data and instructions bidirectionally. Used to. RAM 860 and ROM 870 may include any suitable form of computer readable media. Mass storage 810 is bidirectionally coupled to processor 840 to provide additional data storage capability, and may be any of the computer readable recording media described above. The mass storage device 810 is used to store programs, data, and the like, and is a secondary memory device such as a hard disk which is generally slower than the main memory device. Certain mass storage devices such as CD ROM 820 may be used. The processor 840 may include one or more input / output interfaces, such as a video monitor, trackball, mouse, keyboard, microphone, touchscreen display, card reader, magnetic or paper tape reader, voice or handwriting reader, joystick, or other known computer input / output device. 830 is connected. Finally, the processor 840 may be connected to a wired or wireless communication network through the network interface 850. Through this network connection, the procedure of the method described above can be performed. The apparatus and tools described above are well known to those skilled in the computer hardware and software arts.
상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수도 있다.The hardware device described above may be configured to operate as one or more software modules to perform the operations of the present invention.
본 발명에 따른 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법에 의하면, 다수의 팝업 창을 생성하는 스팸 사이트 또는 변질 사이트를 소정의 알고리즘을 이용하여 자동적으로 검출해 낼 수 있으므로, 엔진 사용자에게 불편을 초래하지 아니하는 검색 엔진 서비스를 제공할 수 있다는 효과를 얻을 수 있다.According to the method for managing a registered website in the search engine according to the present invention, it is inconvenient for an engine user because it can automatically detect spam sites or altered sites that generate a plurality of pop-up windows using a predetermined algorithm. It is possible to provide an effect that it can provide a search engine service that does not cause a problem.
또한, 본 발명에 따른 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법에 의하면, 스팸 사이트 또는 변질 사이트를 자동적으로 검출하고, 검출된 스팸 사이트 또는 변질 사이트 운영자에 대한 제재 조치를 가할 수 있으므로, 검색 엔진에서 등록된 웹사이트 자체의 자정이 강화될 수 있도록 한다는 효과를 얻을 수 있다.In addition, according to the method for managing a registered website in the search engine according to the present invention, it is possible to automatically detect spam sites or altered sites, and apply sanctions to the detected spam or altered site operators. The engine has the effect of allowing midnight on the website itself to be registered.
또한, 본 발명에 따른 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법에 의하면, 스팸 사이트 또는 변질 사이트의 검출 및 검출된 스팸 사이트 또는 변질 사이트들에 대한 경고 등의 제재 조치를 소정의 알고리즘에 의해 자동적으로 수행되도록 함으로써, 상술한 사이트들의 검출을 위해 소요될 수 있는 다수의 인력 자원을 절약할 수 있다는 효과를 얻을 수 있다.In addition, according to the method for managing a registered website in the search engine according to the present invention, sanctions such as detection of spam sites or altered sites and warning of detected spam or altered sites by a predetermined algorithm. By being performed automatically, it is possible to save a large number of manpower resources that may be required for detection of the aforementioned sites.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 상기 기재로부터 다양한 수정 및 변형이 가능하다는 점은 자명하다. 따라서, 본 발명 사상은 아래에 기재된 특허 청구 범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.As described above, although the present invention has been described by way of limited embodiments and drawings, the present invention is not limited to the above-described embodiments, which can be variously modified and modified by those skilled in the art to which the present invention pertains. It is obvious that modifications are possible. Accordingly, the spirit of the present invention should be understood only by the claims set forth below, and all equivalent or equivalent modifications thereof will belong to the scope of the present invention.
Claims (1)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020040003125A KR20040103763A (en) | 2004-01-15 | 2004-01-15 | A method of managing web sites registered in search engine |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020040003125A KR20040103763A (en) | 2004-01-15 | 2004-01-15 | A method of managing web sites registered in search engine |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020030035044 Division | 2003-05-31 | 2003-05-31 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20040103763A true KR20040103763A (en) | 2004-12-09 |
Family
ID=37379638
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020040003125A Withdrawn KR20040103763A (en) | 2004-01-15 | 2004-01-15 | A method of managing web sites registered in search engine |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20040103763A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008016264A1 (en) * | 2006-08-01 | 2008-02-07 | Eun Suk Jeong | System for web site searching and the method thereof |
WO2008134172A1 (en) * | 2007-04-30 | 2008-11-06 | Microsoft Corporation | Web spam page classification using query-dependent data |
-
2004
- 2004-01-15 KR KR1020040003125A patent/KR20040103763A/en not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008016264A1 (en) * | 2006-08-01 | 2008-02-07 | Eun Suk Jeong | System for web site searching and the method thereof |
WO2008134172A1 (en) * | 2007-04-30 | 2008-11-06 | Microsoft Corporation | Web spam page classification using query-dependent data |
US7853589B2 (en) | 2007-04-30 | 2010-12-14 | Microsoft Corporation | Web spam page classification using query-dependent data |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8326818B2 (en) | Method of managing websites registered in search engine and a system thereof | |
US8166013B2 (en) | Method and system for crawling, mapping and extracting information associated with a business using heuristic and semantic analysis | |
KR100478019B1 (en) | Method and system for generating a search result list based on local information | |
US7792870B2 (en) | Identification and automatic propagation of geo-location associations to un-located documents | |
US20050171932A1 (en) | Method and system for extracting, analyzing, storing, comparing and reporting on data stored in web and/or other network repositories and apparatus to detect, prevent and obfuscate information removal from information servers | |
KR100485321B1 (en) | A method of managing web sites registered in search engine and a system thereof | |
KR100509276B1 (en) | Method for searching web page on popularity of visiting web pages and apparatus thereof | |
US20160103861A1 (en) | Method and system for establishing a performance index of websites | |
US20150302090A1 (en) | Method and System for the Structural Analysis of Websites | |
US20110270691A1 (en) | Method and system for providing url possible new advertising | |
JP2012523626A (en) | Domain state, purpose, and category | |
KR100458458B1 (en) | A method of managing web sites registered in search engine and a system thereof | |
KR101048590B1 (en) | A method of managing web sites registered in search engine and a system thereof | |
KR20040103763A (en) | A method of managing web sites registered in search engine | |
KR20040098889A (en) | A method of providing website searching service and a system thereof | |
KR100610775B1 (en) | Method and system for managing registered websites in search engines | |
US11176312B2 (en) | Managing content of an online information system | |
KR100931772B1 (en) | Method and system for providing website search service | |
KR101020895B1 (en) | Method and system for generating a search result list based on local information | |
KR100955776B1 (en) | Search system and method | |
KR20040098890A (en) | A method of providing website searching service and a system thereof | |
KR100909561B1 (en) | Local information search result providing system | |
KR20040086733A (en) | A method of managing registered web sites in search engine and a system thereof | |
KR100931775B1 (en) | Method and system for providing website search service | |
KR20040086732A (en) | A method of managing web sites registered in search engine and a system thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A107 | Divisional application of patent | ||
PA0107 | Divisional application |
Comment text: Divisional Application of Patent Patent event date: 20040115 Patent event code: PA01071R01D |
|
PG1501 | Laying open of application | ||
PC1203 | Withdrawal of no request for examination | ||
WITN | Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid |