[go: up one dir, main page]

ES2371404T3 - SYSTEM AND PROCEDURE TO ESTIMATE THE PREVALENCE OF DIGITAL CONTENT ON THE WORLD-WIDE-WEB. - Google Patents

SYSTEM AND PROCEDURE TO ESTIMATE THE PREVALENCE OF DIGITAL CONTENT ON THE WORLD-WIDE-WEB. Download PDF

Info

Publication number
ES2371404T3
ES2371404T3 ES00980233T ES00980233T ES2371404T3 ES 2371404 T3 ES2371404 T3 ES 2371404T3 ES 00980233 T ES00980233 T ES 00980233T ES 00980233 T ES00980233 T ES 00980233T ES 2371404 T3 ES2371404 T3 ES 2371404T3
Authority
ES
Spain
Prior art keywords
advertising
website
data
estimate
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES00980233T
Other languages
Spanish (es)
Inventor
Gregory J. Lauckhart
Craig B. Horman
Christa L. Korol
James T. Bartot
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JUPITER MEDIA METRIX Inc
Nielsen Co US LLC
Original Assignee
JUPITER MEDIA METRIX Inc
Nielsen Co US LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JUPITER MEDIA METRIX Inc, Nielsen Co US LLC filed Critical JUPITER MEDIA METRIX Inc
Application granted granted Critical
Publication of ES2371404T3 publication Critical patent/ES2371404T3/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

Un procedimiento para estimar la prevalencia de contenido digital en una red, comprendiendo el procedimiento: recibir (710) una estimación de un número de veces que se ha accedido a una página web (110; 110'; 110''; 411- 416; 421-424); solicitar repetidamente (740) la página web (110; 110'; 110''; 411-416; 421-424) y, en respuesta, recibir archivos de contenido; determinando (750) un número de veces que un primer objeto de contenido (A1; A2; A3) está incluido en los archivos de contenido; determinando (770) un número total de veces que la página web (110; 110'; 110''; 411-416; 421-424) ha sido solicitada; y estimando (773, 774) el número de veces que el primer objeto de contenido (A1; A2; A3) ha sido presentado a los visitantes de la página web basado en el número de veces que el primer objeto de contenido (A1; A2; A3) fue incluido en los archivos de contenido, el número total de veces que la página web (110; 110'; 110''; 411-416; 421- 424) fue solicitada, y la estimación del número de veces que se ha accedido a la página web (110; 110'; 110''; 411- 416; 421-424).A procedure for estimating the prevalence of digital content in a network, the procedure comprising: receiving (710) an estimate of a number of times a web page has been accessed (110; 110 '; 110' '; 411-416; 421-424); repeatedly request (740) the website (110; 110 '; 110' '; 411-416; 421-424) and, in response, receive content files; determining (750) a number of times that a first content object (A1; A2; A3) is included in the content files; determining (770) a total number of times that the web page (110; 110 '; 110' '; 411-416; 421-424) has been requested; and estimating (773, 774) the number of times that the first content object (A1; A2; A3) has been presented to website visitors based on the number of times the first content object (A1; A2 ; A3) was included in the content files, the total number of times the website (110; 110 '; 110' '; 411-416; 421-424) was requested, and the estimate of the number of times it was You have accessed the website (110; 110 '; 110' '; 411-416; 421-424).

Description

Sistema y procedimiento para estimar la prevalencia de contenido digital en la World-Wide-Web System and procedure to estimate the prevalence of digital content on the World-Wide-Web

REFERENCIA A SOLICITUDES RELACIONADAS REFERENCE TO RELATED APPLICATIONS

La presente solicitud reivindica la prioridad respecto a, e incorpora por referencia, la solicitud provisional de patente de invención número 60/175.665, presentada en la Oficina de Patentes y Marcas de los Estados Unidos el 12 de enero de 2000, y la solicitud provisional de patente de invención número 60/231.195, presentada en la Oficina de Patentes y Marcas de los Estados Unidos el 7 de septiembre de 2000. The present application claims priority over, and incorporates by reference, the provisional invention patent application number 60 / 175,665, filed at the United States Patent and Trademark Office on January 12, 2000, and the provisional application for invention patent number 60 / 231,195, filed at the United States Patent and Trademark Office on September 7, 2000.

CAMPO DE LA INVENCIÓN FIELD OF THE INVENTION

La presente invención se refiere en general a un sistema, procedimiento y producto de programa informático para rastrear y medir el contenido digital que se distribuye por una red informática como Internet. Más particularmente, la presente invención se refiere a un sistema, procedimiento y producto de programa informático que recopila datos de anuncios en línea, analiza los datos, y usa los datos para calcular mediciones de la prevalencia de esos anuncios. The present invention relates in general to a computer program system, method and product for tracking and measuring the digital content that is distributed over a computer network such as the Internet. More particularly, the present invention relates to a computer program system, method and product that collects data from online advertisements, analyzes the data, and uses the data to calculate measurements of the prevalence of those advertisements.

ANTECEDENTES DE LA INVENCIÓN BACKGROUND OF THE INVENTION

El aumento de la popularidad de Internet y la World-Wide-Web (“Web”) es debido, en parte, a las tecnologías interactivas que una página web puede emplear. Estas tecnologías interactivas afectan directamente a la Web como medio publicitario porque las tecnologías introdujeron nuevos formatos publicitarios como anuncios de patrocinio de iconos fijos, banners y botones giratorios, y anuncios intersticiales (es decir, anuncios en línea que interrumpen el trabajo del usuario y se adueñan de un porcentaje significativo de la visualización de la pantalla). Aun cuando la creación del anuncio es diferente, el efecto sobre el espectador es similar a la publicidad tradicional. Por ejemplo, un anuncio de banner o un icono de logotipo en una página web crea una impresión del producto para el espectador que es equivalente a un anuncio de valla publicitaria tradicional que promociona un producto presentando la marca o el eslogan. Igualmente, un logotipo del patrocinador en una página web crea una impresión del patrocinador para el espectador que es equivalente a ver un logotipo de patrocinador en el marcador en un partido de baloncesto universitario. The increase in popularity of the Internet and the World-Wide-Web ("Web") is due, in part, to the interactive technologies that a web page can use. These interactive technologies directly affect the Web as an advertising medium because the technologies introduced new advertising formats such as sponsorship of fixed icons, banners and rotating buttons, and interstitial ads (that is, online ads that interrupt the user's work and take over of a significant percentage of the screen display). Even when the creation of the ad is different, the effect on the viewer is similar to traditional advertising. For example, a banner ad or logo icon on a web page creates an impression of the product for the viewer that is equivalent to a traditional billboard advertisement that promotes a product by presenting the brand or slogan. Likewise, a sponsor logo on a web page creates a sponsor impression for the viewer that is equivalent to seeing a sponsor logo on the scoreboard in a college basketball game.

El crecimiento rápido e imprevisible de Internet durante los últimos varios años ha creado una gran demanda de estadísticas de calidad que cuantifiquen su magnitud y tasa de expansión. Varias metodologías de medición tradicionales producen estadísticas útiles acerca de Internet y sus usuarios, pero la complejidad de Internet ha dejado a algunas de estas metodologías incapaces de responder a muchas cuestiones importantes. The rapid and unpredictable growth of the Internet over the past several years has created a high demand for quality statistics that quantify its magnitude and expansion rate. Several traditional measurement methodologies produce useful statistics about the Internet and its users, but the complexity of the Internet has left some of these methodologies unable to answer many important questions.

La solicitud internacional WO98/59309 desvela un sistema de medición de medios electrónicos cooperativos que usa manipuladores de medios para obtener información de, o si no obtener información acerca de, objetos de medios presentados, incluyendo etiquetas de identificación, de haberlas, para recopilación por agentes de recopilación de datos de investigación y expedición subsiguiente a un controlador de investigación de medios centralizado. El controlador de investigación de medios registra los anuncios y otros medios para una medición subsiguiente y proporciona una etiqueta de identificación única que puede añadirse a, o asociarse con, el objeto de medios existente. Los objetos de medios se presentan a un miembro de panel mediante un dispositivo informático de miembro de panel que puede recibir objetos de medios por medio de una conexión de red, procedentes de una o más fuentes locales, o generar objetos de medios en tiempo real, o una combinación de los mismos. Se asignan uno International application WO98 / 59309 discloses a cooperative electronic media measurement system that uses media handlers to obtain information about, or not to obtain information about, presented media objects, including identification tags, if any, for agent collection of gathering research data and subsequent dispatch to a centralized media research controller. The media research controller registers advertisements and other media for subsequent measurement and provides a unique identification tag that can be added to, or associated with, the existing media object. Media objects are presented to a panel member by means of a panel member computing device that can receive media objects through a network connection, from one or more local sources, or generate media objects in real time, or a combination thereof. One is assigned

o más agentes de recopilación de datos de investigación para medir la exposición a, y las interacciones con, medios electrónicos de cada miembro de panel. Los manipuladores de medios cooperativos obtienen automáticamente información de, o si no obtienen información acerca de, objetos de medios presentados incluyendo etiquetas de identificación, de haberlas, y otra información, para recopilación por los agentes de recopilación de datos de investigación. Un agente de recopilación de datos de investigación rastreará un elemento de panel, y recopilará tales transmisiones desde los manipuladores de medios cooperativos, cuando un miembro de panel está en el ámbito del agente de recopilación de datos de investigación. or more investigative data collection agents to measure the exposure to, and interactions with, electronic media of each panel member. Cooperative media handlers automatically obtain information from, or if they do not obtain information about, media objects presented including identification tags, if any, and other information, for collection by research data collection agents. A research data collection agent will track a panel element, and collect such transmissions from cooperative media handlers, when a panel member is within the scope of the research data collection agent.

La patente de EE.UU. 5.995.943 desvela un sistema y procedimiento de agregación y síntesis de información que proporciona agregación y encapsulado de información estructurada y desestructurada procedente de fuentes dispares como las disponibles en una red como Internet. Un dispositivo de interfaz de red compatible/direccionable es manejado por un usuario. El dispositivo de interfaz de red se comunica con almacenes de datos locales o almacenes de datos accesibles por red a través de un esquema de direccionamiento como las direcciones del Localizador Uniforme de Recursos (URLs) utilizadas por Internet. Se accede a los datos que pasan entre el dispositivo de interfaz de red y los almacenes de datos y son escrutados y recuperados a través de un sistema de pasarela intermediaria. Tal información agregada luego se sintetiza, se adapta, se personaliza y se localiza para satisfacer las solicitudes de recursos de información especificadas por el usuario a través del dispositivo de interfaz de red. U.S. Pat. 5,995,943 discloses a system and procedure for aggregation and synthesis of information that provides aggregation and encapsulation of structured and unstructured information from disparate sources such as those available on a network such as the Internet. A compatible / addressable network interface device is operated by a user. The network interface device communicates with local data stores or data stores accessible by network through an addressing scheme such as the Uniform Resource Locator (URLs) addresses used by the Internet. The data that passes between the network interface device and the data stores is accessed and scanned and retrieved through an intermediary gateway system. Such aggregate information is then synthesized, adapted, customized and located to meet the requests for information resources specified by the user through the network interface device.

La publicidad en línea es un área donde las metodologías tradicionales no se prestan bien a medición. Cada día, miles y miles de anuncios electrónicos aparecen y luego desaparecen de millones de páginas web. La naturaleza transitoria de la actividad publicitaria en línea justifica una metodología novedosa para medir con exactitud la actividad publicitaria. Online advertising is an area where traditional methodologies do not lend themselves well to measurement. Every day, thousands and thousands of electronic advertisements appear and then disappear from millions of web pages. The transitory nature of online advertising activity justifies a novel methodology to accurately measure advertising activity.

Los sistemas de rastreo y medición publicitaria existentes automatizan la recopilación de páginas web, pero no automatizan la recopilación de los anuncios en línea. Desde que el contenido de un anuncio en línea cambia o rota a lo largo del tiempo, la reconstrucción precisa de la frecuencia de anuncios específicos requiere el muestreo continuo de páginas web relevantes en las proporciones correctas. Además, debido a la mera magnitud de la Web, los algoritmos de muestreo deben ser afinados con exactitud para optimizar la asignación de recursos (es decir, el ancho de banda de la red, el almacenamiento de bases de datos, el tiempo del procesador, etc.) y permitir simultáneamente la máxima cobertura de Internet. Los sistemas de rastreo y medición publicitaria existentes no satisfacen estas necesidades porque no están optimizados para asignación de recursos y no muestrean continuamente páginas web relevantes en la proporción correcta. Existing advertising tracking and measurement systems automate the collection of web pages, but do not automate the collection of online advertisements. Since the content of an online ad changes or rotates over time, the precise reconstruction of the frequency of specific ads requires continuous sampling of relevant web pages in the correct proportions. In addition, due to the mere magnitude of the Web, sampling algorithms must be fine tuned to optimize resource allocation (i.e. network bandwidth, database storage, processor time, etc.) and simultaneously allow maximum Internet coverage. Existing advertising tracking and measurement systems do not meet these needs because they are not optimized for resource allocation and do not continually sample relevant web pages in the correct proportion.

En vista de las deficiencias de los sistemas existentes descritas anteriormente, existe una necesidad de un sistema de rastreo y medición publicitaria que use los recursos más inteligentemente, sea más compatible con los sitios web que visite, sea escalable, y produzca mediciones precisas. La invención desvelada en este documento se ocupa de esta necesidad. In view of the deficiencies of the existing systems described above, there is a need for an advertising tracking and measurement system that uses resources more intelligently, is more compatible with the websites you visit, is scalable, and produces accurate measurements. The invention disclosed in this document addresses this need.

RESUMEN DE LA INVENCIÓN SUMMARY OF THE INVENTION

La presente invención es un sistema, procedimiento, y producto de programa informático para rastrear y medir el contenido digital que se distribuye por una red informática como Internet tal como se define en las reivindicaciones adjuntas. El sistema recopila datos de anuncios en línea, analiza los datos, y usa los datos para calcular mediciones de la prevalencia de esos anuncios. The present invention is a system, method, and software product for tracking and measuring the digital content that is distributed over a computer network such as the Internet as defined in the appended claims. The system collects data from online advertisements, analyzes the data, and uses the data to calculate measurements of the prevalence of those advertisements.

En la realización preferida, datos de tráfico procedentes de una diversidad de fuentes y metodologías complementarias alimentan el sistema de análisis de tráfico, un agente inteligente (es decir, software que interactúa con, aprende de, y se adapta a un entorno). El sistema de análisis de tráfico procesa los datos de tráfico sin procesar depurando y resumiendo los datos de tráfico antes de almacenar los datos procesados en una base de datos. Cuando el sistema de resumen estadístico calcula la frecuencia de anuncios, las impresiones, y los gastos, se basa en los datos procesados procedentes del sistema de análisis de tráfico. In the preferred embodiment, traffic data from a variety of complementary sources and methodologies feed the traffic analysis system, an intelligent agent (ie, software that interacts with, learns from, and adapts to an environment). The traffic analysis system processes the unprocessed traffic data by debugging and summarizing the traffic data before storing the processed data in a database. When the statistical summary system calculates the frequency of advertisements, impressions, and expenses, it is based on the processed data from the traffic analysis system.

El sistema de muestreo de anuncios, también conocido como el “sondeador” o “sondeador en la nube”, usa una metodología robusta que busca continuamente los sitios web más significativos e influyentes que hay que sondear (es decir, monitorizar). Por otra parte, la selección y definición de sitio realizada por la presente invención dicta las páginas web que comprenden cada sitio web para asegurar que se informa como tales de entidades completas de marca singular. El sistema de muestreo de anuncios usa tecnología de agente inteligente para recuperar páginas web a diversas frecuencias para obtener una muestra representativa. Esto permite al “sondeador en la nube” evaluar con exactitud con cuánta frecuencia aparece cada anuncio en los datos de tráfico. Después de que el “sondeador en la nube” busca una página web, el sistema de muestreo de anuncios extrae los anuncios de la página web. En la realización preferida, el extractor de anuncios, también conocido como el “extractor”, invoca un proceso de detección automática de anuncios (“AAD”), un proceso de extracción heurística, para extraer automáticamente todos los anuncios de la página web. The ad sampling system, also known as the "poller" or "cloud poller", uses a robust methodology that continually searches for the most significant and influential websites to be probed (that is, monitored). On the other hand, the selection and definition of the site made by the present invention dictates the web pages that comprise each web site to ensure that complete singular brand entities are reported as such. The ad sampling system uses intelligent agent technology to retrieve web pages at various frequencies to obtain a representative sample. This allows the "cloud poller" to assess exactly how often each ad appears in the traffic data. After the "cloud poller" searches for a web page, the ad sampling system extracts the ads from the web page. In the preferred embodiment, the ad extractor, also known as the "extractor", invokes an automatic ad detection process ("ADF"), a heuristic extraction process, to automatically extract all the ads from the web page.

Después de la extracción de los anuncios de la página web, el sistema de muestreo de anuncios invoca un motor de clasificación para analizar los fragmentos de anuncios. El clasificador procesa cada fragmento para determinar una clasificación para el fragmento y luego almacena el fragmento y los datos de clasificación en una base de datos. El resultado de los análisis y el procesamiento realizados por el sistema de muestreo de anuncios es un catálogo abundante de actividad publicitaria que puede ser consultado fácilmente por un cliente. After extracting the advertisements from the website, the ad sampling system invokes a classification engine to analyze the ad fragments. The classifier processes each fragment to determine a classification for the fragment and then stores the fragment and classification data in a database. The result of the analysis and processing performed by the ad sampling system is an abundant catalog of advertising activity that can be easily consulted by a customer.

La presente invención usa una parte cliente web y una interfaz de usuario para acceder a y actualizar los datos de la base de datos. La parte cliente web ofrece a un cliente, o usuario, de la presente invención una interfaz de consulta a la base de datos poblada por el análisis de tráfico, el muestreo de anuncios, y los sistemas de resumen estadístico. La interfaz de usuario es una interfaz gráfica de usuario que incluye un componente separado para gestión de cuentas del sistema, administración de sitios, administración de taxonomía, clasificación de contenido publicitario, y recopilación de listas de tarifas. La interfaz de usuario permite a un administrador y operador de cuentas mantener y administrar la presente invención. La interfaz de usuario también permite a un editor de medios revisar los datos de la base de datos para verificar la exactitud e integridad de la vasta cantidad de datos recopilados por la presente invención. Este procedimiento de integridad de datos investiga rutinariamente puntos de datos inusuales o periféricos para calibrar el sistema y adaptarlo a un entorno siempre cambiante. The present invention uses a web client part and a user interface to access and update the data in the database. The web client part offers a client, or user, of the present invention a query interface to the database populated by traffic analysis, ad sampling, and statistical summary systems. The user interface is a graphical user interface that includes a separate component for system account management, site administration, taxonomy administration, advertising content classification, and collection of rate lists. The user interface allows an administrator and account operator to maintain and administer the present invention. The user interface also allows a media editor to review the data in the database to verify the accuracy and completeness of the vast amount of data collected by the present invention. This data integrity procedure routinely investigates unusual or peripheral data points to calibrate the system and adapt it to an ever-changing environment.

BREVE DESCRIPCIÓN DE LOS DIBUJOS BRIEF DESCRIPTION OF THE DRAWINGS

Las figuras adjuntas ilustran mejor los detalles de la presente invención, tanto en cuanto a su estructura como a su funcionamiento. Los números de referencia y designaciones iguales en estas figuras se refieren a elementos iguales. The attached figures better illustrate the details of the present invention, both in terms of structure and operation. The same reference numbers and designations in these figures refer to equal elements.

La Figura 1 es un diagrama de red que representa el entorno para un sistema de prevalencia publicitaria según la presente invención. La Figura 2 representa el diagrama de red de la Figura 1, en mayor detalle, para mostrar las relaciones entre el entorno de red y los elementos que comprenden el sistema de prevalencia publicitaria. La Figura 3 representa el diagrama de red de la Figura 2, en mayor detalle, para mostrar los elementos y subelementos que comprenden el sistema de prevalencia publicitaria y las conexiones al entorno de red. La Figura 4A es un sitio web de ejemplo que ilustra los valores esperados usados en el cálculo de las estadísticas de prevalencia publicitaria. La Figura 4B es un sitio web de ejemplo que ilustra los valores observados usados en el cálculo de las estadísticas de prevalencia publicitaria. La Figura 4C es un sitio web de ejemplo que ilustra los valores ponderados usados en el cálculo de las estadísticas de prevalencia publicitaria. La Figura 4D es un sitio web de ejemplo que ilustra un procedimiento alternativo para el cálculo de las estadísticas de prevalencia publicitaria. La Figura 5 ilustra un ejemplo de una estructura de base de datos que puede usar el sistema de prevalencia publicitaria. La Figura 6 es un diagrama de bloques funcionales del sistema de prevalencia publicitaria que muestra la configuración de los componentes de hardware y software. La Figura 7A es un organigrama de un proceso en el sistema de prevalencia publicitaria que mide la calidad de la publicidad en línea y la actividad generada por un anuncio en línea. La Figura 7B es un organigrama que describe, en mayor detalle, el proceso de muestrear datos de tráfico a partir de la Figura 7A. La Figura 7C es un organigrama que describe, en mayor detalle, el proceso de generar un mapa de sondeo basado en los datos de tráfico muestreados a partir de la Figura 7A. La Figura 7D es un organigrama que describe, en mayor detalle, el proceso de sondear Internet para reunir datos de muestras a partir de la Figura 7A. La Figura 7E es un organigrama que describe, en mayor detalle, el proceso de clasificar los datos publicitarios a partir de la Figura 7A. La Figura 7F es un organigrama que describe, en mayor detalle, el proceso de calcular las estadísticas publicitarias a partir de la Figura 7A. Figure 1 is a network diagram representing the environment for an advertising prevalence system according to the present invention Figure 2 represents the network diagram of Figure 1, in greater detail, to show the relationships between the network environment and the elements that comprise the advertising prevalence system. Figure 3 represents the network diagram of Figure 2, in greater detail, to show the elements and Sub-elements that comprise the advertising prevalence system and the connections to the network environment. Figure 4A is an example website that illustrates the expected values used in the calculation of Advertising prevalence statistics. Figure 4B is an example website that illustrates the observed values used in the calculation of the Advertising prevalence statistics. Figure 4C is an example website that illustrates the weighted values used in the calculation of Advertising prevalence statistics. Figure 4D is an example website that illustrates an alternative procedure for calculating Advertising prevalence statistics. Figure 5 illustrates an example of a database structure that the prevalence system can use advertising Figure 6 is a functional block diagram of the advertising prevalence system showing the configuration of hardware and software components. Figure 7A is an organization chart of a process in the advertising prevalence system that measures the quality of the Online advertising and activity generated by an online ad. Figure 7B is an organization chart that describes, in greater detail, the process of sampling traffic data from of Figure 7A. Figure 7C is an organization chart that describes, in greater detail, the process of generating a survey map based on traffic data sampled from Figure 7A. Figure 7D is an organization chart that describes, in greater detail, the process of polling the Internet to gather data of samples from Figure 7A. Figure 7E is an organization chart that describes, in greater detail, the process of classifying advertising data to from Figure 7A. Figure 7F is an organization chart that describes, in greater detail, the process of calculating statistics advertising from Figure 7A.

DESCRIPCIÓN DETALLADA DE LA INVENCIÓN DETAILED DESCRIPTION OF THE INVENTION

La Figura 1 representa el entorno para la realización preferida de la presente invención que incluye la Internet 100, y un sitio web 110, el sistema de muestreo de tráfico 120, el sistema de prevalencia publicitaria 130, y el cliente 140. La presente invención usa tecnología de agente inteligente para reunir datos relacionados con los atributos, la colocación, y la prevalencia de los anuncios en línea. Estos datos proporcionan a un usuario estimaciones actualizadas de estadísticas de anuncios y ayudan al usuario a obtener una ventaja competitiva. Figure 1 depicts the environment for the preferred embodiment of the present invention that includes the Internet 100, and a website 110, the traffic sampling system 120, the advertising prevalence system 130, and the client 140. The present invention uses Smart agent technology to gather data related to attributes, placement, and prevalence of online ads. This data provides a user with updated estimates of ad statistics and helps the user gain a competitive advantage.

Tal como se muestra en la Figura 1, la Internet 100 es una red de comunicación pública que permite al sistema de muestreo de tráfico 120 y al sistema de prevalencia publicitaria 130 comunicarse con un cliente 140 y un sitio web As shown in Figure 1, the Internet 100 is a public communication network that allows the traffic sampling system 120 and the advertising prevalence system 130 to communicate with a client 140 and a website

110. Aun cuando la realización preferida usa la Internet 100, la presente invención contempla el uso de otras arquitecturas de red públicas o privadas como una intranet o extranet. Una intranet es una red de comunicación privada que funciona de manera similar a la Internet 100. Una organización, como una corporación, crea una intranet para proporcionar un medio seguro para que los miembros de la organización accedan a los recursos por la red de la organización. Una extranet también es una red de comunicación privada que funciona de manera similar a la Internet 100. A diferencia de una intranet, una extranet proporciona un medio seguro para que la organización autorice a los no miembros de la organización a acceder a ciertos recursos por la red de la organización. La presente invención también contempla el uso de un protocolo de red como Ethernet o Token Ring, así como protocolos de red patentados. 110. Although the preferred embodiment uses Internet 100, the present invention contemplates the use of other public or private network architectures such as an intranet or extranet. An intranet is a private communication network that works similarly to the Internet 100. An organization, such as a corporation, creates an intranet to provide a secure means for members of the organization to access resources through the organization's network . An extranet is also a private communication network that works similar to Internet 100. Unlike an intranet, an extranet provides a secure means for the organization to authorize non-members of the organization to access certain resources through the Internet. Organization network. The present invention also contemplates the use of a network protocol such as Ethernet or Token Ring, as well as proprietary network protocols.

El sistema de muestreo de tráfico 120 es un programa que monitoriza y registra la actividad web en la Internet 100. El sistema de muestreo de tráfico 120 es un repositorio intermediario de datos de tráfico entre un internauta (no mostrado) en la Internet 100 y un servidor web 112. El servidor web 112 mostrado en la Figura 1 es un ordenador personal o estación de trabajo informática convencional que incluye el sistema operativo apropiado, hardware, protocolo de comunicaciones (por ejemplo, el Protocolo de Control de Transmisión/Protocolo Internet), y software de servidor web para hospedar una colección de páginas web. El internauta (no mostrado) se comunica con el servidor web 112 solicitando un localizador uniforme de recursos (“URL”) 114, 116, 118 asociado con el sitio web 110, típicamente usando un navegador web. Cualquier programa o dispositivo que pueda registrar una solicitud de un URL hecha por un internauta (no mostrado) a un servidor web 112 puede realizar las funciones que la presente invención requiere del sistema de muestreo de tráfico 120. El sistema de muestreo de tráfico 120 agrega entonces los datos de tráfico para cada sitio web 110 para uso por el sistema de prevalencia publicitaria 130. The traffic sampling system 120 is a program that monitors and records web activity on the Internet 100. The traffic sampling system 120 is an intermediate repository of traffic data between an Internet user (not shown) on the Internet 100 and a web server 112. Web server 112 shown in Figure 1 is a personal computer or conventional computer workstation that includes the appropriate operating system, hardware, communications protocol (for example, the Transmission Control Protocol / Internet Protocol), and web server software to host a collection of web pages. The Internet user (not shown) communicates with the web server 112 requesting a uniform resource locator ("URL") 114, 116, 118 associated with the website 110, typically using a web browser. Any program or device that can register a URL request made by a user (not shown) to a web server 112 can perform the functions that the present invention requires of the traffic sampling system 120. The traffic sampling system 120 adds then the traffic data for each website 110 for use by the advertising prevalence system 130.

La presente invención puede usar cualquier sistema de muestreo de tráfico disponible comercialmente que proporcione una funcionalidad similar al producto de medición de audiencias Media Metrix. Otros posibles mecanismos para obtener una muestra de datos de tráfico incluyen: The present invention can use any commercially available traffic sampling system that provides similar functionality to the Media Metrix audience measurement product. Other possible mechanisms to obtain a sample of traffic data include:

1.one.
El “Muestreo de proxy caché” reúne datos como datos de secuencias de clics del usuario, y solicitudes de páginas web procedentes de una jerarquía distribuida global de servidores proxy caché. Estos datos pasan a través de un mecanismo intermedio que proporciona servicios prebúsqueda y de caché para objetos web. A partir de mayo de 1999, las estadísticas de tráfico calculadas por la presente invención representan la síntesis de datos sin procesar procedentes de nueve cachés de primer nivel y aproximadamente 400 de segundo nivel en los Estados Unidos, así como unas 1100 adicionales por todo el mundo.  "Cache proxy sampling" gathers data such as user click sequence data, and web page requests from a global distributed hierarchy of cache proxy servers. This data passes through an intermediate mechanism that provides pre-search and cache services for web objects. As of May 1999, traffic statistics calculated by the present invention represent the synthesis of unprocessed data from nine first level caches and approximately 400 second level caches in the United States, as well as an additional 1100 worldwide .

2.2.
“Recopilación de paneles del lado del cliente” recupera datos de muestras procedentes de cada panelista a través de un mecanismo del lado del cliente y transfiere los datos a un repositorio de recopilación. El mecanismo del lado del cliente puede monitorizar la barra de direcciones del navegador, el navegador del usuario, un proxy del lado del cliente, o funciones gancho de pilas TCP/IP.  “Client side panel collection” retrieves data from samples from each panelist through a client side mechanism and transfers the data to a collection repository. The client-side mechanism can monitor the browser's address bar, the user's browser, a client-side proxy, or TCP / IP battery hook functions.

3.3.
Un “transcodificador” es un proxy que reescribe HTML, normalmente con el fin de añadir elementos para generación de ingresos de anuncios o cabeceras/pies de página. Los proveedores de servicios de internet (“ISP”) gratuitos usan típicamente esta técnica.  A "transcoder" is a proxy that rewrites HTML, usually in order to add elements for ad revenue generation or page headers / footers. Free internet service providers (“ISPs”) typically use this technique.

4.Four.
Cualquier mecanismo de distribución de contenido que duplique la página web o el contenido del sitio de una manera pensada para disminuir la congestión de la red o mejorar la experiencia del usuario.  Any mechanism for distributing content that duplicates the website or site content in a way designed to reduce network congestion or improve the user experience.

5.5.
Cualquier mecanismo de filtrado de contenido que evalúe las solicitudes de URL y adopte acciones para permitir o denegar tales solicitudes.  Any content filtering mechanism that evaluates URL requests and takes actions to allow or deny such requests.

6.6.
De registros de servidores mantenidos por proveedores de servicios de Internet (“ISP”) o sitios web individuales.  From server logs maintained by Internet service providers ("ISPs") or individual websites.

La Figura 2 amplía el detalle del sistema de prevalencia publicitaria 130 de la Figura 1 para mostrar las relaciones entre el entorno de red y los elementos que comprenden el sistema de prevalencia publicitaria 130. El sistema de prevalencia publicitaria 130 incluye un sistema de análisis de tráfico 210, un sistema de muestreo de anuncios 220, y un sistema de resumen estadístico 230 que comunica datos a la base de datos 200 para su almacenamiento. El administrador de cuentas 260, el operador 262, y el editor de medios 264 pueden acceder a la base de datos 200 a través de la interfaz de usuario 240 para realizar funciones administrativas. El cliente 140 puede acceder a la base de datos 200 a través de la parte cliente web 250. Figure 2 expands the detail of the advertising prevalence system 130 of Figure 1 to show the relationships between the network environment and the elements comprising the advertising prevalence system 130. The advertising prevalence system 130 includes a traffic analysis system 210, an ad sampling system 220, and a statistical summary system 230 that communicates data to the database 200 for storage. Account manager 260, operator 262, and media editor 264 can access database 200 through user interface 240 to perform administrative functions. The client 140 can access the database 200 through the web client part 250.

El sistema de análisis de tráfico 210 recibe datos de tráfico sin procesar procedentes del sistema de muestreo de tráfico 120. El sistema de análisis de tráfico 210 depura los datos de tráfico sin procesar eliminando la información de los datos de tráfico que puede identificar a un usuario particular en la Internet 100 y luego almacena los datos anónimos en la base de datos 200. El sistema de análisis de tráfico 210 estima al tráfico global hacia cada sitio web significativo en la Internet 100. La presente invención usa estos datos no sólo para calcular el número de impresiones publicitarias dada una estimación de la tasa de rotación en esa página, sino también en el sistema de creación de mapas de sondeo 320. En una realización, el sistema de análisis de tráfico 210 recibe datos de tráfico desde un sitio caché en la Internet 100. El objetivo es medir con exactitud el número de vistas de páginas por usuarios individuales, y por lo tanto el número de impresiones publicitarias. The traffic analysis system 210 receives unprocessed traffic data from the traffic sampling system 120. The traffic analysis system 210 purifies the unprocessed traffic data by removing the information from the traffic data that a user can identify particular on the Internet 100 and then stores the anonymous data in the database 200. The traffic analysis system 210 estimates the overall traffic to each significant website on the Internet 100. The present invention uses this data not only to calculate the number of advertising impressions given an estimate of the rotation rate on that page, but also in the polling map creation system 320. In one embodiment, the traffic analysis system 210 receives traffic data from a cache site in the Internet 100. The objective is to accurately measure the number of page views by individual users, and therefore the number of printing advertising ones.

El sistema de muestreo de anuncios 220 usa los datos de tráfico anónimos para determinar qué URLs incluir en la muestra recuperada del servidor web 112. El sistema de muestreo de anuncios 220 contacta con el servidor web 112 a través de la Internet 100 para recuperar un URL 114, 116, 118 y extraer los anuncios del mismo junto con las características acompañantes que describen los anuncios. La tasa de éxito para la recuperación de creativos es elevada. El análisis indica que la presente invención captura más del 95% de los creativos a los que se da servicio. El sistema de muestreo de anuncios 220 almacena estas características de anuncios en la base de datos 200. El sistema de muestreo de anuncios 220, por ejemplo, el Online Media Network Intelligent Agent Collection (“OMNIAC”), o el “sondeador en la nube”, sondea repetidamente sitios web destacados, extrae los anuncios de cada página web devuelta por la sonda, y clasifica los anuncios de cada página web por tipo, tecnología y anunciante. The ad sampling system 220 uses the anonymous traffic data to determine which URLs to include in the sample retrieved from the web server 112. The ad sampling system 220 contacts the web server 112 through the Internet 100 to retrieve a URL 114, 116, 118 and extract the ads from it along with the accompanying features that describe the ads. The success rate for creative recovery is high. The analysis indicates that the present invention captures more than 95% of the creatives being served. The ad sampling system 220 stores these ad features in the database 200. The ad sampling system 220, for example, the Online Media Network Intelligent Agent Collection ("OMNIAC"), or the "cloud poller" ”, Repeatedly polls featured websites, extracts the ads from each web page returned by the probe, and classifies the ads on each web page by type, technology and advertiser.

El sistema de análisis de tráfico 210 y el sistema de muestreo de anuncios 220 también presentan los datos recuperados de la Internet 100 al sistema de resumen estadístico 230 para procesamiento periódico. El sistema de resumen estadístico 230 calcula la frecuencia de anuncios, las impresiones, y los gastos por sitio y por semana. The traffic analysis system 210 and the ad sampling system 220 also present the data retrieved from the Internet 100 to the statistical summary system 230 for periodic processing. The statistical summary system 230 calculates the frequency of advertisements, impressions, and expenses per site and per week.

La interfaz gráfica de usuario para la presente invención incluye la interfaz de usuario 240 y la parte cliente web 250. El administrador de cuentas 260, el operador 262, y el editor de medios 264 acceden a la interfaz de usuario 240 para administrar el acceso por parte del cliente 140 la parte cliente web 250 (por ejemplo, gestión de cuentas y contraseñas), definen sitios e instrucciones de sondeo, y gestionan la taxonomía publicitaria, la clasificación de contenidos, y la recopilación de listas de tarifas para el sistema de prevalencia publicitaria 130. La parte cliente web 250 es la interfaz del navegador web que un cliente 140 usa para recuperar los resultados de medición de anuncios de la base de datos 200 tal como son generados por el sistema de análisis de tráfico 210, el sistema de muestreo de anuncios 220, y el sistema de resumen estadístico 230. The graphical user interface for the present invention includes the user interface 240 and the web client part 250. The account manager 260, the operator 262, and the media editor 264 access the user interface 240 to manage access by client part 140 web client part 250 (for example, account and password management), define polling sites and instructions, and manage advertising taxonomy, content classification, and compilation of tariff lists for the prevalence system advertising 130. The web client part 250 is the web browser interface that a client 140 uses to retrieve the measurement results of advertisements from the database 200 as generated by the traffic analysis system 210, the sampling system of ads 220, and the statistical summary system 230.

La Figura 3 amplía más el detalle del sistema de prevalencia publicitaria 130 para representar los componentes lógicos que comprenden los elementos del sistema de prevalencia publicitaria 130 mostrado en la Figura 2. La Figura 3 también representa las relaciones entre el entorno de red y esos componentes lógicos. Figure 3 further expands the detail of the advertising prevalence system 130 to represent the logical components comprising the elements of the advertising prevalence system 130 shown in Figure 2. Figure 3 also represents the relationships between the network environment and those logical components .

El sistema de análisis de tráfico 210 incluye un proceso de sistema de anonimato 310 y resumen de tráfico 312. The traffic analysis system 210 includes an anonymity system process 310 and traffic summary 312.

El sistema de anonimato 310 depura los datos recibidos desde el sistema de muestreo de tráfico 120 eliminando la información que identifica a un usuario particular en la Internet. Se hace que los datos resulten anónimos pasando toda la información del usuario (por ejemplo, el número de protocolo de internet (“IP”) de origen o las cookies) a través de una función hash unidireccional criptográficamente segura; esto asegura la mayor privacidad para los usuarios web sin devaluar los datos resultantes. El sistema de anonimato 310 presenta los datos depurados al sistema de resumen de tráfico 312 que a su vez almacena la información de recuento de URL agregada en la base de datos 200. The anonymity system 310 purifies the data received from the traffic sampling system 120 by deleting the information that identifies a particular user on the Internet. The data is made anonymous by passing all user information (for example, the internet protocol number ("IP") of origin or cookies) through a cryptographically secure unidirectional hash function; This ensures greater privacy for web users without devaluing the resulting data. The anonymity system 310 presents the purified data to the traffic summary system 312 which in turn stores the URL count information added in the database 200.

El proceso de resumen de tráfico 312 recibe los datos depurados procedentes del sistema de anonimato 310. Los datos de tráfico anónimo se resumen para producir totales de tráfico por semana o mes para URLs, dominios y sitios web individuales. El proceso de resumen de tráfico 312 escala los datos por factores de ponderación para extrapolar el tráfico global total a partir de la muestra. The traffic summary process 312 receives the purified data from the anonymity system 310. The anonymous traffic data is summarized to produce traffic totals per week or month for individual URLs, domains and websites. The traffic summary process 312 scales the data by weighting factors to extrapolate the total global traffic from the sample.

El sistema de muestreo de anuncios 220 de la Figura 3 incluye un sistema de creación de mapas de sondeo 320, un sistema de recuperación de páginas web 322, un entorno de emulación de navegador web 324, un extractor de anuncios 326, y un clasificador estructural 328. The ad sampling system 220 of Figure 3 includes a survey map creation system 320, a web page retrieval system 322, a web browser emulation environment 324, an ad extractor 326, and a structural classifier 328

El sistema de creación de mapas de sondeo 320 genera un mapa de sondeo, es decir, los URLs 114, 116, 118 que visitará el sistema de muestreo de anuncios 220. Este mapa de sondeo ayuda al sistema de muestreo de anuncios 220 con la medición de la rotación de anuncios en sitios web individuales. La realización preferida de la presente invención busca continuamente diversas páginas web en el mapa de sondeo. En una realización alternativa, la presente invención visita cada URL del mapa de sondeo aproximadamente cada 6 minutos. Otra realización puede variar la frecuencia de búsqueda considerando varios factores incluyendo la cantidad de tráfico que visita el sitio web como un todo y la página web individual en cuestión, el número de anuncios vistos históricamente en la página web, y la similitud de la rotación de anuncios observada históricamente hacia otras páginas muestreadas. The survey map creation system 320 generates a survey map, that is, the URLs 114, 116, 118 that the ad sampling system 220 will visit. This survey map helps the ad sampling system 220 with the measurement of ad rotation on individual websites. The preferred embodiment of the present invention continuously searches for various web pages in the survey map. In an alternative embodiment, the present invention visits each URL of the survey map approximately every 6 minutes. Another embodiment may vary the search frequency considering several factors including the amount of traffic that the website visits as a whole and the individual web page in question, the number of ads historically viewed on the website, and the similarity of the rotation of Ads historically observed to other sampled pages.

El sistema de recuperación de páginas web 322 usa el mapa de sondeo generado por el sistema de creación de mapas de sondeo 320 para determinar qué páginas web tiene que muestrear y la frecuencia del muestreo. Para cada URL del mapa de sondeo generado por el sistema de creación de mapas de sondeo 320, el sistema de recuperación de páginas web 322 busca una página web, extrae cada anuncio de la página web, y almacena los atributos del anuncio en la base de datos 200. Los datos recuperados de cada URL del mapa de sondeo se usan para calcular la frecuencia con la que se muestra cada anuncio en un sitio web particular. The web page recovery system 322 uses the polling map generated by the polling map creation system 320 to determine which web pages to sample and the frequency of sampling. For each URL of the survey map generated by the survey map creation system 320, the web page retrieval system 322 searches for a web page, extracts each advertisement from the web page, and stores the attributes of the advertisement in the database base. 200 data. The data retrieved from each URL of the survey map is used to calculate the frequency with which each ad is displayed on a particular website.

Para cada página web, el entorno de emulación de navegador web 324 simula la visualización de la página web en un navegador. Esta simulación garantiza que la presente invención detectará no sólo anuncios estáticos, sino también anuncios dinámicos generados por programas de software escritos en un lenguaje como JavaScript, Perl, Java, C, C++, o HTML que pueden estar incrustados en una página web. For each web page, the 324 web browser emulation environment simulates the display of the web page in a browser. This simulation ensures that the present invention will detect not only static advertisements, but also dynamic advertisements generated by software programs written in a language such as JavaScript, Perl, Java, C, C ++, or HTML that may be embedded in a web page.

El extractor de anuncios 326 extrae los anuncios en línea del resultado de la simulación realizada por el entorno de emulación de navegador web 324. El extractor de anuncios 326 identifica características del contenido publicitario (es decir, “fragmentos”) extraídas de las páginas web devueltas por el sistema de creación de mapas de sondeo 320 que son de particular interés. Los anuncios son la característica dinámica más interesante de extraer, sin embargo, una realización alternativa de la presente invención puede usar la tecnología de extracción para recopilar cualquier tipo de contenido digital incluyendo promociones, encuestas, y artículos de noticias. El extractor de anuncios 326 puede usar diversos procedimientos de extracción de anuncios, incluyendo extracción basada en reglas, extracción heurística, y extracción por comparación. The ad extractor 326 extracts the online ads from the simulation result performed by the web browser emulation environment 324. Ad extractor 326 identifies characteristics of the advertising content (ie "fragments") extracted from the returned web pages for the 320 mapping map creation system that are of particular interest. Ads are the most interesting dynamic feature of extracting, however, an alternative embodiment of the present invention can use extraction technology to collect any type of digital content including promotions, surveys, and news articles. Ad extractor 326 can use various ad extraction procedures, including rule-based extraction, heuristic extraction, and comparison extraction.

La extracción basada en reglas se basa en un editor de medios 264 para usar la interfaz de usuario 240 para crear reglas. La interfaz de usuario 240 almacena las reglas en la base de datos 200 y el extractor de anuncios 326 aplica las reglas a cada página web que recupera el sistema de recuperación de páginas web 322. El efecto de ejecutar una regla es identificar y extraer un fragmento de HTML de la página web (es decir, la parte de la página que contiene el anuncio). El extractor de anuncios 326 primero convierte la representación HTML de la página web buscada en una representación XML perfectamente formada. Después de esta conversión, se aplican las reglas al árbol de análisis sintáctico de la representación XML de la página web. Rule-based extraction relies on a media editor 264 to use user interface 240 to create rules. The user interface 240 stores the rules in the database 200 and the ad extractor 326 applies the rules to each web page that retrieves the web page recovery system 322. The effect of executing a rule is to identify and extract a fragment HTML of the web page (that is, the part of the page that contains the ad). Ad extractor 326 first converts the HTML representation of the searched web page into a perfectly formed XML representation. After this conversion, the rules are applied to the syntax analysis tree of the XML representation of the web page.

La extracción heurística se basa en la similitud de los anuncios a nivel de código fuente HTML o XML porque los anuncios son insertados típicamente por un servidor de anuncios cuando se genera la página web en respuesta a la solicitud del entorno de emulación de navegador web 324 de visualizar la página web. La extracción heurística analiza pistas del código fuente (por ejemplo, referencias a los nombres de servidores de anuncios conocidos) y extrae los fragmentos que rodean a esas pistas. La ventaja de este procedimiento es que la extracción es automática y el editor de medios no tiene que crear las reglas. Heuristic extraction is based on the similarity of the ads at the HTML or XML source code level because the ads are typically inserted by an ad server when the web page is generated in response to the request of the web browser emulation environment 324 of View the web page. Heuristic extraction analyzes clues from the source code (for example, references to the names of known ad servers) and extracts the fragments surrounding those clues. The advantage of this procedure is that the extraction is automatic and the media editor does not have to create the rules.

La extracción por comparación busca repetidamente la misma página web. Este procedimiento de extracción compara las diferentes versiones de la página web para determinar si el contenido varía de versión a versión. La porción de la página web que varía con cierto grado de frecuencia es normalmente un anuncio y es extraída. Extraction by comparison repeatedly searches the same web page. This extraction procedure compares the different versions of the website to determine if the content varies from version to version. The portion of the website that varies with a certain degree of frequency is usually an advertisement and is extracted.

El clasificador estructural 328 analiza sintácticamente cada anuncio y almacena los componentes estructurales en la base de datos 200 y pasa esos componentes al sistema de resumen estadístico 230. Cada fragmento de anuncio extraído por el extractor de anuncios 326 es analizado por el clasificador estructural 328. El proceso realizado por el clasificador estructural 328 comprende la eliminación de fragmentos duplicados, el análisis de fragmentos estructurales, y la detección de anuncios duplicados. The structural classifier 328 parses each advertisement syntactically and stores the structural components in the database 200 and passes those components to the statistical summary system 230. Each ad fragment extracted by the ad extractor 326 is analyzed by the structural classifier 328. The process performed by structural classifier 328 includes the removal of duplicate fragments, the analysis of structural fragments, and the detection of duplicate advertisements.

El clasificador estructural 328 realiza la eliminación de fragmentos duplicados comparado el fragmento de anuncio actual con otros fragmentos de la base de datos 200. Dos fragmentos de anuncio están duplicados si los fragmentos son idénticos (por ejemplo, cada fragmento tiene exactamente el mismo contenido HTML). Si el clasificador estructural 328 determina que el fragmento actual es un duplicado de un fragmento de la base de datos, el sistema de muestro de anuncios 220 registra otra observación del fragmento y sigue procesando fragmentos. Structural classifier 328 performs the removal of duplicate fragments compared to the current ad fragment with other fragments of the database 200. Two ad fragments are duplicated if the fragments are identical (for example, each fragment has exactly the same HTML content) . If structural classifier 328 determines that the current fragment is a duplicate of a fragment of the database, the ad sampling system 220 records another observation of the fragment and continues processing fragments.

El clasificador estructural 328 realiza análisis de fragmentos estructurales sobre la representación XML de la página web determinando el “tipo físico” del fragmento (es decir, el código fuente HTML usado para construir el anuncio). Los tipos físicos que la presente invención reconoce incluyen banner, formulario, enlace individual, y contenido incrustado. Los fragmentos de anuncio de banner incluyen un enlace HTML individual que tiene una o dos imágenes adjuntas y ninguna etiqueta FORM o IFRAME. Loa fragmentos de anuncio de formulario incluyen un formulario HTML individual que no tiene etiqueta IFRAME. Los fragmentos de anuncio de enlace individual incluyen un enlace con etiqueta textual, pero no etiquetas IMG, FORM o IFRAME. Los fragmentos de anuncio de contenido incrustado hacen referencia a una entidad externa usando una etiqueta IFRAME. Después de realizar este análisis, el clasificador estructural 328 actualiza el fragmento de anuncio de la base de datos. Para un fragmento de anuncio de banner, el clasificador estructural 328 almacena los URLs de enlace e imagen en la base de datos 200. Un fragmento de anuncio de formulario requiere la creación de un URL simulando una presentación de usuario que pone cada control HTML en su valor por defecto. El clasificador estructural 328 almacena este URL y la “firma de formulario” (es decir, una cadena que describe unívocamente el contenido de todos los controles del formulario) en la base de datos 200. Para un fragmento de anuncio de texto individual, el clasificador estructural 328 almacena el URL para el enlace y todo el texto contenido dentro del enlace en la base de datos 200. Para fragmentos de anuncio de contenido incrustado, el clasificador estructural 328 almacena el URL asociado con la referencia externa en la base de datos 200. Este URL es cargado por el sistema, y se carga el documento al que se hace referencia. Una vez que el documento cargado ha sido analizado estructuralmente, el fragmento original hereda cualquier atributo que resulte del análisis del nuevo fragmento. The structural classifier 328 performs analysis of structural fragments on the XML representation of the web page by determining the "physical type" of the fragment (that is, the HTML source code used to build the ad). The physical types that the present invention recognizes include banner, form, individual link, and embedded content. Banner ad fragments include an individual HTML link that has one or two images attached and no FORM or IFRAME tag. Form ad fragments include an individual HTML form that does not have an IFRAME tag. Individual link ad fragments include a textual tag link, but not IMG, FORM or IFRAME tags. Ad fragments of embedded content refer to an external entity using an IFRAME tag. After performing this analysis, structural classifier 328 updates the ad fragment of the database. For a banner ad fragment, structural classifier 328 stores the link and image URLs in database 200. A form ad fragment requires the creation of a URL simulating a user presentation that puts each HTML control in its Default value. Structural classifier 328 stores this URL and the "form signature" (that is, a string that uniquely describes the content of all form controls) in database 200. For an individual text ad fragment, the classifier Structural 328 stores the URL for the link and all the text contained within the link in database 200. For embedded content ad fragments, structural classifier 328 stores the URL associated with the external reference in database 200. This URL is loaded by the system, and the document referred to is loaded. Once the loaded document has been structurally analyzed, the original fragment inherits any attribute that results from the analysis of the new fragment.

El clasificador estructural 328 realiza la detección de anuncios duplicados sobre cada fragmento de anuncio que tenga un tipo físico conocido porque estos fragmentos representan anuncios. Cada anuncio único tiene información, incluyendo qué definiciones de sitios están asociadas con el fragmento, almacenada en la base de datos 200. La determinación de unicidad del clasificador estructural 328 depende de diferentes criterios para cada tipo de fragmento. La primera etapa para cada tipo de definición es resolver todos los URLs asociados con el registro. Se cargan los URLs que hacen referencia a imágenes, y se anotan las imágenes duplicadas. Los URLs de enlace HTML, también conocidos como “URLs de clic”, se siguen cada vez que se crea un nuevo anuncio. Se anota el destino final para un URL de clic, después de seguir todas las redirecciones HTTP. Esto también se hace para URLs de presentación de enlace simulado asociados con definiciones de formularios. Una vez que se han resuelto todos los URLs, el clasificador estructural 328 determina si el anuncio es único. Los fragmentos de anuncio de banner se consideran únicos si tienen el mismo número de imágenes, si las imágenes son idénticas, y si el URL de destino es idéntico. Los fragmentos de anuncio de formulario se consideran únicos si tienen la misma firma, y el mismo URL de destino. Los fragmentos de anuncio de enlace individual se consideran únicos si tienen el mismo contenido textual y el mismo URL de destino. Structural classifier 328 detects duplicate advertisements on each ad fragment that has a known physical type because these fragments represent advertisements. Each unique advertisement has information, including what site definitions are associated with the fragment, stored in database 200. The determination of uniqueness of structural classifier 328 depends on different criteria for each type of fragment. The first stage for each type of definition is to resolve all the URLs associated with the registry. URLs that reference images are loaded, and duplicate images are noted. HTML link URLs, also known as "click URLs," are followed each time a new ad is created. The final destination for a click-through URL is noted, after following all HTTP redirects. This is also done for simulated link submission URLs associated with form definitions. Once all URLs have been resolved, structural classifier 328 determines if the ad is unique. Banner ad fragments are considered unique if they have the same number of images, if the images are identical, and if the destination URL is identical. Form ad fragments are considered unique if they have the same signature, and the same destination URL. Individual link ad fragments are considered unique if they have the same text content and the same destination URL.

El sistema de resumen estadístico 230 calcula las estadísticas de anuncios para cada anuncio único de la base de datos 200. La presente invención calcula, para cada sitio web, las impresiones publicitarias (es decir, el número de veces que un ser humano ve un anuncio). La presente invención calcula las impresiones publicitarias, I, usando la fórmula I = T x R, donde T es el tráfico que va al sitio, y R es la rotación de anuncios en ese sitio. La presente invención también calcula los gastos S, usando la fórmula S = I x RC, donde I son las impresiones publicitarias para un sitio web, y RC es el código de tarifas para el sitio web. La mayoría de las compras publicitarias son acuerdos complicados con descuentos por volumen de compra, así que nuestros números no representan necesariamente el coste real de la compra total. The statistical summary system 230 calculates the ad statistics for each unique advertisement in the database 200. The present invention calculates, for each website, the advertising impressions (ie, the number of times a human being sees an advertisement ). The present invention calculates the advertising impressions, I, using the formula I = T x R, where T is the traffic going to the site, and R is the rotation of advertisements on that site. The present invention also calculates the expenses S, using the formula S = I x RC, where I are the advertising impressions for a website, and RC is the rate code for the website. Most advertising purchases are complicated agreements with discounts for purchase volume, so our numbers do not necessarily represent the actual cost of the total purchase.

La parte cliente web 250 es una interfaz gráfica de usuario que proporciona a un cliente 140 una interfaz de consulta a la base de datos 200 poblada por el sistema de análisis de tráfico 210, el sistema de muestreo de anuncios 220, y el sistema de resumen estadístico 230. El cliente 140 puede usar la parte cliente web 250 para crear, almacenar, editar y descargar informes gráficos y tabulares para una o más categorías industriales dependiendo del nivel de servicio que el cliente 140 selecciona. The web client part 250 is a graphical user interface that provides a client 140 with a query interface to the database 200 populated by the traffic analysis system 210, the ad sampling system 220, and the summary system 230. The client 140 can use the web client part 250 to create, store, edit and download graphical and tabular reports for one or more industrial categories depending on the level of service that the client 140 selects.

La interfaz de usuario 240 de la Figura 3 incluye un componente separado para gestión de cuentas del sistema 340, administración de sitios 342, administración de taxonomía 344, clasificación de contenido publicitario 346, y recopilación de listas de tarifas 348. The user interface 240 of Figure 3 includes a separate component for system account management 340, site administration 342, taxonomy administration 344, advertising content classification 346, and compilation of tariff lists 348.

El administrador de cuentas 260 usa el módulo de gestión de cuentas del sistema 340 de la interfaz de usuario 240 para simplificar la administración de la parte cliente web 250. El administrador de cuentas 260 usa el módulo de gestión de cuentas del sistema 340 para crear y eliminar cuentas de usuario, gestionar contraseñas de cuentas de usuario, y comprobar la salud general de la parte cliente web 250. The account manager 260 uses the account management module of the system 340 of the user interface 240 to simplify the administration of the web client part 250. The account manager 260 uses the account management module of the system 340 to create and delete user accounts, manage user account passwords, and check the overall health of the 250 client web part.

El operador 262 usa el módulo de administración de sitios 342 de la interfaz de usuario 240 para simplificar la administración de las definiciones de sitios. Los analistas del Internet Advertising Bureau estiman que más del 90% de todos los dólares de publicidad web se gastan en los cincuenta primeros sitios web. La selección de sitios comienza escogiendo los 100 primeros anuncios considerando los datos procedentes de Media Metrix, Nielsen/Net Ratings, y los datos de tráfico proxy de la base de datos 200. Estas listas son actualizadas periódicamente para bajar de categoría los sitios web con bajos niveles de tráfico y promover nuevos sitios con elevados niveles de tráfico. La presente invención también incluye sitios web que proporcionan contenido significativo en industrias clave. Un sitio escogido para su inclusión en las definiciones de sitios debe tener la estructura del sitio analizado para eliminar las secciones que no sirven anuncios, proceden de países extranjeros, o son parte de un conjunto de marcos. Los sitios procedentes de un país extranjero, como yahoo.co.jp, venden publicidad en el país anfitrión, y por lo tanto no son aplicables a las mediciones calculadas por la presente invención. Los sitios web que usan un conjunto de marcos HTML son tratados con mucho cuidado para sólo aplicar frecuencias de rotación al tráfico procedente de las secciones del conjunto de marcos que contienen el anuncio. Estas exclusiones combinadas son clave para hacer estimaciones exactas de impresiones publicitarias. Las presente invención también etiqueta las secciones que no pueden medirse directamente, debido a requisitos de registro (por ejemplo, páginas de correo). Como los sitios web cambian la frecuencia, este análisis estructural se repite periódicamente. Finalmente, la fase de análisis marcará automáticamente los sitios alterados para permitir actualizaciones aún más oportunas. The operator 262 uses the site administration module 342 of the user interface 240 to simplify the administration of the site definitions. Internet Advertising Bureau analysts estimate that more than 90% of all web advertising dollars are spent on the first fifty websites. Site selection begins by choosing the first 100 ads considering data from Media Metrix, Nielsen / Net Ratings, and proxy traffic data from database 200. These lists are updated periodically to downgrade websites with low traffic levels and promote new sites with high levels of traffic. The present invention also includes websites that provide meaningful content in key industries. A site chosen for inclusion in the site definitions must have the structure of the site analyzed to remove sections that do not serve ads, come from foreign countries, or are part of a set of frameworks. Sites from a foreign country, such as yahoo.co.jp, sell advertising in the host country, and therefore are not applicable to the measurements calculated by the present invention. Websites that use a set of HTML frames are treated very carefully to only apply rotation frequencies to traffic from sections of the frameset that contain the ad. These combined exclusions are key to making accurate estimates of advertising impressions. The present invention also labels sections that cannot be measured directly, due to registration requirements (eg, mail pages). As websites change the frequency, this structural analysis is repeated periodically. Finally, the analysis phase will automatically mark the altered sites to allow even more timely updates.

El editor de medios 264 usa los módulos de administración de taxonomía 344, clasificación de contenido publicitario 346, y recopilación de listas de tarifas 348 de la interfaz de usuario 240. El módulo de administración de taxonomía 344 simplifica la creación y el mantenimiento de los atributos asignados a anuncios durante la clasificación de contenido incluyendo la industria, la compañía y los productos del anuncio. La taxonomía nombra cada atributo y especifica su tipo, ascendencia y segmento de pertenencia. Por ejemplo, una compañía Honda, podría estar emparentada con la industria de la Automoción y pertenecer al segmento industrial Fabricantes de automóviles. El componente de clasificación de contenido publicitario 346 ayuda al editor de medios 264 a realizar la clasificación de contenido. Media editor 264 uses taxonomy administration modules 344, advertising content classification 346, and collection of tariff lists 348 from user interface 240. Taxonomy administration module 344 simplifies the creation and maintenance of attributes assigned to ads during content classification including industry, company and ad products. The taxonomy names each attribute and specifies its type, ancestry and membership segment. For example, a Honda company could be related to the Automotive industry and belong to the industrial segment Manufacturers of automobiles. The advertising content classification component 346 helps the media editor 264 to perform the content classification.

El clasificador estructural 328 realiza la asignación automatizada de productos publicitarios para determinar qué anuncio se está publicando. Este proceso incluye asignar “productos publicitarios” (es decir, atributos que describen cada “cosa” de la que el anuncio está haciendo publicidad) a cada fragmento de anuncio. En otra realización de la presente invención, el sistema de muestreo de anuncios 220 usa un conjunto ampliable de heurísticas para asignar productos publicitarios a cada anuncio. En la realización preferida, sin embargo, el único procedimiento automático empleado es la clasificación de dirección. La clasificación de dirección se basa en el URL de destino para asignar un conjunto de productos publicitarios a un anuncio. Un editor de medios 264 usa la interfaz de usuario 240 para mantener el conjunto de direcciones clasificadas. Por ejemplo, la primera vez que un editor de medios observa un anuncio en el que el URL de cliqueo es www.honda.com, puede introducir este URL como perteneciente al anunciante “Honda Motors”. Cualquier anuncio subsiguiente que incluya el mismo URL de cliqueo también será reconocido como un anuncio de Honda. Una dirección clasificada comprende un anfitrión, un prefijo de ruta URL, y un conjunto de productos publicitarios. La clasificación de dirección asigna un producto publicitario de dirección clasificada a un anuncio si el anfitrión en el URL de destino coincide con el anfitrión de la dirección clasificada y el prefijo de ruta en la dirección clasificada coincide con el comienzo de la ruta en el URL de destino. The structural classifier 328 performs the automated allocation of advertising products to determine which advertisement is being published. This process includes assigning "advertising products" (that is, attributes that describe each "thing" the ad is advertising) to each ad fragment. In another embodiment of the present invention, the ad sampling system 220 uses an expandable set of heuristics to assign advertising products to each advertisement. In the preferred embodiment, however, the only automatic procedure employed is the address classification. The address classification is based on the destination URL to assign a set of advertising products to an ad. A media editor 264 uses user interface 240 to maintain the set of classified addresses. For example, the first time a media editor observes an ad in which the click-through URL is www.honda.com, you can enter this URL as belonging to the advertiser “Honda Motors”. Any subsequent ad that includes the same click-through URL will also be recognized as a Honda ad. A classified address comprises a host, a URL route prefix, and a set of advertising products. The address classification assigns a classified address advertising product to an ad if the host in the destination URL matches the host of the classified address and the route prefix in the classified address matches the start of the route in the URL of the destination.

El clasificador estructural 328 realiza la asignación y verificación humana de productos publicitarios como comprobación de calidad de los datos de productos publicitarios. Esta fase es la que requiere más trabajo humano. Structural classifier 328 performs the allocation and human verification of advertising products as a quality check of advertising product data. This phase is the one that requires more human work.

Un editor de medios 264 usa un módulo de interfaz gráfica de usuario en la interfaz de usuario 240 para visualizar cada anuncio, verificar las asignaciones automáticas de productos publicitarios, y asignar cualquier otro producto publicitario que parezca apropiado después de la inspección del anuncio y el destino del anuncio. La base de datos de clasificación de dirección también es mantenida típicamente en este momento. A media editor 264 uses a graphical user interface module in the user interface 240 to display each advertisement, verify automatic assignments of advertising products, and assign any other advertising product that seems appropriate after the inspection of the advertisement and the destination of the ad. The address classification database is also typically maintained at this time.

El editor de medios 264 usa el módulo de recopilación de listas de tarifas 348 para introducir la información de contacto y lista de tarifas para un sitio web identificado por el sistema de análisis de tráfico 210, así como los anunciantes designados. La introducción de la lista de tarifas incluye el trimestre aplicable (por ejemplo, Q4 2000), las dimensiones del anuncio en píxeles, la estructura de tarifas (por ejemplo, CPM, tarifa plana, o por clic), el baremo de costes para compras de diversas cantidades y duración. El editor de medios 264 también registra la dirección URL del kit de medios en línea y si están publicadas tarifas en el mismo. La información de contacto para un sitio web o anunciante incluye la página de inicio, el nombre, los números de teléfono y fax, la dirección de correo electrónico, y la dirección física. The media editor 264 uses the rate list collection module 348 to enter the contact information and rate list for a website identified by the traffic analysis system 210, as well as the designated advertisers. The introduction of the tariff list includes the applicable quarter (for example, Q4 2000), the dimensions of the ad in pixels, the structure of rates (for example, CPM, flat rate, or per click), the scale of costs for purchases of various quantities and duration. Media editor 264 also records the URL of the online media kit and if rates are published therein. Contact information for a website or advertiser includes the home page, name, telephone and fax numbers, email address, and physical address.

Las Figuras 4A a 4C ilustran el procedimiento preferido para calcular las estadísticas de prevalencia publicitaria. El cálculo de las estadísticas de prevalencia publicitaria es un proceso iterativo que usa valores esperados deducidos por el sistema de análisis de tráfico 210 y valores observados deducidos por el sistema de prevalencia publicitaria 220 para calcular los valores ponderados y las estadísticas de prevalencia publicitaria. Cada una de las Figuras 4A a 4C representa una red en la Internet 100 que incluye dos sitios web servidos por el servidor web P 410 y el servidor web Q 420. La Figura 4A ilustra valores de tráfico esperados de ejemplo para la red. La Figura 4B ilustra valores de tráfico observados de ejemplo para la red. La Figura 4C ilustra valores de tráfico ponderados de ejemplo para la red. Figures 4A to 4C illustrate the preferred procedure for calculating advertising prevalence statistics. The calculation of advertising prevalence statistics is an iterative process that uses expected values deduced by traffic analysis system 210 and observed values deduced by advertising prevalence system 220 to calculate weighted values and advertising prevalence statistics. Each of Figures 4A to 4C represents a network on the Internet 100 that includes two websites served by the web server P 410 and the web server Q 420. Figure 4A illustrates example expected traffic values for the network. Figure 4B illustrates example observed traffic values for the network. Figure 4C illustrates sample weighted traffic values for the network.

La primera etapa en el proceso es normalizar los resultados procedentes del sistema de análisis de tráfico 210. El sistema de análisis de tráfico 210 proporciona el tráfico recibido por cada página web en la muestra de datos de tráfico. La Figura 4A representa el tráfico de ejemplo recibido en cada página web 411-416, 421-424 en la Internet 100 con la etiqueta “Tráfico =”. El mapa de sondeo generado por el sistema de creación de mapas de sondeo 320 incluye una entrada para cada página web 411-416, 421-424. El mapa de sondeo también incluye un “área” quecada página web 411-416, 421-424 consume en el mapa de sondeo con la etiqueta “Área =”. Los resultados normalizados son calculadas dividiendo el área que una página web consume en el mapa de sondeo por la suma del área para cada página web en la muestra de tráfico. En la Figura 4A, el valor normalizado, o probabilidad, para la página web P1 411 es el área para la página web P1 (es decir, 15) dividida por la suma del área para la página web P1, P2, P3, P4, P5, P6, Q1, Q2, Q3 y Q4 (es decir, 120). El valor normalizado es, por lo tanto, 0,125, o el 12,5%. Además del valor normalizado, el sistema también determina la escala dividiendo el tráfico para una página web por el área para la página web. En la Figura 4A, la escala para la página web P1 411 es el tráfico para la página web P1 (es decir, 150) dividido por el área para la página web P1 (es decir, 15), por lo tanto, la escala para la página web P1 es 10. La Tabla 1 resume los valores de escala y probabilidad para la página web restante en la Figura 4A. The first stage in the process is to normalize the results from the traffic analysis system 210. The traffic analysis system 210 provides the traffic received by each web page in the traffic data sample. Figure 4A represents the sample traffic received on each web page 411-416, 421-424 on Internet 100 with the tag "Traffic =". The survey map generated by the survey map creation system 320 includes an entry for each web page 411-416, 421-424. The survey map also includes an “area” for each web page 411-416, 421-424 consumed on the survey map labeled “Area =”. Normalized results are calculated by dividing the area that a web page consumes on the survey map by the sum of the area for each web page in the traffic sample. In Figure 4A, the normalized value, or probability, for web page P1 411 is the area for web page P1 (i.e. 15) divided by the sum of the area for web page P1, P2, P3, P4, P5, P6, Q1, Q2, Q3 and Q4 (i.e. 120). The normalized value is, therefore, 0.125, or 12.5%. In addition to the normalized value, the system also determines the scale by dividing the traffic for a web page by the area for the web page. In Figure 4A, the scale for the P1 web page 411 is the traffic for the P1 web page (i.e. 150) divided by the area for the P1 web page (i.e. 15), therefore the scale for the P1 web page is 10. Table 1 summarizes the scale and probability values for the remaining web page in Figure 4A.

Tabla 1 Table 1

Página web Web page
Área Escala Probabilidad Area Scale Probability

P1 P1
15 10 12,5% fifteen 10 12.5%

P2 P2
10 1 8,3% 10 one 8.3%

P3 P3
14 1 12% 14 one 12%

P4 P4
12 0,25 10% 12 0.25 10%

P5 P5
8 0,5 6,7% 8 0.5 6.7%

P6 P6
4 1 3,3% 4 one 3.3%

Q1 Q1
30 0,5 25% 30 0.5 25%

Q2 Q2
4 0,5 3,3% 4 0.5 3.3%

Q3 Q3
15 2 12,5% fifteen 2 12.5%

Q4 Q4
8 0,5 6,7% 8 0.5 6.7%

La Figura 4B representa las búsquedas de páginas web de ejemplo en cada página web 411-416, 421-424 en la Internet 100 con la etiqueta “Búsquedas =”. La Figura 4B también representa el número de vistas de ejemplo de cada anuncio en una página web 411-416, 421-424 con una etiqueta como “Vistas de A1 =” para indicar el número de vistas del anuncio A1, “Vistas de A2 =” para indicar el número de vistas del anuncio A2, etc. Figure 4B represents the example web page searches on each web page 411-416, 421-424 on the Internet 100 with the tag "Searches =". Figure 4B also represents the number of sample views of each ad on a web page 411-416, 421-424 with a tag such as "A1 Views =" to indicate the number of views of the A1 ad, "A2 Views = ”To indicate the number of views of ad A2, etc.

La Figura 4C representa las búsquedas ponderadas de páginas de web de ejemplo en cada página web 411-416, 421-424 en la Internet 100 con la etiqueta “Búsquedas =”. La Figura 4C también representa el número de vistas de ejemplo de cada anuncio en una página web 411-416, 421-424 con una etiqueta como “Vistas de A1 =” para indicar el número de vistas del anuncio A1, “Vistas de A2 =” para indicar el número de vistas del anuncio A2, etc. La siguiente etapa en el proceso de cálculo es calcular las búsquedas a escala para cada sitio web 410, 420 sumando el producto de las búsquedas observadas de la Figura 4B y la escala de la Figura 4A, para cada página web 411416, 421-424 en el sitio web. A continuación, el cálculo calcula el tráfico para cada sitio web 410, 420 sumando el tráfico de la Figura 4A para cada página web 411-416, 421-424 en el sitio web. La lista de tarifas, o CPM, es un valor Figure 4C represents the weighted searches of sample web pages on each web page 411-416, 421-424 on Internet 100 with the tag "Searches =". Figure 4C also represents the number of sample views of each ad on a web page 411-416, 421-424 with a label such as "A1 Views =" to indicate the number of views of the A1 ad, "A2 Views = ”To indicate the number of views of ad A2, etc. The next stage in the calculation process is to calculate the scaled searches for each website 410, 420 by adding the product of the observed searches of Figure 4B and the scale of Figure 4A, for each website 411416, 421-424 in the website. Next, the calculation calculates the traffic for each website 410, 420 by adding the traffic of Figure 4A for each website 411-416, 421-424 on the website. The rate list, or CPM, is a value

asignado por el editor de medios 264 para cada sitio web 410, 420. La Tabla 2 resume las búsquedas a escala, el tráfico, y el CPM para las Figuras 4A a 4C. assigned by media editor 264 for each website 410, 420. Table 2 summarizes the scaled searches, traffic, and CPM for Figures 4A to 4C.

Tabla 2 Table 2

Sitio Site
Búsquedas a escala Tráfico CPM Scale searches Traffic CPM

P P
193,5 185 $35,00 193.5 185 $ 35.00

Q Q
43 51 $50,00 43 51 $ 50.00

Lo siguiente en el proceso de cálculo es calcular las Observaciones a Escala para cada anuncio en cada sitio web 410, 420 sumando el producto de las vistas del anuncio de la Figura 4B y la escala de la Figura 4A, para cada página web 411-416, 421-424 en el sitio web 410, 420. La etapa final en el cálculo es calcular las estadísticas de prevalencia publicitaria (es decir, frecuencia, impresiones, y gastos) para cada anuncio en cada sitio web 410, 420. La frecuencia se calcula dividiendo las observaciones a escala por las búsquedas a escala para cada anuncio en cada sitio web 410, 420. Las impresiones se calculan multiplicando la frecuencia por el tráfico de la Tabla 2 anterior para cada anuncio en cada sitio web 410, 420. Los gastos se calculan multiplicando las impresiones por el CPM de la Tabla 2 anterior para cada anuncio en el sitio web 410, 420. La Tabla 3 resume las Observaciones a Escala, la Frecuencia, las Impresiones, y los Gastos para el sitio web Q 420 usando los datos de las Figuras 4A a 4C. The next thing in the calculation process is to calculate the Scale Observations for each ad on each website 410, 420 by adding the product of the ad views of Figure 4B and the scale of Figure 4A, for each website 411-416 , 421-424 on website 410, 420. The final stage in the calculation is to calculate advertising prevalence statistics (ie, frequency, impressions, and expenses) for each ad on each website 410, 420. The frequency is Calculated by dividing the observations at scale by the scaled searches for each advertisement on each website 410, 420. Impressions are calculated by multiplying the frequency by the traffic in Table 2 above for each advertisement on each website 410, 420. Expenses They are calculated by multiplying the impressions by the CPM of Table 2 above for each ad on website 410, 420. Table 3 summarizes the Scale Observations, Frequency, Impressions, and Expenses for the Q 420 website using the data of Figures 4A to 4C.

Tabla 3 Table 3

Observaciones a escala Observations at scale
Frecuencia Impresiones Gastos Frequency Impressions Expenses

A1 A1
55,0 0,28 52,58 $1,84 55.0 0.28 52.58 $ 1.84

A2 A2
85,0 0,44 81,27 $2,84 85.0 0.44 81.27 $ 2.84

A3 A3
6,0 0,03 5,74 $0,20 6.0 0.03 5.74 $ 0.20

A4 A4
3,5 0,02 3,35 $0,12 3.5 0.02 3.35 $ 0.12

A5 TO 5

Tabla 4 Table 4

Observaciones a escala Observations at scale
Frecuencia Impresiones Gastos Frequency Impressions Expenses

A1 A1
29,5 0,69 34,99 $1,75 29.5 0.69 34.99 $ 1.75

A2 A2
12,0 0,28 14,23 $0,71 12.0 0.28 14.23 $ 0.71

A3 A3
12,0 0,28 14,23 $0,71 12.0 0.28 14.23 $ 0.71

A4 A4
12,0 0,28 14,23 $0,71 12.0 0.28 14.23 $ 0.71

A5 TO 5
1,5 0,03 1,78 $0,09 1.5 0.03 1.78 $ 0.09

La Figura 4D ilustra una realización alternativa para calcular las estadísticas de prevalencia publicitaria. En esta realización, el sondeador se afina para optimizar la exactitud de medición de rotación. Las estimaciones estadísticas de exactitud en el campo son difíciles de realizar, debido a la naturaleza no estacionaria de los servidores publicitarios. Cuando se sondea cada 6 minutos, tiene una resolución del 0,06% en tasa de rotación a lo largo de un periodo de medición de una semana. Figure 4D illustrates an alternative embodiment for calculating advertising prevalence statistics. In this embodiment, the probe is tuned to optimize the accuracy of rotation measurement. Statistical estimates of accuracy in the field are difficult to make, due to the non-stationary nature of the advertising servers. When probed every 6 minutes, it has a resolution of 0.06% in rotation rate over a one-week measurement period.

También en la realización alternativa de la Figura 4D, las sondas se distribuyen entre los sitios para medir con exactitud la rotación de anuncios en cada sitio. El número de URLs de sondeo asignadas a un sitio se determina a partir de tres variables. La primera es una constante a través de todos los sitios; se requiere un cierto número de URLs de sondeo para medir con exactitud la rotación incluso en el sitio más pequeño. La mitad de las sondas se asignan con esta variable. La segunda variable, ponderada al 40%, es la cantidad de tráfico que va a un sitio, ya que cada URL de sondeo representa una proporción del tráfico total de Internet. Los veinte sitios más grandes reciben más del 75% de estas sondas. Por último, se tiene en cuenta la complejidad del sitio, tal como se mide por el número total de URLs únicos encontrados en nuestros datos de tráfico proxy, con los sitios más complicados recibiendo URLs de sondeo extra. Esto representa el 10% restante de la distribución de sondas. Los URLs de sondeo pueden escogerse usando un algoritmo triturador de sitios para romper el sitio en zonas (es decir, conjuntos de páginas cuyas características de rotación de anuncios es probable que sean similares) para sondeo. La distribución de zonas está diseñada matemáticamente para maximizar la cobertura del sitio y, por lo tanto, la exactitud de rotación de anuncios. Se escoge un único URL para representar la rotación publicitaria de cada zona. Este URL se escoge como la página con tráfico más denso que contiene anuncios en esa zona. El algoritmo evita páginas de fechas específicas o páginas que hacen referencia a un evento limitado en el tiempo como el eclipse lunar total de agosto de 1999. Also in the alternative embodiment of Figure 4D, the probes are distributed between the sites to accurately measure the rotation of advertisements at each site. The number of poll URLs assigned to a site is determined from three variables. The first is a constant across all sites; a certain number of polling URLs are required to accurately measure rotation even at the smallest site. Half of the probes are assigned with this variable. The second variable, weighted to 40%, is the amount of traffic going to a site, since each polling URL represents a proportion of the total Internet traffic. The twenty largest sites receive more than 75% of these probes. Finally, the complexity of the site is taken into account, as measured by the total number of unique URLs found in our proxy traffic data, with the most complicated sites receiving extra polling URLs. This represents the remaining 10% of the probe distribution. Polling URLs can be chosen using a site shredder algorithm to break the site into zones (that is, sets of pages whose ad rotation characteristics are likely to be similar) for polling. Zone distribution is mathematically designed to maximize site coverage and, therefore, the accuracy of ad rotation. A single URL is chosen to represent the advertising rotation of each zone. This URL is chosen as the page with the heaviest traffic that contains ads in that area. The algorithm avoids pages of specific dates or pages that refer to a time-limited event such as the total lunar eclipse of August 1999.

La realización alternativa de la Figura 4D calcula las impresiones de anuncios combinando las estimaciones de rotación y tráfico para cada sitio web 430. Para hacer esto, el sistema descompone el sitio en sus raíces constituyentes usando el algoritmo triturador de sitios. Se calcula la rotación de anuncios en cada espacio de anuncio y se aplica para estimar impresiones publicitarias en su raíz asociada. La rotación de anuncios en raíces sin sondas se estima a partir de una media, ponderada por el tráfico, de la rotación de anuncios de sondas en un nivel similar. The alternative embodiment of Figure 4D calculates ad impressions by combining rotation and traffic estimates for each 430 website. To do this, the system breaks down the site into its constituent roots using the site shredder algorithm. Ad rotation in each ad space is calculated and applied to estimate advertising impressions at its associated root. Root ad rotation without probes is estimated from a traffic-weighted average of the ad rotation of probes at a similar level.

Por ejemplo, en la Figura 4D, el árbol del sitio de muestra tiene cinco URLs de sondeo 431-435, P1-5, colocados en cinco ramas principales de una página principal y 14 ramas secundarias. El número de cada página es el tráfico de muestra que va a esa página. La sonda P1 en la página de inicio, “www.testsite.com”, mide la rotación, R, que ha de aplicarse al tráfico que va a esa página principal, con tráfico de 88 vistas de página. La rama A tiene una única sonda, P2, colocada en la página de nivel superior de esa rama con un URL de sondeo “www.testsite.com/A/”. La rotación de este único URL de sondeo se estima como RA y se aplica al tráfico para esa raíz entera, un total de 21 vistas de página. La rama C tiene una sonda, P3, en una página de rama secundaria con tráfico denso, con un URL de sondeo “www.testsite.com/C/third.html”. La rotación, RC, de esta página se aplica a todas las páginas de ramas secundarias en esa raíz y también un nivel arriba en el árbol, a lo largo de un total de 25 vistas de página. La rama E recibe una gran parte del tráfico para el sitio, un total de 61 vistas de página, y por lo tanto se le asignan dos sondas, P4 y P5. Éstas están en dos páginas de rama secundaria, “www.testsite.com/E/first.html” y “www.testsite.com/E/third.html”. A la rotación de cada una se aplica el tráfico a esas páginas individuales. Para las restantes 18 vistas de página en esa rama (diez vistas de página de dos páginas secundarias y ocho de la página de nivel superior de esa rama) se calcula una rotación ponderada, RE = ((13 x RE1) + (30 x RE3))/(13+30). El análisis de la rotación de raíces tiene como resultado impresiones publicitarias para más del 96% del sitio. Las impresiones para las dos ramas finales, B y D, se calculan con una rotación media a partir de ramas adyacentes, ponderada por tráfico, For example, in Figure 4D, the sample site tree has five polling URLs 431-435, P1-5, placed in five main branches of a main page and 14 secondary branches. The number of each page is the sample traffic that goes to that page. The P1 probe on the homepage, “www.testsite.com”, measures the rotation, R, that must be applied to the traffic going to that main page, with traffic of 88 page views. Branch A has a single probe, P2, placed on the top level page of that branch with a poll URL “www.testsite.com/A/”. The rotation of this single poll URL is estimated as RA and is applied to traffic for that entire root, a total of 21 page views. Branch C has a probe, P3, on a secondary branch page with heavy traffic, with a poll URL “www.testsite.com/C/third.html”. The rotation, RC, of this page applies to all secondary branch pages in that root and also one level up in the tree, for a total of 25 page views. Branch E receives a large part of the traffic for the site, a total of 61 page views, and therefore two probes, P4 and P5, are assigned. These are on two secondary branch pages, "www.testsite.com/E/first.html" and "www.testsite.com/E/third.html." The traffic to each individual page is applied to the rotation of each one. For the remaining 18 page views in that branch (ten page views of two secondary pages and eight of the top level page of that branch) a weighted rotation is calculated, RE = ((13 x RE1) + (30 x RE3 )) / (13 + 30). Root rotation analysis results in advertising impressions for more than 96% of the site. Impressions for the two final branches, B and D, are calculated with an average rotation from adjacent branches, weighted by traffic,

RB = RD = ((21 x RA) + (25 x RC) + (61 x RE)) ÷ (21 + 25 + 61). RB = RD = ((21 x RA) + (25 x RC) + (61 x RE)) ÷ (21 + 25 + 61).

Este análisis tiene como resultado las impresiones totales a través del sitio para cada anuncio único. El cálculo final realizado por la realización alternativa de la Figura 4D son los gastos, el producto de las impresiones y la lista de tarifas. This analysis results in total impressions across the site for each unique ad. The final calculation made by the alternative embodiment of Figure 4D is the expenses, the product of the prints and the list of rates.

La Figura 5 ilustra una estructura de base de datos que puede usar el sistema de prevalencia publicitaria 130 para almacenar información recuperada por el sistema de muestreo de tráfico 120 y el sistema de recuperación de páginas web 322. La realización preferida segmenta la base de datos 200 en particiones. Cada partición puede realizar funciones similares a una base de datos independiente como la base de datos 200. Además, una base de datos particionada simplifica la administración de los datos de la partición. Aun cuando la realización preferida usa particiones de bases de datos, la presente invención contempla la consolidación de estas particiones en una sola base de datos, así como hacer cada partición una base de datos independiente y distribuir cada base de datos a una estación de trabajo informática o servidor de propósito general separados. Las particiones para la base de datos 200 de la presente invención incluyen registros de muestreo 510, definiciones de sondeo 520, datos de soporte publicitario 530, y resumen publicitario 540. La realización preferida de la presente invención usa un sistema de gestión de bases de datos relacionales, como el producto Oracle8i de Oracle Corporation, para crear y gestionar la base de datos y las particiones. Aun cuando la realización preferida usa una base de datos relacional, la presente invención contempla el uso de otras arquitecturas de bases de datos como un sistema de gestión de bases de datos orientadas a objetos. Figure 5 illustrates a database structure that the advertising prevalence system 130 can use to store information retrieved by the traffic sampling system 120 and the web page recovery system 322. The preferred embodiment segments the database 200 in partitions. Each partition can perform functions similar to a separate database such as database 200. In addition, a partitioned database simplifies the administration of partition data. Although the preferred embodiment uses database partitions, the present invention contemplates the consolidation of these partitions into a single database, as well as making each partition a separate database and distributing each database to a computer workstation. or separate general purpose server. The partitions for the database 200 of the present invention include sampling records 510, polling definitions 520, advertising support data 530, and advertising summary 540. The preferred embodiment of the present invention uses a database management system. relational, such as the Oracle8i product of Oracle Corporation, to create and manage the database and partitions. Although the preferred embodiment uses a relational database, the present invention contemplates the use of other database architectures as an object-oriented database management system.

La partición de registros de muestreo 510 de la base de datos 200 comprende tablas de bases de datos que están segmentadas lógicamente en áreas de datos de tráfico 512, registro de vistas de anuncios 514, y estructura de anuncio 516. The partition of sampling records 510 of database 200 comprises database tables that are logically segmented into areas of traffic data 512, advertisement view register 514, and advertisement structure 516.

El área de datos de tráfico 512 contiene datos procesados por el sistema de muestreo de tráfico 120, el sistema de anonimato 310, y el sistema de resumen estadístico 230. Los datos almacenados en este esquema incluyen un URL “alterado”, y el recuento de tráfico que cada URL recibe por fuente de tráfico a lo largo de un periodo de tiempo. Un URL “alterado” es un URL ordinario con el campo de protocolo eliminado y el orden de los componentes con puntos en el nombre de equipo invertidos. Por ejemplo, la presente invención transforma un URL ordinario, como http://www.somesite.com/food, en un URL alterado eliminando el campo de protocolo (es decir, “http:/”) e invirtiendo el orden los componentes con puntos en el nombre de equipo (es decir, www.somesite.com). El URL alterado resultante en este ejemplo es “com.somesite.www/food”. La presente invención usa este formato URL patentado para mejorar en gran medida el proceso de análisis de datos de tráfico. El sistema de muestreo de tráfico 120 puebla el área de datos de tráfico 512 de la base de datos 200. El sistema de creación de mapas de sondeo 320 accede a los datos del área de datos de tráfico 512 para ayudar al sistema de recuperación de páginas web 322 y al sistema de resumen estadístico 230 con el cálculo de la impresión publicitaria y las estadísticas de gastos. The traffic data area 512 contains data processed by the traffic sampling system 120, the anonymity system 310, and the statistical summary system 230. The data stored in this scheme includes an "altered" URL, and the count of traffic that each URL receives per traffic source over a period of time. An "altered" URL is an ordinary URL with the protocol field removed and the order of the components with points in the inverted device name. For example, the present invention transforms an ordinary URL, such as http://www.somesite.com/food, into an altered URL by eliminating the protocol field (ie, "http: /") and reversing the order of the components with points in the team name (ie www.somesite.com). The altered URL resulting in this example is "com.somesite.www / food". The present invention uses this proprietary URL format to greatly improve the process of traffic data analysis. The traffic sampling system 120 populates the traffic data area 512 of the database 200. The polling map creation system 320 accesses the data from the traffic data area 512 to assist the page retrieval system web 322 and the statistical summary system 230 with the calculation of advertising printing and expense statistics.

El área de registro de vistas de anuncios 514 registra el tiempo, el URL y el identificador de anuncio para cada anuncio encontrado en la Internet 100. Esta área también registra cada vez que el sistema no detecta un anuncio en una página web que previamente incluía el anuncio. Además, el sistema registra cada vez que el sistema detecta un anuncio potencial, pero no reconoce el anuncio durante la clasificación estructural. El clasificador estructural 328 y el sistema de recuperación de páginas web 322 del sistema de muestreo de anuncios 222 puebla el área de registro de vistas de anuncios 514 de la base de datos 200. El sistema de resumen estadístico 230 accede a los datos del área de registro de vistas de anuncios 514 para determinar la frecuencia con la que cada anuncio aparece en cada sitio. The ad view registration area 514 records the time, URL and ad identifier for each ad found on the Internet 100. This area also records each time the system does not detect an ad on a web page that previously included the ad. In addition, the system records each time the system detects a potential ad, but does not recognize the ad during structural classification. The structural classifier 328 and the web page retrieval system 322 of the ad sampling system 222 populates the ad view registration area 514 of the database 200. The statistical summary system 230 accesses the data in the area of Ad view record 514 to determine how often each ad appears on each site.

El área de estructura de anuncio 516 contiene datos que caracterizan a cada anuncio único localizado por el sistema. Estos datos incluyen el contenido del anuncio, el tipo de anuncio (por ejemplo, imagen, formulario HTML, Flash, etc.), el URL de destino vinculado al anuncio, y varios elementos usados durante la clasificación de contenido y la diagnosis, incluyendo dónde se vio por primera vez el anuncio, y qué definición de anuncio produjo originalmente el anuncio. El componente clasificador estructural 328 del sistema de muestreo de anuncios 220 puebla el área de estructura de anuncio 516 de la base de datos 200. La interfaz de usuario 240 accede a los datos del área de estructura de anuncio 516 para presentar cada anuncio al editor de medios 264 durante la edición de clasificación. La parte cliente web 250 también accede a los datos del área de estructura de anuncio 516 para presentar los anuncios al cliente 140. Ad structure area 516 contains data that characterize each unique ad located by the system. This data includes the content of the ad, the type of ad (for example, image, HTML form, Flash, etc.), the destination URL linked to the ad, and various elements used during content classification and diagnosis, including where the ad was first seen, and what ad definition the ad originally produced. The structural classifier component 328 of the ad sampling system 220 populates the ad structure area 516 of the database 200. The user interface 240 accesses the data of the ad structure area 516 to present each advertisement to the publisher of 264 media during classification editing. The web client part 250 also accesses the data of the ad structure area 516 to present the announcements to the client 140.

La partición de definiciones de sondeo 520 de la base de datos 200 comprende tablas de bases de datos que están segmentadas lógicamente en áreas de definición de sitio 522, mapa de sondeo 524, y definición de reglas de extracción de anuncios 526. The polling definition partition 520 of the database 200 comprises database tables that are logically segmented into site definition areas 522, polling map 524, and definition of ad extraction rules 526.

El área de definición de sitio 522 divide en zonas la parte de la Internet 100 que el sistema sondea. La definición de zona primaria es un “sitio”, una entidad coherente que el sistema tiene que analizar, muestrear y resumir. El sistema define cada sitio en términos de prefijos URL alterados tanto inclusivos como exclusivos. Un “prefijo URL alterado” es un URL alterado que representa la zona de todos los URLs alterados para los que es un prefijo. Un “prefijo URL alterado inclusivo” especifica que un URL es parte de alguna entidad. Un “prefijo URL alterado exclusivo” especifica que un URL no es parte de alguna entidad, anulando las partes de la entidad incluidas por un prefijo inclusivo. Como ilustración, lo que viene a continuación es la lista de URLs alterados que puede resultar del procesamiento de un conjunto de URLs en una muestra de tráfico. Site definition area 522 zones the part of Internet 100 that the system polls into zones. The definition of primary zone is a “site”, a coherent entity that the system has to analyze, sample and summarize. The system defines each site in terms of altered URL prefixes, both inclusive and exclusive. An "altered URL prefix" is an altered URL that represents the zone of all the altered URLs for which it is a prefix. An "inclusive altered URL prefix" specifies that a URL is part of some entity. An “exclusive altered URL prefix” specifies that a URL is not part of any entity, canceling the parts of the entity included by an inclusive prefix. As an illustration, what follows is the list of altered URLs that may result from the processing of a set of URLs in a traffic sample.

1.one.
com.somesite/  com.somesite /

2.2.
com.somesite/foo  com.somesite / foo

3.3.
com.somesite/foo/bar  com.somesite / foo / bar

4.Four.
com. somesite/foo/blah  com. somesite / foo / blah

5.5.
com.someothersite/  com.someothersite /

Si la definición de sitio para “somesite” incluye el prefijo URL inclusivo “com.somesite/” y el prefijo URL exclusivo “com.somesite/foo/bar”, la aplicación de esta definición de sitio a los URLs de muestra enumerados anteriormente produce un sistema que incluye los URL 1, 2 y 4. El URL 3 no es parte de la definición de sitio debido a la exclusión explícita de “com.somesite/foo/bar”. El URL 5 no es parte de la definición de sitio porque nunca estuvo incluido en el prefijo URL inclusivo “com.somesite/”. La interfaz de usuario 240 puebla el área de definición de sitio 522 de la base de datos 200. El sistema de creación de mapas de sondeo 320 accede a los datos del área de definición de sitio 522 para determinar qué URLs sondear. El sistema de resumen estadístico 230 accede a los datos del área de definición de sitio 522 para determinar los niveles de tráfico hacia los sitios sumando el tráfico hacia los URLs incluidos en un sitio. If the site definition for “somesite” includes the inclusive URL prefix “com.somesite /” and the exclusive URL prefix “com.somesite / foo / bar”, the application of this site definition to the sample URLs listed above produces a system that includes URLs 1, 2 and 4. URL 3 is not part of the site definition due to the explicit exclusion of "com.somesite / foo / bar". URL 5 is not part of the site definition because it was never included in the inclusive URL prefix "com.somesite /". The user interface 240 populates the site definition area 522 of the database 200. The polling map creation system 320 accesses the data from the site definition area 522 to determine which URLs to poll. The statistical summary system 230 accesses the data of the site definition area 522 to determine the levels of traffic to the sites by adding the traffic to the URLs included in a site.

El área de mapa de sondeo 524 contiene un peso para cada URL de cada sitio que el sistema está midiendo. Este peso determina la probabilidad de que el sistema escoja un URL para cada sonda. El sistema genera los pesos ejecutando complejos algoritmos iterativos frente a los datos de tráfico y los registros de sondeo de la base de datos Poll Map Area 524 contains a weight for each URL of each site that the system is measuring. This weight determines the probability that the system chooses a URL for each probe. The system generates weights by executing complex iterative algorithms against traffic data and database polling records.

200. Un análisis de los datos de tráfico puede discernir qué URLs han sido visitados, cada cuánto tiempo los usuarios han visitado esos URLs. El resultado del análisis garantiza que el sistema realiza el muestreo de anuncios de estos URLs en proporciones similares, dadas ciertas limitaciones como un número máximo de sondas que asignar a cualquier URL individual. Los datos de la partición de registros de muestreo 510 de la base de datos 200 es útil para determinar qué URLs tienen necesidad de tratamiento especial debido al comportamiento pasado (por ejemplo, un URL es muestreado menos infrecuentemente si el sistema nunca ha detectado un anuncio en el URL). El sistema de creación de mapas de sondeo 320 puebla las áreas de mapa de sondeo 524 de la base de datos 200. El sistema de creación de mapas de sondeo 320 accede a los datos del área de mapa de sondeo 524 para asignar las sondas. El sistema de resumen estadístico 230 accede a los datos del área del mapa de sondeo 524 para determinar qué URLs deberían haber modificado a escala sus rotaciones para contrarrestar el efecto de la aplicación forzosa de las limitaciones del mapa de sondeo. 200. An analysis of traffic data can discern which URLs have been visited, how often users have visited those URLs. The result of the analysis ensures that the system samples ads of these URLs in similar proportions, given certain limitations such as a maximum number of probes to assign to any individual URL. The data from the partition of sampling records 510 of the database 200 is useful for determining which URLs need special treatment due to past behavior (for example, a URL is sampled less infrequently if the system has never detected an ad in the URL) The polling map creation system 320 populates the polling map areas 524 of the database 200. The polling map creation system 320 accesses the data from the polling map area 524 to assign the probes. The statistical summary system 230 accesses the data of the survey map area 524 to determine which URLs should have scaled their rotations to counteract the effect of the forced application of the probing map limitations.

El área de definición de reglas de extracción de anuncios 526 describe etiquetas de Lenguaje de Marcas Extensible (“XML”), que representan típicamente un documento HTML normalizado, que indican aquellas partes del contenido que el sistema considera que son anuncios. El sistema define una regla de extracción en términos de “estructura XML” y “características XML”. La “estructura XML” se refiere a la colocación de diversos nodos XML en relación con otros nodos XML. Por ejemplo, un nodo ancla (“A”) que contiene un nodo de imagen (“IMG”) es probablemente un anuncio. Después de usar este proceso de detección estructural para concordar con el contenido del anuncio, el sistema examina las características del contenido para determinar si el contenido es un anuncio. Para continuar el ejemplo previo, si el nodo de imagen contiene una característica de enlace (“href”) que contiene la sub-cadena “adserver”, con mucha probabilidad es un anuncio. Las características pueden concordar basadas en una simple sub-cadena, como en el ejemplo, o una expresión regular más complicada. Otra forma de regla de extracción puede apuntar a un nodo específico en una estructura XML usando alguna forma de especificación de ruta XML, como un “Xpointer”. El editor de medios 264 puebla el área de definición de reglas de extracción 526 de la base de datos 200. El extractor de anuncios 526 del sistema de muestreo de anuncios 220 accede a los datos del área de definición de reglas de extracción de anuncios 326 para determinar qué partes de cada página sondeada representan un anuncio. The area of defining ad extraction rules 526 describes Extensible Markup Language ("XML") tags, which typically represent a standardized HTML document, indicating those parts of the content that the system considers to be ads. The system defines an extraction rule in terms of "XML structure" and "XML characteristics". The "XML structure" refers to the placement of various XML nodes in relation to other XML nodes. For example, an anchor node ("A") that contains an image node ("IMG") is probably an advertisement. After using this structural detection process to match the content of the advertisement, the system examines the characteristics of the content to determine if the content is an advertisement. To continue the previous example, if the image node contains a link characteristic ("href") that contains the sub-string "adserver", it is very likely an advertisement. The characteristics can be agreed based on a simple sub-string, as in the example, or a more complicated regular expression. Another form of extraction rule can point to a specific node in an XML structure using some form of XML path specification, such as an "Xpointer." The media editor 264 populates the extraction rules definition area 526 of the database 200. The ad extractor 526 of the ad sampling system 220 accesses the data of the ad extraction rules definition area 326 for Determine which parts of each page probed represent an ad.

La partición de datos de soporte publicitario 530 de la base de datos 200 comprende tablas de bases de datos que están segmentadas lógicamente en área de taxonomía de productos publicitarios 532, información publicitaria 534, lista de tarifas 536, e información de productos publicitarios ampliada 538. The advertising support data partition 530 of the database 200 comprises database tables that are logically segmented in the area of advertising product taxonomy 532, advertising information 534, tariff list 536, and expanded advertising product information 538.

El área de taxonomía de productos publicitarios 532 contiene una taxonomía jerárquica de productos publicitarios, atributos que describen qué anuncio se está anunciando. Esta taxonomía incluye industrias, compañías, productos, sitios web, subsitios web, mensajes, etc. Cada nodo en la jerarquía tiene un tipo que especifica qué clase de entidad representa y un nodo padre. Por ejemplo, la jerarquía puede especificar qué productos existen dentro de las compañías, que a su vez existen dentro de las industrias. El editor de medios 264 puebla el área de taxonomía de productos publicitarios 532 de la base de datos 200. La interfaz de usuario 240 accede a los datos del área de taxonomía de productos publicitarios 532 para generar datos estadísticos y registrar dónde tienden a anunciar las compañías, industrias, etc. La parte cliente web 250 también accede a los datos del área de taxonomía de productos publicitarios 532 para presentar esta información al cliente 140. The taxonomy area of advertising products 532 contains a hierarchical taxonomy of advertising products, attributes that describe which advertisement is being advertised. This taxonomy includes industries, companies, products, websites, web sites, messages, etc. Each node in the hierarchy has a type that specifies what kind of entity it represents and a parent node. For example, the hierarchy can specify which products exist within companies, which in turn exist within industries. Media editor 264 populates the taxonomy area of advertising products 532 of database 200. User interface 240 accesses data from the taxonomy area of advertising products 532 to generate statistical data and record where companies tend to advertise , industries, etc. The web client part 250 also accesses the data of the taxonomy area of advertising products 532 to present this information to the client 140.

El área de información publicitaria 534 contiene los datos que describen qué anuncia cada anuncio único registrado por el sistema. Las tablas del área de información publicitaria 534 asocian los productos publicitarios con los anuncios. Por ejemplo, el sistema puede asociar un tipo de compañía de productos publicitarios con un anuncio específico para indicar que el anuncio está anunciando la compañía. El sistema usa los siguientes procedimientos para asociar un producto publicitario con un anuncio: The advertising information area 534 contains the data that describes what each unique advertisement registered by the system announces. The tables of the advertising information area 534 associate the advertising products with the advertisements. For example, the system may associate a type of advertising product company with a specific ad to indicate that the ad is advertising the company. The system uses the following procedures to associate an advertising product with an advertisement:

1.one.
Una “clasificación directa” asigna un producto publicitario directamente al anuncio. Por ejemplo, un editor de medios 264 crea una clasificación directa especificando que un anuncio particular anuncia el producto publicitario “Honda”.  A "direct classification" assigns an advertising product directly to the ad. For example, a media editor 264 creates a direct classification specifying that a particular advertisement advertises the advertising product "Honda."

2.2.
Una “clasificación de dirección” asigna un producto publicitario a un prefijo de dirección que el sistema usa para concordar con el destino del anuncio. Por ejemplo, un editor de medios 264 crea una clasificación de dirección especificando que la dirección “com.honda” indica un anuncio para Honda. Un anuncio que apunta a “com.honda.www/cars”, por lo tanto, asocia el anuncio con Honda.  An "address classification" assigns an advertising product to an address prefix that the system uses to match the ad destination. For example, a media editor 264 creates an address classification by specifying that the address "com.honda" indicates an advertisement for Honda. An ad that points to “com.honda.www / cars,” therefore, associates the ad with Honda.

3.3.
Una “clasificación de ancestro” asigna un ancestro del producto publicitario a un anuncio. Por ejemplo, si una clasificación directa asigna Honda a un anuncio, el producto publicitario de industria “automoción” es un predecesor de Honda. La clasificación de ancestros usa esta relación para asociar automoción al anuncio.  An "ancestor classification" assigns an ancestor of the advertising product to an advertisement. For example, if a direct classification assigns Honda to an advertisement, the “automotive” industry advertising product is a predecessor of Honda. The ancestor classification uses this relationship to associate automotive to the advertisement.

El editor de medios 264 puebla el área de información publicitaria 534 de la base de datos 200. La interfaz de usuario 240 accede a los datos del área de información publicitaria 534 para generar datos estadísticos. The media editor 264 populates the advertising information area 534 of the database 200. The user interface 240 accesses the data of the advertising information area 534 to generate statistical data.

El área de lista de tarifas 536 contiene datos que describen el coste de los anuncios en un sitio web. Estos costes incluyen valores monetarios para cada forma, tamaño, o duración de ejecución específicos que los anunciantes de la Internet 100 usan para determinar el coste de las compras de anuncios. El sistema almacena datos de lista de tarifas para cada sitio web que el sistema sondea. El editor de medios 264 puede el área de lista de tarifas 536 en la base de datos 200. La interfaz de usuario 240 accede a los datos del área de lista de tarifas 536 para generar datos estadísticos. The tariff list area 536 contains data that describes the cost of advertisements on a website. These costs include monetary values for each specific form, size, or duration of execution that Internet 100 advertisers use to determine the cost of ad purchases. The system stores rate list data for each website that the system polls. The media editor 264 can the tariff list area 536 in the database 200. The user interface 240 accesses the data in the tariff list area 536 to generate statistical data.

El área de información de productos publicitarios ampliada 538 contiene información adicional acerca de tipos específicos de productos publicitarios no captados inmediatamente en la jerarquía de taxonomía. Específicamente, esto incluye información adicional relacionada con sitios web y compañías, como URLs de información de contacto de la compañía, sitio web y kit de medios. Esta información amplía la utilidad del sistema proporcionando información adicional al cliente 140 acerca de las entidades sondeadas. Por ejemplo, un cliente 140 puede seguir un hiperenlace a la información de contacto de la compañía directamente a partir de un informe del sistema. El editor de medios 264 puebla el área de información de productos publicitarios ampliada 538 de la base de datos 200. La parte cliente web 250 accede a los datos del área de información de productos publicitarios ampliada 538 para suministrar información de valor añadido a un cliente 140. The expanded advertising product information area 538 contains additional information about specific types of advertising products not immediately captured in the taxonomy hierarchy. Specifically, this includes additional information related to websites and companies, such as company contact information URLs, website and media kit. This information extends the utility of the system by providing additional information to the client 140 about the polled entities. For example, a client 140 may follow a hyperlink to the company's contact information directly from a system report. The media editor 264 populates the expanded advertising product information area 538 of the database 200. The web client part 250 accesses the data of the expanded advertising product information area 538 to provide added value information to a customer 140 .

La partición de resumen publicitario 540 de la base de datos 200 comprende tablas de bases de datos que están segmentadas lógicamente en áreas de estadísticas publicitarias 542, integridad de datos 544 y resumen de información publicitaria 546. The advertising summary partition 540 of the database 200 comprises database tables that are logically segmented into areas of advertising statistics 542, data integrity 544 and summary of advertising information 546.

El área de estadísticas publicitarias 542 describe cada cuánto tiempo aparece un anuncio en cada sitio web. El sistema calcula y almacena las siguientes estadísticas en esta área. Advertising statistics area 542 describes how often an ad appears on each website. The system calculates and stores the following statistics in this area.

1.one.
La proporción de vistas de páginas que presentan un anuncio respecto al número total de vistas de páginas. El sistema determina esta estadística analizando los registros de sondeo.  The proportion of page views that present an ad relative to the total number of page views. The system determines this statistic by analyzing the polling records.

2.2.
El número de impresiones que recibió un anuncio. El sistema determina esta estadística midiendo niveles de tráfico para el sitio web usando la definición de sitio y los datos de tráfico, y multiplicando esa medición por la proporción de vistas de páginas calculada anteriormente.  The number of impressions an ad received. The system determines this statistic by measuring traffic levels for the website using the site definition and traffic data, and multiplying that measurement by the proportion of page views calculated above.

3.3.
La cantidad de gastos que recibió un anuncio. El sistema determina esta estadística aplicando la información de lista de tarifas al número de impresiones que el anuncio recibe calculado anteriormente.  The amount of expenses an ad received. The system determines this statistic by applying the rate list information to the number of impressions that the ad receives previously calculated.

El sistema de resumen estadístico 230 puebla el área de estadísticas publicitarias 542 de la base de datos 200. La parte cliente web 250 accede a los datos del área de estadísticas publicitarias 542 para informar de los gastos, las impresiones y la rotación de anuncios al cliente 140. The statistical summary system 230 populates the advertising statistics area 542 of the database 200. The web client part 250 accesses the data of the advertising statistics area 542 to report expenses, impressions and rotation of customer announcements. 140.

El área de integridad de datos 544 contiene información en profundidad acerca de valores estadísticos atípicos y otras anomalías potenciales que resultan de análisis de tendencias y segmentos de tiempo. Esta monitorización y análisis automatizado garantiza que el sistema contendrá datos de análisis exactos. Además, el sistema usa información publicitaria del mundo real, como entrada al sistema, para verificar la exactitud de los datos de análisis. El sistema de análisis de integridad de datos, realizado por el sistema de resumen estadístico 230, puebla el área de integridad de datos 544 de la base de datos 200. El operador 262 accede al área de integridad de datos 544 para detectar errores potenciales y monitorizar la salud del sistema general. The data integrity area 544 contains in-depth information about atypical statistical values and other potential anomalies that result from analysis of trends and time segments. This automated monitoring and analysis ensures that the system will contain accurate analysis data. In addition, the system uses real-world advertising information, as input to the system, to verify the accuracy of the analysis data. The data integrity analysis system, performed by the statistical summary system 230, populates the data integrity area 544 of the database 200. The operator 262 accesses the data integrity area 544 to detect potential errors and monitor General system health.

El área de resumen de información publicitaria 546 resume la información publicitaria en un formato que sea compacto y fácil de distribuir. El sistema extrae los datos de esta área de la partición de datos de soporte publicitario The advertising information summary area 546 summarizes the advertising information in a format that is compact and easy to distribute. The system extracts data from this area from the advertising support data partition

530. Aunque los datos no son tan descriptivos como los datos de la partición de datos de soporte publicitario 530, proporcionan la capacidad de realizar rápidamente una consulta precisa. La partición de datos de soporte publicitario 530 asocia cada anuncio con una compañía, producto, o industria. Si el sistema asocia múltiples productos publicitarios del mismo tipo con un anuncio, se escoge un único productos publicitarios para resumir esos asociados usando un sistema de prioridad de asignación, de la siguiente manera: 530. Although the data is not as descriptive as the data in the 530 advertising support data partition, they provide the ability to quickly perform an accurate query. Advertising support data partition 530 associates each ad with a company, product, or industry. If the system associates multiple advertising products of the same type with an advertisement, a single advertising product is chosen to summarize those associates using an allocation priority system, as follows:

1.one.
Los productos publicitarios asociados con un anuncio usando clasificación directa reciben la prioridad más alta posible, “M”.  Advertising products associated with an ad using direct ranking receive the highest possible priority, "M".

2.2.
Los productos publicitarios asociados con un anuncio usando clasificación de dirección reciben una prioridad igual a la longitud de la cadena del prefijo de dirección al que están asignados, por lo tanto, una cadena de prefijo de dirección larga recibirá una prioridad más alta que una cadena de prefijo de dirección corta.  Advertising products associated with an ad using address classification receive a priority equal to the length of the address prefix chain to which they are assigned, therefore, a long address prefix chain will receive a higher priority than a chain of address short address prefix.

3.3.
Los productos publicitarios asociados con un anuncio usando clasificación de ancestros reciben la prioridad del ancestro asignado.  Advertising products associated with an advertisement using ancestor classification receive priority from the assigned ancestor.

4.Four.
El anuncio recibe el producto publicitario de prioridad más alta en cada tipo.  The ad receives the highest priority advertising product in each type.

5.5.
Cuando se asignan a un anuncio dos ancestros que tienen el mismo tipo y prioridad, se produce un conflicto y debe ser corregido por el editor de medios 264.  When two ancestors having the same type and priority are assigned to an advertisement, a conflict occurs and must be corrected by the media editor 264.

El sistema de resumen estadístico 230 puebla el área de resumen de información publicitaria 546 de la base de datos 200. La parte cliente web 250 accede al área de resumen de información publicitaria 546 para generar informes para el cliente 140. The statistical summary system 230 populates the advertising information summary area 546 of the database 200. The web client part 250 accesses the advertising information summary area 546 to generate reports for the client 140.

La siguiente descripción trata de una realización de la estructura de base de datos ilustrada en la Figura 5. Este modelo de datos se codifica en una base de datos Oracle. La estructura de la tabla comprende tres entornos, el esquema básico, el esquema de análisis, y la parte cliente. El esquema básico describe el entorno de la parte servidor que permite al “sondeador en la nube” dirigir procesos autónomos en directo que buscan continuamente por toda la Web anotando la actividad publicitaria y los operadores y los editores de medios para la presente invención para dirigir, monitorizar y aumentar la información proporcionada por el “sondeador en la nube”. El esquema de análisis es el entorno de la parte servidor que permite al sistema de muestreo de anuncios, también conocido como OMNIAC, aplicar rigurosos procedimientos de análisis de datos a la información reunida desde la Web. El esquema de la parte cliente ayuda a un cliente de la presente invención a acceder a datos, construir cadenas de consulta de bases de datos, y generar informes. The following description deals with an embodiment of the database structure illustrated in Figure 5. This data model is encoded in an Oracle database. The structure of the table comprises three environments, the basic scheme, the analysis scheme, and the client part. The basic scheme describes the environment of the server part that allows the "cloud poller" to direct autonomous live processes that continuously search the entire Web by recording the advertising activity and the operators and media editors for the present invention to direct, monitor and increase the information provided by the "cloud poller". The analysis scheme is the environment of the server part that allows the ad sampling system, also known as OMNIAC, to apply rigorous data analysis procedures to the information gathered from the Web. The scheme of the client part helps a client of the present invention to access data, build database query strings, and generate reports.

Los objetos de base de datos que comprenden el “esquema básico” son usados con más frecuencia por diversos componentes del sistema OMNIAC. Las bases de código que se basan en este esquema incluyen la implementación de los procesos de la parte servidor que sacan anuncios de la Web. Además, los esquemas de base de datos utilizados por otros componentes asociados con el OMNIAC están compuestos de algunas o todas las tablas del esquema básico. El esquema básico está compuesto conceptualmente de cuatro subesquemas que incluyen publicidad, anuncios, sondeo y sitios. El subesquema de publicidad contiene información acerca de entidades de “productos publicitarios” junto con las cuales se está anunciando cada anuncio. El subesquema de anuncios describe los anuncios que el sistema ha localizado y analizado. El subesquema de sondeo define “cuándo”, “dónde”, y “cómo” para el proceso de sondeo. El subesquema de sitios describe sitios web, incluyendo definiciones de sitios estructurales e información de lista de tarifas. Database objects that comprise the "basic scheme" are used more frequently by various components of the OMNIAC system. The code bases that are based on this scheme include the implementation of the server-side processes that take advertisements from the Web. In addition, the database schemas used by other components associated with OMNIAC are composed of some or all of the tables in the basic schema. The basic scheme is conceptually composed of four sub-schemes that include advertising, advertisements, polling and sites. The advertising sub-scheme contains information about "advertising products" entities along with which each advertisement is being advertised. The ad sub-scheme describes the ads that the system has located and analyzed. The polling sub-scheme defines “when,” “where,” and “how” for the polling process. The site sub-scheme describes websites, including structural site definitions and rate list information.

De los cuatro subesquemas, Publicidad sirve para el propósito más general y es, por lo tanto, al que se hace referencia con más frecuencia. La tabla primaria en este subesquema es ADVERTISABLE, la cual define productos publicitarios. Muchas de las entidades conceptuales en el universo de OMNIAC son productos publicitarios: industrias, compañías, productos, servicios y sitios web están todos definidos aquí. El campo de tipo, que hace referencia a la tabla ADVERTISABLE_TYPE, distingue entre diferentes tipos de productos publicitarios, y el campo padre organiza los registros jerárquicamente, estableciendo tales relaciones como industria-contiene-compañía y compañía-produce-producto. Of the four sub-schemes, Advertising serves the more general purpose and is, therefore, referred to more frequently. The primary table in this sub-scheme is ADVERTISABLE, which defines advertising products. Many of the conceptual entities in the OMNIAC universe are advertising products: industries, companies, products, services and websites are all defined here. The type field, which refers to the ADVERTISABLE_TYPE table, distinguishes between different types of advertising products, and the parent field organizes the records hierarchically, establishing such relationships as industry-contains-company and company-produce-product.

Además de la agrupación inherente implicada por la relación padre-hijo definida en ADVERTISABLE, se usa ADVERTISABLE_GROUP_MEMBER para agrupar más los productos publicitarios. Ejemplos de grupos definidos de este modo incluyen clases de automóviles, segmentos de la industria de viajes, y tipos de hardware informático. In addition to the inherent grouping involved by the parent-child relationship defined in ADVERTISABLE, ADVERTISABLE_GROUP_MEMBER is used to further group the advertising products. Examples of groups defined in this way include car classes, segments of the travel industry, and types of computer hardware.

Otras tablas del subesquema de publicidad sirven para definir qué es anunciado por cada anuncio. ADVERTISES se usa para asociar productos publicitarios directamente con anuncios. LOCATION ADVERTISES, CLASSIFIED LOCATION y LOCATION_MATCHES también asocian indirectamente productos publicitarios con anuncios a través de la dirección de destino del anuncio. Other tables of the advertising sub-scheme serve to define what is announced by each advertisement. ADVERTISES is used to associate advertising products directly with advertisements. LOCATION ADVERTISES, CLASSIFIED LOCATION and LOCATION_MATCHES also indirectly associate advertising products with ads through the ad's destination address.

Los “anuncios” a los que se hace referencia anteriormente son referencias a registros en AD, la tabla primaria en el subesquema de anuncios. El subesquema de anuncios sirve para definir cada anuncio en el universo de OMNIAC. Cada anuncio único tiene un registro en AD, junto con uno o más registros en AD_DEFINITION. Las definiciones de anuncios son fragmentos únicos de XML que OMNIAC ha recuperado de la Web. Ads son anuncios únicos definidos por conjuntos de definiciones de anuncios determinados para que sean equivalentes durante la clasificación automatizada. The "ads" referred to above are references to records in AD, the primary table in the ad sub-scheme. The ad sub-scheme is used to define each ad in the OMNIAC universe. Each unique ad has one record in AD, along with one or more records in AD_DEFINITION. Ad definitions are unique pieces of XML that OMNIAC has retrieved from the Web. Ads are unique ads defined by sets of ad definitions determined to be equivalent during automated classification.

Otras tablas en Anuncios contienen atributos de anuncios, a los que se hace referencia por AD y AD_DEFINITION. AD_TECHNOLOGY describe tecnologías web conocidas usadas para producir anuncios, mientras que TEXT describe contenido textual para ciertos anuncios. FUZZY_WEB_LOCATION contiene direcciones difusas encontradas en los anuncios. Una dirección difusa es un URL que tiene que ser procesado por el sistema, como un ancla o una imagen. Una vez que el OMNIAC ha cargado una dirección difusa, se hace una referencia a MIME_CONTENT si el URL hace referencia a una imagen, o DEST_WEB_LOCATION si el URL hace referencia a otra página HTML. Other tables in Ads contain ads attributes, referred to by AD and AD_DEFINITION. AD_TECHNOLOGY describes known web technologies used to produce ads, while TEXT describes textual content for certain ads. FUZZY_WEB_LOCATION contains fuzzy addresses found in the ads. A fuzzy address is a URL that has to be processed by the system, such as an anchor or an image. Once OMNIAC has loaded a fuzzy address, a reference is made to MIME_CONTENT if the URL refers to an image, or DEST_WEB_LOCATION if the URL refers to another HTML page.

Siguiendo adelante, el subesquema de sondeo controla el comportamiento del sondeo del OMNIAC y los componentes de extracción de anuncios. El propósito primario de este esquema es definir conjuntos de objetivos. Un conjunto de objetivos es una construcción conceptual que ordena al OMNIAC buscar en un conjunto de páginas en ciertos intervalos, extrayendo los anuncios usando un conjunto de reglas llamadas reglas de extracción. Cada conjunto de objetivos está definido por una fila en TARGET_SET. Moving on, the polling sub-scheme controls the behavior of the OMNIAC poll and the ad extraction components. The primary purpose of this scheme is to define sets of objectives. A set of objectives is a conceptual construction that orders OMNIAC to search a set of pages at certain intervals, extracting the ads using a set of rules called extraction rules. Each set of goals is defined by a row in TARGET_SET.

Las frecuencias, direcciones, y reglas de extracción que constituyen cada conjunto de objetivos están definidas en STROBE, AD_WEB-LOCATION, y EXTRACTION_RULE, respectivamente. Las relaciones muchos-a-muchos entre filas de estas tablas se definen en TS_RUNS_AT, TS_PROBES, y TS_APPLIES. The frequencies, directions, and extraction rules that constitute each set of objectives are defined in STROBE, AD_WEB-LOCATION, and EXTRACTION_RULE, respectively. The many-to-many relationships between rows of these tables are defined in TS_RUNS_AT, TS_PROBES, and TS_APPLIES.

El subesquema cuarto y final es Sitios, que simplemente registra información acerca de sitios web. Cada sitio o subsitio definido en la jerarquía de productos publicitarios tiene un registro correspondiente en SITE_INFO, junto con un número de filas en SITE_DOMAIN y SITE_MONTHLY_DATA. SITE_DOMAIN describe la estructura física de un sitio en términos de raíces URL inclusivas y exclusivas. SITE_MONTHLY_DATA registra listas de tarifas de anuncios, estimaciones de tráfico de terceros, y estadísticas de caché para cada sitio según una base mensual. The fourth and final subscheme is Sites, which simply records information about websites. Each site or subsite defined in the hierarchy of advertising products has a corresponding record in SITE_INFO, along with a number of rows in SITE_DOMAIN and SITE_MONTHLY_DATA. SITE_DOMAIN describes the physical structure of a site in terms of inclusive and exclusive URL roots. SITE_MONTHLY_DATA records lists of ad rates, third-party traffic estimates, and cache statistics for each site on a monthly basis.

El esquema de análisis es una prolongación al esquema básico que incluye varias tablas adicionales pobladas por el módulo de análisis del OMNIAC. El módulo de análisis es la unidad a cargo del procesamiento de la información contenida en el esquema básico, produciendo un conjunto de datos equilibrado que describe con exactitud la actividad publicitaria. The analysis scheme is an extension to the basic scheme that includes several additional tables populated by the OMNIAC analysis module. The analysis module is the unit in charge of processing the information contained in the basic scheme, producing a balanced data set that accurately describes the advertising activity.

Como el esquema básico, el esquema de análisis está compuesto de cuatro subesquemas conceptuales compuestos de tablas que implementan la funcionalidad común. Estos subesquemas incluyen descomposición publicitaria, resumen de vistas de anuncios, estadísticas de espacios, y estadísticas de sitios. El subesquema de descomposición publicitaria contiene información acerca de cada anuncio del sistema, incluyendo atributos y qué está anunciando el anuncio. El subesquema de resumen de vistas de anuncios resume las vistas de anuncios, registrando cuántas veces fue visto cada anuncio en cada espacio en el transcurso de un día. El subesquema de estadísticas de espacios describe la rotación de anuncios para cada espacio durante cada periodo de tiempo. El subesquema de estadísticas de sitios describe información de sitios, incluyendo rotación de anuncios para cada periodo de tiempo. Like the basic scheme, the analysis scheme is composed of four conceptual sub-schemes composed of tables that implement the common functionality. These subschemes include ad breakdown, summary of ad views, space statistics, and site statistics. The advertising decomposition sub-scheme contains information about each ad in the system, including attributes and what the ad is advertising. The ad view summary sub-scheme summarizes the ad views, recording how many times each ad was viewed in each space over the course of a day. The space statistics sub-scheme describes the rotation of advertisements for each space during each period of time. The site statistics sub-scheme describes site information, including ad rotation for each period of time.

La tabla primaria en el subesquema de descomposición publicitaria es AD_INFO, que contiene registros desnormalizados que describen atributos de anuncios. Los registros de AD_INFO se toman como datos de entrada de control de ID’s en la tabla AD; existe un registro de AD_INFO por cada registro de AD que ha sido clasificado completamente y representa un anuncio válido. AD_INFO es poblado por el módulo de análisis de las relaciones publicitarias descritas en las tablas del esquema básico ADVERTISES y LOCATION_ADVERTISES. The primary table in the advertising decomposition subschema is AD_INFO, which contains denormalized records that describe ad attributes. AD_INFO records are taken as ID’s control input data in the AD table; There is one AD_INFO record for each AD record that has been fully classified and represents a valid ad. AD_INFO is populated by the advertising relations analysis module described in the basic schema tables ADVERTISES and LOCATION_ADVERTISES.

Los campos AD_INFO que especifican qué es anunciado por un anuncio son: CATEGORY (industria), ORGANIZATION (compañía), ORGANIZATION_GROUP (segmento industrial), ORGANIZATION_OVERGROUP, COMMODITY (producto/servicio), COMMODITY_GROUP (segmento de productos/servicios), COMMODITY_OVERGROUP, y MESSAGE. The AD_INFO fields that specify what is advertised by an ad are: CATEGORY (industry), ORGANIZATION (company), ORGANIZATION_GROUP (industrial segment), ORGANIZATION_OVERGROUP, COMMODITY (product / service), COMMODITY_GROUP (product / service segment), COMMODITY_OVERGROUP, and MESSAGE

AD_INFO también incluye campos que describen varios atributos no publicitarios. FORMAT, que hace referencia a AD_SLOT_TYPE.ID, especifica el factor de forma de un anuncio. TECHNOLOGY, que hace referencia a AD_TECHNOLOGY2.ID, especifica la tecnología usada para implementar el anuncio. DEFINITION, IMAGE y DESTINATION especifican los registros de AD_DEFINITION, IMAGE y DEST_WEB_LOCATION asociados con el anuncio. Estos tres campos reflejan los campos de la tabla AD. AD_INFO also includes fields that describe various non-advertising attributes. FORMAT, which refers to AD_SLOT_TYPE.ID, specifies the form factor of an ad. TECHNOLOGY, which refers to AD_TECHNOLOGY2.ID, specifies the technology used to implement the ad. DEFINITION, IMAGE and DESTINATION specify the AD_DEFINITION, IMAGE and DEST_WEB_LOCATION records associated with the ad. These three fields reflect the fields in the AD table.

El esquema de descomposición publicitaria contiene unas pocas tablas además de AD_INFO. ADV_IMPLICATION es una caché de implicaciones de productos publicitarios derivadas de la jerarquía en ADVERTISABLE. Esto se usa para acelerar el funcionamiento del módulo de análisis. AD_INFO_FLATTENED es una versión consultada más fácilmente de AD_INFO que contiene pares anuncio/producto publicitario para cada uno de los campos en AD_INFO que hacen referencia a ADVERTISABLE. Por último, AD_TECHNOLOGY2 describe tecnologías de anuncios interpretadas por el módulo de análisis que son presentables al usuario en la parte cliente. The advertising decomposition scheme contains a few tables in addition to AD_INFO. ADV_IMPLICATION is a cache of implications of advertising products derived from the hierarchy in ADVERTISABLE. This is used to accelerate the operation of the analysis module. AD_INFO_FLATTENED is a more easily consulted version of AD_INFO that contains ad / ad product pairs for each of the fields in AD_INFO that refer to ADVERTISABLE. Finally, AD_TECHNOLOGY2 describes ad technologies interpreted by the analysis module that are presentable to the user on the client side.

El subesquema de resumen de vistas de anuncios abarca la única tabla PLACEMENT_SUMMARY. PLACEMENT_SUMMARY se toma como dato de entrada de control del día, el anuncio y el espacio, y contiene, en el campo CNT, el número de veces que fue visto un anuncio en un espacio en un día particular. The ad view summary sub-scheme covers the only PLACEMENT_SUMMARY table. PLACEMENT_SUMMARY is taken as the control input of the day, the announcement and the space, and contains, in the CNT field, the number of times an ad was seen in a space on a particular day.

El módulo de análisis puebla PLACEMENT_SUMMARY agregando los accesos registrados en las tablas APD_n, de las cuales existe una para cada día, siendo n la ID del día en cuestión. Estas tablas son creadas y pobladas por la parte servidor como flujo de accesos a anuncios dentro del sistema. The analysis module populates PLACEMENT_SUMMARY by adding the accesses registered in the APD_n tables, of which there is one for each day, where n is the ID of the day in question. These tables are created and populated by the server side as an access flow to ads within the system.

El tercer subesquema en el esquema de Análisis es Estadísticas de espacios. Este subesquema describe el comportamiento de los anuncios en el contexto de los espacios además de información acerca de los propios espacios. Un espacio es una dirección en la Web en la que rotan anuncios, actualmente definidos en términos de ID de dirección (una referencia a AD_WEB_LOCATION.ID) e ID de regla de extracción (una referencia a EXTRACTION_RULE.ID). The third sub-scheme in the Analysis scheme is Space Statistics. This sub-scheme describes the behavior of the ads in the context of the spaces as well as information about the spaces themselves. A space is an address on the Web where ads rotate, currently defined in terms of address ID (a reference to AD_WEB_LOCATION.ID) and extraction rule ID (a reference to EXTRACTION_RULE.ID).

La tabla primaria en las Estadísticas de espacios es SLOT_AD_VIEWS, que registra las vistas totales y la frecuencia relativa para cada anuncio en cada espacio durante cada periodo de tiempo. La clave primaria de esta tabla está compuesta de los campos PERIOD_TYPE, PERIOD, LOCATION_ID, RULE_ID y AD_ID. Existen dos campos fuera de la clave primaria: CNT contiene el número total de vistas de anuncios, y FREQUENCY contiene la frecuencia relativa. The primary table in Space Statistics is SLOT_AD_VIEWS, which records the total views and relative frequency for each ad in each space during each time period. The primary key of this table is made up of the PERIOD_TYPE, PERIOD, LOCATION_ID, RULE_ID and AD_ID fields. There are two fields outside the primary key: CNT contains the total number of ad views, and FREQUENCY contains the relative frequency.

En este subesquema también está SLOT_SUMMARY, que registra información general de espacios exteriores al contexto de los anuncios individuales. Por consiguiente, esta tabla se toma como dato de entrada de control de los campos PERIOD_TYPE, PERIOD, LOCATION_ID y RULE_ID. El campo CNT registra las vistas de anuncios totales en el espacio; este campo se divide en el SLOT_AD_VIEWS.CNT para determinar la frecuencia relativa. También en SLOT_SUMMARY está un campo SLOT_TYPE que especifica el tipo de anuncio visto con más frecuencia en el espacio, y SITE_ID, que especifica dentro de qué sitio reside el espacio. In this subscheme there is also SLOT_SUMMARY, which records general information of spaces outside the context of individual advertisements. Therefore, this table is taken as control input data from the PERIOD_TYPE, PERIOD, LOCATION_ID and RULE_ID fields. The CNT field records total ad views in the space; This field is divided into SLOT_AD_VIEWS.CNT to determine the relative frequency. Also in SLOT_SUMMARY is a SLOT_TYPE field that specifies the type of ad most frequently seen in the space, and SITE_ID, which specifies within which site the space resides.

La tabla final en el subesquema de estadísticas de espacios es SLOT_TYPE_COUNT. Esta tabla se usa para determinar qué valor usar en SLOT_SUMMARY.SLOT_TYPE. Se registra el número de veces que fue visto cada formato de anuncio, y el tipo de espacio que recibe la mayoría de las vistas se pone dentro de SLOT_SUMMARY.SLOT_TYPE. The final table in the space statistics sub-scheme is SLOT_TYPE_COUNT. This table is used to determine what value to use in SLOT_SUMMARY.SLOT_TYPE. The number of times each ad format was viewed is recorded, and the type of space that most views receive is placed inside SLOT_SUMMARY.SLOT_TYPE.

La Figura 6 es un diagrama de bloques funcionales del sistema de prevalencia publicitaria 130. La memoria 610 del sistema de prevalencia publicitaria 130 almacena los componentes de software, de acuerdo con la presente invención, que analizan los datos de tráfico por la Internet 100, muestrean los datos publicitarios a partir de esos datos de tráfico, y generan datos de resumen que caracterizan los datos publicitarios. El bus de sistema 612 conecta la memoria 610 del sistema de prevalencia publicitaria 130 al adaptador de red del protocolo de control de transmisión/protocolo internet (“TCP/IP”) 614, la base de datos 200 y el procesador central 616. El adaptador de red TCP/IP 614 es el mecanismo que facilita el paso del tráfico de red entre el sistema de prevalencia publicitaria 130 y la Internet 100. El procesador central 616 ejecuta las instrucciones programadas almacenadas en la memoria 610. Figure 6 is a functional block diagram of the advertising prevalence system 130. The memory 610 of the advertising prevalence system 130 stores the software components, in accordance with the present invention, which analyze the traffic data over the Internet 100, sample advertising data from that traffic data, and generate summary data that characterize the advertising data. The system bus 612 connects the memory 610 of the advertising prevalence system 130 to the network adapter of the transmission control protocol / internet protocol ("TCP / IP") 614, the database 200 and the central processor 616. The adapter Network TCP / IP 614 is the mechanism that facilitates the passage of network traffic between the advertising prevalence system 130 and the Internet 100. The central processor 616 executes the programmed instructions stored in memory 610.

La Figura 6 muestra los módulos funcionales del sistema de prevalencia publicitaria 130 dispuestos como un modelo de objeto. El modelo de objeto agrupa los programas de software orientado a objetos en componentes que realizan las funciones y aplicaciones fundamentales en el sistema de prevalencia publicitaria 130. Una implementación adecuada de los componentes del programa de software orientado a objetos de la Figura 6 puede usar la especificación Enterprise JavaBeans. El libro de Paul J. Perrone y col, titulado “Building Java Enterprise Systems with J2EE” (Sams Publishing, junio de 2000) proporciona una descripción de una aplicación empresarial Java desarrollada usando la especificación Enterprise JavaBeans. El libro de Matthew Reynolds, titulado “Beginning E-Commerce” (Wrox Press Inc., 2000) proporciona una descripción del uso de un modelo de objeto en el diseño de un servidor web para una aplicación de comercio electrónico. Figure 6 shows the functional modules of the advertising prevalence system 130 arranged as an object model. The object model groups the object-oriented software programs into components that perform the fundamental functions and applications in the advertising prevalence system 130. Proper implementation of the components of the object-oriented software program of Figure 6 can use the specification Enterprise JavaBeans The book by Paul J. Perrone et al, entitled "Building Java Enterprise Systems with J2EE" (Sams Publishing, June 2000) provides a description of a Java business application developed using the Enterprise JavaBeans specification. Matthew Reynolds' book, entitled "Beginning E-Commerce" (Wrox Press Inc., 2000) provides a description of the use of an object model in the design of a web server for an e-commerce application.

El modelo de objeto para la memoria 610 del sistema de prevalencia publicitaria 130 emplea una arquitectura de tres capas que incluye la capa de presentación 620, la partición de objetos de infraestructura 630, y la capa de lógica de negocios 640. El modelo de objeto además divide la capa de lógica de negocios 640 en dos particiones, la partición de objetos de servicio de aplicación 650 y la partición de objetos de datos 660. The object model for the memory 610 of the advertising prevalence system 130 employs a three-layer architecture that includes the presentation layer 620, the partition of infrastructure objects 630, and the business logic layer 640. The object model in addition It divides the business logic layer 640 into two partitions, the partition of application service objects 650 and the partition of data objects 660.

La capa de presentación 620 contiene los programas que gestionan la interfaz entre el sistema de prevalencia publicitaria 130 y el cliente 140, el administrador de cuentas 260, el operador 262, y el editor de medios 264. En la Figura 6, la capa de presentación 620 incluye la interfaz TCP/IP 622, la parte cliente web 624, y la interfaz de usuario 626. Una implementación adecuada de la capa de presentación 620 puede usar servlets Java para interactuar con el cliente 140, el administrador de cuentas 260, el operador 262 y el editor de medios 264 de la presente invención a través del protocolo de transferencia de hipertexto (“HTTP”). Los servlets Java se ejecutan dentro de un servidor de solicitud/respuesta que se ocupa de mensajes de solicitud procedentes del cliente 140, el administrador de cuentas 260, el operador 262 y el editor de medios 264 y devuelven mensajes de respuesta al cliente 140, el administrador de cuentas 260, el operador 262 y el editor de medios 264. Un servlet Java es un programa de Java que se ejecuta dentro de un entorno de servidor web. Un servlet Java toma una solicitud como entrada, analiza sintácticamente los datos, realiza operaciones lógicas, y emite una respuesta de vuelta al cliente 140, el administrador de cuentas 260, el operador 262 y el editor de medios 264. La plataforma de ejecución Java combina los servlets Java para dar servicio simultáneamente a muchas solicitudes. Una interfaz TCP/IP 622 que usa servlets Java funciona como un servidor web que se comunica con el cliente 140, el administrador de cuentas 260, el operador 262 y el editor de medios 264 usando el protocolo HTTP. La interfaz TCP/IP 622 acepta solicitudes HTTP del cliente 140, el administrador de cuentas 260, el operador 262 y el editor de medios 264 y pasa la información de la solicitud al objeto de visita 642 en la capa de lógica de negocios 640. El objeto de visita 642 pasa la información de resultados devuelta desde la capa de lógica de negocios 640 a la interfaz TCP/IP 622. La interfaz TCP/IP 622 envía estos resultados de vuelta al cliente 140, el administrador de cuentas 260, el operador 262 y el editor de medios 264 en una respuesta HTTP. La interfaz TCP/IP 622 intercambia datos con la Internet 100 a través del adaptador de red TCP/IP 614. The presentation layer 620 contains the programs that manage the interface between the advertising prevalence system 130 and the client 140, the account manager 260, the operator 262, and the media editor 264. In Figure 6, the presentation layer 620 includes the TCP / IP interface 622, the web client part 624, and the user interface 626. A suitable implementation of the presentation layer 620 can use Java servlets to interact with the client 140, the account manager 260, the operator 262 and the media editor 264 of the present invention through the hypertext transfer protocol ("HTTP"). Java servlets are executed within a request / response server that handles request messages from client 140, account manager 260, operator 262 and media editor 264 and returns response messages to client 140, the account manager 260, operator 262 and media editor 264. A Java servlet is a Java program that runs within a web server environment. A Java servlet takes a request as input, parses the data, performs logical operations, and issues a response back to client 140, account manager 260, operator 262 and media editor 264. The Java execution platform combines Java servlets to simultaneously serve many requests. A TCP / IP 622 interface using Java servlets functions as a web server that communicates with client 140, account manager 260, operator 262 and media editor 264 using the HTTP protocol. TCP / IP interface 622 accepts HTTP requests from client 140, account manager 260, operator 262 and media editor 264 and passes the information of the request to visit object 642 in business logic layer 640. The Visiting object 642 passes the results information returned from the business logic layer 640 to the TCP / IP interface 622. The TCP / IP interface 622 sends these results back to the client 140, the account manager 260, the operator 262 and media editor 264 in an HTTP response. The TCP / IP 622 interface exchanges data with the Internet 100 through the TCP / IP 614 network adapter.

La partición de objetos de infraestructura 630 contiene los programas que realizan funciones administrativas y de sistema en nombre de la capa de lógica de negocios 640. La partición de objetos de infraestructura 630 incluye el sistema operativo 636, y un componente de programa de software orientado a objetos para la interfaz de sistema de gestión de bases de datos (“DBMS”) 632, la interfaz de administrador 634, y la plataforma de ejecución Java 638. The infrastructure object partition 630 contains the programs that perform administrative and system functions on behalf of the business logic layer 640. The infrastructure object partition 630 includes the operating system 636, and a software program component oriented to objects for the database management system interface (“DBMS”) 632, the administrator interface 634, and the Java 638 execution platform.

La capa de lógica de negocios 640 contiene los programas que realizan lo esencial de la presente invención. La capa de lógica de negocios 640 en la Figura 6 incluye múltiples instancias del objeto de visita 642. Existe una instancia separada del objeto de visita 642 para cada sesión de cliente iniciada por la parte cliente web 624 o la interfaz de usuario 626 a través de la interfaz TCP/IP 622. Cada objeto de visita 642 es una vaina de sesión dinámica que incluye un área de almacenamiento persistente desde el inicio hasta la terminación de la sesión del cliente, no sólo durante una única interacción o llamada de procedimiento. El área de almacenamiento persistente contiene información asociada con el URL 114, 116, 118 o el cliente 140, el administrador de cuentas 260, el operador 262 y el editor de medios 264. Además, el área de almacenamiento persistente contiene datos intercambiados entre el sistema de prevalencia publicitaria 130 y el sistema de muestreo de tráfico 120 a través de la interfaz TCP/IP 622 como los conjuntos de resultados de consultas procedentes de una consulta de la base de datos The business logic layer 640 contains the programs that perform the essentials of the present invention. The business logic layer 640 in Figure 6 includes multiple instances of the visit object 642. There is a separate instance of the visit object 642 for each client session initiated by the web client part 624 or the user interface 626 through the TCP / IP 622 interface. Each 642 visit object is a dynamic session pod that includes a persistent storage area from the beginning to the end of the client session, not only during a single interaction or procedure call. The persistent storage area contains information associated with URL 114, 116, 118 or client 140, account manager 260, operator 262 and media editor 264. In addition, the persistent storage area contains data exchanged between the system. of advertising prevalence 130 and the traffic sampling system 120 through the TCP / IP interface 622 as the sets of query results from a database query

200. 200.

Cuando el sistema de muestreo de tráfico 120 termina de recopilar información acerca de un URL 114, 116, 118, envía un mensaje a la interfaz TCP/IP 622 que invoca un procedimiento para crear un objeto de visita 642 y almacena la información acerca de la conexión en el estado del objeto de visita 642. El objeto de visita 642, a su vez, invoca un procedimiento en la aplicación de análisis de tráfico 652 para procesar la información recuperada por el sistema de muestreo de tráfico 120. La aplicación de análisis de tráfico 652 almacena los datos procesados procedentes del sistema de anonimato 310 y el sistema de creación de mapas de sondeo 320 en el estado de los datos de análisis de tráfico 662 y la base de datos 200. Las Figuras 7A y 7B describen, con mayor detalle, el proceso que sigue la aplicación de análisis de tráfico 652 para cada URL 114, 116, 118 obtenido del sistema de muestreo de tráfico 120. Aun cuando la Figura 6 representa el procesador central 616 controlando la aplicación de análisis de tráfico 652, ha de entenderse que la función realizada por la aplicación de análisis de tráfico 652 puede ser distribuida a un sistema separado configurado de manera similar al sistema de prevalencia publicitaria 130. When the traffic sampling system 120 finishes collecting information about a URL 114, 116, 118, it sends a message to the TCP / IP interface 622 that invokes a procedure to create a visitor object 642 and stores the information about the connection in the state of the visit object 642. The visit object 642, in turn, invokes a procedure in the traffic analysis application 652 to process the information retrieved by the traffic sampling system 120. The application of traffic analysis Traffic 652 stores the processed data from the anonymity system 310 and the polling map creation system 320 in the state of the traffic analysis data 662 and the database 200. Figures 7A and 7B describe, in greater detail , the process followed by the traffic analysis application 652 for each URL 114, 116, 118 obtained from the traffic sampling system 120. Even though Figure 6 represents the central processor 616 contro When the traffic analysis application 652 is understood, it is to be understood that the function performed by the traffic analysis application 652 can be distributed to a separate system configured similarly to the advertising prevalence system 130.

Después de que la aplicación de análisis de tráfico 652 procesa un URL 114, 116, 118 identificado por el sistema de muestreo de tráfico 120, el objeto de visita 642 invoca un procedimiento en la aplicación de muestreo de anuncios 654 para recuperar el URL 114, 116, 118 del sitio web 110. La aplicación de muestreo de anuncios 654 procesa la página web recuperada extrayendo los anuncios incrustados y clasificando esos anuncios. La aplicación de muestreo de anuncios 654 almacena los datos recuperados por el sistema de recuperación de páginas web 322 y procesados por el entorno de emulación de navegador web 324, el extractor de anuncios 326 y el clasificador estructural 328 en el estado de los datos de muestreo de anuncios 664 y la base de datos 200. Las Figuras 7A, 7C, 7D y 7E describen, con mayor detalle, el proceso que sigue la aplicación de muestreo de anuncios 654 para cada URL 114, 116, 118 identificado por el sistema de muestreo de tráfico 120. Aun cuando la Figura 6 representa el procesador central 616 controlando la aplicación de muestreo de anuncios 654, una persona experta en la materia se dará cuenta de que el procesamiento realizado por la aplicación de muestreo de anuncios 654 puede ser distribuida a un sistema separado configurado de manera similar al sistema de prevalencia publicitaria 130. After the traffic analysis application 652 processes a URL 114, 116, 118 identified by the traffic sampling system 120, the visit object 642 invokes a procedure in the advertisement sampling application 654 to retrieve the URL 114, 116, 118 of the website 110. The ad sampling application 654 processes the recovered web page by extracting the embedded ads and classifying those ads. The ad sampling application 654 stores the data retrieved by the web page recovery system 322 and processed by the web browser emulation environment 324, the ad extractor 326 and the structural classifier 328 in the state of the sampling data of ads 664 and database 200. Figures 7A, 7C, 7D and 7E describe, in greater detail, the process that follows the ad sampling application 654 for each URL 114, 116, 118 identified by the sampling system of traffic 120. Even though Figure 6 represents the central processor 616 controlling the ad sampling application 654, a person skilled in the art will realize that the processing performed by the ad sampling application 654 can be distributed to a separate system configured similarly to the advertising prevalence system 130.

Después de que la aplicación de análisis de tráfico 652 y el sistema de muestreo de anuncios 654 procesan el URL 114, 116, 118 identificado por el sistema de muestreo de tráfico 120, el objeto de visita 642 invoca un procedimiento en la aplicación de resumen estadístico 656 para calcular estadísticas de resumen para los datos. La aplicación de resumen estadístico 656 calcula estadísticas de impresión publicitaria, gastos y estadísticos de valoración para cada anuncio incrustado en el URL 114, 116, 118. La aplicación de resumen estadístico 656 almacena los datos estadísticos en el estado de los datos de resumen estadístico 666 y la base de datos 200. La Figura 7F describe, con mayor detalle, el proceso que sigue la aplicación de resumen estadístico 656 para cada URL 114, 116, 118 identificado por el sistema de muestreo de tráfico 120. Aun cuando la Figura 6 representa el procesador central 616 controlando la aplicación de resumen estadístico 656, una persona experta en la materia se da cuenta de que la función realizada por la aplicación de resumen estadístico 656 puede ser distribuida a un sistema separado configurado de manera similar al sistema de prevalencia publicitaria 130. After the traffic analysis application 652 and the ad sampling system 654 process the URL 114, 116, 118 identified by the traffic sampling system 120, the visitor object 642 invokes a procedure in the statistical summary application 656 to calculate summary statistics for the data. The statistical summary application 656 calculates advertising print statistics, expenses and valuation statistics for each ad embedded in URL 114, 116, 118. The statistical summary application 656 stores the statistical data in the state of the statistical summary data 666 and database 200. Figure 7F describes, in greater detail, the process followed by the statistical summary application 656 for each URL 114, 116, 118 identified by the traffic sampling system 120. Even though Figure 6 represents the central processor 616 controlling the statistical summary application 656, a person skilled in the art realizes that the function performed by the statistical summary application 656 can be distributed to a separate system configured similarly to the advertising prevalence system 130 .

La Figura 7A es un organigrama de un proceso en el sistema de prevalencia publicitaria 130 que mide el valor de los anuncios en línea rastreando y comparando la actividad publicitaria en línea a través de todas las principales industrias, canales, formatos publicitarios y tipos. El proceso 700 comienza, en la etapa 710, muestreando los datos de tráfico procedentes de la Internet 100. La Figura 7B describe la etapa 710 con mayor detalle. La etapa 720 usa los datos de tráfico muestreados de la etapa 710 para realizar la selección de sitios, y definir y refinar las definiciones de sitios para el sistema de prevalencia publicitaria 130. La etapa 730 usa el resultado del proceso de selección y definición de sitios para generar un mapa de sondeo basado en los datos de tráfico muestreados. La Figura 7C describe la etapa 730 con mayor detalle. La etapa 740 usa el mapa de sondeo de la etapa 730 para visitar la Internet 100 para reunir datos de muestras procedentes de los sitios de sondeo identificados en la etapa 730. La Figura 7D describe la etapa 740 con mayor detalle. Para cada URL recuperado en la etapa 740, la etapa 750 extrae los anuncios del URL, la etapa 760 clasifica cada anuncio, y la etapa 770 calcula las estadísticas para cada anuncio. Las Figuras 7E y 7F describen, respectivamente, las etapas 760 y 770 con mayor detalle. Por último, el proceso 700 realiza comprobaciones de integridad de datos en la etapa 780 para verificar la integridad de los datos y los resultados del análisis en el sistema. Figure 7A is a flow chart of a process in the advertising prevalence system 130 that measures the value of online advertisements by tracking and comparing online advertising activity across all major industries, channels, advertising formats and types. Process 700 begins, in step 710, sampling traffic data from Internet 100. Figure 7B describes step 710 in greater detail. Step 720 uses the traffic data sampled from step 710 to perform site selection, and define and refine site definitions for advertising prevalence system 130. Step 730 uses the result of the site selection and definition process. to generate a survey map based on sampled traffic data. Figure 7C describes step 730 in more detail. Step 740 uses the survey map of step 730 to visit the Internet 100 to collect sample data from the survey sites identified in step 730. Figure 7D describes step 740 in more detail. For each URL retrieved in stage 740, stage 750 extracts the ads from the URL, stage 760 classifies each ad, and stage 770 calculates the statistics for each ad. Figures 7E and 7F describe, respectively, steps 760 and 770 in greater detail. Finally, process 700 performs data integrity checks in step 780 to verify data integrity and analysis results in the system.

La Figura 7B es un organigrama que describe, con mayor detalle, el proceso de muestreo de datos de tráfico de la Figura 7A, etapa 710. El proceso 710 comienza en la etapa 711 reuniendo datos procedentes de un monitor de tráfico web como el sistema de muestreo de tráfico 120. El proceso 710 vacía la información de usuario de los datos recuperados por el monitor de tráfico web en la etapa 712 para depurar los datos y garantizar el anonimato de la muestra. Para cada URL de la muestra depurada, la etapa 713 mide el número de vistas de páginas web observadas en los datos de tráfico. La etapa 714 completa el proceso 710 extrapolando estadísticamente el número medido de vistas de páginas web en la muestra a todo el universo de la Internet 100. Figure 7B is an organization chart describing, in greater detail, the traffic data sampling process of Figure 7A, step 710. The process 710 begins in step 711 gathering data from a web traffic monitor such as the traffic system. Traffic sampling 120. Process 710 empties the user information from the data retrieved by the web traffic monitor in step 712 to debug the data and ensure the anonymity of the sample. For each URL of the purified sample, step 713 measures the number of web page views observed in the traffic data. Step 714 completes process 710 statistically extrapolating the measured number of web page views in the sample to the entire Internet universe 100.

La Figura 7C es un organigrama que describe, con mayor detalle, el proceso de generación de un mapa de sondeo basado en los datos de tráfico muestreados de la Figura 7A, etapa 730. El proceso 730 comienza en la etapa 731 analizando un subconjunto de los datos de tráfico muestreados que entra dentro de las definiciones de sitio elegibles. Después del análisis de la etapa 731, la etapa 732 construye un mapa de sondeo inicial basado en los datos de tráfico de muestra. La etapa 733 analiza los resultados históricos de mediciones de anuncios de la base de datos 200 para los URLs del mapa de sondeo inicial. La etapa 734 usa estos resultados históricos así como parámetros del sistema para optimizar el plan de muestreo. La etapa 735 completa el proceso 730 monitorizando los resultados de las muestras y ajustando el sistema según sea necesario. Figure 7C is a flow chart describing, in greater detail, the process of generating a survey map based on the traffic data sampled from Figure 7A, step 730. Process 730 begins in step 731 analyzing a subset of the Sampled traffic data that falls within the eligible site definitions. After the analysis of step 731, step 732 constructs an initial survey map based on the sample traffic data. Step 733 analyzes the historical results of ad measurements from database 200 for the URLs of the initial poll map. Step 734 uses these historical results as well as system parameters to optimize the sampling plan. Step 735 completes process 730 by monitoring the results of the samples and adjusting the system as necessary.

La Figura 7D es un organigrama que describe, con mayor detalle, el proceso de sondeo de la Internet 100 para reunir datos de muestra de la Figura 7A, etapa 740. El proceso 740 comienza en la etapa 741, buscando una página web de la Internet 100. La página web de la etapa 741 se pasa a un entorno de emulación de navegador web en la etapa 742 para simular la presentación de la página web en un navegador. Esta simulación permite al sistema de prevalencia publicitaria 130 detectar los anuncios incrustados en la página web. Estos anuncios pueden estar incrustados en código JavaScript, applet Java o código servlet, o código de interfaz de pasarela común como Perl script. Además, la simulación en la etapa 742 permite al sistema de prevalencia publicitaria 130 detectar anuncios dinámicos e interactivos en la página web. Después de la simulación en la etapa 742, la etapa 743 extrae los datos de anuncios de la página web y la etapa 744 almacena los datos de anuncios en la base de datos 200. La etapa 745 determina si el proceso 740 tiene que buscar otra página web para reunir más datos de muestras. En la realización preferida, el proceso 740 muestrea continuamente páginas web de la Internet 100. Una persona experta en la materia se da cuenta de que la funcionalidad llevada a cabo por la etapa 745 puede asociarse con un sistema de planificación que planificará el sondeo de la Internet 100 para reunir los datos publicitarios de muestra. Figure 7D is a flow chart describing, in greater detail, the polling process of the Internet 100 for collecting sample data of Figure 7A, step 740. The process 740 begins in step 741, searching for a web page of the Internet. 100. The web page of step 741 is passed to a web browser emulation environment in step 742 to simulate the presentation of the web page in a browser. This simulation allows the advertising prevalence system 130 to detect the ads embedded in the website. These ads can be embedded in JavaScript code, Java applet or servlet code, or common gateway interface code such as Perl script. In addition, the simulation in step 742 allows the advertising prevalence system 130 to detect dynamic and interactive advertisements on the website. After the simulation in step 742, step 743 extracts the ad data from the web page and step 744 stores the ad data in the database 200. Step 745 determines whether process 740 has to search for another page. web to gather more sample data. In the preferred embodiment, process 740 continuously samples web pages of the Internet 100. A person skilled in the art realizes that the functionality carried out by step 745 can be associated with a planning system that will plan the sounding of the Internet 100 to collect sample advertising data.

La Figura 7E es un organigrama que describe, con mayor detalle, el proceso de clasificación de los datos publicitarios de la Figura 7A, etapa 760. El proceso 760 comienza el análisis de fragmentos de anuncios en la etapa 761 determinando si el fragmento es un duplicado. Cuando el sistema de prevalencia publicitaria 130 encuentra un fragmento de anuncio por primera vez, la etapa 762 analiza la estructura interna del fragmento. Después de la etapa 762, o cuando la etapa 761 determina que el fragmento de anuncio es un duplicado, la etapa 763 recupera el contenido externo del anuncio de la página web. La etapa 764 compara entonces el contenido externo con los anuncios observados previamente. La etapa 765 analiza el resultado de la comparación de la etapa 764 para determinar si el anuncio es un duplicado. Cuando el sistema de prevalencia publicitaria 130 encuentra un anuncio por primera vez, la etapa 766 comienza a procesar el nuevo anuncio registrando la estructura del nuevo anuncio en la base de datos 200. La etapa 767 realiza entonces la clasificación automatizada de anuncios y almacena los tipos de clasificación en la base de datos 200. La etapa 768 completa el procesamiento de un nuevo anuncio realizando la verificación humana de las clasificaciones de anuncios. Después de la etapa 768, o cuando la etapa 765 determina que el anuncio es un duplicado, la etapa 769 actualiza el registro de vistas de anuncios en la base de datos 200 para indicar la observación del anuncio. Figure 7E is an organization chart that describes, in greater detail, the process of classifying the advertising data of Figure 7A, step 760. Process 760 begins the analysis of ad fragments in step 761 determining whether the fragment is a duplicate . When the advertising prevalence system 130 finds an advertisement fragment for the first time, step 762 analyzes the internal structure of the fragment. After step 762, or when step 761 determines that the ad fragment is a duplicate, step 763 retrieves the external content of the ad from the web page. Step 764 then compares the external content with the previously observed advertisements. Step 765 analyzes the result of the comparison of step 764 to determine if the ad is a duplicate. When the advertising prevalence system 130 finds an advertisement for the first time, step 766 begins processing the new advertisement by registering the structure of the new advertisement in database 200. Step 767 then performs the automated classification of advertisements and stores the types of classification in database 200. Step 768 completes the processing of a new advertisement by performing the human verification of the advertisement classifications. After step 768, or when step 765 determines that the ad is a duplicate, step 769 updates the record of ad views in the database 200 to indicate the observation of the ad.

La Figura 7F es un organigrama que describe, con mayor detalle, el proceso de cálculo de estadísticas publicitarias de la Figura 7A, etapa 770. El proceso 770 comienza el cálculo de las estadísticas publicitarias en la etapa 771 resumiendo los resultados de las mediciones publicitarias. En la etapa 772, el proceso 770 usa el mapa de sondeo generado en la etapa 730 para ponderar los resultados de las mediciones publicitarias. La frecuencia de anuncios se calcula en la etapa 773 para cada solicitud de página web. La etapa 774 usa los datos de tráfico de muestra de la etapa 710 y la frecuencia de anuncios de la etapa 773 para calcular las impresiones publicitarias para cada anuncio. La etapa 775 completa el proceso 770 calculando los gastos de anuncios combinando las impresiones publicitarias de la etapa 774 y los datos de lista de tarifas introducidos por el editor de medios 264 con el módulo de recopilación de listas de tarifas 348 de la interfaz de usuario 240. Figure 7F is an organization chart that describes, in greater detail, the process of calculating advertising statistics of Figure 7A, step 770. Process 770 begins the calculation of advertising statistics in step 771 summarizing the results of the advertising measurements. In step 772, process 770 uses the survey map generated in step 730 to weigh the results of the advertising measurements. Ad frequency is calculated in step 773 for each web page request. Step 774 uses the sample traffic data from step 710 and the ad frequency from step 773 to calculate the advertising impressions for each ad. Step 775 completes process 770 by calculating ad expenses by combining the advertising impressions of step 774 and the rate list data entered by the media editor 264 with the rate list collection module 348 of the user interface 240 .

Aunque las realizaciones desveladas en la presente invención describen un sistema totalmente funcional, ha de entenderse que existen otras realizaciones que son equivalentes a las realizaciones desveladas en este documento. Como a quienes revisen la presente solicitud se les ocurrirán numerosas modificaciones y variaciones, la presente invención no está limitada a la construcción y el funcionamiento exactos ilustrados y descritos en este documento. Por consiguiente, se pretende que todas las modificaciones y equivalentes adecuados a los que pueda recurrirse entren dentro del alcance de las reivindicaciones. Although the embodiments disclosed in the present invention describe a fully functional system, it is to be understood that there are other embodiments that are equivalent to the embodiments disclosed herein. As many revisions and variations will occur to those who review the present application, the present invention is not limited to the exact construction and operation illustrated and described herein. Accordingly, it is intended that all modifications and suitable equivalents that may be resorted to fall within the scope of the claims.

Claims (18)

REIVINDICACIONES
1.one.
Un procedimiento para estimar la prevalencia de contenido digital en una red, comprendiendo el procedimiento:  A procedure to estimate the prevalence of digital content in a network, the procedure comprising:
recibir (710) una estimación de un número de veces que se ha accedido a una página web (110; 110’; 110”; 411416; 421-424); solicitar repetidamente (740) la página web (110; 110’; 110”; 411-416; 421-424) y, en respuesta, recibir archivos de contenido; determinando (750) un número de veces que un primer objeto de contenido (A1; A2; A3) está incluido en los archivos de contenido; determinando (770) un número total de veces que la página web (110; 110’; 110”; 411-416; 421-424) ha sido solicitada; y estimando (773, 774) el número de veces que el primer objeto de contenido (A1; A2; A3) ha sido presentado a los visitantes de la página web basado en el número de veces que el primer objeto de contenido (A1; A2; A3) fue incluido en los archivos de contenido, el número total de veces que la página web (110; 110’; 110”; 411-416; 421424) fue solicitada, y la estimación del número de veces que se ha accedido a la página web (110; 110’; 110”; 411416; 421-424). receive (710) an estimate of a number of times a web page has been accessed (110; 110 ’; 110”; 411416; 421-424); repeatedly request (740) the website (110; 110 ’; 110”; 411-416; 421-424) and, in response, receive content files; determining (750) a number of times that a first content object (A1; A2; A3) is included in the content files; determining (770) a total number of times that the website (110; 110 ’; 110”; 411-416; 421-424) has been requested; and estimating (773, 774) the number of times that the first content object (A1; A2; A3) has been presented to website visitors based on the number of times the first content object (A1; A2 ; A3) was included in the content files, the total number of times the web page (110; 110 '; 110 "; 411-416; 421424) was requested, and the estimate of the number of times that access to the website (110; 110 '; 110 "; 411416; 421-424).
2.2.
Un procedimiento según la reivindicación 1, en el que al menos una parte de la estimación del número de veces que se ha accedido a la página web (110; 110’; 110”; 411-416; 421-424) es recibida desde un proxy.  A method according to claim 1, wherein at least a part of the estimate of the number of times the website has been accessed (110; 110 '; 110 "; 411-416; 421-424) is received from a proxy
3.3.
Un procedimiento según la reivindicación 1, en el que el procedimiento es realizado por un sistema de prevalencia publicitaria (130).  A method according to claim 1, wherein the procedure is performed by an advertising prevalence system (130).
4.Four.
Un procedimiento según la reivindicación 1, en el que al menos una parte de la estimación del número de veces que se ha accedido a la página web (110; 110’; 110”; 411-416; 421-424) es recibida desde al menos un ordenador de panelista.  A method according to claim 1, wherein at least a portion of the estimate of the number of times the website has been accessed (110; 110 '; 110 "; 411-416; 421-424) is received from at least a panelist computer.
5.5.
Un procedimiento según la reivindicación 1, en el que el objeto de contenido (A1; A2; A3) es un anuncio.  A method according to claim 1, wherein the content object (A1; A2; A3) is an advertisement.
6.6.
Un procedimiento según la reivindicación 1, en el que estimar el número de veces que el primer objeto de contenido ha sido presentado a los visitantes comprende:  A method according to claim 1, wherein estimating the number of times the first content object has been presented to visitors comprises:
determinando (773) una tasa de rotación para el objeto de contenido dividiendo el número total de veces que la página web fue solicitada por el número de veces que el primer objeto de contenido fue incluido en los archivos de contenido; determinando (774) el número de veces que el primer objeto de contenido ha sido presentado a los visitantes multiplicando la estimación del número de veces que se ha accedido a la página web por la tasa de rotación. determining (773) a rotation rate for the content object by dividing the total number of times the web page was requested by the number of times the first content object was included in the content files; determining (774) the number of times that the first content object has been presented to visitors by multiplying the estimate of the number of times the website has been accessed by the rotation rate.
7.7.
Un sistema para estimar la prevalencia de contenido digital en una red, comprendiendo el sistema:  A system to estimate the prevalence of digital content in a network, the system comprising:
un dispositivo de estimación (210) para determinar una estimación de un número de veces que se ha accedido a una página web (110; 110’; 110”; 411-416; 421-424); un sondeador (220) para solicitar repetidamente la página web (110; 110’; 110”; 411-416; 421-424) y, en respuesta, recibir archivos de contenido; un sistema de resumen estadístico (230) para determinar un número de veces que un primer objeto de contenido (A1; A2; A3) está incluido en los archivos de contenido, determinar un número total de veces que la página web (110; 110’; 110”; 411-416; 421-424) ha sido solicitada, y estimar el número de veces que el primer objeto de contenido (A1; A2; A3) ha sido presentado a los visitantes de la página web basado en el número de veces que el primer objeto de contenido (A1; A2; A3) fue incluido en los archivos de contenido, el número total de veces que la página web (110; 110’; 110”; 411-416; 421-424) fue solicitada, y la estimación del número de veces que se ha accedido a la página web (110; 110’; 110”; 411-416; 421-424) . an estimation device (210) for determining an estimate of a number of times a web page has been accessed (110; 110 ’; 110”; 411-416; 421-424); a poller (220) to repeatedly request the web page (110; 110 ’; 110”; 411-416; 421-424) and, in response, receive content files; a statistical summary system (230) to determine a number of times that a first content object (A1; A2; A3) is included in the content files, determine a total number of times that the web page (110; 110 ' ; 110 ”; 411-416; 421-424) has been requested, and estimate the number of times the first content object (A1; A2; A3) has been submitted to visitors to the website based on the number of times that the first content object (A1; A2; A3) was included in the content files, the total number of times the web page (110; 110 '; 110 ”; 411-416; 421-424) was requested , and the estimate of the number of times the website has been accessed (110; 110 '; 110 "; 411-416; 421-424).
8.8.
Un sistema según la reivindicación 7, en el que al menos una parte de la estimación del número de veces que se ha accedido a la página web (110; 110’; 110”; 411-416; 421-424) es recibida desde un proxy.  A system according to claim 7, wherein at least a portion of the estimate of the number of times the website has been accessed (110; 110 '; 110 "; 411-416; 421-424) is received from a proxy
9.9.
Un sistema según la reivindicación 7, en el que el sistema es un sistema de prevalencia publicitaria (130).  A system according to claim 7, wherein the system is an advertising prevalence system (130).
10.10.
Un sistema según la reivindicación 7, en el que al menos una parte de la estimación del número de veces que se ha accedido a la página web (110; 110’; 110”; 411-416; 421-424) es recibida desde al menos un ordenador de panelista.  A system according to claim 7, wherein at least a portion of the estimate of the number of times the website has been accessed (110; 110 '; 110 "; 411-416; 421-424) is received from at least a panelist computer.
11.eleven.
Un sistema según la reivindicación 7, en el que el objeto de contenido (A1; A2; A3) es un anuncio.  A system according to claim 7, wherein the content object (A1; A2; A3) is an advertisement.
12.12.
Un sistema según la reivindicación 7, en el que el sistema de resumen estadístico estima el número de veces que el primer objeto de contenido ha sido presentado a los visitantes:  A system according to claim 7, wherein the statistical summary system estimates the number of times the first content object has been presented to visitors:
determinando (773) una tasa de rotación para el objeto de contenido dividiendo el número total de veces que la página web fue solicitada por el número de veces que el primer objeto de contenido fue incluido con los archivos de contenido; determinando (774) el número de veces que el primer objeto de contenido ha sido presentado a los visitantes multiplicando la estimación del número de veces que se ha accedido a la página web por la tasa de rotación. determining (773) a rotation rate for the content object by dividing the total number of times the web page was requested by the number of times the first content object was included with the content files; determining (774) the number of times that the first content object has been presented to visitors by multiplying the estimate of the number of times the website has been accessed by the rotation rate.
13.13.
Un medio legible por una máquina que almacena instrucciones que, cuando son ejecutadas hacen que una máquina al menos:  A medium readable by a machine that stores instructions that, when executed, cause a machine to at least:
reciba (710) una estimación de un número de veces que se ha accedido a una página web (110; 110’; 110”; 411416; 421-424); solicite repetidamente (740) la página web y, en respuesta, reciba archivos de contenido; determine (750) un número de veces que un primer objeto de contenido (A1; A2; A3) está incluido en los archivos de contenido; determine (770) un número total de veces que la página web (110; 110’; 110”; 411-416; 421-424) ha sido solicitada; y estime (773, 774) el número de veces que el primer objeto de contenido (A1; A2; A3) ha sido presentado a los visitantes de la página web basado en el número de veces que el primer objeto de contenido (A1; A2; A3) fue incluido en los archivos de contenido, el número total de veces que la página web (110; 110’; 110”; 411-416; 421424) fue solicitada, y la estimación del número de veces que se ha accedido a la página web (110; 110’; 110”; 411416; 421-424). receive (710) an estimate of a number of times a web page has been accessed (110; 110 ’; 110”; 411416; 421-424); repeatedly request (740) the web page and, in response, receive content files; determine (750) a number of times that a first content object (A1; A2; A3) is included in the content files; determine (770) a total number of times the web page (110; 110 ’; 110”; 411-416; 421-424) has been requested; and estimate (773, 774) the number of times that the first content object (A1; A2; A3) has been presented to website visitors based on the number of times the first content object (A1; A2 ; A3) was included in the content files, the total number of times the web page (110; 110 '; 110 ”; 411-416; 421424) was requested, and the estimate of the number of times that access to the website (110; 110 '; 110 "; 411416; 421-424).
14.14.
Un medio legible por una máquina según la reivindicación 13, en el que al menos una parte de la estimación del número de veces que se ha accedido a la página web (110; 110’; 110”; 411-416; 421-424) es recibida desde un proxy.  A machine-readable medium according to claim 13, wherein at least a portion of the estimate of the number of times the website has been accessed (110; 110 '; 110 "; 411-416; 421-424) It is received from a proxy.
15.fifteen.
Un medio legible por una máquina según la reivindicación 13, en el que las instrucciones almacenadas en el medio legible por una máquina son ejecutadas por un sistema de prevalencia publicitaria (130).  A machine-readable medium according to claim 13, wherein the instructions stored in the machine-readable medium are executed by an advertising prevalence system (130).
16.16.
Un medio legible por una máquina según la reivindicación 13, en el que al menos una parte de la estimación del número de veces que se ha accedido a la página web (110; 110’; 110”; 411-416; 421-424) es recibida desde al menos un ordenador de panelista.  A machine-readable medium according to claim 13, wherein at least a portion of the estimate of the number of times the website has been accessed (110; 110 '; 110 "; 411-416; 421-424) It is received from at least one panelist computer.
17.17.
Un medio legible por una máquina según la reivindicación 13, en el que el objeto de contenido (A1; A2; A3) es un anuncio.  A machine-readable medium according to claim 13, wherein the content object (A1; A2; A3) is an advertisement.
18.18.
Un medio legible por una máquina según la reivindicación 13, en el que las instrucciones almacenadas en el medio legible por una máquina estiman el número de veces que el primer objeto de contenido ha sido presentado a los visitantes:  A machine-readable medium according to claim 13, wherein the instructions stored in the machine-readable medium estimate the number of times the first content object has been presented to visitors:
determinando (773) una tasa de rotación para el objeto de contenido dividiendo el número total de veces que la página web fue solicitada por el número de veces que el primer objeto de contenido fue incluido en los archivos de contenido; determinando (774) el número de veces que el primer objeto de contenido ha sido presentado a los visitantes multiplicando la estimación del número de veces que se ha accedido a la página web por la tasa de rotación. determining (773) a rotation rate for the content object by dividing the total number of times the web page was requested by the number of times the first content object was included in the content files; determining (774) the number of times that the first content object has been presented to visitors by multiplying the estimate of the number of times the website has been accessed by the rotation rate.
ES00980233T 2000-01-12 2000-10-25 SYSTEM AND PROCEDURE TO ESTIMATE THE PREVALENCE OF DIGITAL CONTENT ON THE WORLD-WIDE-WEB. Expired - Lifetime ES2371404T3 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17566500P 2000-01-12 2000-01-12
US175665P 2000-01-12
US231195P 2000-09-07

Publications (1)

Publication Number Publication Date
ES2371404T3 true ES2371404T3 (en) 2012-01-02

Family

ID=45329905

Family Applications (1)

Application Number Title Priority Date Filing Date
ES00980233T Expired - Lifetime ES2371404T3 (en) 2000-01-12 2000-10-25 SYSTEM AND PROCEDURE TO ESTIMATE THE PREVALENCE OF DIGITAL CONTENT ON THE WORLD-WIDE-WEB.

Country Status (1)

Country Link
ES (1) ES2371404T3 (en)

Similar Documents

Publication Publication Date Title
EP1252735B1 (en) System and method for estimating prevalence of digital content on the world-wide-web
US10970726B2 (en) Measurements based on panel and census data
US8370202B2 (en) Audience segment estimation
US6466970B1 (en) System and method for collecting and analyzing information about content requested in a network (World Wide Web) environment
US8682718B2 (en) Click fraud detection
US11341510B2 (en) Determining client system attributes
US20050086105A1 (en) Optimization of advertising campaigns on computer networks
US20010054001A1 (en) System and method for advertising
US20120042051A1 (en) System and Method for Monitoring and Analyzing Internet Traffic
US20090187520A1 (en) Demographics from behavior
US10552996B2 (en) Systems and techniques for determining associations between multiple types of data in large data sets
US20030041143A1 (en) Internet tool
CN106228391A (en) The method and system of monitoring of the advertisement
US20130173793A1 (en) System and method for traffic analysis
Frhan Website clickstream data visualization using improved Markov chain modelling in apache flume
ES2371404T3 (en) SYSTEM AND PROCEDURE TO ESTIMATE THE PREVALENCE OF DIGITAL CONTENT ON THE WORLD-WIDE-WEB.
US9787786B1 (en) Determining device counts
Liu et al. Web usage mining for electronic business applications
JP2002149546A (en) Banner advertisement system and method for managing banner advertisement
Jamalzadeh Analysis of clickstream data
AU2015213416B2 (en) Audience segment estimation
EP4179493A1 (en) Identification and management of cannibalistic ads to improve internet advertising efficiency
Dalal et al. Ch. 12. The promise and challenge of mining web transaction data
Frhan A Model of Website Usage Visualization Estimated on Clickstream Data with Apache Flume Using Improved Markov Chain Approximation
Dalal et al. The Promise and Challenge of Mining Web