DE602005001940T2

DE602005001940T2 - Verfahren und system zur erzeugung einer für eine menge von benutzern eines kommunikationsnetzes repräsentativen population

Info

Publication number: DE602005001940T2
Application number: DE602005001940T
Authority: DE
Inventors: Sunny Paris
Original assignee: Weborama
Current assignee: Weborama
Priority date: 2004-04-22
Filing date: 2005-04-20
Publication date: 2008-05-08
Anticipated expiration: 2025-04-21
Also published as: ATE369679T1; EP1738524A1; US20080195609A1; EP1738524B1; FR2869488A1; DE602005001940D1; WO2005104436A1; FR2869488B1

Description

Das Anwendungsgebiet dieser Erfindung ist die Untersuchung von Verhaltensprofilen von Internetbenutzern oder Benutzern eines anderen Kommunikationsnetzwerks.
Die Erfindung betrifft im Spezielleren ein Verfahren und System, um zu gewährleisten, dass eine bekannte und qualifizierte Benutzerpopulation repräsentativ ist.
Internet-Dienstanbieter (engl.: Serviceprovider) einschließlich von Regierungskörperschaften, Werbetreibenden, elektronischen Händlern (engl.: e-traders), Softwareverlagen und im Allgemeineren Großhändlern für Multimediainhalte würden gerne die Multimediainhalte, die sie anbieten, als Funktion des Profils jedes Internet-Benutzers dynamisch anpassen, um deren Effizienz zu optimieren. Zum Beispiel würden sie gerne in der Lage sein, Werbeeinblendungen so anzuzeigen, dass sie zu dem Profil jedes Internet-Benutzers passen, der eine Stelle (engl.: site) besucht, oder um abhängig vom Typ des Internet-Benutzers unterschiedliche Produkte hervorzuheben.
Verfahren, um das Profil eines unbekannten Internet-Benutzers zu ermitteln (oder Profilerstellungsverfahren) sind bekannt, die üblicherweise eine Datenbasis verwenden, die Information über die Internet-Benutzer enthält, die Mitglieder einer sogenannten Referenzpopulation sind.
Das Dokument WO 02/33626 liefert ein Beispiel eines solchen Profilerstellungsverfahrens, gemäß dem eine aus Internet-Benutzern mit bekannten soziodemographischen Profilen gebildete Referenzpopulation verwendet wird, um Gruppen von unterscheidenden URL-Adressen für eine Gruppe von Attributen (zum Beispiel einschließlich Alter oder Geschlecht) zu ermitteln. Diese Gruppen von so ermittelten URL-Adressen können dann verwendet werden, um eine jedem Attribut zugeordnete Bewertung für einen unbekannten Internet-Benutzer zu ermitteln, wobei diese Bewertung als Funktion der URL-Adressen berechnet wird, die der unbekannte Internet-Benutzer angesehen hat.
Im Allgemeinen umfasst die Referenzpopulation freiwillige Internet-Benutzer, die zustimmen, diese betreffende Profilinformation (wie z.B. Alter, Geschlecht, sozial-berufliche Gruppe, Schwerpunkte des Interesses, Familiensituation, etc.) bereitzustellen.
Diese Referenzpopulation wird dann dahingehend qualifiziert, dass jedem ihrer Mitglieder Profildaten zugeordnet werden.
Diese Internet-Benutzer können zum Beispiel per Telefon gemäß soziodemographischen Kriterien rekrutiert werden, die als repräsentativ für eine globale Population betrachtet werden (zum Beispiel die Population von Internet-Benutzern in einem Land). Eine Überwachungssoftware (engl.: spyware) und ein Cookie (oder ein Verbindungsstandard) können an der Durchsuchstation (engl.: browsing station) jedes Benutzers der Referenz-Internet-Benutzerpopulation installiert werden.
Das Cookie enthält Identifikationsinformation für Internet-Benutzer.
Die Funktion der Überwachungssoftware besteht darin, von dem Internet-Benutzer vorgenommenes Suchvorgänge aufzuzeichnen, mit anderen Worten, die unterschiedlichen Stellen (Sites) oder Teile von Stellen (engl.: Parts of sites), die er während einer Zeitdauer auch besucht. Die Überwachungssoftware überträgt regelmäßig Information über den Suchverlauf von Mitgliedern der Referenzpopulation zu einem profilerstellenden System.
Es ist zu beachten, dass es auch möglich ist, Benutzer Fragen zu stellen, während sie suchen, um so diese betreffende soziodemographische Information zu erhalten.
Abhängig von den unterschiedlichen, von den Mitgliedern der Referenzpopulation besuchten Websites vermag das profilerstellende System dann statistisch das Profil von unbekannten Internet-Benutzern statistisch zu ermitteln, die eine Verbindung mit einer speziellen im Interesse stehenden Stelle (Site) herstellen.
Es ist klar verständlich, dass eine Profilerstellung mit hoher Qualität solange unmöglich ist, bis es eine ausreichend große und statistisch repräsentative Population einer Gruppe qualifizierter Internet-Benutzer verfügbar ist (zum Beispiel französische Internet-Benutzer oder Internet-Benutzer, die einen Browser in französisch verwenden, oder in der Nacht Verbindung herstellende Internet-Benutzer etc.).
Die Repräsentativität gewährleistet, dass das Verhalten eines bekannten Internet-Benutzers dem Verhalten von unbekannten Internet-Benutzern entspricht, von denen angenommen wird, dass sie von dem bekannten Internet-Benutzer repräsentiert werden.
Es ist verständlich, dass es relativ einfach ist, eine qualifizierte Population zu bilden, indem zum Beispiel Internet-Benutzer Fragen gestellt werden, während sie suchen, oder indem erreicht wird, dass sie, wie zuvor erwähnt, Software auf ihrem Computer installieren.
Es ist jedoch deutlich schwerer, zu gewährleisten, dass die betroffene Population repräsentativ ist.
Es gibt einen Unterschied zwischen der aus freiwilligen Internet-Benutzern zusammengesetzten Referenzpopulation und der realen Population, die sie repräsentieren soll.
Es ist darauf zu achten, dass eine Population, die einen Internet-Benutzer unter n Internet-Benutzern repräsentiert, als repräsentativ betrachtet werden kann, wenn im Mittel Internet-Benutzer in dieser repräsentativen Population bei n Besuchen jeder Stelle (Site) in einer Gruppe von im Interesse stehenden Stellen (Sites) einen Besuch macht.
Mit anderen Worten, der Anteil von Benutzermitgliedern der repräsentativen Population unter der Gruppe von repräsentierten Benutzern, die die Stelle (Site) während einer vorgegebenen Zeitdauer besucht haben, ist im Mittel für alle berücksichtigen im Interesse stehenden Stellen (Sites) gleich.
Ein Zweck der Erfindung besteht darin, ausgehend von einer qualifizierten Population eine repräsentative Population zu bilden.
Im Spezielleren besteht ein weiterer Zweck der Erfindung darin, zu gewährleisten, dass eine Referenzpopulation ausgehend von dieser einzelnen Referenzpopulation repräsentativ ist, insbesondere ohne dabei eine Rahmenstudie durchführen oder Profildaten verwenden zu müssen, die bekannte Benutzer in der Referenzpopulation betreffen.
Um dies zu erreichen, beschreibt die Erfindung gemäß einem ersten Aspekt der Erfindung ein Verfahren, eine Population, die für das Verhalten einer Gruppe von Benutzern eines Kommunikationsnetzwerks repräsentativ ist, ausgehend von einer Referenzpopulation zu erzeugen, die aus bekannten in einer Datenbasis aufgeführten Netzwerkbenutzern zusammengesetzt ist, welches dadurch gekennzeichnet ist, dass es die Schritte bestehend aus umfasst:
Ermitteln für jede Stelle oder Teil einer Stelle in einer Gruppe von Stellen von Interesse, die über das Netzwerk verfügbar sind, die Anzahl von Benutzern (N(s)), die mit der Stelle oder dem Teil einer Stelle (s) während einer vorgegebenen Zeitdauer (T) verbunden sind, unter Verwendung eines Datenverkehrsanalysesystems, das zum Analysieren von Datenverkehr an Stellen von Interesse mit dem Netzwerk verbunden ist;
Ermitteln für jede Stelle oder Teil einer Stelle einer theoretischen Anzahl (q ~(s)) von Benutzern, so dass das Verhältnis zwischen dieser theoretischen Anzahl (q ~(s)) von Benutzern und der Anzahl von Benutzern (N(s)), die mit der Stelle (s) während der vorgegebenen Zeitdauer (T) verbunden sind, an allen Stellen von Interesse gleich ist;
Verwenden einer Verarbeitungseinrichtung, die mit der Datenbasis verbunden ist, um ausgehend von der Referenzpopulation eine Population bekannter Netzwerkbenutzer zu erzeugen, um an allen Stellen oder Teilen einer Stelle (s) den Unterschied zwischen der theoretischen Anzahl von Benutzern (q ~(s)) und der Anzahl von Benutzern (q_n(s)) in der erzeugten Population zu minimieren, die mit der Stelle (s) während der Zeitdauer (T) verbunden sind.
Es ist zu beachten, dass der Ausdruck "Teil von Stellen" (engl.: Part of sites) in dieser Beschreibung eine Seite (engl.: Page) oder eine Gruppe von Seiten angibt, die zu der gleichen Stelle gehören und eine thematische Einheit für die Anwendung des Verfahrens bilden.
Die folgenden Aspekte sind bevorzugte, aber nicht einschränkende Aspekte der Verfahrens gemäß dem ersten Aspekt der Erfindung:
eine Wichtung wird jedem bekannten Benutzer in der Referenzpopulation während des Schritts zugeordnet, ausgehend von der Referenzpopulation die Population bekannter Netzwerkbenutzer zu erzeugen;
der Schritt, die Population zu erzeugen, wird iterativ wie folgt durchgeführt:
die Benutzern in der Referenzpopulation zugeordneten Wichtungen werden während jeder Iteration variiert;
für jede Iteration werden die so variierten Wichtungen verwendet, um ausgehend von der Referenzpopulation eine neue Population zu erzeugen;
und für jede Iteration wird an allen Stellen (s) oder Teilen einer Stelle (s) der Unterschied zwischen der theoretischen Anzahl (q ~(s)) von Benutzern und der Anzahl (q_n(s)) von Benutzern in der so erzeugten neuen Population, die während der Zeitdauer (T) mit der Stelle (s) verbunden sind, ermittelt;
wobei die Iterationen fortgesetzt werden, bis der Unterschied kleiner als ein vorgegebener Grenzwert ist, wobei die während der letzten Iteration erzeugte Population als für das Verhalten der Gruppe von Benutzern repräsentativ betrachtet wird.

– Während jeder Iteration ist die neu erzeugte Population eine Unterpopulation der Population, die durch zufälliges Wählen von Benutzern in der Referenzpopulation erhalten wird, wobei die Wahrscheinlichkeit, jeden Benutzer in der Referenzpopulation zu wählen, gleich der diesem zugeordneten Wichtung ist, wobei jeder so gewählte Internet-Benutzer vollständig in der erzeugten Population gezählt wird.
– Während jeder Iteration ist die neu erzeugte Population eine Population mit genau der gleichen Größe wie die Referenzpopulation, wobei das Gewicht jedes Internet-Benutzers gleich der diesem zugeordneten Wichtung ist.
– Bei jeder Iteration wird die einem Benutzer in der Referenzpopulation zugeordnete Wichtung vergrößert, wenn er für eine vorgegebene Zeitdauer eine Verbindung mit Stellen hergestellt hat, für die die Anzahl von Benutzern in der Referenzpopulation, die mit diesen eine Verbindung hergestellt haben, kleiner als die theoretische Anzahl ist, wobei ansonsten die Wichtung verringert.
– Das Verfahren umfasst einen vorgelagerten Schritt, um von dem Datenverkehrsanalysesystem gesammelte Verkehrsdaten zu filtern, um nur die Daten zu berücksichtigen, die alle Benutzer betreffen, für die eine für das Verhalten repräsentative Population erzeugt werden soll.

Gemäß einem zweiten Aspekt betrifft die Erfindung auch ein System zum Erzeugen einer Population von Benutzern eines Kommunikationsnetzwerks, die für das Verhalten einer Gruppe von Netzwerkbenutzern repräsentativ ist, ausgehend von einer repräsentativen, aus bekannten Netzwerk-Benutzern zusammengesetzten Referenzpopulation, dadurch gekennzeichnet, dass es umfasst:
ein Hauptrechner (101), der eine repräsentative Population erzeugt, ist mit dem Netzwerk verbunden und weist eine Verarbeitungseinrichtung auf, die mit einer Datenbasis verbuni den ist, die bekannte Benutzer in der Referenzpopulation aufführt;
ein mit dem Datenverkehrsanalysenetzwerk verbundenes, Datenverkehr an Stellen von Interesse analysierendes System (600), das für jede Stelle oder Teil einer Stelle von allen Stellen von Interesse, die über das Netzwerk erreichbar sind, die Gesamtanzahl von Benutzern (N(s)), die mit der Stelle oder Teil einer Stelle (s) während einer vorgegebenen Zeitdauer (T) verbunden sind, zu ermitteln und zu unterscheiden vermag, welche dieser Benutzer Mitglieder der Referenzpopulation sind,
wobei die Verarbeitungseinrichtung vermag:
für jede Stelle oder Teil einer Stelle eine theoretische Anzahl von Benutzern zu erzeugen, so dass das Verhältnis zwischen dieser theoretischen Anzahl von Benutzern und der Gesamtanzahl von Benutzern, die während der vorgegebenen Zeitdauer (T) mit der Stelle verbunden sind, an allen Stellen von Interesse gleich ist;
ausgehend von der Referenzpopulation eine Population von bekannten Netzwerkbenutzern zu erzeugen, um den Unterschied zwischen der theoretischen Anzahl von Benutzern und der Anzahl von Benutzern in der erzeugten Population, die während der Zeitdauer mit der Stelle verbunden sind, für alle Stellen oder Teile einer Stelle zu minimieren.
Gemäß einem weiteren Aspekt betrifft die Erfindung ein Verfahren, um das Profil eines Benutzers eines Kommunikationsnetzwerks zu ermitteln, das einen Schritt umfasst, ausgehend von einer Referenzpopulation unter Verwendung des Verfahrens gemäß dem ersten Aspekt der Erfindung eine repräsentative Population zu erzeugen.
Gemäß einem weiteren Aspekt betrifft die Erfindung ein System zum Ermitteln des Profils eines Benutzers eines Kommunikationsnetzwerks mit einem System, um eine repräsentative Population gemäß dem zweiten Aspekt der Erfindung zu erzeugen.
Weitere Eigenschaften, Zwecke und Vorteile der Erfindung werden aus der folgenden Beschreibung ersichtlich, die ausschließlich veranschaulichend und in keiner Weise einschränkend ist und unter Bezugnahme auf die einzelne beigefügte Figur gelesen werden sollte. Diese 1 ist ein Diagramm, das ein System in Übereinstimmung mit einer möglichen Ausführungsform der Erfindung, ausgehend von einer aus bekannten Benutzern zusammengesetzten Referenzpopulation eine für das Verhalten einer Gruppe von Benutzern eines Kommunikationsnetzwerks repräsentative Population zu erzeugen, repräsentiert.
In der Figur ist das System 100, das ausgehend von einer Referenzpopulation eine repräsentative Population erzeugt, mit einem Kommunikationsnetzwerk 200 (wie zum Beispiel das Internet) verbunden, mit dem eine Gruppe 300 von Web-Hauptrechnern (engl.: Web-Servers) von Interesse 301, 302, 303 verbunden ist.
Jeder Web-Hauptrechner unterhält eine Stelle (Site) oder Multimediainhalte, die Benutzern 400, 500 des Netzwerks 200 (die Internet-Benutzer) über einen Service-Provider verfügbar gemacht werden.
Das System 100 zum Erzeugen einer repräsentativen Population umfasst einen Verarbeitungshauptrechner 100, der mit dem Netzwerk 200 und einer Datenbasis 102 verbunden ist, die Mitglieder einer Referenz-Internet-Benutzerpopulation 500 betreffende Information aufführt.
Diese Information umfasst Profildaten über den Internet-Benutzer (typischerweise dessen Alter, Geschlecht, sozialberufliche Gruppe, etc.) und den Internet-Benutzeridentifizierende Information (wie zum Beispiel eine eindeutige Identifikation).
Der Verarbeitungshauptrechner 101 umfasst eine Verarbeitungsrichtung, die ausgehend von der Referenzpopulation, die aus bekannten und qualifizierten die Referenzpopulation bildenden Internet-Benutzern 500 zusammengesetzt ist, eine Population zu erzeugen vermag, die für das Verhalten einer Gruppe von Inter net-Benutzern repräsentativ ist, die eine Verbindung mit Web-Hauptrechnern von Interesse 301 bis 303 herstellen.
Das System 100 zum Erzeugen einer repräsentativen Population umfasst auch ein Datenverkehrsanalysesystem 600, das mit dem Netzwerk 200 verbunden ist und mit einer Datenverkehrserfassungseinrichtung zum Erfassen von Datenverkehr bei allen 300 Stellen von Interesse und einer Datenverkehrsdatenverarbeitungseinrichtung ausgestattet ist.
Dieser Typ eines Datenverkehrsanalysesystems 600 kann zum Beispiel ein Seitenmarkierungssystem (engl.: Page marking system) sein, gemäß dem einige von den Web-Hauptrechnern 301 bis 303 versorgte Stellen durch Seitenmarkierungen markiert werden. Diese Markierungen werden von dem Datenverkehrsmesssystem 600 so verwaltet, dass, wenn ein Internet-Benutzer auf eine auf diese Weise markierte Web-Seite zugreift, ein Laden der Markierung das Senden einer Anfrage an das Datenverkehrsanalysesystem auslöst. Diese Anfrage informiert das Datenverkehrsmesssystem darüber, dass der Internet-Benutzer eine vorgegebene Web-Seite lädt.
Als Variante kann dieser Typ eines Datenverkehrsanalysesystems 600 auch von den Web-Hauptrechnern 301 bis 303 erzeugte Protokollierungsdateien (oder Verbindungsprotokolle) analysieren, wenn ein Internet-Benutzer eine Web-Seite einer von einem dieser Hauptrechner 301 bis 303 unterhaltenen Stelle betrachtet.
Das Datenverkehrsanalysesystem 600 umfasst eine Datenbasis 103, in der Datenverkehrsdaten aufgezeichnet werden, die Information über Internet-Benutzer enthalten, die Interesse stehende, somit während einer vorgegebenen Zeitdauer geprüfte Web-Seiten besuchen.
Im Speziellen umfassen diese Datenverkehrsdaten die eindeutige Identifizierung des Internet-Benutzers, die besuchte Stelle, den Zeitpunkt des Besuchs, die IP-Adresse des Internet-Benutzers und seines Proxy's, seine Verbindungsgeschwindigkeit, seine Zeitzone, von seinem Browser verwendete Sprachen und jede weitere Information, die als relevant betrachtet werden könnte.
Das Datenverkehrsanalysesystem 600 kann auch eine Einrichtung zum Filtern der gesammelten Daten umfassen, um auf diese Weise nur eine spezielle Gruppe von Netzwerkbenutzern (wie zum Beispiel französische Internet-Benutzer oder einen Browser in französischer Sprache verwendende Internet-Benutzer oder Benutzer, die in der Nacht eine Verbindung herstellen) zu berücksichtigen, für die eine repräsentative Population vorhanden sein soll.
Das Datenverkehrsanalysesystem 600 kann auch mit der Internet-Benutzer in der Referenzpopulation aufführenden Datenbasis 102 zusammenarbeiten, insbesondere um zu ermitteln, welcher der Internet-Benutzer, die eine der Stellen (Sites) von Interesse besucht haben, einen Teil der Referenzpopulation bildet.
Es ist somit möglich, jede von einem Internet-Benutzer während einer vorgegebenen Zeitdauer mit einer Stelle (Site) hergestellte Verbindung aufzuzeichnen und zu unterscheiden, welche Internet-Benutzer Mitglieder der Referenzpopulation sind.
Im Umfang der Erfindung gibt es eine Referenzpopulation, die aus bekannten Internet-Benutzern 500 zusammengesetzt ist, von denen ausgehend es erforderlich ist, eine repräsentative Population einer Gruppe von Benutzern 400, 500 des Netzwerks 200 zu erzeugen.
Folglich ermittelt das Datenverkehrsanalysesystem 600 die Anzahl N(s) unterschiedlicher Internet-Benutzer, die während einer vorgegebenen Zeitdauer T eine Stelle (Site) oder einen Teil einer Stelle (engl.: Part of site) (s) innerhalb der 300 Stellen (Sites) von Interesse besucht haben.
Die gesamte Anzahl von Internet-Benutzern an allen Stellen (Sites) von Interesse während der betrachteten Zeitdauer T ist mit N angegeben.
Gemäß einer speziellen Ausführungsform der Erfindung werden offensichtlich Internet-Benutzer so gefiltert, um den Bereich der Studie einzuschränken, um lediglich Internet-Benutzer in einer speziellen Population zu berücksichtigen, für die eine repräsentative Population vorhanden sein soll (zum Beispiel Internet-Benutzer in einem speziellen Land, bei Nacht Verbindung herstellende Internet-Benutzer etc.).
Wie bereits erwähnt, sorgt ein Zusammenwirken des Datenverkehrsanalysesystems 600 mit der Referenz-Internet-Benutzer aufführenden Datenbasis 102 für ein Mittel, um zu unterscheiden, welche dieser N unterschiedlichen Internet-Benutzer einen Teil der Referenzpopulation bilden (die Anzahl ist Q).
Das Verhältnis bekannter Internet-Benutzer (Mitglieder der Referenzpopulation) zu allen N Internet-Benutzern, die wenigstens eine im Interesse stehende Stelle (Site) während der Zeitdauer T besuchen, ist mit
angegeben.
Das erforderliche Repräsentativitätsverhältnis R für die zu erzeugende repräsentative Population wird definiert.
Dieses Verhältnis kann unter Verwendung der Gleichung
ausgedrückt werden, mit anderen Worten, als repräsentativ für den Anteil von Internet-Benutzern in der repräsentativen Population (einschließlich Q ~ Internet-Benutzern) unter allen N Internet-Benutzern, die wenigstens eine im Interesse stehende Stelle (Site) während der Zeitdauer T besuchen.
Es ist zu beachten, dass es für statistische Zwecke offensichtlich bevorzugbar ist, Datenverkehr für eine große Anzahl von Web-Stellen von Interesse (zum Beispiel 20.000 Stellen) zu erfassen und eine ausreichend große Referenzpopulation (zum Beispiel 300.000 Internet-Benutzer) zu haben.
Wie bereits erwähnt, kann eine Population, die einen von n Internet-Benutzern repräsentiert (Repräsentationsverhältnis 1/n), als repräsentativ betrachtet werden kann, wenn im Mittel von einem Internet-Benutzer in der gesamten repräsentativen Population einer von n Besuchen jeder Seite (Site) vorgenommen wird.
Wenn eine vorgegebene Population repräsentativ ist, sollte folglich das Verhältnis zwischen der Anzahl bekannter, zu dieser vorgegebenen Population gehörenden Benutzer, die während der vorgegebenen Zeitdauer T eine Verbindung mit jeder Stelle (Site) oder einem Teil einer Stelle/n herstellen, und der gesamten Anzahl von Benutzern, die tatsächlich eine Verbindung mit dieser Stelle (Site) herstellen, für alle im Interesse stehenden Stellen (Sites) gleich sind und dem Repräsentativitätsverhältnis R ~ entsprechen.
Ausgehend von dem Repräsentativitätsverhältnis R ~ und der gesamten Anzahl von Benutzer (s), die während der betrachteten Zeitdauer eine Verbindung mit einer speziellen Stelle (Site) n herstellen, wird im Umfang der Erfindung eine theoretische Anzahl q ~(s) von Benutzern jede Stelle (Site) Fs erzeugt, so dass das Verhältnis zwischen dieser theoretischen Zahl q ~(s) von Benutzern und der gesamten Anzahl von Benutzern N(s), die während der vorgegebenen Zeitdauer T eine Verbindung mit der genannten Stelle (Site) s hergestellt haben, an allen im Interesse stehenden Stellen (Sites) gleich ist, mit anderen Worten q ~(s) = R ~·N(s).
Die Verarbeitungseinrichtung des Hauptrechners 101, der verwendet wird, um eine repräsentative Population zu erzeugen, vermag eine Population bekannter Netzwerk-Benutzer ausgehend von der Referenzpopulation zu erzeugen, um den Unterschied zwischen der theoretischen Anzahl q ~(s) von Benutzern und der Anzahl q ~n(s) von Benutzern in der erzeugten Population, die während der Zeitdauer (T) eine Verbindung mit der Stelle (Site) (s) hergestellt haben, an allen Stellen (Sites) oder Teilen von Stellen (s) zu minimieren.
Gemäß einer möglichen Ausführungsform, ist genauer gesagt die Verarbeitungseinrichtung des Hauptrechners 100 zum Erzeugen einer repräsentativen Population in der Lage:

– eine jedem bekannten Benutzer in der Referenzpopulation zuzuordnende Wichtung zu ermitteln und diese Wichtungen zu verwenden, um ausgehend von der Referenzpopulation eine Population von bekannten Netzwerkbenutzern zu erzeugen,
– und die Wichtungen zu variieren, um den Unterschied zwischen der Anzahl q_n(s) von Benutzern in der erzeugten Population, die während der betrachteten Zeitdauer eine Verbindung mit der Stelle (Site) (s) hergestellt haben, wie von dem Datenverkehrsanalysesystem 600 ermittelt, und der theoretischen Anzahl q ~(s) von Benutzern an allen Stellen (Sites) oder Teilen einer Stelle zu minimieren.

Die Variation der Wichtungen und der resultierende Aufbau einer erzeugten Population werden genauer durch Iteration vorgenommen, um den Unterschied zwischen der Anzahl erwarteter qualifizierter Internet-Benutzer (theoretische Anzahl) und der Anzahl von tatsächlich erfassten Internet-Benutzern zu minimieren.
Im Folgenden sind Einzelheiten einer möglichen Ausführungsform einer solchen iterativen Erzeugung einer repräsentativen Population angegeben.
Das Verfahren zuerst initialisiert, indem jedem bekannten Internet-Benutzer in der Referenzpopulation eine identische anfängliche Wichtung
zugeordnet wird.
Während einer ersten Operation bei der Iteration wird eine Unterpopulation der Referenzpopulation erzeugt, indem eine zufällige Wahl einer Anzahl Q ~ = R ~ × N von Internet-Benutzern unter den Q Internet-Benutzern in der Referenzpopulation getroffen wird, die während der betrachteten Zeitdauer mit wenigstens einer der im Interesse stehenden Stellen (Sites) eine Verbindung hergestellt haben, wobei die Wahrscheinlichkeit, jeden der Internet-Benutzer in der Referenzpopulation zu wählen, der Wichtung p_n(i) des Internet-Benutzers entspricht (wobei n die Iterationsstufe angibt). Jeder Internet-Benutzer in dieser Unterpopulation wird voll gezählt.
Gemäß einer Variante der zufälligen Wahl und der Erzeugung einer Unterpopulation der Referenzpopulation besteht die erste Operation bei der Iteration darin, eine Population mit genau der gleichen Größe wie die Referenzpopulation von Internet-Benutzern, die während der betrachteten Zeitdauer mit wenigstens einer der im Interesse stehenden Stellen (Sites) eine Verbindung hergestellt haben (daher Q Mitglieder umfassend), zu erzeugen, wobei aber jeder Internet-Benutzer ein spezielles Gewicht hat, das seiner Wichtung p_n(i) entspricht.
Die zweite Operation bei der Iteration besteht darin, die Anzahl unterschiedlicher Internet-Benutzer in der erzeugten Population, die während der bearbeiteten Zeitdauer eine Verbindung hergestellt haben, für jede Stelle s zu ermitteln.
Wenn die erzeugte Population eine Unterpopulation der Referenzpopulation mit Q ~ Internet-Benutzern ist, in der jeder Internet-Benutzer voll gezählt wird, werden somit die q_n(s) Internet-Benutzer, die mit der Stelle s eine Verbindung hergestellt haben, aus den Q Internet-Benutzern ermittelt.
Wenn die erzeugte Population eine Population von Q ~ Internet-Benutzern ist, in der die Wichtung jedes Internet-Benutzers berücksichtigt wird, entspricht die Anzahl q_n(s) unterschiedlicher Internet-Benutzer in der erzeugten Population, die während der vorgegebenen Zeitdauer eine Verbindung mit einer Stelle s hergestellt haben, der Summe von Wichtungen von Internet-Benutzern in der Referenzpopulation, die tatsächlich mit der Stelle s eine Verbindung hergestellt haben.
Wie bereits erwähnt besteht die Aufgabe darin, eine erzeugte Population bekannter Internet-Benutzer so aufzubauen, dass der Anteil Internet-Benutzer in dieser erzeugten Population an jeder Stelle oder Teil einer Stelle unter allen im Interesse stehenden Stellen gleich ist und daher der Unterschied zwischen der Anzahl q_n(s) von Internet-Benutzern in der erzeugten Population und die theoretische Anzahl q ~ für alle im Interesse stehenden Stellen minimiert wird.
Die im Folgenden beschriebene Unterschiedsmessung ist die Varianzberechnung, wobei es aber verständlich ist, dass eine andere Unterschiedsmessung verwendet werden könnte (wie Beispiel das Monte-Carlo-Verfahren).
Die dritte Operation bei der Iteration besteht darin, einen gemessenen Wert des Unterschieds aus der Repräsentativität der erzeugten Population zu ermitteln, zum Beispiel die Varianz v_n für die Iterationsstufe n, die durch
ausgedrückt wird, wobei diese Unterschiedsmessung mit einem Grenzwert verglichen wird.
Wenn die Unterschiedsmessung größer als der festgelegte Grenzwert ist, wird eine vierte Operation in der Iteration ausgeführt, bei der neue, jedem Internet-Benutzer in der Referenzpopulation (einschließlich der Q bekannten Internet-Benutzer) zuzuordnende Wichtungen ermittelt werden, um eine neue Population bekannter Internet-Benutzer zu erzeugen, für die der Unterschied von der Repräsentativität verringert ist.
Im Allgemeinen wird die Wichtung, die einem Internet-Benutzer in der Referenzpopulation zugeordnet ist, wenn dieser Internet-Benutzer Stellen (Sites) besucht hat, für die die Anzahl qualifizierter Internet-Benutzer kleiner als die theoretische Anzahl während der betrachteten Zeitdauer ist, wobei ansonsten die Wichtung verringert wird.
Dies wird durchgeführt, indem für jeden qualifizierten Internet-Benutzer i ein "Schwerpunkt" B(i) berechnet wird, indem die Abweichungen b(s) für jede Stelle summiert werden, an denen der Internet-Benutzer i vorbeigekommen ist.
Die Abweichung b(s) für eine Stelle s ist abhängig davon wie folgt definiert, ob die Anzahl q(s) bekannter Internet-Benutzer, die die Stelle s während der betrachteten Zeitdauer besucht haben, größer oder kleiner als die theoretische Anzahl q ~(s) von Internet-Benutzern ist:
Der Schwerpunkt B(i) wird dann unter Verwendung der Gleichung
berechnet, wobei s(i) während der betrachteten Zeitdauer von einem Internet-Benutzer i besuchte Stellen angibt.
Die einem qualifizierten Internet-Benutzer i bei der Iterationsstufe n zugeordnete Wichtung p_n(i) wird dann, wie in den folgenden Gleichungen beschrieben, ermittelt:
wobei p_n- ₁(i) die einem qualifizierten Internet-Benutzer i in der Iterationsstufe n – 1 zugeordnete Wichtung ist und S_i die Anzahl von während der betrachteten Zeitdauer von dem Internet-Benutzer i besuchter Stellen ist.
Die Iterationsoperationen werden unter Verwendung dieser neuen Wichtungen erneut begonnen, und es wird somit eine neue Popula tion erzeugt (wie oben beschrieben, entweder durch zufälliges Wählen einer Unterpopulation, in der jeder Internet-Benutzer vollständig zählt, oder indem die Referenzpopulation insgesamt betrachtet wird, bei der aber die Wichtung jedes Internet-Benutzers berücksichtigt wird), für die der Unterschied von der Repräsentativität evaluiert wird.
Das oben beschriebene iterative Verfahren wird daher implementiert, bis eine Population erzeugt ist, für die der Unterschied (in diesem Fall die Varianz) kleiner als der festgelegte Grenzwert ist.
Es ist zu beachten, dass es im Zusammenhang einer durch zufälliges Wählen einer Unterpopulation der Referenzpopulation erzeugten Population möglich ist, die zufällige Wahl einige Male mit den Wahlwahrscheinlichkeiten vorzunehmen. Dies ermöglicht es, die Operationen für eine Iteration unter Verwendung einiger Unterpopulationen durchzuführen und dann insbesondere einige Messungen des Unterschieds von der Repräsentativität vorzunehmen. Insbesondere ist es somit möglich, die Unterpopulation mit der kleinsten Unterschiedsmessung als Grundlage für die Berechnung neuer Wichtungen für die nächste Iteration zu verwenden, was zweifellos die Genauigkeit und Geschwindigkeit der Erzeugung der repräsentativen Population verbessert.
Offensichtlich ist es klar, dass die gemäß der Erfindung erzeugte repräsentative Population insbesondere zur Verwendung im Zusammenhang mit einem profilerstellenden Verfahren (und des das genannte Profil erstellende Verfahren nutzendes System) vorgesehen ist, bei dem das Profil unbekannter Internet-Benutzer ermittelt wird, indem Suchvorgänge dieser unbekannten Internet-Benutzer an im Interesse stehenden Stellen mit Suchvorgängen von Internet-Benutzern in der repräsentativen Population verglichen werden.
Im Zusammenhang eines solchen profilerstellenden Verfahrens kann das Profil eines Internet-Benutzers aus einer Reihe von Werten von diesem Internet-Benutzer zugeordneten Attributen zu sammengesetzt sein. Diese Attribute bestehen aus Information, die jedem Internet-Benutzer zugeordnet ist, der für Dienstleistungsanbieter interessant ist. Beispielsweise können diese Attribute, Geschlecht, Alter und sozial-berufliche Gruppe des Internet-Benutzers betreffen.
Das Profil Pi eines vorgegebenen Internet-Benutzers i wird als Folge mit N Werten von Attributen p_ij ausgedrückt, wobei p_ij die Wahrscheinlichkeit ist, dass der Internet-Benutzer i das Attribut j aufweist.
Das Profil eines Internet-Benutzers i kann somit wie folgt angegeben werden:
P_i = (P_i1, P_i2, P_i3, P_i4, P_i5, P_i6, P_i7, P_i8, P_i9, P_i10, P_i11, P_i12, P_i13, ... P_in), wobei:

– p_n die Wahrscheinlichkeit ist, dass der Internet-Benutzer i eine Frau ist (j = 1),
– p_i2 die Wahrscheinlichkeit ist, dass der Internet-Benutzer i ein Mann ist (j = 2),
– p_i3, p_i4, p₁₅, p_i6, p_i7 und p_i8 Wahrscheinlichkeiten sind, dass der Internet-Benutzer i zwischen 0 und 14 Jahren alt (j = 3), 15 bis 24 Jahre alt (j = 4), 25 bis 34 Jahre alt (j = 5), 35 bis 49 Jahre alt (J = 6), 50 bis 64 Jahre alt (j = 7) oder mehr als 65 Jahre alt (j = 8) ist,
– p_i9, p_i10, p_i11, p_i12 und p_i13 Wahrscheinlichkeiten sind, dass der Internet-Benutzer i zu speziellen Typen sozialberuflicher Gruppen gehört (j = 9, 10, 11, 12 oder 13), weitere Attribute 14 bis N ebenfalls berücksichtigt werden.

Das Profil P_S einer vorgegebenen Web-Site von Interesse s wird als Folge ausgedrückt, die ebenfalls N Werte von Attributen p_sj aufweist, wobei p_sj die Wahrscheinlichkeit ist, dass ein Inter net-Benutzer, der die Stelle s besucht, das Attribut j aufweist.
Das Profil einer Stelle (Site) s wird somit angegebenen:
P_s = (P_s1, P_s2, P_s3, P_s4, P_s5, P_s6, P_s7, P_s8, P_s9, P_s10, P_s11, P_s12, P_s13, ... P_sn) wobei die Attributswerte p_sj des Profils P_S als Funktion der Werte von Attributen von Internet-Benutzern in der repräsentativen Population ermittelt werden, die die Stelle s besuchen.
Für eine im Interesse stehende Stelle s ist, wenn die repräsentative Population eine durch zufällige Wahl erzeugte Unterpopulation der Referenzpopulation ist, in der jeder Internet-Benutzer vollständig zählt, der Wert p_sj des Attributs j der Mittelwert der Werte p_ij, die Internet-Benutzern in der repräsentativen Population zugeordnet sind, die die Stelle s besuchen.
Wenn die repräsentative Population die Referenzpopulation ist, in der die jedem Internet-Benutzer zugeordnete Wichtung vollständig berücksichtigt wird, ist alternativ der Wert p_sj des Attributs j für eine vorgegebene im Interesse stehende Stelle s der Mittelwert der Werte p_ij, die Internet-Benutzern in der repräsentativen Population zugeordnet sind, die die Stelle s besuchen, wobei in diesem Fall die Werte p_ij mittels der den genannten Internet-Benutzern zugeordneten Wichtungen gewichtet werden.
Offensichtlich ist die Erfindung nicht auf die speziellen Ausführungsformen, die gerade beschrieben worden sind, beschränkt, sondern kann auf jede Variante erweitert werden, die mit ihrem Geist in Übereinstimmung steht.
Insbesondere ist die Erfindung nicht auf die Erzeugung einer repräsentativen Population von Internet-Benutzern beschränkt, sondern umfasst die Erzeugung einer repräsentativen Population von Benutzern jedes Typs eines Endgeräts (zum Beispiel Computer, Fernseher, Mobiltelefon), das mit einem Kommunikationsnetzwerk verbunden ist, um eine Verbindung mit jeglichem Typ digitaler Unterstützung (zum Beispiel Wap-Sites, i-Mode- (registrierte Handelsmarke)-Sites etc.). zu ermöglichen.

Claims

Verfahren zum Erzeugen einer Population, die für das Verhalten einer Gruppe von Benutzern eines Kommunikationsnetzwerks repräsentativ ist, ausgehend von einer Referenzpopulation, die aus bekannten, in einer Datenbasis aufgeführten Netzwerkbenutzern zusammengesetzt ist, dadurch gekennzeichnet, dass es die Schritte bestehend aus umfasst: Ermitteln für jede Stelle oder Teil einer Stelle (s) in einer Gruppe von Stellen von Interesse, die über das Netzwerk verfügbar sind, die Anzahl von Benutzern (N(s)), die mit der Stelle oder dem Teil einer Stelle (s) während einer vorgegebenen Zeitdauer (T) verbunden sind, unter Verwendung eines Datenverkehrsanalysesystems, das zum Analysieren von Datenverkehr an Stellen von Interesse mit dem Netzwerk verbunden ist; Ermitteln für jede Stelle oder Teil einer Stelle (s) einer theoretischen Anzahl (q ~(s)) von Benutzern, so dass das Verhältnis zwischen dieser theoretischen Anzahl (q ~(s)) von Benutzern und der Anzahl von Benutzern (N(s)), die mit der Stelle (s) während der vorgegebenen Zeitdauer (T) verbunden sind, an allen Stellen von Interesse gleich ist; Verwenden einer Verarbeitungseinrichtung, die mit der Datenbasis verbunden ist, um eine Population bekannter Netzwerkbenutzer ausgehend von der Referenzpopulation zu erzeugen, um an allen Stellen oder Teilen einer Stelle (s) den Unterschied zwischen der theoretischen Anzahl von Benutzern (q ~(s)) und der Anzahl von Benutzern (q_n(s)) in der erzeugten Population zu minimieren, die mit der Stelle (s) während der Zeitdauer (T) verbunden sind.
Verfahren nach dem vorherigen Anspruch, dadurch gekennzeichnet, dass eine Wichtung jedem bekannten Benutzer in der Referenzpopulation während des Schritts zugeordnet wird, die Population bekannter Netzwerkbenutzer ausgehend von der Referenzpopulation zu erzeugen.
Verfahren nach dem vorherigen Anspruch, dadurch gekennzeichnet, dass der Schritt, die Population zu erzeugen, wie folgt iterativ durchgeführt wird: die Benutzern in der Referenzpopulation zugeordneten Wichtungen werden während jeder Iteration variiert; für jede Iteration werden die so variierten Wichtungen verwendet, um ausgehend von der Referenzpopulation eine neue Population zu erzeugen; und für jede Iteration wird an allen Stellen (s) oder Teilen einer Stelle (s) der Unterschied zwischen der theoretischen Anzahl (q ~(s)) von Benutzern und der Anzahl (q_n(s)) von Benutzern in der so erzeugten neuen Population, die während der Zeitdauer (T) mit der Stelle (s) verbunden sind, ermittelt; wobei die Iterationen fortgesetzt werden, bis der genannte Unterschied kleiner als ein vorgegebener Grenzwert ist, wobei die während der letzten Iteration erzeugte Population als für das Verhalten der Gruppe von Benutzern repräsentativ betrachtet wird.
Verfahren nach dem vorherigen Anspruch, dadurch gekennzeichnet, dass der Schritt, der aus dem Ermitteln der Anzahl von Benutzern (N(s)) besteht, die mit jeder Stelle oder Teil einer Stelle (s) verbunden sind, auch eine Maßnahme umfasst, die Gesamtanzahl von Benutzern (N) und die Gesamtanzahl von Benutzern in der Referenzpopulation (Q) zu ermitteln, die während der vorgegebenen Zeitdauer (T) mit der Stelle oder dem Teil einer Stelle (s) verbunden sind.
Verfahren nach dem vorherigen Anspruch, dadurch gekennzeichnet, dass es vor dem Schritt, die theoretische Anzahl (q ~(s)) von Benutzern an jeder Stelle (s) zu ermitteln, auch einen Schritt umfasst, das Repräsentativitätsverhältnis (R) für die zu erzeugende repräsentatitive Population zu definieren, wobei die theoretische Anzahl (q ~(s)) von Benutzern für jede Stelle oder Teil einer Stelle (s) so ermittelt wird, dass das Verhältnis zwischen der theoretischen Anzahl von Benutzern und der Gesamtanzahl von Benutzern (N(s)), die während der vorgegebenen Zeitdauer (T) mit der Stelle (s) verbunden sind, für alle Stellen von Interesse gleich sein sollte und dem Repräsentativitätsverhältnis (R) entsprechen sollte.
Verfahren nach dem vorherigen Anspruch, dadurch gekennzeichnet, dass die während jeder Iteration erzeugte neue Population eine Unterpopulation der Referenzpopulation ist, deren Größe dem Repräsentativitätsverhältnis (R) im Verhältnis zu der Gesamtanzahl von Benutzern (N) entspricht, erhalten durch ein zufälliges Wählen von Benutzern in der Referenzpopulation, wobei die Wahrscheinlichkeit, einen Benutzer in der Referenzpopulation zu wählen, gleich der diesem zugeordneten Wichtung ist, wobei jeder so gewählte Internet-Benutzer vollständig in der erzeugten Population gezählt wird.
Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass während jeder Iteration die neu erzeugte Population eine Population mit genau der gleichen Größe wie die Referenzpopulation ist, wobei das Gewicht jedes Internet-Benutzers gleich der diesem zugeordneten Wichtung ist.
Verfahren nach dem vorherigen Anspruch, dadurch gekennzeichnet, dass bei einer Iterationsstufe n die Anzahl von Benutzern (q_n(s)) in der erzeugten Population, die mit der Stelle (s) während der vorgegebenen Zeitdauer (T) verbunden sind, gleich der Summe von Wichtungen ist, die jedem der Benutzer in der Referenzpopulation zugeordnet sind, die tatsächlich während einer vorgegebenen Zeitdauer (T) mit der Stelle (s) verbunden sind.
Verfahren nach Anspruch 6 oder 8, dadurch gekennzeichnet, dass bei einer Iterationsstufe n die Differenzmessung ermittelt wird, indem die Varianz v_n an allen Stellen von Interesse unter Verwendung von
berechnet wird, wobei q ~(s) die theoretische Anzahl von Benutzern für die Stelle s ist und q_n(s) die Anzahl von Benutzern in der bei einer Iterationsstufe n erzeugten Population ist, die während der betrachteten Zeitdauer mit der Stelle s verbunden sind.
Verfahren nach einem der Ansprüche 3 bis 9, dadurch gekennzeichnet, dass bei jeder Iteration die einem Benutzer in der Referenzpopulation zugeordnete Wichtung vergrößert wird, wenn der Benutzer für eine vorgegebene Zeitdauer eine Verbindung mit Stellen hergestellt hat, für die die Anzahl an Benutzern (q(s)) in der Referenzpopulation, die mit diesen eine Verbindung hergestellt haben, kleiner als die theoretische Anzahl (q ~(s)) ist, wobei ansonsten die Wichtung verkleinert wird.
Verfahren nach dem vorherigen Anspruch, dadurch gekennzeichnet, dass die einem Benutzer i in der Referenzpopulation bei einer Stufe n der Iteration zugeordnete Wichtung p_n(i) dann wie in den folgenden Gleichungen beschrieben ermittelt wird:
wobei p_n-1(1) die in einer Iterationsstufe n – 1 einem qualifizierten Internet-Benutzer i zugeordnete Wichtung ist; S_i die Anzahl an Stellen ist, die während der betrachteten Zeitdauer von einem Internet-Benutzer i besucht wird, und
wobei s(i) von einem Internet-Benutzer i während der betrachteten Dauer besuchte Stellen angibt,
wobei q(s) die Anzahl von Benutzern in der Referenzpopulation ist, die während der betrachteten Dauer mit der Stelle (s) verbunden sind, q ~(s) die theoretische Anzahl von Benutzern für die Stelle s ist und q_n(s) die Anzahl von Benutzern in der erzeugten Population bei einer Iterationsstufe n ist, die während der betrachteten Dauer mit der Stelle (s) verbunden sind.
Verfahren nach einem der Ansprüche 3 bis 11, dadurch gekennzeichnet, dass für die erste Iteration jedem Benutzer in der Referenzpopulation die gleiche Wichtung zugeordnet wird.
Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass es einen vorherigen Schritt umfasst, von dem Datenverkehrsanalysesystem gesammelte Datenverkehrsdaten zu filtern, um nur Daten zu berücksichtigen, die alle Benutzer betreffen, für die eine für das Verhalten repräsentative Population erzeugt werden soll.
Verfahren zum Ermitteln des Profils eines Benutzers eines Kommunikationsnetzwerks, dadurch gekennzeichnet, dass es einen Schritt umfasst, eine repräsentative Population ausgehend von einer Referenzpopulation unter Verwendung des Verfahrens gemäß einem der vorherigen Ansprüche zu erzeugen.
System (100) zum Erzeugen einer Population von Benutzern eines Kommunikationsnetzwerks (200), die für das Verhalten einer Gruppe von Netzwerkbenutzern repräsentativ ist, ausgehend von einer aus bekannten Netzwerkbenutzern zusammengesetzten Referenzpopulation, dadurch gekennzeichnet, dass es umfasst: einen Hauptrechner (101), der eine repräsentative Population erzeugt, der mit dem Netzwerk verbunden ist und der eine Verarbeitungseinrichtung aufweist, die mit einer Datenbasis (102) verbunden ist, die bekannte Benutzer in der Referenzpopulation aufführt; ein System (600), das Datenverkehr an Stellen von Interesse analysiert, das mit dem Netzwerk (200) verbunden ist und das die Gesamtanzahl von Benutzern (N(s)), die mit der Stelle oder Teil einer Stelle (s) während einer vorgegebenen Zeitdauer (T) verbunden sind, für jede Stelle oder Teil einer Stelle (s) von allen Stellen (300) von Interesse (301, 302, 303), die über das Netzwerk erreichbar sind, zu ermitteln und zu unterscheiden vermag, welche dieser Benutzer Mitglieder der Referenzpopulation sind, bei dem die Verarbeitungseinrichtung vermag: für jede Stelle oder Teil einer Stelle (s) eine theoretische Anzahl von Benutzern (g ~(s)) zu erzeugen, so dass das Verhältnis zwischen der theoretischen Anzahl von Benutzern q(s) und der Gesamtanzahl von Benutzern (N(s)), die während der vorgegebenen Zeitdauer (T) mit der Stelle verbunden sind, an allen Stellen von Interesse gleich ist; eine Population von bekannten Netzwerkbenutzern ausgehend von der Referenzpopulation zu erzeugen, um den Unterschied zwischen der theoretischen Anzahl von Benutzern (q ~(s) und der Anzahl von Benutzern (q(n(s)) in der erzeugten Population, die während der Zeitdauer (T) mit der Stelle (s) verbunden sind, für alle Stellen oder Teile einer Stelle (s) zu minimieren.
System zum Erstellen eines Profils eines Benutzers eines Kommunikationsnetzwerks, dadurch gekennzeichnet, dass es ein System zum Erzeugen einer repräsentativen Population gemäß dem vorherigen Anspruch aufweist.