DE112005003157T5

DE112005003157T5 - Domainspezifisches Datenelement-Mappingverfahren- und System

Info

Publication number: DE112005003157T5
Application number: DE112005003157T
Authority: DE
Inventors: Gopal B. Menomonee Falls Avinash; Allison Leigh Milwaukee Weiner; Anne Marie Wauwatosa Conry
Original assignee: General Electric Co
Current assignee: General Electric Co
Priority date: 2004-12-17
Filing date: 2005-12-13
Publication date: 2007-12-13
Also published as: JP5025488B2; US20060136467A1; WO2006065816A1; JP2008524712A

Abstract

Verfahren zum Mapping von Datenelementen bei dem:
eine Datendomain definiert wird, die eine Anzahl von Klassifikationsachsen und einer Anzahl von Klassifikationslabels für jede Achse aufweist,
auf eine Anzahl von Datenelementen zugegriffen wird, die potentiell interessierende Attribute aufweisen,
in den Datenelementen Attribute identifiziert werden, die den Achsen und den Labels der Datendomain entsprechen und
die identifizierten Datenelementattribute gemäß den entsprechenden Attributen der Achsen und Labels klassifiziert werden.

Description

HINTERGRUND
Gegenstand der Erfindung ist allgemein das Mapping und die Klassifikation von Datenelementen. Spezieller bezieht sich die Erfindung auf Techniken zur Identifizierung von interessierenden Datenelementen, die Strukturierung solcher Elemente, wo erforderlich und die Analyse, das Mapping und die Klassifizierung solcher Elemente zur Referenz.
Zur Identifizierung von Datenelementen, die für ein spezielles Interessensgebiet relevant sind, sind viele Techniken entwickelt worden und gegenwärtig in Gebrauch. Wie hier bezeichnet umfassen „Datenelemente" jeden Typ digitaler Daten, die durch automatisierte Techniken identifiziert, analysiert und klassifiziert werden können. Solche Elemente können beispielsweise Textdokumente, Bilddateien, Audiodateien, Wellenform-Daten und Kombinationen von diesen beinhalten, um lediglich einige zu nennen.
Existierende Techniken zur Datenelementidentifikation, -analyse und -klassifikation werden häufig dazu eingerichtet, relevante Dokumente und andere Datenstücke zu identifizieren und bis zu einem gewissen Grad auch dazu, um entweder die Stücke selbst oder relevante Teile davon zu sammeln. Verfügbare Suchmaschinen gestatten beispielsweise die boolsche Suche nach Worten oder anderen Kriterien. Die Suche kann auf Basis der Dokumente selbst oder anhand von Teilen von Dokumenten, indexierten Dokumenten usw. erfolgen. Manche Suchwerkzeuge nutzen die Kennzeichnung von Dokumenten mit rele vanten Begriffen für ähnliche Zwecke. Ergebnisse werden typischerweise als Listen, manchmal mit Verweisen (Links) zu den Dokumenten ausgegeben. Vorhandene Techniken nutzen außerdem Rankings relevanter Dokumente.
Obwohl solche Werkzeuge für viele Suchvorgänge ziemlich nützlich sind, gibt es einen Bedarf für verbesserte Werkzeuge, die nutzbringendere Suchen und Klassifikationen ausführen können. Es gibt einen speziellen Bedarf für ein Werkzeug, das auf Basis auf einer vollständigeren nutzergegebenen Definition relevanter Bereiche und Klassifikationen innerhalb der Bereich eine extensive Analyse, Strukturierung, ein Mapping und eine Klassifikation von Datenelementen ausführen kann. Außerdem gibt es einen Bedarf nach einem Werkzeug, das Dokumente, Bilder, Textdateien, Audiodateien usw. auf Basis einer Kombination von Kriterien durchsuchen und klassifizieren kann.
KURZE BESCHREIBUNG
Die vorliegende Erfindung liefert Techniken zur Identifizierung, Analyse, Strukturierung, Mapping und zur Klassifizierung von Datenelemente und ist dazu eingerichtet solche Bedürfnisse zu erfüllen. Die Techniken können auf einen Bereich von Elementtypen angewendet werden einschließlich Textdaten, Bilddaten, Audiodaten, Wellenformdaten und Kombinationen von diesen, um lediglich einige wenige zu nennen. Die Elemente können an jeder gewünschten Stelle vorgefunden werden und es kann lokal oder von fern auf sie zugegriffen werden. Bekannte Datenbanken oder integrierte verarbeitete Wissensdatenbanken können als Quelle von Datenelementen genutzt werden.
Gemäß Aspekten der vorliegenden Technik wird ein konzeptioneller Rahmen erstellt, indem eine Domain definiert wird, die Achsen und Labels enthält. Es wird auf potentiell interessierende Datenelemente zugegriffen und Attribute der Einheiten werden gemäß der Domaindefinition analysiert. Jede in den Datenelementen vorhandene Struktur kann genutzt werden oder die Elemente können ganz oder teilweise restrukturiert werden. Es wird dann in Übereinstimmung mit der Domaindefinition sowie Regeln und Algorithmen ein eins→viele-Mapping durchgeführt, um zu ermitteln, ob und wie die Datenelemente klassifiziert werden sollten. Es kann so in dem konzeptionellen Rahmen in einer Anzahl von verschiedenen Stellen ein einzelnes Attribut klassifiziert werden, was die vertiefte Analyse und die Gruppierung der Datenelemente gestattet. Es kann dann durch Auswahl von Subsets von Achsen und Labels der Domaindefinition eine Durchsuchung und weitere Analyse der Elemente durchgeführt werden.
ZEICHNUNGEN
Diese und andere Merkmale, Aspekte und Vorzüge der vorliegenden Erfindung werden besser verstanden, wenn die folgende detaillierte Beschreibung mit Referenz auf die zugehörigen Zeichnungen gelesen wird, in der gleiche Buchstaben in den Zeichnungen einheitlich gleiche Teile bezeichnen, wobei:
1 eine Übersichtsskizze eines Systems zur Identifikation, Strukturierung, Mapping und Klassifikation von Datenelementen gemäß Aspekten der vorliegenden Techniken ist;
2 ein Ablaufplan einer exemplarischen Domaindefinitionslogik ist, die in einem System, wie in 1 veranschaulicht genutzt werden kann;
3 ein Flussdiagramm einer auf einer Domaindefinition basierenden Elementverarbeitungslogik ist;
4 eine Grobskizzenveranschaulichung eines exemplarischen Mappings von Datenelementen ist, das mittels der Logik nach 3 durchgeführt wird;
5 eine Grobveranschaulichung zusammengehöriger Domains und Domainlevels, die gemäß Aspekten der vorliegenden Technologie implementiert werden können;
6 ist eine Grobskizze einer Multilevel-Domaindefinition, die implementiert werden kann, um die Strukturierung, das Mapping, die Klassifikation und die Analyse von Datenelementen zu erleichtern;
7 ist eine Veranschaulichung eines exemplarischen Domaindefinitionstemplates zur Verwendung in einem programmierten Computer gemäß Aspekten der vorliegenden Technik;
8 ist eine Veranschaulichung eines exemplarischen Templates zur Definition von Achsen und Labels der durch das Template nach 7 definierten Domain;
9 ist eine exemplarische Schnittstelle zur Definition von Datenelementattributen für Achsen und Labels einer Domain;
10 ist ein Ablaufplan, der eine exemplarische Logik zur Durchsuchung und Klassifizierung von Datenelementen und zur Errichtung einer IKB auf Basis einer solchen Suche und Klassifikation veranschaulicht;
11 veranschaulicht grob, wie eine Kollektion von Elementen unter Verwendung einer Domaindefinition und Regeln gemäß vorliegender Techniken in eine IKB gemappt werden kann;
12 ist eine Grobveranschaulichung gewisser Prozessschritte, die zur Analyse und Klassifikation von Datenelementen durchgeführt werden kann;
13 ist eine Grobveranschaulichung eines exemplarischen Prozesses zur Identifizierung relevanter Datensätze oder Datenelemente, in einem bekannten Feld, wie beispielsweise ein IKB;
14 veranschaulicht ein exemplarisches Beispiel eines analysierten Satzes von Datenelementen, wie beispielsweise Textdokumenten mit Hervorhebung auf Basis einer Domaindefinition als konzeptuellen Rahmen;
15 ist eine weitere Veranschaulichung einer Analyse, die an einem Satz von Datenelementen durchgeführt worden ist, um eine Korrespondenz zwischen Attributen oder Teilen des konzeptuellen Netzwerks der Domaindefinition zu identifizieren, die in einem Satz von Datenelementen gefunden werden;
16 ist eine exemplarische Veranschaulichung einer Analyse, einer Serie von Datenelementen, die die Überlappung oder Überschneidung der Korrespondenz zwischen Elementen mit speziellen Attributen zeigt;
17 ist ein weiteres exemplarisches Beispiel einer Analyse, die an einer Serie von Datensätzen oder Datenelemen ten für einen Teil einer Domaindefinition oder einen analytischen oder konzeptuellen Rahmen durchgeführt wird;
18 ist ein weiteres exemplarisches Beispiel einer Analyse, die an einer Serie von Datenelementen durchgeführt worden ist, die eine Klassifikation durch andere Kriterien, wie beispielsweise Eigentümerschaft zeigt;
19 ist ein weiteres exemplarisches Beispiel der Analyse und Klassifikation von Datenelementen durch die Datensätze selbst (z.B. die Datenelemente);
20 ist ein weiteres exemplarisches Beispiel von Daten, die für eine Serie von Datenelementen, die aufgelaufene Zahlen von Elementen kennzeichnen durch den konzeptuellen Rahmen der Domaindefinition analysiert worden sind;
21 ist eine weitere Veranschaulichung einer exemplarischen Analyse von Datenelementen ähnlich zu der nach 20 jedoch mit zusätzlicher Anzeige von Daten, die auf Basis der analysierten und klassifizierten Datenelemente erhalten werden können;
22 ist eine Grobveranschaulichung eines weiteren interaktiven Beispiels einer Analyse und Klassifizierung und Datenelementen auf Basis einer Domaindefinition und eines zugeordneten konzeptuellen Rahmens;
23 ist eine Grobveranschaulichung von Techniken zur Domaindefinition, -suche, -analyse, -mapping und -klassifizierung von Bilddaten und zugeordneten Textdateien zum Aufbau einer Datenbank aus solchen Dateien, beispielsweise einer IKB;
24 ist eine Grobveranschaulichung eines exemplarischen Arbeitsablaufs zur Analyse zum Mapping und zur Klassifikation von Bild- und Textdateien zur Klassifikation und zum Mapping der Dateien gemäß Aspekten der vorliegenden Technik; und
25 ist eine Veranschaulichung einer beispielhaften Wiedergabe einer Serie von Zusammenfassungen der Analyse von Bild- und Textdateien gemäß den Prozessen nach 23 und 24.
DETAILLIERTE BESCHREIBUNG
Es wird nun auf die Zeichnungen Bezug genommen und sich zuerst der 1 zugewandt, in der ein Datenelement-Mappingsystem 10 schematisch veranschaulicht ist, das eine Domaindefinition liefert und Datenelemente gemäß der Definition durchsucht, analysiert, strukturiert, gemappt und klassifiziert. In der in 1 veranschaulichten Ausführungsform ist der Domaindefinition das Bezugszeichen 12 zugeordnet. Wie später detaillierter beschrieben, kann sich die Domaindefinition auf jedes relevante Feld, wie beispielsweise technische Felder beziehen. Die Domaindefinition kann gemäß nachstehend beschriebener Techniken aufgebaut und allgemein als ein konzeptueller Rahmen logisch unterteilter Abschnitte des relevanten Felds angesehen werden. Jeder Abschnitt kann weiter in eine beliebige Zahl von konzeptuellen Ebenen unterteilt werden. Den Ebenen werden schlussendlich Attribute zugeordnet, die in den Datenelementen gefunden werden können, was ihre Identifikation, Analyse, Strukturierung, Mapping und Klassifikation gestattet.
Die Domaindefinition 12 ist mit einem Verarbeitungssystem 14 verbunden, das die Domaindefinition nutzt um die Datenelemente aus jeder einer Anzahl von Datenquellen 16 zu identifizieren. Das Verarbeitungssystem 14 enthält allgemein einen oder mehrere programmierte Computer, die an einer oder mehreren Stellen angeordnet sein können. Die Domaindefinition selbst kann in dem Verarbeitungssystem 14 gespeichert sein oder die Definition kann auch durch das verarbeitende System 14 abgerufen werden, wenn es zur Durchsuchung, Analyse, Strukturierung, zum Mapping oder zur Klassifikation der Datenelemente aufgerufen wird. Um dem Bediener eine Schnittstelle zu der Domaindefinition und zu den Datenquellen und Datenelementen selbst zu geben, ist eine Anzahl von editierbaren Schnittstellen 18 gegeben. Wiederum können solche Schnittstellen in dem Verarbeitungssystem 14 gespeichert oder bei Bedarf durch das System abgerufen werden. Die Schnitt stellen erzeugen eine Anzahl von Ansichten 20, über die weiter unten mehr gesagt wird. Allgemein gestatten die Ansichten, die Definition der Domain, die Verfeinerung der Domain, die Analyse von Datenelementen, die Ansicht analytischer Ergebnisse und die Veranschaulichung von und Interaktion mit den Datenelementen selbst.
Zurück zur Domaindefinition 12 – in der vorliegenden Diskussion werden die Begriffe „Zugriff", „Label" und „Attribut" für verschiedene Ebenen des konzeptuellen Rahmens benutzt, der durch die Domaindefinition repräsentiert wird. Wie der Fachmann weiß, können andere Begriffe benutzt werden. Allgemein repräsentieren die Achsen der Definition konzeptuelle Unterteilungen der Domain. Die Achsen müssen nicht notwendigerweise die gesamte Domain abdecken und können tatsächlich strategisch strukturiert sein, um die Analyse und Sichtbarmachung verschiedener Aspekte der Datenelemente in spe ziellen Ebenen zu gestatten, wie weiter unten diskutiert wird. Die mit dem Referenzzeichen 22 bezeichneten Achsen werden durch die Labels 24 unterteilt. Wiederum kann jeder geeignete Begriff für diese zusätzliche Ebene konzeptioneller Unterteilung genutzt werden. Die Labels sind allgemein konzeptuelle Teile, der entsprechenden Achsen, obwohl die Labels nicht den gesamten Bereich von Konzepten überdecken müssen, die den Achsen zugeordnet werden können. Außerdem schließt die vorliegende Technik Überlappungen, Redundanzen oder im Gegenteil auch Ausschlüsse zwischen Labels einer Achse und einer Anderen oder tatsächlich von Achsen selbst nicht aus.
Jedem Label sind dann Attribute 26 zugeordnet. Wiederum können die Attribute, Labels oder sogar Achsen gemeinsam sein. Allgemein gestattet jedoch die strategische Definition der Domain eine eins→viele-Mapping und -klassifikation individueller Datenelemente auch wegen, die es einem Bediener gestatten, die Datenelemente zu klassifizieren. Somit sind einige Unterscheidungen zwischen den Achsen, den Labels und den Attributen zweckmäßig um eine Unterscheidung zwischen den Datenelementen zu ermöglichen.
Außerdem, aber lediglich beispielsweise, können die vorliegenden Techniken genutzt werden, um sowohl Textdokumente als auch Dokumente mit anderen Formen und Typen von Daten zu identifizieren, wie beispielsweise Bilddaten, Audiodaten, Wellenformdaten usw., wie unten stehend diskutiert. Weiter kann die Technik beispielsweise zur Identifizierung von Schutzrechten, wie beispielsweise Patenten und Patentanmeldungen in einem speziellen technischen Gebiet oder Interessensgebiet genutzt werden. Innerhalb solcher Gebiete kann ein Bereich individueller Klassifikationen vorgegeben werden, die traditionellen Klassifikationen folgen, oder sie können voll ständig von dem Nutzer auf Basis spezieller Kenntnis oder speziellen Interesses vorgegeben werden. Innerhalb jeder der individuellen Achsen können dann die individuellen Unterteilungen in den Klassifikationen implementiert werden. Wie detaillierter weiter unten beschrieben, können viele solcher Klassifikationsebenen implementiert werden. Außerdem können, weil die Dokumente primär textlicher Natur sind, die individuellen Attribute 26, spezielle Worte, Wortfolgen, Fragen, Phrasen oder ähnliches enthalten. In anderen Arten von Datenelementen können die Attribute interessierende Merkmale von Bildern, Teilen von Audiodateien, Teilen oder Trends von Wellenformen usw. enthalten. Die Domaindefinition gestattet dann das Durchsuchen, die Analyse, die Strukturierung, das Mapping und die Klassifikation von individuellen Datenelementen durch die speziellen Merkmale, die innerhalb der und unter den Elementen identifizierbar sind.
Wie detaillierter weiter unten diskutiert, ist die Erfindung obwohl die vorliegenden Techniken ungekannte Werkzeuge zur Analyse von Textdokumenten liefern in keiner Weise nur auf die Anwendung auf Textdaten beschränkt. Die Techniken an Datenelementen wie beispielsweise Bildern, Audiodaten, Kurven- oder Wellenformdaten und Datenelemente genutzt werden, die einander einschließen oder zugeordnet sind und einen oder mehrere dieser Datentypen enthalten (beispielsweise Text und Bilder, Text und Audioinformation, Bilder und Audioinformation, Text und Bilder und Audioinformation usw.).
Auf Basis der Domaindefinition greift das Verarbeitungssystem 14 auf die Datenquellen 16 zu um individuelle Datenelemente zu identifizieren, analysieren, strukturieren, zu mappen und zu klassifizieren. Das System kann auf ein großes Spektrum solcher Datenelemente zugreifen und diese können an jeden geeigneten Ort oder in jeder geeigneter Form vorliegen. Beispielsweise kann die vorliegende Technik dazu genutzt werden, strukturierte Datenelemente 28 oder unstrukturierte Datenelemente 30 zu identifizieren und zu analysieren. Strukturierte Datenelemente 28 können strukturierte Daten, wie beispielsweise bibliographischen Inhalt, vordefinierte Felder, Tags usw. enthalten. Umstrukturierte Datenelemente mögen solche identifizierbaren Felder nicht enthalten, dafür aber „Roh"-Datenelemente, für die eine abweichende Verarbeitung angemessen sein kann. Außerdem können solche strukturierten und unstrukturierten Datenelemente von „umfassenden" Quellen 32 oder von bekannten und früher aufgebauten Datenbanken stammen, wie beispielsweise integrierten Wissensdatenbanken 34 (IKB). In seiner hier genutzten Verwendung bezeichnet der Begriff „umfassende" Quelle jede Quelle, die nicht typischerweise von einem Nutzer in eine IKB vororganisiert worden ist, wie beispielsweise allgemeine Quellen, die über das Internet, Bibliotheken, professionelle Organisationen, Usergroups oder von jeder anderen beliebigen Datenquelle erhalten werden.
Die IKB kann andererseits Datenelemente enthalten, die entsprechend dem konzeptuellen Rahmen der Domaindefinition voridentifiziert, analysiert, strukturiert, gemappt und klassifiziert sind. Der Aufbau einer IKB ist wie detailliert weiter unten diskutiert ist, speziell zur weiteren und schnelleren Analyse und Reklassifizierung von Datenelementen und zur Durchsuchung von Datenelementen auf Basis von nutzerdefinierten Suchkriterien nützlich. Jedoch sollte man daran denken, dass die gleichen oder ähnlichen Suchkriterien genutzt werden können, um Datenelemente allgemeiner Datenquellen zu identifizieren und das die vorliegende Technik nicht auf die Verwendung mit einer vordefinierten IKB beschränkt sein soll.
Schlussendlich kann, wie in 1 veranschaulicht ist, jede andere Quelle von Datenelementen von dem Verarbeitungssystem 14 herangezogen werden, wie allgemein durch das Bezugszeichen 36 angedeutet ist. Diese anderen Quellen können Quellen umfassen, die auf den Aufbau der Domain und Klassifikation folgend verfügbar werden, wie beispielsweise neu errichtete oder neu angezapfte Ressourcen. Es sollte daran gedacht werden, dass solche neuen Ressourcen jederzeit entstehen und vorliegende Technik ihre Einbindung in das Klassifikationssystem und letztendlich die Verfeinerung des Klassifikationssystems selbst erbringt, um eine Anpassung an solche neuen Datenelemente zu gestatten.
Die vorliegenden Techniken liefern verschiedene zweckmäßige Funktionen, die, obwohl sie miteinander in Beziehung stehen, als unterschiedlich angesehen werden sollten. Zunächst bezieht sich die „Identifikation" von Datenelementen auf die Auswahl von Elementen, die von Interesse oder potentiellem Interesse sind. Dies wird typischerweise durch Referenz zu den Attributen der Domaindefinition und zu jeglichen Regeln oder Algorithmen erbracht, die implementiert sind, um in Verbindung mit den Attributen zu arbeiten. Die „Analyse" der Elemente beinhaltet die Untersuchung von Merkmalen, die durch die Daten definiert werden. Viele Analysearten können wiederum auf Basis der interessierenden Attribute, der Attribute der Elemente und der Regeln oder Algorithmen durchgeführt werden, auf denen die Strukturierung, das Mapping und die Klassifikation basiert. Die Analyse wird außerdem auf den strukturierten und klassifizierten Datenelementen durchgeführt, beispielsweise um Ähnlichkeiten, Unterschiede, Trends und sogar vorher nicht erkannte Beziehungen zu identifizieren.
Die „Strukturierung" bezieht sich hier auf den Aufbau des konzeptuellen Rahmens oder der Domaindefinition. Auf dem Gebiet des Data-Minings werden manchmal der Begriff „Strukturierung" und die Unterscheidung zwischen „strukturierten" und „unstrukturierten" Daten genutzt (beispielsweise wie oben in Bezug auf die strukturierten und unstrukturierten Datenelementen, wie sie in 1 repräsentiert sind). Eine solche „Struktur" kann als Implementierung eines speziellen analytischen Systems an oder innerhalb gewisser Datenelemente gedacht werden. Somit kann ein Dokument in einen Titel, eine Zusammenfassung und Kapitel unterteilt werden. Innerhalb jedes dieser Teile können die Daten jedoch im Wesentlichen unstrukturiert bleiben. Die vorliegenden Techniken gestatten die Nutzung solcher Strukturen, die geändert oder sogar verworfen worden sein können, in Abhängigkeit von dem speziellen konzeptuellen Rahmen der Domaindefinition. Solche Strukturierung kann die Übersetzung, die Formatierung, das Tagging oder eine anderweitige Transformation der Daten in eine Form mit sich bringen, die leichter durchsucht, analysiert, verglichen und klassifiziert werden kann. Beispielsweise kann eine solche Strukturierung die Umsetzung der Daten in einen speziellen Dateityp oder ein Format beinhalten, wie beispielsweise durch die Nutzung einer Mark-up-Language, wie beispielsweise XML.
„Mapping" der Elemente beinhaltet die Beziehung der Attribute der Domaindefinition zu den Merkmalen und Attributen der Datenelemente. Ein solches Mapping kann als ein Prozess gedacht werden, in dem die Domaindefinition auf Daten jedes Elements in Übereinstimmung mit den Attributen der Domaindefinition und der genutzten Regeln und Algorithmen angewendet wird. Obwohl stark verwandt, ist das Mapping im vorliegenden Kontext von der „Klassifikation" zu unterscheiden. Die Klas sifikation ist die Festschreibung einer Beziehung zwischen den Subdivisionen des konzeptuellen Rahmens der Domaindefinition und den Datenelementen (z.B. über Attribute der Achsen und Label). Im vorliegenden Kontext wird auf ein→viele-Mapping und auf eins→viele-Klassifikation Bezug genommen, wobei das Mapping der Prozess zur Herbeiführung der Klassifikation auf Basis des strukturellen Systems und der Domaindefinition ist.
Der resultierende Prozess kann von manchen existierenden Techniken, wie beispielsweise dem Data Mining, der Taxonomie, Mark-up-Languages und einfachen Suchmaschinen unterschieden werden, obwohl diese für die hier implementierten Teilprozesse genutzt werden können. Beispielsweise identifiziert das Data Mining Beziehungen oder Muster in den Daten vom Standpunkt des Datenelements und nicht auf Basis einer durch eine Domaindefinition vorgegebenen Struktur. Das Data Mining liefert allgemein keine eins→viele-Mappings oder -Klassifikationen der Einheiten. Taxonomien schreiben eine einheitliche Klassifikation von Elementen durch die Unterteilung der Kategorien vor, die die Taxonomie definieren. Mark-up-Languages sind, obwohl sie für die Strukturierung von Elementen potentiell zweckmäßig sind, für das eins→viele-Mapping oder -Klassifikation nicht besonders gut geeignet und liefern allgemein eine „Struktur" innerhalb der Elemente auf Basis von Tags oder anderen Merkmalen der Sprache. Ähnlich liefern einfache Suchtechniken typischerweise nur Listen von Elementen, die gewisse Suchkriterien erfüllen, jedoch erbringen sie kein Mapping oder Klassifikation der Elemente, wie hier vorgelegt.
Das Verarbeitungssystem 14 bezieht sich außerdem auf Regeln und Algorithmen 38 zur Analyse, Strukturierung, zum Map ping und zur Klassifikation der Datenelemente. Wie detaillierter weiter unten beschrieben, sind die Regeln und Algorithmen 38 typischerweise für spezielle Typen von Datenelementen geeignet und tatsächlich für spezielle Zwecke (z.B. zur Analyse und Klassifizierung) der Datenelemente eingerichtet. Beispielsweise können die Regeln und Algorithmen sich auf die Analyse von Text in Textdokumenten oder Textteilen von Datenelementen beziehen. Die Algorithmen können eine Bildanalyse für Bildelemente oder Bildteile von Elementen und so weiter erbringen. Die Regeln und Algorithmen können in dem Verarbeitungssystem 14 gespeichert sein oder das Verarbeitungssystem kann bei Bedarf auf diese zugreifen. Beispielsweise können einige der Algorithmen ziemlich speziell auf verschiedene Typen von Datenelementen eingerichtet sein, wie beispielsweise diagnostische Bilddaten. Unter den Algorithmen können sich ausgeklügelte Algorithmen zur Analyse und Identifikation von interessierenden Merkmalen in Bildern finden und diese können, wenn sie zur Analyse von Datenelementen erforderlich sind, abgerufen werden.
Das Datenverarbeitungssystem 14 ist außerdem an eine oder mehrere Speichereinrichtungen 40 angeschlossen, um Ergebnisse von Suchvorgängen, Analyseergebnisse, Nutzerbezüge und alle anderen permanenten oder temporären Daten zu speichern, die erforderlich sein mögen, um die Zwecke der Analyse, Struktur, des Mappings und der Klassifikation zu erzielen. Speziell kann der Speicher 14 zur Abspeicherung der IKB 34 genutzt werden, wenn die Analyse, die Strukturierung, das Mapping und die Klassifikation einer Serie identifizierter Datenelemente durchgeführt ist. Wiederum können mit der Zeit der IKB zusätzliche Datenelemente hinzugefügt werden, und die Analyse und Klassifikation der Datenelemente in der IKB kann verfeinert oder auf Basis von Veränderungen in der Domainde finition den Regeln, die zur Analyse und Klassifikation angewendet werden usw. sogar verändert werden.
Ein Bereich editierbarer Schnittstellen kann zur Interaktion mit der Domaindefinition, den Regeln und Algorithmen und den Elementen selbst vorgesehen sein. Lediglich beispielsweise und wie in 1 veranschaulicht, sind gegenwärtig vier solcher Schnittstellen vorgesehen. Diese können eine Domaindefinitionsschnittstelle 42 zur Festlegung der Achsen, Labels und Attribute der Domain umfassen. Es kann eine Regeldefinitionsschnittstelle 44 vorgesehen sein, um spezielle zu nutzende Regeln oder Links oder externe Regeln und Algorithmen festzulegen. Es kann eine Suchdefinitionsschnittstelle 46 vorgesehen sein, um zu ermöglichen, Datenelemente 46 entweder von allgemeinen Quellen oder einer IKB zu durchsuchen, zu analysieren und zu klassifizieren und verschiedene Ergebnissichtungsschnittstellen 48 können vorgesehen sein, um die Ergebnisse der Analyse einer oder mehrerer Datenelementen zu veranschaulichen. Die Schnittstellen werden typischerweise vom Bediener über eine Workstation 50 bedient, die mit dem Verarbeitungssystem 14 verbunden ist. Tatsächlich kann das Verarbeitungssystem 14 Teil einer Workstation 50 oder vollständig von der Workstation entfernt aufgebaut und durch ein geeignetes Netzwerk angeschlossen sein. Die Schnittstellen können verschiedene Ansichten erbringen, wie beispielsweise die in 1 aufgezählten und die als Briefmarkenansicht, als Formansicht, als Draufsicht, als hervorgehobene Ansicht, als räumliche Grundansicht (Splay), als Splay mit Überlagerung oder als nutzerdefiniertes Schema oder irgendeine andere Ansicht bezeichnet werden. Es sollte daran gedacht werden, dass dies lediglich exemplarische Aufzählungen von Analysen und Klassifikationen sind und dass viele andere Ansichten o der Varianten dieser Ansichten ins Auge gefasst werden können.
Wie oben angemerkt, liefert die vorliegende Technik eine Nutzerdefinition und eine Verfeinerung des konzeptuellen Rahmens, der durch die Domaindefinition repräsentiert wird. 2 veranschaulicht exemplarische Schritte beim Definieren des konzeptuellen Rahmens einer Domain. Die allgemein durch das Bezugszeichen 52 bezeichnete Gesamtlogik enthält allgemeine Spezifikationen der Domain für eine erste Phase 54 gefolgt von einer Verfeinerung der Domaindefinition in einer zweiten Phase 56. Die Spezifikation der Domain 54 kann einen Bereich von Schritten, wie beispielsweise eine Definition von Domainachsen 58 und eine Definition von Labels 60 innerhalb jeder Achse enthalten. Wie oben diskutiert, repräsentieren die Achsen allgemein konzeptuelle Teile der Domain, die in jeder geeigneten, von dem Bediener definierten Weise unterteilt werden können. Die Labels repräsentieren ihrerseits eine konzeptuelle Unterteilung der individuellen Achsen. Die Labels und tatsächlich auch die Achsen können als konzeptuelle Unterteilungsklassifikationsebenen gedacht werden. Wie detaillierter weiter unten diskutiert ist, können manche der Ebenen redundant sein oder niedrigere Ebenen können ebenso zu höheren Ebenen redundant sein, um ein „konzeptuelles Zooming" in der Domain zu gestatten. Dies bedeutet, dass insbesondere Labels als Achsen der Domain gelistet sein können, was die Analyse und Visualisierung der Basen für spezielle Klassifikationen von Datenelementen gestattet.
Auf die Spezifikation der Domain folgend, kann die Domain in Phase 56 weiter verfeinert werden. Eine solche Verfeinerung kann Listingattribute für verschiedene Labels jeder Achse beinhalten. Allgemein können diese Attribute jegliche Eigenschaft der Datenelemente sein, die in den Datenelementen zu finden sind und deren Identifikation, Analyse, Strukturierung, Mapping oder Klassifikation erleichtern. Wie in 2 veranschaulicht, können solche Elemente bei Dokumenten Worte, Variationen von Worten und Begriffen, Synonyme, in Beziehung stehende Worte, Konzepte und so weiter enthalten. Diese können für jedes Label einfach aufgelistet werden, wie weiter unten detaillierter erläutert wird. Auf Basis der gelisteten Attribute kann, wie in Schritt 64 angedeutet ist, eine Assoziationsliste erzeugt werden. Diese Assoziationsliste repräsentiert die Sammlung von Attributen wirksam die jedem Label und jeder Achse zugeordnet sind.
Auf die Definition der Domain folgend, werden in Schritt 66 die Regeln und Algorithmen identifiziert, die zur Durchsuchung, Analyse, Strukturierung, zum Mapping und zur Klassifikation der speziellen Datenelemente anzuwenden sind. Diese Regeln und Algorithmen können zusammen mit der Domain von dem Nutzer festgelegt werden. Solche Regeln und Algorithmen können so einfach sein wie beispielsweise ob und wie Worte und Wortfolgen identifiziert werden (z.B. ob nach einem ganzen Wort oder einer ganzen Phrase gesucht wird, Nachbarschaftskriterien und so weiter). In anderen Zusammenhängen können verfeinerte Algorithmen genutzt werden. Beispielsweise kann sogar bei der Analyse von Textdokumenten eine komplexe Textanalyse, eine Indexierung, eine Klassifizierung, ein Tagging oder andere solche Algorithmen benutzt werden. Im Fall von Bilddatenelementen können die Algorithmen Algorithmen umfassen, die die Identifikation, Segmentierung, Klassifikation, den Vergleich und so weiter spezieller Bereiche oder interessierender Merkmale innerhalb der Bilder gestatten. Im Kontext der medizinischen Diagnose können solche Algorithmen beispielsweise die computergestützte Diagnose von Krankheitszu ständen oder sogar eine verfeinertere Analyse der Bilddaten gestatten. Außerdem können die Regeln und Algorithmen die gesonderte Analyse von Text und anderen Daten, einschließlich Bilddaten, Audiodaten usw. gestatten. Des Weiteren können die Regeln und Algorithmen zu einer Kombination der Analyse von Text und anderen Daten führen.
Wie detaillierter weiter unten diskutiert wird, liefern die vorliegenden Techniken eine bisher ungekannte Freiheit und Spielraum hinsichtlich der Typen von Daten, die analysiert werden können sowie hinsichtlich der Klassifikation von Datenelementen auf Basis einer Kombination von Algorithmen für Text, Bild und andere in den Elementen enthaltene Datentypen. In Schritt 68 werden optional Links zu solchen Regeln und Algorithmen bereitgestellt. Solche Links können beispielsweise zweckmäßig sein, wenn spezielle Datenelemente zu lokalisieren, jedoch komplex, sich entwickelnd sind oder wenn sogar neue Algorithmen für deren Analyse und Klassifikation verfügbar werden. Viele solcher Links können, falls angemessen, dazu genutzt werden, die Klassifikation von individuellen Datenelementen auf Basis von nutzereingegebenen Suchkriterien zu erleichtern, sobald sie identifiziert sind.
In Schritt 40 wird auf Datenelemente zugegriffen. Die Datenelemente können wiederum an jedem geeigneten Ort einschließlich allgemeiner Datenquellen und bekannter oder sogar vordefinierter Datenbanken und ähnlichem gefunden werden. Die vorliegenden Techniken können sich auf die Akquisition oder die Erzeugung der Datenelemente selbst beziehen, obwohl bei der Verarbeitung nach 2 davon ausgegangen wird, dass die Datenelemente bereits existieren. In Schritt 72 können die Datenelemente optional indexiert und gespeichert werden. Wie der Fachmann zu würdigen weiß, gestattet eine solche In dexierung die nachfolgende sehr schnelle Verarbeitung der Datenelemente. Eine solche Indexierung kann insbesondere in Situationen zweckmäßig sein, in denen auf die Datenelemente wieder zugegriffen werden muss und in denen die originalen Elemente entweder unstrukturiert oder teilstrukturiert sind oder sogar als Rohdaten vorliegen (z.B. Rohtext). Wo eine solche Indexierung durchgeführt wird, werden die indexierten Elemente typischerweise in Schritt 72 für einen späteren Zugriff zur Analyse, zum Mapping und zur Klassifikation gespeichert. Wie oben angemerkt, kann die Domaindefinition sogar für Elemente und Teile von Elementen, die strukturiert oder teilstrukturiert sind, solche Strukturen nutzen (wo beispielsweise die existierende Struktur in dem Element dem strukturellen System der Domaindefinition entspricht) oder die Daten restrukturieren oder weiter strukturieren oder sogar die vorhandene Datenstruktur des Elements ignorieren.
In Schritt 74 werden in 2 die Domaindefinition und die zugeordneten Regeln und Algorithmen auf die im Zugriff befindlichen Datenelemente angewandt. Auf Basis der Domaindefinition und der Regeln und Algorithmen werden spezielle Datenelemente identifiziert, analysiert, strukturiert, gemappt und klassifiziert. Es sollte angemerkt werden, dass, wie weiter unten in größerem Detail beschrieben, die in Schritt 74 speziell durchgeführte Suche von dem Nutzer spezifiziert oder gestaltet werden kann. Dies bedeutet, dass von dem Nutzer über eine geeignete Suchschnittstelle zur speziellen Suche sowohl für allgemeine Quellen als auch Quellen innerhalb einer IKB definiert werden können. Bei einer vorliegenden Implementierung kann die Suchschnittstelle im Wesentlichen identisch zu der sich ergebenden Domaindefinitionsschnittstelle einschließlich ähnlicher Achsen und Labels sein, die von dem Bediener zur Durchführung der Suche ausgewählt werden können.
In Schritt 76 werden die Ergebnisse der Anwendung der Domaindefinition und -regeln gespeichert. In Schritt 78 werden Schnittstellenseiten präsentiert, die die Analyse und Klassifikation und tatsächlich die Datenelemente selbst wiedergeben. Auf Basis solcher Wiedergaben können die Domaindefinition und die Attribute sowie die Regeln und Algorithmen, die auf Basis der Domaindefinition angewendet werden, geändert werden, wie in 2 durch die Pfeile angedeutet ist, die zu früheren Verarbeitungsschritten zurück verweisen.
Die speziellen Schritte und Stufen beim Zugreifen und Behandeln von Datenelementen sind in 3 schematisch veranschaulicht. In 3, in der die Datenelementeverarbeitungslogik allgemein durch das Bezugszeichen 80 bezeichnet ist, beginnt die Klassifikation der Datenelemente auf Basis der Domaindefinition (oder den von dem Nutzer definierten Suchkriterien) und den Regeln und Algorithmen, die der Definition zugeordnet sind. Diese Klassifikationsergebnisse führen zu einem eins→viele-Mapping und -Klassifikation, wie durch das Bezugszeichen 84 angedeutet. Wie der Fachmann weiß wird ein solches Mapping typischerweise nicht durch konventionelle Suchmaschinen und Data-Mining-Werkzeuge erbracht. Weil viele verschiedene Achsen, Labels und tatsächlich verschiedene Ebenen derselben in eine Domaindefinition gemeinsam mit zugeordneten Attributen, Regeln und Algorithmen eingeschlossen werden können, kann somit jedes Datenelement in mehr als einer Achse und Label gemappt und klassifiziert werden. Somit kann jedes Datenelement auf viele verschiedene konzeptuelle Subdivisionen des konzeptuellen Rahmens der Domaindefinition gemappt werden. Dieses eins→viele-Mapping und -Klassifikation liefert eine starke Basis zur nachfolgenden Analyse, zum Vergleich und zur Betrachtung des Datenelements.
Auf das Mapping und die Klassifikation folgend kann die Analyse der Datenelemente, wie in Schritt 86 in 3 angedeutet, durchgeführt werden. Wiederum kann eine solche Analyse auf nutzerdefinierten Achsenregeln und Algorithmen sowie auf statistischen, analytischen Techniken beruhen. Beispielsweise können dort wo Dokumente durchsucht und klassifiziert werden, Korrespondenzen, Überlappungen und Unterscheidungen zwischen den Dokumenten analysiert werden. Außerdem können einfache Analysen, wie beispielsweise Zählungen und Dokumenterelevanz auf Basis multipler Kriterien ermittelt und viele viel→eins-Mappings innerhalb der Klassifizierungsschritte durchgeführt werden. Die Analyseergebnisse und Ansichten werden dann ausgegeben, wie Block 88 besagt. Solche Ansichten können Teil eines Softwarepakets sein, das die vorliegenden Techniken implementiert oder sie können nutzerdefiniert sein.
In Schritt 90 werden die Analyseergebnisse und Ansichten durch einen Nutzer durchgesehen. Die Durchsicht kann jede geeignete Form haben und kann unmittelbar, beispielsweise auf eine Suche folgend, oder zu jeder anderen nachfolgenden Zeit stattfinden. Die Durchsichten werden an den individuellen Analyseansichten, wie in Block 92 gekennzeichnet, durchgeführt. Auf Basis der Durchsicht kann der Bediener jeden Teil des konzeptuellen Rahmens verfeinern, wie in Block 94 angedeutet ist. Eine solche Verfeinerung kann die Veränderung der Domaindefinition, jedes Teils der Domaindefinition, die Veränderung der angewendeten Regeln oder Algorithmen, die Änderung des Typs oder der Natur der durchzuführenden Analyse usw. beinhalten. Somit liefert die vorliegende Technik ein hochflexibles und interaktives Werkzeug zur Identifikation, Analyse und Klassifizierung der Datenelemente.
Wie oben angemerkt, können innerhalb des konzeptuellen Netzwerks und der Domaindefinition viele Strategien zur Unterteilung und Definierung der Achsen und Labels ins Auge gefasst werden. 4 veranschaulicht einen exemplarischen Mapping-Prozess zur Entwicklung eines eins→viele-Mappings und -Klassifikation eines Datenelements. Für die vorliegenden Zwecke wird das Mapping, das insgesamt mit dem Bezugszeichen 96 bezeichnet ist, auf Basis einer exemplarischen Domaindefinition 98 durchgeführt. Die Domaindefinition enthält eine Serie von Achsen 22 und deren zugeordnetes Label 24. 4 veranschaulicht außerdem ein Beispiel dafür, wie ein „konzeptuelles Zoom" durch die Domaindefinition selbst durchgeführt werden kann. In dem veranschaulichten Beispiel werden Attribute 26 einer ersten Achse I und eines Labels IA innerhalb dieser Achse an einer Labelebene 100 einer nachfolgenden Achse A angegeben. Dies heißt, dass die Achse A identisch zu dem Label IA der Achse I ist. Weil die Attribute des Labels IA die gleichen wie die des Labels der Achse A sind, kann es sein, dass wenn sie in einer Suche von einem Bediener, wie nachstehend beschrieben, ausgewählt sind, die wiedergegebenen Suchresultate nicht nur diejenigen Datenelemente repräsentieren, die den Kriterien des Labels IA entsprechen, sondern sie liefert eine höhere Ebene oder Auflösung oder Granularität dafür, warum die Elemente durch Referenz zu den Labels der Achse A selektiert, gemappt und klassifiziert worden sind.
Wie bei Bezugszeichen 102 in 4 angedeutet ist, wird davon ausgegangen, dass ein spezielles Datenelement eine Serie von Attributen aufweist. In dem Fall eines Textelements können diese Attribute Worte oder Wortverbindungen sein. Dies bedeutet, dass in dem Datenelement gewisse Worte oder Wortverbindungen zu finden sind, die durch die Attribute der Domaindefinition definiert werden. Dann indiziert das Mapping, das durch die Referenz Nr. 96 repräsentiert wird, dass das Datenelement gemäß der individuellen Achsen, Labels und Labelattribute zu klassifizieren ist, die den Attributen entsprechen, die in dem Element gefunden werden. In diesem Fall wird das Element an einer Achsenebene 104 gemäß der Achsen I, II und A klassifiziert. Außerdem wird das Element auf einer Labelebene in Label IA, IIB, IIC, AAa und AAc klassifiziert. Darüber hinaus wird in Folge des konzeptuellen Zooms, der durch die zusätzliche Achse A erbracht wird, das Element an einer „Attribut"-Ebene mit Attributen IAa und IAc assoziiert. Bei einer vorliegenden Implementierung werden die Attribute bei der Wiedergabe der Suchergebnisse nicht direkt angezeigt, wie nachstehend beschrieben. Jedoch kann durch Anbringung der Attribute des Labels IA in der Labelebene 100 der Achse A diese zusätzliche Klassifikation durchgeführt werden.
Das in 4 veranschaulichte Mapping wird in der Klassifikationsphase der oben diskutierten vorliegenden Techniken durchgeführt. Es sollte angemerkt werden, dass diese Klassifikation nutzergewählt sein kann. Dies bedeutet, wie nachstehend beschrieben, dass wenn die Definition erstellt ist, alle identifizierten Datenelemente gemäß allen Achsen, Labeln und Attributen strukturiert gemappt und klassifiziert werden können. Jedoch kann ein Bediener, wo es angemessen ist, lediglich einige der Achsen und Labels für eine gewünschte Klassifikation auswählen. Sobald die Klassifikation durchgeführt ist, kann die Suche jedoch dazu durchgeführt werden, bestimmte Datenelemente entsprechend einiger oder aller der Achsen, Labels und Attribute zu identifizieren, die den konzeptuellen Rahmen der Domaindefinition bilden. Aus diesem Grund kann es vorteilhaft sein, zur Identifizierung, Strukturierung, Mapping und Klassifikation der Datenelemente und um eine Nutzerauswahl eines Subsets derselben bei späte ren Suchen zu ermöglichen, alle Achsen, Ebenen und Attribute zu nutzen. Wenn eine Indexierung oder andere Datenverarbeitungstechnik genutzt wird, gestattet außerdem die Verwendung aller Achsen und Labels und der zugeordneten Attribute die Indexierung zur Erfassung all dieser, so dass nachfolgende Suchen und Analysen stark erleichtert sind.
Wie oben erwähnt, kann der konzeptuelle Rahmen, der durch die Domaindefinition repräsentiert wird, einen weiten Bereich von Ebenen und jede konzeptuelle Unterteilung der Ebenen enthalten. 5 repräsentiert eine exemplarische Domain 110, die in diesem Fall als „Superdomain" bezeichnet ist. Der Begriff Superdomain wird hier dazu benutzt zu illustrieren, dass die Domain ihrerseits unterteilt werden kann. Dies bedeutet, dass viele unterschiedliche Ebenen bei der konzeptuellen Unterteilung in der Klassifikation erhalten werden können. Bei der veranschaulichten Ausführungsform sind in der Superdomain vier Domains zu identifizieren, zu denen die Domains 112, 114, 116 und 118 gehören. Diese Domains können sich miteinander überlappen. Dies bedeutet, dass in den Domains bestimmte Labels oder Attribute zu finden sind, die ebenfalls in anderen Domains gefunden werden können. In speziellen Fällen kann es jedoch auch sein, dass zwischen den Domains keine Überlappung besteht. Wie in 5 veranschaulicht, werden die Domains ihrerseits als die Achsen der Superdomain angesehen. In einer weiteren konzeptuellen Ebene kann jede Domain in Sub-Domains unterteilt werden, wie für die Domain 112 durch die Subdomains 120 dargestellt. Dies bedeutet, dass jede Domain konzeptuell unterteilt werden kann, um Datenelemente zu klassifizieren, die sich innerhalb der Domain unterscheiden. Schlussendlich werden individuelle Achsen mit Labeln für jede Achse und Attribute für jedes Label definiert.
Dieser Multiebenenansatz, für den durch die Domain definierten konzeptuellen Rahmen, wird in 6 weiter veranschaulicht. 6 veranschaulicht tatsächlich sechs gesonderte Klassifikations- und Analyseebenen. In einer ersten Ebene L1 ist die Superdomain definiert. Diese Superdomain 110 ist typischerweise das Feld selbst, in dem die Datenelemente zu finden sind. Wie der Fachmann erkennen kann, ist das Feld tatsächlich lediglich eine von dem Bediener definierte Abstraktionsebene. Innerhalb der Superdomain kann eine Serie von Domains 112 bis 118 gefunden werden, wie in Ebene L2 in 6 veranschaulicht ist. Außerdem kann innerhalb jeder Domain eine Ebene von Subdomains definiert werden, die von einer Serie von Achsen gefolgt sind, wobei alle Achsen individuelle Labels und schlussendlich Attribute für jedes Label haben, wie durch die Ebenen L3 bis L6 veranschaulicht ist. Somit kann zur Definition der Domain eine beliebige Anzahl von konzeptuellen Ebenen definiert werden. Auf Basis der ultimativen Attribute der Datenelemente wird dann das Mapping zu und die Klassifizierung in entsprechende Ebenen und Sub-Ebenen durchgeführt.
Wie oben erwähnt, liefern die vorliegenden Techniken eine Nutzerdefinition der Domain und ihres konzeptuellen Rahmens. 7 veranschaulicht eine exemplarische Computerschnittstellen-Bildschirmseite zur Definition einer Domain. Lediglich beispielshalber enthält die Domain in dieser veranschaulichten Implementierung lediglich die Domainebene, die Achsenebene, die Labelebene und zugeordnete Attribute. Das Domain-Definitions-Template (Formular), das durch das Bezugszeichen 22 indiziert ist, kann einen Abschnitt 124 für bibliografische Daten, einen subjektiven Datenabschnitt 126 und einen Klassifikationsdatenabschnitt 128 aufweisen, in dem die Achsen und Labels gelistet sind.
Wo es vorgesehen ist, gestattet der bibliografische Datenabschnitt 124, dass bestimmte Identifizierungsmerkmale von Datenelementen in entsprechende Felder geliefert werden. Beispielsweise kann ein Datenelementfeld 130 zusammen mit einem Datenelementidentifikationsfeld 132 vorgesehen sein, die zusammen das Datenelement eindeutig kennzeichnen. Außerdem kann ein Titelfeld 134 zur weiteren Identifizierung des Datenelements vorgesehen sein. Zusätzliche Felder 136 können vorgesehen sein, die nutzerdefiniert sind. Es können außerdem Daten, die die Herkunft des Datenelements kennzeichnen, vorgesehen werden, wie in Blöcken 138 und 140 angedeutet. Es kann weitere Information, wie beispielsweise ein Statusfeld 142 vorgesehen werden, wenn es gewünscht ist. Schließlich kann ein allgemeines Zusammenfassungsfeld 144 vorgesehen sein, wie beispielsweise zur Aufnahme von Information, wie beispielsweise eine Zusammenfassung eines Dokuments usw. Es können Auswahlen 146 oder Feldidentifizierungen vorgesehen werden, wie beispielsweise zur Auswahl von Datenbanken, deren Datenelemente zu durchsuchen, zu analysieren, zu mappen und zu klassifizieren sind. Wie der Fachmann erkennt, dienen die exemplarischen Felder des bibliografischen Abschnitts 124 hier nur als Beispiel. Einiges oder alles dieser Information kann über die strukturierten Datenelemente verfügbar sein oder die Felder können von einem Bediener vervollständigt werden. Außerdem können einige der Felder nur durch Verarbeitung und Analyse der Datenelemente selbst oder einen Teil der Datenelemente gefüllt werden. Beispielsweise kann solche bibliografische Information in bestimmten Abschnitten von Dokumenten, wie beispielsweise Deckblättern von Patentdokumenten, bibliografischen Auflistungen von Büchern und Artikeln usw. zu finden sein. Es können andere bibliografische Daten gefunden werden, wie beispielsweise in den Headern (Köpfen) von Bilddateien, Textteile, die Audiodateien zugeordnet sind, Anmerkungen, die in den Text-, Bild- und Audiofiles eingeschlossen sind usw.
Der subjektive Datenabschnitt 126 kann jeden aus einer Auswahl subjektiver Daten beinhalten, die typische Eingaben einer oder mehrerer Bediener sind. In dem veranschaulichten Beispiel gehört zu den subjektiven Daten ein Feld 148 zur Elementidentifizierung oder -bezeichnung und ein Feld zur Identifikation einer sichtenden Person 150. Außerdem können "Felder 152 für ein subjektives Rating vorgesehen werden. Bei der veranschaulichten Ausführungsform kann ein weiteres Feld 144 zur Identifikation einer Qualitäten des Datenelements vorgesehen sein, wie es von einer sichtenden Person, einem Experten oder einer anderen qualifizierten Person beurteilt worden ist. Die Qualität kann beispielsweise eine Nutzereingaberelevanz oder andere qualifizierende Kennzeichnung sein. Schlussendlich kann ein Kommentarfeld 156 vorgesehen sein, um Kommentare der sichtenden Person aufzunehmen. Es sollte angemerkt werden, dass einige oder alle Felder in einem Abschnitt 126 für subjektive Daten durch menschliche Nutzer und Experten ausgefüllt werden können und dass einige oder alle dieser Felder durch automatisierte Techniken einschließlich Computeralgorithmen ausgefüllt werden können.
Der Klassifikationsdatenabschnitt 128 enthält in der veranschaulichten Ausführungsform Eingaben für die verschiedenen Achsen und Label sowie virtuelle Schnittstellentools (z.B. Buttons/Schaltflächen) zum Starten von Suchaufgaben und Durchführungen. In der veranschaulichten Ausführungsform gehört zu diesen ein virtueller Button 158, um eine Domaindefi nition zum Suchen, Analysieren, Strukturieren, Mappen und Klassifizieren von Datenelementen gemäß der Definition in Auftrag zu geben. Die Auswahl von Views zur Wiedergabe verschiedener Ergebnisse oder zusätzlicher Schnittstellenseiten kann vorgesehen sein, wie durch Buttons 160 veranschaulicht wird. Bei der in 7 veranschaulichten Implementierung ist eine Serie auswählbarer Blocks 162 vorgesehen, die es einem Bediener gestatten, eine oder alle Achsen auszuwählen, die die Domaindefinition bilden. Ähnlich ist für jedes Label der nutzerwählbare Block 164 bereitgestellt. Obwohl es in 7 im Interesse der Klarheit nicht veranschaulicht ist, können alle Achsen viele verschiedene Labels aufweisen und tun dies typischerweise auch. In der Domaindefinition kann jede Anzahl von Achsen vorgesehen sein und für jede Achse kann eine beliebige Anzahl von Labels vorgesehen sein. Schließlich kann eine Anzahl von Identifizierern oder Hinweiskästen 166 vorgesehen sein, die automatisch angesehen oder durch einen Nutzer einsehbar sind (beispielsweise durch Betätigung eines Knopfes an einer Maus oder einer anderen Eingabeeinrichtung), um das Abrufen der Bedeutung oder des Umfangs verschiedener Achsen oder Labels zu erleichtern oder um Attribute individueller Labels anzuzeigen.
Zur Identifizierung und Bezeichnung der Achsen und Labels können viele verschiedene zusätzliche Schnittstellen vorgesehen sein. Beispielsweise veranschaulicht 8 eine exemplarische Schnittstelle 168 zur Definition von Achsen, Labeln und Hinweistext für jedes Label. In der Schnittstelle kann der Bediener den Achsennamen in ein Feld 170 und eine Serie von Labelnamen für die Achse in das Feld 172 eintragen. Die Schnittstelle 168 gestattet es dem Bediener weiter, Hinweistexte einzugeben wie bei Bezugszeichen 174 angedeutet ist, der genutzt oder für den Bediener angezeigt werden kann, um den Bediener über die Bedeutung jedes Labels und den Umfang der Labels zu erinnern. Selbstverständlich kann für jede Achse ein ähnlicher Hinweistext eingeschlossen werden.
Ähnlich können es die Schnittstellenseiten dem Bediener gestatten, die speziellen Attribute jedes Labels festzulegen. 9 veranschaulicht eine exemplarische Eingabeseite für diesen Zweck. Die Seite zeigt dem Bediener die individuellen Achsen und das Label für die Achse an für die die Attribute zuzuordnen sind. In dem veranschaulichten Beispiel sind die Attribute Attribute von Textdokumenten, wie beispielsweise Worte und Wortfolgen, die von dem Bediener in einer Liste, wie beispielsweise in einem Feld 176 definiert werden können. Es ist ein weiteres Feld 178 für ein exaktes Wort oder Wortfolgen vorgesehen. In Abhängigkeit von der Gestaltung der Schnittstellen können Eingabeblocks, wie beispielsweise Block 170, vorgesehen sein, die es dem Bediener gestatten, ein spezielles Wort oder eine Wortfolge mit Auswahlen einzugeben, wie beispielsweise Auswahl 182 zur Auswahl, ob es ein Wortbestandteil oder ein Wortfolgenbestandteil oder ein exaktes Wort oder eine exakte Wortfolge ist. Es kann insbesondere für verschiedene Typen von Datenelementen und unterschiedlichen Datentypen, die in dem Element erwartet werden, ein weiter Bereich von Attributeingabeschnittstellen vorgesehen werden. Schlussendlich können Blocks zusammen mit anderen virtuellen Tools vorgesehen werden, um Attribute hinzuzufügen, Attribute zu löschen, Attribute zu modifizieren usw. wie in 9 allgemein mit Bezugszeichen 184 angedeutet ist.
Wie oben angemerkt, können die vorliegenden Techniken zur Identifizierung, Analyse, Strukturierung, zum Mapping, zum Klassifizieren und weiteren Vergleichen sowie zur Durchführung anderer Analysefunktionen an einer Vielzahl von Da tenelementen genutzt werden. Außerdem können diese aus einem großen Spektrum von Ressourcen, einschließlich allgemeiner Quellen, gewählt werden. Außerdem können die Datenelemente, wie oben beschrieben, verarbeitet und in einer IKB gespeichert werden. 10 veranschaulicht eine exemplarische Logik bei der Durchführung einiger dieser Operationen.
Die in 10 veranschaulichte exemplarische Logik 186 beginnt mit dem Zugriff auf ein oder mehrere Templates (Formulare) zur Auswahl, Analyse und Klassifizierung von Datenelementen, wie bei Bezugszeichen 188 angedeutet. Bei einer vorliegenden Implementierung werden für diesen Schritt zur anfänglichen Selektion und Klassifizierung der Datenelemente alle Achsen, Labels und Attribute der Domaindefinition genutzt. Jedoch kann der Bediener, wie mit Bezugszeichen 190 angedeutet, wo immer gewünscht, eine Zieldatenbank oder Ressource zur Identifikation und Klassifikation der Datenelemente anhand von Achsen und Labels aus dem Template wählen. Im vorliegenden Kontext sind die in Schritt 190 genannten Assets Datenelemente und das Asset-Ziel sind eine oder mehrere Orte, an denen Datenelemente zu finden oder zu finden erhofft sind. Das Asset-Ziel kann beispielsweise bekannte Datenbanken, öffentlich zugängliche Datenbanken und Bibliotheken, subskriptionsbasierte Datenbanken und Bibliotheken usw. sein. Beispielsweise können solche Asset-Ziele, wenn nach geistigen Schutzrechten gesucht wird, Datenbanken eines Patentamts umfassen. Wenn als anderes Beispiel nach diagnostischen medizinischen Bildern gesucht wird, kann das Asset-Ziel Ablagen solcher Bilder, wie beispielsweise Bildarchivierungs- und -kommunikationssysteme (PACS) oder andere Ablagen enthalten. Wiederum kann jede geeignete Quelle für diesen Zweck genutzt werden.
Auf Basis der in Schritt 190 gewählten Achsen und Labels wird in Schritt 192 auf die ausgewählten Attribute zugegriffen. Diese Attribute entsprechen allgemein den Achsen und gewählten Labels, wie sie von dem Nutzer und der Domaindefinition festgelegt sind. Wiederum können zur anfänglichen Klassifizierung von Datenelementen, wie beispielsweise zum Einschluss einer IKB, alle Achsen und Labels und deren zugeordnete Attribute genutzt werden. Bei nachfolgenden Suchen jedoch und wenn gewünscht bei der anfänglichen Suche werden nur die gewählten Attribute benutzt, wobei ein Subset von Achsen und/oder Labels als ein Suchkriterium genutzt werden. In Schritt 194 wird auf die ausgewählten Regeln und Algorithmen zugegriffen. Wiederum können diese Regeln und Algorithmen für die gesamte Analyse und Klassifikation oder lediglich für ein Subset genutzt werden, wie beispielsweise in Abhängigkeit von Suchkriterien, die durch den Nutzer über ein Suchformular ausgewählt worden sind. Schließlich wird in Schritt 196 auf das Asset-Zielfeld, auf das Datenelement selbst oder auf Teile der Datenelemente oder sogar auf indizierte Versionen der Elemente zugegriffen. Dieser Zugriff erfolgt typischerweise über ein Netzwerk, wie beispielsweise ein Wide Area Network (WAN) und insbesondere über das Internet. Beispielsweise wird in Schritt 196 auf Rohdaten der Elemente oder lediglich auf spezielle Abschnitte der Elemente zugegriffen, wenn eine solche Aufteilung verfügbar ist (z.B. anhand einer in den Elementen vorhandenen Struktur). Deshalb kann bei Schutzrechtdokumenten, wie beispielsweise Patenten, der Zugriff auf spezielle Teile, wie beispielsweise Deckblätter, Zusammenfassungen, Ansprüche usw. beschränkt sein. Ähnlich kann bei Bilddateien der Zugriff lediglich auf die bibliografische Information, auf den Bildinhalt oder Kombinationen daraus beschränkt sein.
Wenn die Datenelemente in einer IKB zum späteren Zugriff, zur Reklassifizierung, zur Analyse usw. zu klassifizieren sind, kann, wie in 10 durch gestrichelte Linien dargestellt ist, eine Serie von Teilschritten ausgeführt werden. Allgemein können dazu Schritte gehören, wie beispielsweise zur Übersetzung von Daten, wie bei Bezugszeichen 198 angedeutet ist. Wie der Fachmann erkennt, kann in Schritt 198 eine Übersetzung der Daten angeraten sein, weil die vorliegenden Werkzeuge für ein weites Spektrum von Daten implementiert werden kann, deren Format, Inhalt und Struktur unbekannt sein kann. Eine solche Übersetzung kann die Reformatierung, die Sektionierung, die Partitionierung oder anderweitige Manipulation der Daten in ein zur Analyse und Klassifikation gewünschtes Format umfassen. Wenn gewünscht, können die Einheiten in Schritt 200 indexiert werden. Eine solche Indexierung kann, wie der Fachmann wiederum erkennen kann, eine Unterteilung der Datenelemente in eine Serie von Einheiten oder Abschnitte enthalten, wobei jeder Abschnitt zur späteren Analyse getagt oder indexiert wird. Eine solche Indexierung kann beispielsweise lediglich an Teilen der Elemente durchgeführt werden, wenn es gewünscht ist. Die Indexierung wird, wenn sie durchgeführt ist, in Schritt 202 gespeichert, um einen schnelleren Zugriff und eine Bewertung der indizierten Datenelemente bei späteren Suchen zu ermöglichen.
Es kann, wenn gewünscht, eine „Kandidatenliste" genutzt werden, um die Geschwindigkeit der Klassifizierung spezieller Datenelemente, insbesondere von Textdokumenten zu erhöhen bzw. erleichtern. Wenn solche Kandidatenlisten genutzt werden, wird die Kandidatenliste typischerweise im Vorhinein erzeugt, wie in Schritt 204 in 10 angedeutet ist. Die Kandidatenliste kann allgemein die Achsen und Labels zusammen mit zugeordneten Attributen enthalten, die in den behandelten Datenelementen von besonderem Interesse sind. Die Kandidatenliste kann dazu verwendet werden, die Datenelemente zum Einschluss in die IKB schnell zu selektieren, wenn gewisse einfache Kriterien in dem Datenelement gefunden werden, wie beispielsweise das Vorhandensein eines Wortes oder einer Wortverbindung. Wo solche Kandidatenlisten benutzt werden, wird die vordefinierte Liste in Schritt 206 auf die im Zugriff befindlichen Datenelemente angewendet. Eine weitere Filterung und Überprüfungen können auf eine Vielzahl von Arten durchgeführt werden, was von der Natur des Datenelements und der Filterung abhängt, die implementiert werden kann. Beispielsweise kann der Prozess, wie in 10 in Schritt 208 veranschaulicht ist, eine Überprüfung auf Redundanzen und eine Filterung gewisser Dokumente oder anderer Datenelemente erfordern. Beispielsweise kann der Schritt, wenn eine IKB bereits errichtet ist, die Überprüfung beinhalten, ob bestimmte Datensätze oder Datenelemente bereits in die IKB eingeschlossen sind sowie die Beseitigung solcher Datenelemente, um redundante Datensätze in der IKB zu vermeiden. Ähnlich können diese wenn herausgefunden wird, dass Datensätze im Wesentlichen die gleiche zugrunde liegende Information repräsentieren, diese in Schritt 208 gefiltert werden. In dem Beispiel der geistigen Schutzrechte kann z.B. gefunden werden, dass eine bestimmte Patentanmeldung als Patent erschienen ist und die Patentinformation im Gegensatz zu der Patentanmeldungsinformation behalten und die frühere Information, wenn gewünscht, in Schritt 208 verworfen werden. Es kann eine große Vielzahl von Überprüfungen und Verifikationen implementiert werden.
In Schritt 210 werden die Datenelemente gemappt und klassifiziert. Das Mapping und die Klassifikation folgen wiederum der Domaindefinition, die durch Achsen, Label und Att ribute gegeben ist. Wie oben angemerkt, ist die in Schritt 210 durchgeführte Klassifikation eine eins→viele-Klassifikation, in der jedes einzelne Datenelement hinsichtlich mehr als einer korrespondierenden Achse und Labels klassifiziert werden kann. Schritt 210 kann andere Funktionen enthalten, wie beispielsweise das Hinzufügen subjektiver Information von Anmerkungen usw. Natürlich kann diese Art von Anmerkung und Hinzufügung subjektiver Bemerkungen oder anderer subjektiven Eingaben in einer späteren Stufe durchgeführt werden. In Schritt 210 werden die Datenelemente zusammen mit der Indexierung, der Klassifizierung usw. in der IKB gespeichert. Es sollte angemerkt werden, dass die Wissensdatenbank, wenn der Begriff „IKB" im vorliegenden Kontext benutzt wird, tatsächlich ein großes Spektrum von Formen annehmen kann. Die spezielle Form der IKB kann dem Diktat der speziellen Software oder Plattformen folgen, für die die IKB definiert ist. Die vorliegenden Techniken sollen die spezielle Software oder Form der IKB in keiner Weise beschränken.
Es sollte angemerkt werden, dass die IKB generell Klassifizierungsinformation enthält, wobei sie jedoch alle Arten von Datenelementen selbst oder verarbeiteten (d.h. indizierten oder strukturierten Versionen) von Datenelementen oder Elementteilen enthalten kann. Die Klassifizierung kann jede geeignete Form haben und z.B. einfach als tabellierte Zuordnung des strukturellen Systems der Domaindefinition zu entsprechenden Datenelementen oder Teilen der Elemente aufweisen.
Nach Aufbau der IKB oder Klassifizierung der Datenelemente allgemein können, wie in den Schritten 214 angedeutet, verschiedene Suchen durchgeführt werden. Der in 10 von Schritt 194 zu Schritt 214 führende Pfeil soll veranschauli chen, dass die in Schritt 214 durchgeführten Suchen entweder an Datenelementen durchgeführt werden können, die in einer IKB gespeichert sind, oder an Datenelementen, die nicht in einer IKB gespeichert sind. Dies bedeutet, dass die Suchen an großen Quellen von Datenelementen einschließlich externen Datenbanken, strukturierten Daten, nichtstrukturierten Daten usw. durchgeführt werden können. Wenn jedoch eine IKB aufgebaut worden ist, führt der bei der Referenznummer 196 durchgeführte Zugriffsschritt direkt zum Zugriff auf die IKB und zur Durchsuchung der Datensätze der IKB in Schritt 214. In Schritt 216 werden dann auf Basis der in Schritt 214 definierten Suche und der zugeordneten Regeln und Algorithmen die Suchergebnisse präsentiert. Wiederum können diese Suchergebnisse in einem weiten Spektrum von Formen präsentiert werden, die die Analyse individueller Datenelemente beinhalten oder die Ergebnisse können die Datenelemente in ihrer Originalform oder in hervorgehoben markierter oder anderweitig manipulierter Form enthalten.
Auf Basis einiger oder aller Suchergebnisse können die Auswahl von Datenelementen, die Klassifikation von Datenelementen oder jede andere Eigenschaft der Domaindefinition oder ihrer Funktion, die Domaindefinition, die Regeln oder andere Aspekte des konzeptuellen Rahmens und zur Analyse genutzten Tools modifiziert werden, wie in 10 allgemein bei Bezugszeichen 94 angedeutet ist. Dies bedeutet, dass, wenn sich herausstellt, dass die Suchresultate zu viele oder zu wenige Treffer einschließen, beispielsweise die Domaindefinition wie auch die Regeln verändert werden können, die zur Auswahl der Datenelemente, zur Klassifikation der Datenelemente oder zur Analyse der Elemente genutzt worden sind. Ähnlich können, wenn sich herausstellt, dass zu viele Unterscheidungen oder unzureichende Unterscheidung zwischen den Datenelementen vor liegen, diese in Schritt 94 geändert werden. Außerdem können, wenn neue konzeptuelle Unterscheidungen oder neue Attribute erkannt werden, wie beispielsweise in Folge von Fortentwicklungen auf einem Gebiet, diese in einer Veränderung der Domaindefinition, der Regeln und der angewendeten Algorithmen usw. resultieren. Außerdem können, wenn neue Regeln und Algorithmen zur Klassifikation der Datenelemente entwickelt oder verfügbar werden, diese in Schritt 94 zu Veränderungen führen. Auf Basis solcher Veränderungen kann der gesamte Prozess neu gestaltet werden. Dies bedeutet, dass zusätzliche Suchen durchgeführt, zusätzliche Datenelemente zu der IKB hinzugefügt, neue IKBs erzeugt werden können usw. Tatsächlich können solche Veränderungen einfach zu einer Neuklassifizierung der in einer IKB bereits vorhandenen Datenelemente führen.
11 veranschaulicht den in 10 schematisch veranschaulichten Prozess in Anwendung auf gewisse Textdatenelemente zur Erzeugung einer IKB. Der IKB-Erzeugungsprozess, der in 11 allgemein durch die Bezugsnummer 218 bezeichnet ist, startet mit einem Formular 220, das ähnlich oder gleich zu dem Formular sein kann, das zur Definition der Domain benutzt wird. Wie oben angemerkt, wird es bevorzugt, anfänglich für die Suche zur Erzeugung der IKB alle Achsen, Labels und Attribute der Labels einzuschließen. Wenn gewünscht, kann das Formular dem Nutzer jedoch gestatten, bestimmte Achsen oder Labels auszuwählen, wie durch die vergrößerten Checkboxen 224 in dem Formular 220 nach 11 veranschaulicht ist. Auf Basis der Auswahl einiger oder aller Achsen und Labels kann dann eine Assoziationsliste 226 genutzt werden. Die Assoziationsliste 226 kann in dem veranschaulichten Beispiel eine Identifikation der individuellen Attribute der speziellen Labels zusammen mit nutzerdefinierten spezifischen Attributen und gewissen Selektionskriterien enthalten. In der Veranschaulichung nach 11 sind die speziellen Attribute beispielsweise Worte, die sich auf Webpages oder ein ähnliches technische Feld beziehen. Zu den Selektionskriterien gehören bei dem veranschaulichten Beispiel, ob das gesamte Wort oder weniger als das gesamte Wort zur Identifikation der Datenelemente benutzt wird, ob ein Nähekriterium genutzt werden soll, wie bei Bezugszeichen 34 angedeutet ist, und ob irgendeine spezielle Schwelle benutzt werden soll, wie bei Bezugszeichen 236 angedeutet ist. Wie es dem Fachmann einleuchtet, können sogar innerhalb des Felds für Textsuche und Klassifikation viele solcher Kriterien genutzt werden. Die vorliegenden Techniken sollen nicht auf solche Selektionskriterien beschränkt werden. Außerdem sollte erkannt werden, dass die Selektionskriterien in Form einer Qualität des Attributs genutzt werden können oder dass solche Kriterien außerdem als eine auf den Selektions- und Klassifikationsprozess anzuwendende Regel implementiert werden können.
Auf Basis der Domaindefinition oder Teil der von dem Bediener ausgewählten Domaindefinition und auf Basis solcher Eingaben wie beispielsweise der Kandidatenliste, sofern angewendet, werden Regeln zur Selektion und Klassifizierung der Datenelemente genutzt, wie in 11 durch Bezugszeichen 238 angedeutet. In dem veranschaulichten einfachen Beispiel werden einem Regelidentifizierer 240 verschiedene Regeln 242 zugeordnet. Außerdem können in dem veranschaulichten Beispiel jeder der Regeln Relevanzkriterien 244 zugeordnet werden. Wie oben angemerkt, sollte daran gedacht werden, dass zur Selektion und Klassifikation der Datenelemente alle gewünschten Regeln angewendet werden können. Im Fall von Textdokumenten können diese Regeln ziemlich einfach sein. Jedoch können bei komplexeren Dokumenten oder wo Text und Bilder oder Text und andere Formen von Daten zu Klassifikationszwecken zu analy sieren sind, diese Regeln Kriterien zur Selektion und Analyse von Text sowie zur Selektion und Analyse von anderen Teilen der Daten, wie beispielsweise Bilder, kombinieren. Wie oben diskutiert, können die Regeln in den Code eingeschlossen werden, der den Selektions- und Klassifikationsprozess implementiert oder mit dem Code verbunden werden. Wenn komplexe Algorithmen genutzt werden, beispielsweise zur Bildanalyse und Klassifikation, mögen Algorithmen zu voluminös oder auch zu selten benutzt sein, um die Verlinkung mit den Algorithmen als effizienteste Lösung erscheinen zu lassen.
Auf Basis der Domaindefinition kann auf jede Kandidatenliste, jede Regel usw. und dann auf jede große Ressource 32 zugegriffen werden, die ein großes Spektrum verschiedener Datenelemente 246 enthält. Die Domaindefinition, ihre Attribute und die Regeln gestatten dann die Wahl eines Subsets dieser Elemente zum Einschluss in die IKB, wie bei Bezugszeichen 248 angedeutet. Bei der vorliegenden Implementierung werden nicht nur diese Elemente zum Einschluss in die IKB ausgewählt sondern zusätzliche Daten, wie beispielsweise wenn eine Indexierung, eine Analyse, ein Tagging usw. durchgeführt worden ist, begleiten die Elemente, um deren weitere Analyse, Wiedergabe, Selektion, Durchsuchung usw. zu gestatten und erleichtern.
Die an den gewählten und klassifizierten Datenelementen durchgeführte Analyse kann stark in Abhängigkeit von dem Interesse des Nutzers und von der Natur der Datenelemente variieren. Außerdem kann sogar vor der Klassifizierung, während der Klassifizierung oder auf die anfängliche Klassifizierung folgend eine zusätzliche Analyse und Klassifizierung durchgeführt werden. 12 veranschaulicht die allgemeine Logik für eine computerunterstützte Verarbeitung, Analyse und Klassifizierung von interessierenden Merkmalen der Datenelemente.
Diese allgemein durch das Bezugszeichen 250 bezeichnete Logik kann mit der Akquisition der in jeder Einheit enthaltenen Daten beginnen. Wie oben angemerkt, geht der vorliegende Prozess allgemein davon aus, dass eine solche Akquisition a priori durchgeführt wird. Jedoch können die vorliegenden Techniken auf Basis spezieller Analysen und Klassifikationen auch empfehlen, dass zusätzliche Datenelemente erzeugt werden, indem zusätzlich Daten akquiriert werden. In Schritt 254 wird, wie oben beschrieben, auf die Daten zugegriffen. Dem Zugriff auf die Daten folgt eine Nachverarbeitung über computerunterstützte Techniken, wie in 12 allgemein mit Bezugszeichen 256 angedeutet.
Wie oben angemerkt, liefert die vorliegende Technik ein hohes Maß an operativer Integration bei der computerunterstützten Suche, Analyse und Klassifikation von Datenelementen. Diese Operationen werden generell durch computerunterstützte Datenverarbeitungsalgorithmen, speziell zur Analyse und Klassifizierung von Datenelementen unterschiedlicher Typen durchgeführt. Manche solcher Algorithmen sind in verschiedenen Gebieten entwickelt worden und hinsichtlich der Verwendung relativ beschränkt, wie beispielsweise bei der computerunterstützten Erfassung oder Diagnose von Krankheiten, computerunterstützter Verarbeitung oder Akquisition von Daten usw. Bei der vorliegenden Technologie ist jedoch ein fortgeschrittenes Niveau von Integration und Interoperabilität durch Interaktionen zwischen Algorithmen zur Analysierung und Klassifizierung neu lokalisierter Datenelemente und zur nachfolgenden Analyse und Klassifikation bekannter Elemente erbracht, wie beispielsweise in einer IKB. Die Technologie nutzt ungekannte Kombinationen von Algorithmen für komplexere oder Multimediadaten, wie beispielsweise Text und Bilder, Audiodateien usw.
12 liefert einen Überblick über die Interoperabilität solcher Algorithmen, auf die im vorliegenden Kontext allgemein als computerunterstützte Datenverarbeitungsalgorithmen oder CAX Bezug genommen wird. Solche CAX-Algorithmen können im vorliegenden Kontext auf Basis bereits vorhandener Algorithmen aufgebaut oder modifiziert oder gänzlich auf Basis der zusätzlichen Datenquellen und -elemente, der Integration solcher Datenquellen und -elemente oder zur Analyse und Klassifikation spezifischer Typen von Datenelementen aufgebaut werden. In den Überblick nach 12 ist beispielsweise insgesamt ein CAX-System veranschaulicht, wie es einen weiten Bereich von Schritten, Prozessen und Modulen einschließt, die Teil eines voll integrierten Systems sein können. Wie oben angemerkt, können außerdem beschränktere Implementierungen ins Auge gefasst werden, bei denen lediglich einige solcher Prozesse, Funktionen oder Module vorhanden sind. Außerdem können solche CAX-Systeme bei gegenwärtig in Betracht gezogenen Ausführungsformen im Kontext einer IKB so implementiert werden, dass Information gesammelt werden kann, um eine Adaptierung oder Optimierung sowohl der Algorithmen selbst als auch des Datenmanagements durch die Daten zu erbringen, die durch die Algorithmen zur Analyse und Klassifizierung des Datenelements behandelt werden. Es können verschiedene Aspekte der einzelnen CAX-Algorithmen verändert werden, einschließlich der Regeln oder Prozesse, die in den Algorithmen implementiert sind, oder es können spezifische Regeln geschrieben und während des Datenelement-Minings, der Analyse und der Klassifikationsprozesse abgerufen werden.
Während viele solcher computerunterstützten Datenbehandlungsalgorithmen ins Auge gefasst werden können, werden in 12 gewisse Algorithmen veranschaulicht, um an den Da tenelementen spezifische Funktionen auszuführen, wobei diese Prozesse generell durch Bezugszeichen 256 bezeichnet sind. Werden die Datenmanipulationsschritte, die in 12 zusammengefasst sind, im weiteren Detail betrachtet werden in Schritt 258 die im Zugriff befindlichen Daten allgemein verarbeitet, wie beispielsweise zur Indexierung, Redundanzprüfung, Reformatierung der Daten, Übersetzung der Daten usw. Wie der Fachmann erkennt, hängt die in Schritt 258 ausgeführte Verarbeitung von dem Typ des Datenelements ab, das analysiert wird sowie von dem Typ der Analyse oder der Funktionen, die ausgeführt werden. Es sollte jedoch bemerkt werden, dass die Datenelemente von jeder der oben diskutierten Quellen verarbeitet werden können, einschließlich großer Quellen und IKBs. In Schritt 258 wird ähnlich eine Analyse der Datenelemente durchgeführt. Wiederum hängt eine solche Analyse von der Natur der Datenelemente, den Daten in den Elemente und der Natur der Algorithmen ab, mit denen die Analyse durchgeführt wird. Eine solche Verarbeitung kann beispielsweise gewisse Ähnlichkeiten oder Unterschiede zwischen den Datenelementen ausfindig machen. Solche Daten können dann zur Präsentation tabelliert, gezählt usw. werden. Ähnlich können an den Datenelementen statistische Analysen durchgeführt werden, um solche Beziehungen wie Relevanz, Ähnlichkeitsgrad und jede andere interessierende Eigenschaft sowohl innerhalb der Elemente als auch zwischen den Elementen zu ermitteln.
In Schritt 260 können auf eine solche Verarbeitung und Analyse folgend interessierende Merkmale in allgemeiner Weise segmentiert oder umschrieben werden. Die Erkennung von Merkmalen in Textdaten kann Operationen beinhaltet, wie beispielsweise einfach die Erkennung spezieller Passagen und Begriffe, das Hervorheben solcher Passagen und Begriffe, die Identifizierung relevanter Teile von Dokumenten usw. Bei Bilddaten kann eine solche Merkmalssegmentierung die Identifikation von Grenzen oder Kanten von Merkmalen und Objekten, die Bestimmung von Kontrast, Helligkeit oder jede Anzahl von bildbasierten Analysen enthalten. Im medizinischen Kontext kann die Segmentierung beispielsweise die Entgrenzung oder Hervorhebung spezieller Anatomien oder Pathologien beinhalten. Allgemeiner soll die in Schritt 260 ausgeführte Segmentierung jedoch einfach die Beschränkung jeder Art von Merkmal einschließlich verschiedener Beziehungen zwischen Daten, Korrelationsgrößen usw. herausfinden.
Bei einer solchen Segmentierung können Merkmale in den Daten identifiziert werden, wie in Schritt 262 zusammengefasst ist. Während die Identifikation von Merkmalen an Bilddaten gemäß allgemein bekannter Techniken durchgeführt werden kann, sollte daran gedacht werden, dass die in Schritt 262 ausgeführte Merkmalsidentifikation allgemeinerer Natur sein kann. Dies bedeutet, dass in Folge des großen Spektrums von Daten, die in das erfindungsgemäße System integriert werden können, die Merkmalsidentifikation Verbindungen von Daten, wie beispielsweise Text, Bilder, Audiodaten oder Kombinationen solcher Daten enthalten kann. Allgemein kann die Merkmalsidentifizierung jede Art von Erkennung oder Korrelationen zwischen den Daten einschließen, die für den von dem CAX-Algorithmus ausgeführten Prozess von Interesse sind.
In Schritt 266 werden solche Merkmale klassifiziert. Eine solche Klassifikation enthält typischerweise den Vergleich von Profilen in der segmentierten Eigenschaft mit bekannten Profilen für bekannte Bedingungen. Die Klassifikation kann sich allgemein aus Attributen, Parametereinstellungen, Werten usw. ergeben, die Profilen in einer bekannten Population von Datensätzen mit einem Datensatz oder betrachteten Datenele ment ergeben. Im vorliegenden Kontext können die Profile dem Satz von Attributen der Achsen und Labels der Domaindefinition oder einen Subsatz entsprechen, wenn diese gewünscht werden. Außerdem kann die Klassifikation allgemein auf gewünschten Regeln oder Algorithmen beruhen, wie oben diskutiert ist. Wiederum können diese Algorithmen Teil des gleichen Softwarecodes wie die Domaindefinition und der Such-, Analyse- und Klassifikationssoftware sein oder es können spezielle Algorithmen wie erforderlich durch entsprechende Links in der Software aufgerufen werden. Jedoch kann die Klassifikation außerdem auf Basis eines nichtparametrischen Profil-Matchings durchgeführt werden, wie beispielsweise durch Trendanalyse für ein spezielles Datenelement oder -elementen über den Zeit, durch den Raum, über die Population usw.
Wie in 12 veranschaulicht, können die während der Analyse und der Klassifikation ausgeführten Prozesse entweder auf großen Ressourcen 32 oder Datenelementen beruhen, die in einer IKB gespeichert sind, wie mit Bezugszeichen 34 angezeigt. Ebenfalls können diese Prozesse, wie in 12 angemerkt, durch eine Eingabe über ein Formular 220 des oben beschriebenen Typs ausgelöst werden. Als Ergebnis der Analyse und Klassifizierung wird dem Bediener allgemein eine Repräsentation geboten, wie mit Bezugszeichen 20 angedeutet.
Die vorliegenden Techniken zur Durchsuchung, Identifizierung, Analyse, Klassifikation usw. von Datenelementen dient speziell der Erleichterung und Verbesserung von Entscheidungsprozessen. Zu den Prozessen kann ein großes Spektrum von Entscheidungen, wie beispielsweise Marketingentscheidungen, Forschungs- und Entwicklungsentscheidungen, technische Entwicklungsentscheidungen, rechtliche Entscheidungen, finanzielle und Investmententscheidungen, klinische Diagnose- und Behandlungsentscheidungen usw. gehören. Diese Entscheidungen und deren Prozesse werden in 12 bei Bezugsziffer 268 zusammengefasst. Wie oben diskutiert, werden auf Basis der Repräsentationen 20 und zusätzlich auf Basis der Entscheidungsprozesse weitere Verfeinerungen für die Analyse- und Klassifikationsalgorithmen, die Datenelemente, die Domaindefinition usw. durchgeführt, wie in 12 durch den optionalen Block 270 angedeutet ist. Wie der Fachmann erkennt, kann eine solche Verfeinerung die Akquisition zusätzlicher Daten, die Akquisition von Daten unter unterschiedlichen Bedingungen, die speziell zusätzliche Analyse von Daten, eine weitere Segmentierung oder unterschiedliche Segmentierung der Daten, unterschiedliche Identifizierungen von Merkmalen und alternative Klassifikationen von Daten enthalten, ohne darauf beschränkt zu sein.
Wie oben angemerkt, werden bei der vorliegenden Technik zusätzliche Schnittstellen zur Durchführung von Suchen und zur weiteren Identifikation und Klassifikation von Datenelementen, wie beispielsweise aus einer IKB geschaffen. 15 veranschaulicht einen Überblick über die Durchführung von Durchsuchungen von Datenelementen, wie beispielsweise in einer IKB gespeicherten Elementen. Es wird bemerkt, dass der Überblick dem in 11 veranschaulichten Überblick ähnlich ist, in dem die Datenelemente zur Bildung der IKB durchsucht und strukturiert werden. Bei dem in 13 veranschaulichten Arbeitsablauf, der allgemein mit dem Bezugszeichen 272 ist, wird wiederum ein Suchformular 220 genutzt, das eine graphische Veranschaulichung der Domaindefinition einschließlich Achsen und Labels enthält. Wiederum werden Attribute und, wenn zweckmäßig, Assoziationslisten mit dem Suchformular kombiniert, um die Merkmale der Datenelemente festzulegen, nach denen zu suchen und die zu klassifizieren sind. Somit kann zur automatisierten Suche und Klassifikation eine Assoziationsliste 226 genutzt werden. Der Bediener kann dann über das ausgefüllte Formular 220 die speziellen Achsen und Labels definieren, die in den strukturierten Datenelementen, die die IKB enthält, zu lokalisieren sind. Auf Basis des ausgefüllten Formulars, der Assoziationsliste 226 und der Regeln, die allgemein durch das Bezugszeichen 238 bezeichnet werden, wird die IKB durchsucht. Dies bedeutet, dass ausgewählte und klassifizierte Elemente 248 durchsucht werden, um, wo immer angemessen, die Datenelemente zu identifizieren und reklassifizieren, die den Kriterien entsprechen, die für die Suche genutzt worden sind (wie durch das Formular, irgendwelche Assoziationslisten und anwendbaren Regeln definiert sind). Bei der in 13 veranschaulichten Ausführungsform werden die Suchergebnisse über ein Formular geliefert, das an das Suchformular erinnert. Jedoch werden in der Repräsentation, die hier als „Formularansicht" 274 bezeichnet ist, nur die Achsen und Labels, die für jeden Datensatz oder jedes Datenelement lokalisiert sind, in dem Formular hervorgehoben. Somit kann der Bediener die Basis für das eins→viele-Mapping schnell identifizieren, das bei dem Klassifikationsvorgang vorgenommen worden ist. Es kann eine Anzahl solcher Datensätze 276 zurückgeliefert werden, wobei, wenn gewünscht, jeder bibliographische Daten, subjektive Daten, Klassifikationsdaten usw. anzeigt, wie oben diskutiert.
Bei einer anderen Implementierung können Datenelemente für spezielle Merkmale oder Attribute hervorgehoben werden, die in den Such- und Analyseschritten lokalisiert worden sind und die in strukturierte Datenelemente klassifiziert worden sind. 14 veranschaulicht einen exemplarischen Arbeitsablauf für eine solche Implementierung. Die Texthervorhebeimplementierung nach 14, die allgemein durch das Be zugszeichen 278 bezeichnet wird, kann mit der Identifizierung von speziellen Merkmalen oder Kandidaten von einer Kandidatenliste 280 beginnen. Die Kandidatenwahlen, die durch das Bezugszeichen 282 indiziert sind, gehen von der Liste aus und es können effiziente Suchen zum Hervorheben individueller interessierender Merkmale durchgeführt werden. Bei der in 14 veranschaulichten Implementierung wird beispielsweise eine Textsuche in einem Dokument-ID-Feld 284 durchgeführt, wobei hervorgehobene Worte mit dem Bezugszeichen 286 bezeichnet sind. Individuelle Worte, die individuellen Attributen von Labels in der Domaindefinition entsprechen können, werden somit hervorgehoben, wie in der Element-Datenansicht 288 der 14 angedeutet. In einer vorliegenden Implementierung kann die Hervorhebung durch Veränderung der Farbe des Worts oder des das Wort umgebenden Hintergrunds vollbracht werden. Wie durch die Bezugszeichen 290, 292 und 294 angedeutet, können für verschiedene Begriffe oder beispielsweise für Begriffe, die mit einem einzigen Label oder einer einzigen Achse verbunden sind, unterschiedliche Hervorhebungen vorgenommen werden. Hier ist wiederum die Basis für die Klassifizierung (und Selektion) der Datenelemente für den Nutzer durch die Hervorhebung leicht ersichtlich. Wie der Fachmann bemerken wird, können obwohl das relativ einfache Beispiel eines Textdokuments erläutert worden ist, ähnliche Techniken für einen weiten Bereich von Datenelementtypen angewandt werden. Beispielsweise können, wie unten stehend diskutiert, Bilddaten, Audiodaten oder andere Daten oder Kombinationen dieser Typen von Daten analysiert und in ähnlicher Weise hervorgehoben werden. Wo Bilddaten hervorgehoben werden, können beispielsweise graphische Techniken genutzt werden, wie Einrahmung interessierender Merkmale, Zeiger für interessierende Merkmale, Anmerkungen, die interessierende Merkmale kennzeichnen usw.
Wo Datenelemente mit Text, Bild und anderen Datentypen analy siert werden, können Kombinationen dieser Herangehensweisen zur Hervorhebung genutzt werden.
Weitere Ausführungsbeispiele, die dazu genutzt werden können, die analysierten und klassifizierten Datenelemente zu evaluieren, umfassen verschiedene räumliche Darstellungen, wie die in den 15 bis 22 veranschaulichten. In der räumlichen Darstellung (Splay), die in 16 veranschaulicht ist, ist eine datenzentrische Ansicht einer Serie von Datensätzen veranschaulicht, die Suchkriterien entsprechen und gemäß der Suchkriterien klassifiziert worden sind. Die räumliche Wiedergabe 296 hat die Form einer Matrix oder eines Arrays von Daten, die ein Paar Achsen 298 und 300 der Domaindefinition anzeigen. Die tabellarische Zusammenfassung 302 folgt diesen Achsen und den individuellen Labels jeder Achse. Ein Zähler oder eine Nummer der Datensätze oder Datenelemente, der den Schnitten der Achsen und individuellen Labels entspricht, wird durch einen Zähler oder eine Score-Nummer 304 gekennzeichnet. Zusätzliche Information kann natürlich in jedem Schnittblock wiedergegeben werden, wie im Detail weiter unten diskutiert. Wo gewünscht, kann zusätzliche Information wiedergegeben werden, wie beispielsweise durch Anklicken eines Zählers mit einer Maus zur Erzeugung eines Drop-Down-Menüs oder einer Liste, wie Bezugszeichen 306 andeutet. Es sollte daran gedacht werden, dass das veranschaulichte Beispiel lediglich eines von vielen Möglichkeiten ist. Zusätzliche Möglichkeiten werden nachstehend diskutiert und sind formell ein Teil der unzähligen Optionen, die der Systemdesigner hat. Bei einer vorliegenden Implementierung werden beispielsweise für die individuellen Elemente oder Datensätze des Listings 306 zusätzliche Links bereitgestellt, wobei die Datensätze ihrerseits von dem Listing verfügbar sind. Eine Auswahl von Datensätzen von dem Listing kann eine Wiedergabe in Form einer Ansicht, wie beispielsweise in 13 veranschaulicht, oder einer hervorgehobenen Ansicht, wie in 14 oder irgendeiner ähnlichen Repräsentation des gesamten Datenelements oder Teilen desselben ergeben.
Ein weiteres Beispiel einer räumlichen Wiedergabe ist in 16 veranschaulicht. Die in 16 veranschaulichte Wiedergabe kann als datensatzzentrische räumliche Wiedergabe 308 angesehen werden. Die datensatzzentrische Wiedergabe ist ähnlich zu der Wiedergabe nach 15, jedoch hebt sie Überschneidungen von Labeln hervor, die Attributen individueller Datenelemente oder Datensätze entsprechen. Dies bedeutet beispielsweise, dass für ein spezifisches Suchkriterium, wie beispielsweise dem Eigentümer einer Gesellschaft oder eines speziellen geistigen Schutzrechts eine Anzahl von Datensätzen geliefert werden kann, die in einer ersten Farbe oder Graphik hervorgehoben werden, wie in 16 durch die rechts geneigte Schraffierung indiziert ist. Datensätze, die Datenelementen entsprechen, die für eine zweite Gesellschaft zurück geliefert werden, können in anderer Weise gekennzeichnet werden, wie durch die links geneigte Schraffierung angedeutet. Selbstverständlich sind andere graphischen Techniken, wie Farben, verfügbar, die deutlicher sind und besser aussehen. Wiederum kann die Hervorhebung anzeigen, dass in den überschneidenden Blocks wenigstens ein Datensatz für jedes der hervorgehobenen Merkmale lokalisiert worden ist (z.B. Eigentümer der Gesellschaft). Die räumliche Wiedergabe macht es leichter sichtbar wo Überschneidungen zwischen die entsprechenden Attribute aufweisenden, zurück gelieferten Datenelementen existieren, sowie von Bereichen wo keine solche Datensätze zurück geliefert worden sind. Die spezielle Datensatzhervorhebung, die durch die Bezugszeichen 310 und 312 angezeigt worden ist, kann sich somit überlappen, wie es bei den beiden zentralen Blöcken des Überschneidungsraums 314 der Fall ist, was anzeigt, dass wenigstens ein Datensatz in jedem der Blöcke zu einer oder der anderen Basis zur Hervorhebung gehört. Wiederum können zusätzliche graphische oder analytische Techniken, wie beispielsweise das Datensatzlisting 316, genutzt werden, über das spezielle Datensätze oder -ansichten abgerufen werden können.
17 veranschaulicht eine zusätzliche räumliche Wiedergabe, die als eine zusätzliche Art datensatzzentrierter Wiedergabe angesehen werden kann. In der Wiedergabe der 17 sind wiederum die Achsen 298 und 300 mit entsprechenden Labels für jede Achse indiziert. Es werden dann Blöcke geliefert, die die Schnitte mit jedem Label veranschaulichen. Bei der räumlichen Wiedergabe 318 werden jedoch für jeden individuellen Datensatz oder jedes Datenelement gesonderte Blöcke bereitgestellt. Solche Blöcke werden mit Bezugszeichen 320, 322 und 324 indiziert. Auf Basis des Inhalts des strukturierten Datenelements können dann die individuellen Überschneidungsblöcke anzeigen, ob ein Datensatz Achsen-Label-Attribute enthält oder nicht. Beispielsweise haben bei den veranschaulichten Daten die Datenelemente 320, 322 und 324 keine Attribute gemeinsam, die dem Label IIA entsprechen, wobei jedoch die Elemente 322 und 324 eine Überschneidung bei Label IC/IIB gemeinsam haben. Hier erleichtert wiederum die Darstellung der Daten die Identifikation der Einheitlichkeit oder Gesondertheit von Datenelementen und ihren Verwandten.
In 18 ist eine etwas ähnliche räumliche Darstellung veranschaulicht. Eine räumliche Wiedergabe der in 18 veranschaulichten Art kann für ein spezielles interessierendes Merkmal in Betracht gezogen werden, wie beispielsweise den Eigner einer Fabrik oder eines speziellen Schutzrechts.
Selbstverständlich kann zur Erzeugung der Wiedergabe jedes andere geeignete Merkmal herangezogen werden. Wie veranschaulicht werden die Achsen und Labels wiederum in tabellarischer Form wiedergegeben, wobei jedoch die spezifischen interessierenden Merkmale in individuellen Überschneidungsblocks aufgerufen werden, wie mit den Bezugszeichen 320, 322 und 324 angezeigt. Beispielsweise kann im Falle von Betriebsvergleichen jede der Spalten 320, 322 und 324 der Anzahl von Merkmalen in jedem Überschneidungsblock entsprechen, der zu jedem der Betriebe gehört. Deshalb ist die Analyse für den Betrachter durchschaubar und kennzeichnet die Stärken und Schwächen jedes Betriebseigners auf relativer Basis. Beispielsweise erscheint der Betrieb 322 in dem Überschneidungsraum IC/IIB relativ dominant jedoch schwach bei Betrieb 320 an der Überscheidungsstelle IB/IIB.
Ein weiteres illustratives Beispiel einer räumlichen Wiedergabe ist in 19 veranschaulicht. 19 kann als unterschiedlicher Typ von datensatz- oder datenelementzentrischer Ansicht angesehen werden. Wiederum sind die Achsen 298 und 300 wiedergegeben. Außerdem ist eine Anzahl von Datenelementen oder Datensätzen 320, 322 und 324 in tabellarischer Form angegeben. Hier sind jedoch für die Achsen 298, 300 und jede zusätzliche Achse 330 individuelle Label mit allen entsprechenden Korrespondenzen angezeigt, für die die Klassifikation auf Basis des Inhalts der Datenelemente veranschaulicht sind. Somit kann der Nutzer leicht unterscheiden wie und warum bestimmte Datensätze zurück geliefert werden, wie bestimmte Datensätze strukturiert und klassifiziert wurden sowie die Basis für das eins→viele-Mapping jedes Datenelements oder Datensatzes.
Ein weiteres Beispiel einer räumlichen Wiedergabe veranschaulicht 20. In der Repräsentation der 20 veranschaulicht die räumliche Wiedergabe 332 graphische Räume in gekacheltem Format entsprechend jeder Achse 334 der Domaindefinition mit individuellen Labels 336, die jeder Achse zugeordnet sind. Jedes Label ist in einem Block oder Bereich 338 wiedergegeben. Im veranschaulichten Beispiel ist ein Zählwert oder kumulierter Wert 340 für die Anzahl von Datenblöcken, die den Attributen jedes Labels entsprechen, in dem entsprechenden Block veranschaulicht. Ein generell durch das Bezugszeichen 342 bezeichneter Hintergrund kann eingefärbt oder gemäß einer speziellen Graphik gestaltet sein, die für den Hintergrund genutzt wird, um eine Ebene oder Anzahl von Datenelementen zu kennzeichnen, die den Attributen der individuellen Labels entsprechen. Außerdem kann in dem veranschaulichten Beispiel ein Einsatz 344 vorgesehen sein, der eine spezielle Bedeutung haben kann, wie beispielsweise Datenblöcke, die einem spezifischen Merkmal entsprechen, wie beispielsweise Betriebseigner eines Schutzrechts. Hier kann wiederum jede andere geeignete Bedeutung zu jedem der Hintergründe oder zu dem Einsatz 344 zugeordnet werden. Außerdem können viele solcher Einsätze oder andere graphische Werkzeuge verwendet werden, um spezielle interessierende Merkmale kenntlich zu machen.
In dem illustrierten Beispiel ist für die spezielle Farbe oder zur Hervorhebung des Verständnisses der präsentierten Daten genutzte Graphik eine Legende 346 bereitgestellt. In dem illustrierten Beispiel können beispielsweise unterschiedliche Farben für die Anzahl von Datenelementen genutzt werden, die den Attributen spezifischer Labels entsprechen, wobei die Farben in Einsätzen 348 der Legende erläutert werden. Es können zusätzliche Legenden bereitgestellt werden, bei spielsweise wie bei Bezugszeichen 350 angedeutet, um die Bedeutung der Hintergründe und der Einsätze für jedes Label zu erläutern. Somit können hochkomplexe und sophistische Datenpräsentationstools einschließlich verschiedener Typen von Graphiken zur Analyse und für Entscheidungsfindungsprozesse auf Basis der Klassifikation der strukturierten Datenelemente genutzt werden. Wo zweckmäßig und wie oben angemerkt, können zusätzliche Merkmale, wie beispielsweise Datenelement- oder Datensatzlistings 352 genutzt werden, um es dem Bediener zu gestatten, sich in die Datenelemente „hineinzubohren", die speziellen Achsen, Labels, Attributen oder anderen interessierenden Eigenschaften entsprechen.
21 veranschaulicht die grundlegende räumliche Wiedergabe gemäß 20 mit zusätzlich zugeordneter erläuternder Graphik. In der Veranschaulichung nach 21 sind beispielsweise graphische Repräsentationen einer Anzahl spezieller Merkmale veranschaulicht, wie beispielsweise Einsätze oder Menüs, Graphiken, verlinkte Displays usw., um die individuellen Datenelemente durch Zählwerte zu klassifizieren, wie beispielsweise Betriebseigner oder jedes andere interessierende Merkmal. Beispielsweise kann der Bediener in dem Einsatz 354 die Anzahl von Datenelementen in einem graphischen Format 356 anzeigen, das den individuellen Labels der ersten Achse I entspricht. Wie veranschaulicht, ist beispielsweise ein interessierender Betrieb („Betrieb 1") mit einer Anzahl von Datenelementen veranschaulicht, die den individuellen Labels IA bis IF entsprechen, wobei Zählwerte der individuellen Datenelemente oder Datensätze in einem graphischen Balkendiagramm veranschaulicht werden, in dem die Nummer oder Anzahl von Datenblöcken für jedes entlang einer Achse 358 veranschaulichte Label gekennzeichnet ist. Diese Zähler können in diesem Beispiel durch die Balken 360 repräsentiert werden.
Ähnlich kann, wie in 21 durch die graphische Wiedergabe 362 indiziert ist, für ein individuelles Label dann eine Anzahl von Datenelementen für verschiedene Betriebe wiedergegeben werden (z.B. „B1", „B2", „B3"). Die Betriebsbezeichnungen können entlang der Achse 366 angezeigt werden, wobei dann die Zähler durch Balken 368 wiedergegeben werden. Die graphische Wiedergabe 364 liefert dann eine Veranschaulichung der Anzahl von Merkmalen, die jeder Betrieb für ein individuelles Label aufweist. Hier kann wiederum jedes andere Merkmal für eine solche Analyse und Wiedergabe genutzt werden.
22 veranschaulicht ein Beispiel einer interaktiven räumlichen Wiedergabe einer Repräsentation von analysierten und klassifizierten Datenelementen, wie es beispielsweise durch eine interaktive Computerschnittstelle implementiert werden kann. Die interaktive Repräsentation 370 enthält in dem veranschaulichten Beispiel eine Top-Level-Ansicht einer Superdomain 374. Wie oben angemerkt können solche Bezeichnungen etwas willkürlich sein und zeigen lediglich Klassifizierungsniveaus an, wie sie für die Datenelemente definiert sind. Wie in 22 veranschaulicht, enthält die Superdomain verschiedene individuelle Domains 376, wobei jede Domain eine Serie von Achsen 378 beinhaltet. Wie oben in der Definition der Superdomain und der Domains angemerkt, sind jeder Achse individuelle Attribute oder Merkmale von Interesse zugeordnet, über die die Strukturdatenelemente analysiert und klassifiziert werden. Aufgrund der Wiedergabe zusammen mit der graphischen Wiedergabe der Superdomain kann sich ein Nutzer in individuelle Domains oder Achsen „hineinbohren", wie durch die Ansicht 380 veranschaulicht wird. Bei der veranschaulichten Implementierung wird durch Wahl der Achse IA die Ansicht 380 erzeugt, in der die individuellen Labels der ausgewählten Achse mit einem vergrößerten Einsatz 384 veran schaulicht werden. Dieser Einsatz veranschaulicht die Labels wie bei Bezugszeichen 386 angezeigt und zusätzliche Information, wie beispielsweise Zähler oder Gesamtzahlen von Datenelementen, die den Labels entsprechen, können wiedergegeben werden (in 22 nicht veranschaulicht). Hier werden wiederum allen Labels Attribute zugeordnet, wie in 22 durch Bezugszeichen 388 angedeutet. Die Attribute können, müssen aber nicht zusammen mit den Labels wiedergegeben werden, jedoch kann auf die Attribute als Indikation dafür, auf welcher Basis die Selektion und Klassifikation der Datenelemente durchgeführt worden ist, durch den Nutzer zugegriffen werden. Bei der Implementierung nach 22 können wiederum die individuellen Achsen der anderen Domains komprimiert werden, wie mit Bezugszeichen 382 angedeutet. Wie mit Bezug auf die anderen obigen räumlichen Wiedergaben angemerkt, können andere Graphiken, wie beispielsweise Datensatzlistings 390, bereitgestellt werden, um es dem Nutzer zu ermöglichen, Datenelemente, Teile von Datenelementen, Zusammenfassungen von Datenelementen usw. einzusehen. Natürlich können andere Arte graphischer Wiedergaben bereitgestellt werden, wie beispielsweise Diagrammansichten, Tabellenansichten oder hervorgehobene Ansichten, wie oben zusammengefasst.
Wie oben durchgängig durch die vorstehende Diskussion angemerkt, können die vorliegenden Techniken zum Durchsuchen, Klassifizieren und Analysieren jedes geeigneten Typs von Datenelement genutzt werden. Allgemein werden gegenwärtig verschiedene Typen von Datenelementen in Betracht gezogen, zu denen Textelemente, Bildelemente, Audioelemente und Kombinationen derselben gehören. Dies bedeutet, für reine Textelemente, Wortselektions- und Klassifikationstechniken und Techniken auf Basis von Worten und Text kann zusammen mit Textindikation durch graphische Information, subjektive Information usw. angewandt werden. Für Bildelemente steht ein weiter Bereich von Bildanalysetechniken zur Verfügung, einschließlich computerunterstützte Analysetechniken, computerunterstützte Erkennungstechniken, Techniken zur Segmentierung, Klassifizierung usw.
Bei spezifischen Gebieten, wie beispielsweise der medizinischen diagnostischen Bildgebung, können diese Techniken außerdem die Einschätzung von Bilddaten zur Analysierung und Klassifizierung möglicher Krankheitszustände, zur Diagnose von Krankheiten, zur Empfehlung von Behandlungen, zur Empfehlung weiterer Verarbeitung oder Akquisition von Bilddaten, zur Empfehlung der Akquisition anderer Bilddaten usw. enthalten. Die vorliegenden Techniken können an Bildern einschließlich kombinierten Text- und Bilddaten angewandt werden, wie beispielsweise Textinformation, die in angehängter bibliographischer Information vorhanden ist. Der Fachmann erkennt, dass in gewissen Umgebungen, wie beispielsweise bei der medizinischen Bildgebung an die Bilddaten Header angehängt sind, wie beispielsweise Standard-DICOM-Header, die wesentliche Information über die Quelle und den Typ des Bilds, Daten, demographische Information usw. enthalten. Jede und alle dieser Informationen können analysier und somit gemäß der vorliegenden Techniken zur Klassifikation und weiterer Analyse strukturiert werden. Auf Basis solcher Analyse- und Klassifikation können die DAtenelemente in einer Wissensdatenbank, wie beispielsweise einer integrierten Wissensdatenbank oder IKB in einer strukturierten, semistrukturierten oder unstrukturierten Form gespeichert werden. Wie der Fachmann erkennt, gestattet die vorliegende Technik somit unzählige vorteilhafte Anwendungen einschließlich der integrierten Analyse komplexer Datensätze für solche Zwecke wie Finanzanalyse, Erkennung von Krankheiten, Erkennung von Behandlungen, Erhebungen von demo graphischem Interesse, Erkennung von Zielmärkten, Risikoerkennung oder jede andere Korrelation, die zwischen Datenelementen existieren, die aber so komplex oder wenig ersichtlich sind, dass es schwierig ist, sie anderweitig ausfindig zu machen.
Die 23, 24 und 25 veranschaulichen eine Anwendung der vorgenannten Techniken auf Bilddaten und insbesondere auf Bilddaten, die mit Textdaten verbunden sind. Wie in 23 veranschaulicht, folgt das Bild/Text-Elementverarbeitungssystem 392 allgemein den oben gegebenen technischen Erläuterungen, wobei mit Bild- und Textdateien begonnen wird, wie bei Bezugszeichen 394 angedeutet. Wiederum können hier die den Dateien entsprechenden Datenelemente in einer einzelnen Datei oder in vielen Dateien eingeschlossen sein oder es können Links zwischen Dateien vorhanden sein, wie beispielsweise bei Anmerkungen, die auf Bilddaten beruhen usw. Allgemein enthält jedes Datenelement dann ein Textsegment 396 und ein Bildsegment 398. Das Textsegment 396 kann strukturierte, unstrukturierte oder subjektive Daten in Form von ein oder mehreren Textstrings 400 enthalten. Das Bildsegment 398 kann bibliographische Daten 402, wie beispielsweise Textdaten in einem Bildheader und Bildinhaltsdaten 404 enthalten. Bildinhaltsdaten liegen typischerweise in Form von Bildpixeldaten, Voxeldaten, Overlaydaten usw. vor. Im Allgemeinen können die Bilddaten 404 generell ausreichend sein, um die Rekonstruktion von sichtbaren Bildern 406 oder Bildserien zur Wiedergabe gemäß einer gewünschten Rekonstruktionstechnik zu ermöglichen. Dem Fachmann leuchtet ein, dass die spezielle Rekonstruktionstechnik allgemein gemäß der Natur der Bilddaten den Typ des Bildgebungssystems, von dem die Daten akquiriert worden sind, usw. ausgewählt werden kann.
Die Datenelemente werden einem Verarbeitungssystem 14 des oben beschriebenen Typs zur Verfügung gestellt. Allgemein kann die gesamte oben beschriebene Verarbeitung insbesondere die im Hinblick auf die 10 und 12 beschriebene, an den komplexen Datenelementen durchgeführt werden. Gemäß dieser Verarbeitungstechniken können spezielle interessierende Merkmale sowohl in dem Text, in den Bildern und zwischen dem Text und den Bildern segmentiert, identifiziert, gefiltert, verarbeitet, klassifiziert usw. werden und zwar in Übereinstimmung mit der Domaindefinition und den Regeln oder Algorithmen, die durch die Domaindefinition festgelegt sind, wie mit Bezugszeichen 38 angedeutet. Auf Basis der an den komplexen Datenelementen durchgeführten Verarbeitung werden dann die sich ergebenden strukturierten Daten in irgendeinem geeigneten Speicher 40 gespeichert und es kann eine integrierte Wissensdatenbank oder IKB erzeugt werden, wie mit Bezugszeichen 34 angedeutet ist. Wie außerdem oben angemerkt, können auf Basis des für jedes Datenelement durchgeführten eins→viele-Mappings ähnliche Suchen für individuelle interessierende Merkmale entweder in dem Text, in den Bildern oder beidem durchgeführt werden. Während 23 in den komplexen Datenelementen Text- und Bilddateien veranschaulicht, sollte außerdem angemerkt werden, dass die Datenelemente Text- und Audiodaten, Audiodaten und Bilddaten, Text- und Audio- und Bilddaten oder sogar zusätzliche Datentypen wie beispielsweise Wellenformdaten oder Daten ähnlichen anderen Typs enthalten können.
Die spezielle Bild/Text-Elementverarbeitung 408, die an komplexen Datenelementen durchgeführt wird, ist in 24 allgemein veranschaulicht. Wie oben angemerkt, werden Textdaten 410 (veranschaulicht in 24 in hervorgehobener Ansicht) und Bilddaten 412 gemäß individueller Textregeln und Algorithmen 414 und individueller Bildregeln und Algorithmen 416 analysiert und klassifiziert. Es sollte jedoch angemerkt werden, dass gewisse Regeln und Algorithmen zur Klassifikation und zum Mapping Kriterien enthalten können, die auf Text- und Bilddaten basieren. Beispielsweise kann der Nutzer ein spezielles Interesse an speziellen anatomischen interessierenden Merkmalen haben, die in Bilddaten nur für eine spezielle Gruppe von Subjekten sichtbar sind, die nur aus der Textanalyse heraus unterscheidbar sind. Solche kombinierte Analyse liefert ein mächtiges Werkzeug zur verbesserten Klassifikation und Mapping. Dann wird auf Basis der Domaindefinition 12 das Mapping durchgeführt, wie in 24 in Block 210 indiziert, um Ergebnisse zu liefern, die dann in einer IKB 34 gespeichert werden können.
Zusätzlich zur Analyse und Klassifikation komplexer Datenelemente können alle hier beschriebenen Techniken für komplexe Datenelemente genutzt werden, zu denen Text, Bild, Audio- und andere Art von Daten gehören, wie in 25 allgemein kenntlich gemacht. 25 veranschaulicht eine exemplarische Formularansicht zur Kombination von Text- und Bilddaten ähnlich zu den oben beschriebenen Textdaten allein. In den Zusammenfassungen, die in den Ansichten 420, wie in 25 dargestellt, gegeben werden, kann bibliographische Information zusammen mit subjektiver Information und Klassifizierungsinformation wiedergegeben werden, was allgemein mit dem Bezugszeichen 422 gekennzeichnet ist. Hier kann jedoch zusätzliche Information über die Analyse von Bilddaten zusammen mit Bildrepräsentationen bereitgestellt werden, wie mit Bezugszeichen 424 angedeutet ist. Wo zweckmäßig, können Links zu tatsächlichen Bildern, kommentierten Bildern oder zusätzlichen subjektiven oder bibliographischen Daten bereitgestellt werden.
Wie oben angemerkt, können die vorliegenden Techniken auf jedes geeignete Datenelement angewendet werden, das sich zur Analyse und Klassifizierung eignet. In einer exemplarischen Verwirklichung der Technik wird es auf die Suche nach, die Analyse, die Strukturierung und die Klassifizierung von Patentdokumenten und Anmeldungen angewandt. Solche Dokumente enthalten insbesondere wenn auf sie über kommerziell verfügbare Sammlungen zugegriffen wird, Strukturen, wie beispielsweise Unterteilungen der Dokumente in Header (z.B. Titel, Zusammenfassung, Deckblatt, Ansprüche usw.). Zur Identifikation und Klassifikation der interessierenden Dokumente wird zunächst die relevante Datendomain definiert. Achsen können sich auf den Patentgegenstand oder technische Gebiete, wie beispielsweise Bildgebungsmodalitäten, klinische Verwendungen gewisser Typen von Bildern, Bildrekonstruktionstechniken usw. beziehen. Labels solcher Achsen unterteilen die Achsen dann, um eine Matrix technischer Konzepte zu bilden. Worte, Begriffe des Fachgebiets, Wortverbindungen und ähnliches werden dann jedem Label als Attribute des Labels zugeordnet. Regeln und Algorithmen zur Erkennung ähnlicher Begriffe werden aufgebaut oder selektiert einschließlich Nachbarschaftskriterien, Regeln über ganze Worte oder Teile von diesen usw. Es können alle geeigneten Textanalyseregeln genutzt werden.
Auf Basis der Domaindefinition und der Regeln wird auf Patente und Patentanmeldungsdateien über verfügbare Datenbanken zugegriffen. Die Struktur in den Dokumenten kann beispielsweise zur Identifikation von Abtretungsempfängern, Erfindern usw. genutzt werden, wenn eine solche Struktur in der Domaindefinition implementiert ist. Die in den Dokumenten präsente Struktur, die von der Domaindefinition nicht verwendet wird, kann dennoch genutzt werden, beispielsweise um Fel der für bibliographische Daten auszufüllen oder sie kann ignoriert werden, wenn sie für die Domaindefinition als irrelevant erscheint. In den Dokumenten enthaltene, nicht strukturierte Information kann andererseits strukturiert werden, wie beispielsweise durch Identifikation von Begriffen in Abschnitten des Dokuments, die in allgemein nicht strukturierten Bereichen aufgefunden werden (z.B. Textabschnitte, Zusammenfassungtext usw.). Um eine spätere Suche und Klassifikation zu erleichtern, können die Dokumente ebenfalls indexiert werden.
Die Dokumente werden dann auf die Domaindefinition gemapt, um eine eins→viele-Klassifikation aufzubauen. Diese Klassifikation kann jedes spezielle Dokument in eine Anzahl von verschiedenen Achsen/Label-Assoziationen einordnen. Viele verschiedene Typen von Analysen können dann an den Dokumenten durchgeführt werden, wie beispielsweise Suche nach Dokumenten, die sich auf eine spezielle Kombination von Themen beziehen, Dokumente, die speziellen Titelhaltern zugeordnet sind und Kombinationen davon. Die Matrix von Achsen und Labeln mit den zugeordneten Begriffen und Attributen gestattet eine riesige Anzahl von Subsets von Dokumenten durch Wahl geeigneter Kombinationen von Achsen und/oder Labeln in speziellen Suchen zu definieren.
Bei einer anderen exemplarischen Implementierung können diagnostische medizinische Bilddateien klassifiziert werden. Solche Dateien enthalten typischerweise sowohl Bilddaten als auch bibliographische Daten. Subjektive Daten ärztlicher Anmerkungen und ähnliches können ebenfalls vorhanden sein. Bei diesem Beispiel kann ein Bediener eine Domain mit Achsen definieren, die entsprechenden Anatomien, spezifischen Krankheitszuständen, Behandlungen, demographischen Daten und jeder anderen interessierenden relevanten Kategorie entsprechen. Wiederum unterteilen die Labels die Achsen logisch und es werden jedem Label Attribute zugeordnet. Für Textdaten können die Attribute Begriffe, Worte, Wortverbindungen usw. sein, wie im vorstehenden Beispiel beschrieben. Jedoch können für Bilddaten ein Spektrum komplexer und mächtiger Attribute definiert werden, wie beispielsweise Attribute die nur durch algorithmische Analyse der Bilddaten identifizierbar sind. Manche dieser Attribute können durch computerunterstütze Diagnose (CAD) und ähnliche Programme analysiert werden. Wie oben angemerkt können diese in die Domaindefinitionen eingebettet oder aufgerufen werden, wenn sie gebraucht werden, wenn die Bilddaten zu analysieren und zu klassifizieren sind.
Es sollte angemerkt werden, dass bei dieser Art der Implementierung Text-, Bild-, Audio-, Wellenform-, und andere Arten von Daten unabhängig analysiert werden können oder komplexe Kombinationen von Klassifikationen definiert werden können. Pro Einzeiten durch das eins→viele-Mapping klassifiziert werden, können dann reiche Analysen durchgeführt werden, wie beispielsweise zur Lokalisierung von Populationen, die spezielle Charakteristika oder Krankheitszustände ausbilden, die aus den Bilddaten zu unterscheiden sind und gewissen Ähnlichkeiten oder Gegensätze auf andere Weise haben, die lediglich aus dem Text- oder anderen Daten oder Kombinationen solcher Daten hervorgehen.
Bei beiden dieser Beispiele und bei jeder Implementierung können die oben beschriebenen Analysetechniken benutzt werden und an den speziellen Typ des Datenelements angepasst werden. Beispielsweise kann ein Textdokument wie beispielsweise ein Patent, in hervorgehobener Ansicht veranschaulicht werden, in dem bestimmte zutreffende Worte oder Wortverbin dungen hervorgehoben werden. Ebenso können Bilder hervorgehoben werden, indem Farbveränderungen bestimmter Merkmale oder interessierender Bereiche vorgenommen werden oder durch Nutzung graphischer Werkzeuge wie Zeiger, Kästchen usw.
Während hier lediglich gewisse Ausprägungen der Erfindung veranschaulicht und beschrieben worden sind, sind dem Fachmann viele Modifikationen und Abwandlungen ersichtlich. Es versteht sich deshalb, dass die nachfolgenden Ansprüche alle solche Modifikationen und Abwandlungen erfassen sollen, die den Geist der Erfindung enthalten.
Zusammenfassung:
Es ist eine Technik zur Durchführung einer domainspezifischen Analyse, Strukturierung, zum Mapping und zur Klassifikation von Datenelementen, wie beispielsweise Textdokumenten, Bildern, Audiodaten, Waveformdaten usw. beschrieben worden. Es wird eine Domaindefinition gegeben, die eine Anzahl von Klassifikationsachsen und Labels für jede Achse umfasst. Es wird auf diejenigen Datenelemente zugegriffen, die potentiell interessante Attribute haben und entsprechend den Achsen und Labels klassifizierbar sind. Auf Basis ihrer Attribute werden zutreffende Elemente dann identifiziert und die Elemente werden klassifiziert. Die Klassifikation und die Elemente selbst oder Teile derselben können in einer Wissensdatenbank zur weiteren Klassifizierung, Suche und Referenz gespeichert werden. Es sind komplexe Kombinationen von Klassifikationen einschließlich Kombinationen durch Referenz auf Daten unterschiedlicher Typen mittels der Domaindefinition und Regeln oder Algorithmen möglich, die durch die Definition für ein eins→viele-Mapping der Datenelemente auf Achsen und Labels genutzt werden.

Claims

Verfahren zum Mapping von Datenelementen bei dem: eine Datendomain definiert wird, die eine Anzahl von Klassifikationsachsen und einer Anzahl von Klassifikationslabels für jede Achse aufweist, auf eine Anzahl von Datenelementen zugegriffen wird, die potentiell interessierende Attribute aufweisen, in den Datenelementen Attribute identifiziert werden, die den Achsen und den Labels der Datendomain entsprechen und die identifizierten Datenelementattribute gemäß den entsprechenden Attributen der Achsen und Labels klassifiziert werden.
Verfahren nach Anspruch 1, bei dem die Datenelemente Textdokumente umfassen, wobei die Attribute Worte oder Wortfolgen umfassen, die in den Dokumenten enthalten sind.
Verfahren nach Anspruch 2, bei dem die Datenelemente durch passende Worte oder Wortverbindungen zwischen den Textdokumenten und Worten oder Wortverbindungen identifiziert werden, die den Achsen und Labels zugeordnet sind.
Verfahren nach Anspruch 3, bei dem die Datenelemente durch ein Nachbarschaftskriterium für passende Worte o der Wortverbindungen in Textdokumenten und Worten oder Wortverbindungen identifiziert werden, die den Achsen und Labels zugeordnet sind.
Verfahren nach Anspruch 1, bei dem die Datenelemente Bilddaten enthalten.
Verfahren nach Anspruch 5, bei dem die Identifizierung von Bilddatenelementen auf interessierenden Attributen beruht, die in den Bilddaten enthalten sind.
Verfahren nach Anspruch 6, bei dem die Bilddaten medizinische Bilder codieren und bei dem die Klassifikation die Analyse eines Krankheitszustands enthält, der aus den Bilddaten erfassbar ist.
Verfahren nach Anspruch 1, bei dem eine Anzahl von Attributen der Labels definiert wird und bei dem die Datenelemente identifiziert werden, die Attribute aufweisen die zu den Attributen der Labels passen.
Verfahren nach Anspruch 1, bei dem ein Kandidatensubset von Datenelementen definiert wird, das Daten enthält, die für eine Basis der Klassifikation repräsentativ sind.
Verfahren nach Anspruch 1, bei dem Suchformulare auf Basis der Domaindefinition erzeugt werden, damit der Nutzer Kriterien wählen kann, die bei der Analyse der Datenelemente genutzt werden.
Verfahren nach Anspruch 10, bei dem das Formular eine Nutzerwahl von Suchkriterien zur Identifizierung von Da tenelementen gestattet, die Attribute aufweisen, die den selektierten Kriterien entsprechen.
Verfahren nach Anspruch 1, bei dem die klassifizierten Datenelemente mit erwarteten Ergebnissen verglichen und die Domaindefinition oder -basen zur Identifikation oder Klassifizierung auf Basis des Vergleichs verfeinert werden.
Verfahren zum Mapping geistiger Schutzrechte auf einem interessierenden Gebiet, bei dem: eine Datendomain definiert wird, die eine Anzahl von Klassifikationsachsen und eine Anzahl von Klassifizierungslabels für jede vordefinierte Achse, nutzerselektierbare Klassifikationspfade und eine Anzahl von Begriffen enthält, die den Achsen und Labels zugeordnet sind, auf eine Anzahl von Patentdokumenten zugegriffen wird, die jeweils zugeordnete Patentdaten haben, auf Basis der Achsen, der Labels und der Begriffe der Datendomain Patentdaten identifiziert werden, die den Achsen, Labels und zugeordneten Begriffen entsprechen, und die identifizierten Patentdaten gemäß einer Anzahl von Achsen oder Labels der Datendomain klassifiziert werden.