-
HINTERGRUND
-
Gegenstand
der Erfindung ist allgemein das Mapping und die Klassifikation von
Datenelementen. Spezieller bezieht sich die Erfindung auf Techniken zur
Identifizierung von interessierenden Datenelementen, die Strukturierung
solcher Elemente, wo erforderlich und die Analyse, das Mapping und
die Klassifizierung solcher Elemente zur Referenz.
-
Zur
Identifizierung von Datenelementen, die für ein spezielles Interessensgebiet
relevant sind, sind viele Techniken entwickelt worden und gegenwärtig in
Gebrauch. Wie hier bezeichnet umfassen „Datenelemente" jeden Typ digitaler
Daten, die durch automatisierte Techniken identifiziert, analysiert
und klassifiziert werden können.
Solche Elemente können
beispielsweise Textdokumente, Bilddateien, Audiodateien, Wellenform-Daten
und Kombinationen von diesen beinhalten, um lediglich einige zu
nennen.
-
Existierende
Techniken zur Datenelementidentifikation, -analyse und -klassifikation
werden häufig
dazu eingerichtet, relevante Dokumente und andere Datenstücke zu identifizieren
und bis zu einem gewissen Grad auch dazu, um entweder die Stücke selbst
oder relevante Teile davon zu sammeln. Verfügbare Suchmaschinen gestatten
beispielsweise die boolsche Suche nach Worten oder anderen Kriterien.
Die Suche kann auf Basis der Dokumente selbst oder anhand von Teilen
von Dokumenten, indexierten Dokumenten usw. erfolgen. Manche Suchwerkzeuge
nutzen die Kennzeichnung von Dokumenten mit rele vanten Begriffen
für ähnliche
Zwecke. Ergebnisse werden typischerweise als Listen, manchmal mit
Verweisen (Links) zu den Dokumenten ausgegeben. Vorhandene Techniken
nutzen außerdem
Rankings relevanter Dokumente.
-
Obwohl
solche Werkzeuge für
viele Suchvorgänge
ziemlich nützlich
sind, gibt es einen Bedarf für verbesserte
Werkzeuge, die nutzbringendere Suchen und Klassifikationen ausführen können. Es
gibt einen speziellen Bedarf für
ein Werkzeug, das auf Basis auf einer vollständigeren nutzergegebenen Definition
relevanter Bereiche und Klassifikationen innerhalb der Bereich eine
extensive Analyse, Strukturierung, ein Mapping und eine Klassifikation
von Datenelementen ausführen
kann. Außerdem
gibt es einen Bedarf nach einem Werkzeug, das Dokumente, Bilder,
Textdateien, Audiodateien usw. auf Basis einer Kombination von Kriterien
durchsuchen und klassifizieren kann.
-
KURZE BESCHREIBUNG
-
Die
vorliegende Erfindung liefert Techniken zur Identifizierung, Analyse,
Strukturierung, Mapping und zur Klassifizierung von Datenelemente
und ist dazu eingerichtet solche Bedürfnisse zu erfüllen. Die Techniken
können
auf einen Bereich von Elementtypen angewendet werden einschließlich Textdaten, Bilddaten,
Audiodaten, Wellenformdaten und Kombinationen von diesen, um lediglich
einige wenige zu nennen. Die Elemente können an jeder gewünschten Stelle
vorgefunden werden und es kann lokal oder von fern auf sie zugegriffen
werden. Bekannte Datenbanken oder integrierte verarbeitete Wissensdatenbanken
können
als Quelle von Datenelementen genutzt werden.
-
Gemäß Aspekten
der vorliegenden Technik wird ein konzeptioneller Rahmen erstellt,
indem eine Domain definiert wird, die Achsen und Labels enthält. Es wird
auf potentiell interessierende Datenelemente zugegriffen und Attribute
der Einheiten werden gemäß der Domaindefinition
analysiert. Jede in den Datenelementen vorhandene Struktur kann
genutzt werden oder die Elemente können ganz oder teilweise restrukturiert
werden. Es wird dann in Übereinstimmung
mit der Domaindefinition sowie Regeln und Algorithmen ein eins→viele-Mapping
durchgeführt, um
zu ermitteln, ob und wie die Datenelemente klassifiziert werden
sollten. Es kann so in dem konzeptionellen Rahmen in einer Anzahl
von verschiedenen Stellen ein einzelnes Attribut klassifiziert werden, was
die vertiefte Analyse und die Gruppierung der Datenelemente gestattet.
Es kann dann durch Auswahl von Subsets von Achsen und Labels der
Domaindefinition eine Durchsuchung und weitere Analyse der Elemente
durchgeführt
werden.
-
ZEICHNUNGEN
-
Diese
und andere Merkmale, Aspekte und Vorzüge der vorliegenden Erfindung
werden besser verstanden, wenn die folgende detaillierte Beschreibung
mit Referenz auf die zugehörigen
Zeichnungen gelesen wird, in der gleiche Buchstaben in den Zeichnungen
einheitlich gleiche Teile bezeichnen, wobei:
-
1 eine Übersichtsskizze
eines Systems zur Identifikation, Strukturierung, Mapping und Klassifikation
von Datenelementen gemäß Aspekten
der vorliegenden Techniken ist;
-
2 ein
Ablaufplan einer exemplarischen Domaindefinitionslogik ist, die
in einem System, wie in 1 veranschaulicht genutzt werden
kann;
-
3 ein
Flussdiagramm einer auf einer Domaindefinition basierenden Elementverarbeitungslogik
ist;
-
4 eine
Grobskizzenveranschaulichung eines exemplarischen Mappings von Datenelementen
ist, das mittels der Logik nach 3 durchgeführt wird;
-
5 eine
Grobveranschaulichung zusammengehöriger Domains und Domainlevels,
die gemäß Aspekten
der vorliegenden Technologie implementiert werden können;
-
6 ist
eine Grobskizze einer Multilevel-Domaindefinition,
die implementiert werden kann, um die Strukturierung, das Mapping,
die Klassifikation und die Analyse von Datenelementen zu erleichtern;
-
7 ist
eine Veranschaulichung eines exemplarischen Domaindefinitionstemplates
zur Verwendung in einem programmierten Computer gemäß Aspekten
der vorliegenden Technik;
-
8 ist
eine Veranschaulichung eines exemplarischen Templates zur Definition
von Achsen und Labels der durch das Template nach 7 definierten
Domain;
-
9 ist
eine exemplarische Schnittstelle zur Definition von Datenelementattributen
für Achsen und
Labels einer Domain;
-
10 ist
ein Ablaufplan, der eine exemplarische Logik zur Durchsuchung und
Klassifizierung von Datenelementen und zur Errichtung einer IKB
auf Basis einer solchen Suche und Klassifikation veranschaulicht;
-
11 veranschaulicht
grob, wie eine Kollektion von Elementen unter Verwendung einer Domaindefinition
und Regeln gemäß vorliegender
Techniken in eine IKB gemappt werden kann;
-
12 ist
eine Grobveranschaulichung gewisser Prozessschritte, die zur Analyse
und Klassifikation von Datenelementen durchgeführt werden kann;
-
13 ist
eine Grobveranschaulichung eines exemplarischen Prozesses zur Identifizierung
relevanter Datensätze
oder Datenelemente, in einem bekannten Feld, wie beispielsweise
ein IKB;
-
14 veranschaulicht
ein exemplarisches Beispiel eines analysierten Satzes von Datenelementen,
wie beispielsweise Textdokumenten mit Hervorhebung auf Basis einer
Domaindefinition als konzeptuellen Rahmen;
-
15 ist
eine weitere Veranschaulichung einer Analyse, die an einem Satz
von Datenelementen durchgeführt
worden ist, um eine Korrespondenz zwischen Attributen oder Teilen
des konzeptuellen Netzwerks der Domaindefinition zu identifizieren,
die in einem Satz von Datenelementen gefunden werden;
-
16 ist
eine exemplarische Veranschaulichung einer Analyse, einer Serie
von Datenelementen, die die Überlappung
oder Überschneidung
der Korrespondenz zwischen Elementen mit speziellen Attributen zeigt;
-
17 ist
ein weiteres exemplarisches Beispiel einer Analyse, die an einer
Serie von Datensätzen
oder Datenelemen ten für
einen Teil einer Domaindefinition oder einen analytischen oder konzeptuellen
Rahmen durchgeführt
wird;
-
18 ist
ein weiteres exemplarisches Beispiel einer Analyse, die an einer
Serie von Datenelementen durchgeführt worden ist, die eine Klassifikation
durch andere Kriterien, wie beispielsweise Eigentümerschaft
zeigt;
-
19 ist
ein weiteres exemplarisches Beispiel der Analyse und Klassifikation
von Datenelementen durch die Datensätze selbst (z.B. die Datenelemente);
-
20 ist
ein weiteres exemplarisches Beispiel von Daten, die für eine Serie
von Datenelementen, die aufgelaufene Zahlen von Elementen kennzeichnen
durch den konzeptuellen Rahmen der Domaindefinition analysiert worden
sind;
-
21 ist
eine weitere Veranschaulichung einer exemplarischen Analyse von
Datenelementen ähnlich
zu der nach 20 jedoch mit zusätzlicher Anzeige
von Daten, die auf Basis der analysierten und klassifizierten Datenelemente
erhalten werden können;
-
22 ist
eine Grobveranschaulichung eines weiteren interaktiven Beispiels
einer Analyse und Klassifizierung und Datenelementen auf Basis einer Domaindefinition
und eines zugeordneten konzeptuellen Rahmens;
-
23 ist
eine Grobveranschaulichung von Techniken zur Domaindefinition, -suche,
-analyse, -mapping und -klassifizierung von Bilddaten und zugeordneten
Textdateien zum Aufbau einer Datenbank aus solchen Dateien, beispielsweise
einer IKB;
-
24 ist
eine Grobveranschaulichung eines exemplarischen Arbeitsablaufs zur
Analyse zum Mapping und zur Klassifikation von Bild- und Textdateien
zur Klassifikation und zum Mapping der Dateien gemäß Aspekten
der vorliegenden Technik; und
-
25 ist
eine Veranschaulichung einer beispielhaften Wiedergabe einer Serie
von Zusammenfassungen der Analyse von Bild- und Textdateien gemäß den Prozessen
nach 23 und 24.
-
DETAILLIERTE BESCHREIBUNG
-
Es
wird nun auf die Zeichnungen Bezug genommen und sich zuerst der 1 zugewandt,
in der ein Datenelement-Mappingsystem 10 schematisch veranschaulicht
ist, das eine Domaindefinition liefert und Datenelemente gemäß der Definition
durchsucht, analysiert, strukturiert, gemappt und klassifiziert.
In der in 1 veranschaulichten Ausführungsform
ist der Domaindefinition das Bezugszeichen 12 zugeordnet.
Wie später
detaillierter beschrieben, kann sich die Domaindefinition auf jedes
relevante Feld, wie beispielsweise technische Felder beziehen. Die
Domaindefinition kann gemäß nachstehend
beschriebener Techniken aufgebaut und allgemein als ein konzeptueller
Rahmen logisch unterteilter Abschnitte des relevanten Felds angesehen
werden. Jeder Abschnitt kann weiter in eine beliebige Zahl von konzeptuellen
Ebenen unterteilt werden. Den Ebenen werden schlussendlich Attribute
zugeordnet, die in den Datenelementen gefunden werden können, was
ihre Identifikation, Analyse, Strukturierung, Mapping und Klassifikation
gestattet.
-
Die
Domaindefinition 12 ist mit einem Verarbeitungssystem 14 verbunden,
das die Domaindefinition nutzt um die Datenelemente aus jeder einer
Anzahl von Datenquellen 16 zu identifizieren. Das Verarbeitungssystem 14 enthält allgemein
einen oder mehrere programmierte Computer, die an einer oder mehreren
Stellen angeordnet sein können.
Die Domaindefinition selbst kann in dem Verarbeitungssystem 14 gespeichert
sein oder die Definition kann auch durch das verarbeitende System 14 abgerufen werden,
wenn es zur Durchsuchung, Analyse, Strukturierung, zum Mapping oder
zur Klassifikation der Datenelemente aufgerufen wird. Um dem Bediener eine
Schnittstelle zu der Domaindefinition und zu den Datenquellen und
Datenelementen selbst zu geben, ist eine Anzahl von editierbaren
Schnittstellen 18 gegeben. Wiederum können solche Schnittstellen
in dem Verarbeitungssystem 14 gespeichert oder bei Bedarf
durch das System abgerufen werden. Die Schnitt stellen erzeugen
eine Anzahl von Ansichten 20, über die weiter unten mehr gesagt
wird. Allgemein gestatten die Ansichten, die Definition der Domain,
die Verfeinerung der Domain, die Analyse von Datenelementen, die
Ansicht analytischer Ergebnisse und die Veranschaulichung von und
Interaktion mit den Datenelementen selbst.
-
Zurück zur Domaindefinition 12 – in der
vorliegenden Diskussion werden die Begriffe „Zugriff", „Label" und „Attribut" für verschiedene
Ebenen des konzeptuellen Rahmens benutzt, der durch die Domaindefinition
repräsentiert
wird. Wie der Fachmann weiß,
können
andere Begriffe benutzt werden. Allgemein repräsentieren die Achsen der Definition
konzeptuelle Unterteilungen der Domain. Die Achsen müssen nicht
notwendigerweise die gesamte Domain abdecken und können tatsächlich strategisch strukturiert
sein, um die Analyse und Sichtbarmachung verschiedener Aspekte der
Datenelemente in spe ziellen Ebenen zu gestatten, wie weiter unten
diskutiert wird. Die mit dem Referenzzeichen 22 bezeichneten
Achsen werden durch die Labels 24 unterteilt. Wiederum
kann jeder geeignete Begriff für diese
zusätzliche
Ebene konzeptioneller Unterteilung genutzt werden. Die Labels sind
allgemein konzeptuelle Teile, der entsprechenden Achsen, obwohl
die Labels nicht den gesamten Bereich von Konzepten überdecken
müssen,
die den Achsen zugeordnet werden können. Außerdem schließt die vorliegende Technik Überlappungen,
Redundanzen oder im Gegenteil auch Ausschlüsse zwischen Labels einer Achse
und einer Anderen oder tatsächlich
von Achsen selbst nicht aus.
-
Jedem
Label sind dann Attribute 26 zugeordnet. Wiederum können die
Attribute, Labels oder sogar Achsen gemeinsam sein. Allgemein gestattet
jedoch die strategische Definition der Domain eine eins→viele-Mapping
und -klassifikation individueller Datenelemente auch wegen, die
es einem Bediener gestatten, die Datenelemente zu klassifizieren.
Somit sind einige Unterscheidungen zwischen den Achsen, den Labels
und den Attributen zweckmäßig um eine Unterscheidung
zwischen den Datenelementen zu ermöglichen.
-
Außerdem,
aber lediglich beispielsweise, können
die vorliegenden Techniken genutzt werden, um sowohl Textdokumente
als auch Dokumente mit anderen Formen und Typen von Daten zu identifizieren,
wie beispielsweise Bilddaten, Audiodaten, Wellenformdaten usw.,
wie unten stehend diskutiert. Weiter kann die Technik beispielsweise
zur Identifizierung von Schutzrechten, wie beispielsweise Patenten
und Patentanmeldungen in einem speziellen technischen Gebiet oder
Interessensgebiet genutzt werden. Innerhalb solcher Gebiete kann
ein Bereich individueller Klassifikationen vorgegeben werden, die traditionellen
Klassifikationen folgen, oder sie können voll ständig von dem Nutzer auf Basis
spezieller Kenntnis oder speziellen Interesses vorgegeben werden.
Innerhalb jeder der individuellen Achsen können dann die individuellen
Unterteilungen in den Klassifikationen implementiert werden. Wie
detaillierter weiter unten beschrieben, können viele solcher Klassifikationsebenen
implementiert werden. Außerdem können, weil
die Dokumente primär
textlicher Natur sind, die individuellen Attribute 26,
spezielle Worte, Wortfolgen, Fragen, Phrasen oder ähnliches
enthalten. In anderen Arten von Datenelementen können die Attribute interessierende
Merkmale von Bildern, Teilen von Audiodateien, Teilen oder Trends
von Wellenformen usw. enthalten. Die Domaindefinition gestattet
dann das Durchsuchen, die Analyse, die Strukturierung, das Mapping
und die Klassifikation von individuellen Datenelementen durch die
speziellen Merkmale, die innerhalb der und unter den Elementen identifizierbar
sind.
-
Wie
detaillierter weiter unten diskutiert, ist die Erfindung obwohl
die vorliegenden Techniken ungekannte Werkzeuge zur Analyse von
Textdokumenten liefern in keiner Weise nur auf die Anwendung auf Textdaten
beschränkt.
Die Techniken an Datenelementen wie beispielsweise Bildern, Audiodaten,
Kurven- oder Wellenformdaten und Datenelemente genutzt werden, die
einander einschließen
oder zugeordnet sind und einen oder mehrere dieser Datentypen enthalten
(beispielsweise Text und Bilder, Text und Audioinformation, Bilder
und Audioinformation, Text und Bilder und Audioinformation usw.).
-
Auf
Basis der Domaindefinition greift das Verarbeitungssystem 14 auf
die Datenquellen 16 zu um individuelle Datenelemente zu
identifizieren, analysieren, strukturieren, zu mappen und zu klassifizieren.
Das System kann auf ein großes
Spektrum solcher Datenelemente zugreifen und diese können an jeden
geeigneten Ort oder in jeder geeigneter Form vorliegen. Beispielsweise
kann die vorliegende Technik dazu genutzt werden, strukturierte
Datenelemente 28 oder unstrukturierte Datenelemente 30 zu
identifizieren und zu analysieren. Strukturierte Datenelemente 28 können strukturierte
Daten, wie beispielsweise bibliographischen Inhalt, vordefinierte
Felder, Tags usw. enthalten. Umstrukturierte Datenelemente mögen solche
identifizierbaren Felder nicht enthalten, dafür aber „Roh"-Datenelemente, für die eine abweichende Verarbeitung
angemessen sein kann. Außerdem
können
solche strukturierten und unstrukturierten Datenelemente von „umfassenden" Quellen 32 oder
von bekannten und früher
aufgebauten Datenbanken stammen, wie beispielsweise integrierten Wissensdatenbanken 34 (IKB).
In seiner hier genutzten Verwendung bezeichnet der Begriff „umfassende" Quelle jede Quelle,
die nicht typischerweise von einem Nutzer in eine IKB vororganisiert
worden ist, wie beispielsweise allgemeine Quellen, die über das Internet,
Bibliotheken, professionelle Organisationen, Usergroups oder von
jeder anderen beliebigen Datenquelle erhalten werden.
-
Die
IKB kann andererseits Datenelemente enthalten, die entsprechend
dem konzeptuellen Rahmen der Domaindefinition voridentifiziert,
analysiert, strukturiert, gemappt und klassifiziert sind. Der Aufbau
einer IKB ist wie detailliert weiter unten diskutiert ist, speziell
zur weiteren und schnelleren Analyse und Reklassifizierung von Datenelementen
und zur Durchsuchung von Datenelementen auf Basis von nutzerdefinierten
Suchkriterien nützlich.
Jedoch sollte man daran denken, dass die gleichen oder ähnlichen
Suchkriterien genutzt werden können,
um Datenelemente allgemeiner Datenquellen zu identifizieren und
das die vorliegende Technik nicht auf die Verwendung mit einer vordefinierten
IKB beschränkt sein
soll.
-
Schlussendlich
kann, wie in 1 veranschaulicht ist, jede
andere Quelle von Datenelementen von dem Verarbeitungssystem 14 herangezogen werden,
wie allgemein durch das Bezugszeichen 36 angedeutet ist.
Diese anderen Quellen können
Quellen umfassen, die auf den Aufbau der Domain und Klassifikation
folgend verfügbar
werden, wie beispielsweise neu errichtete oder neu angezapfte Ressourcen.
Es sollte daran gedacht werden, dass solche neuen Ressourcen jederzeit
entstehen und vorliegende Technik ihre Einbindung in das Klassifikationssystem
und letztendlich die Verfeinerung des Klassifikationssystems selbst
erbringt, um eine Anpassung an solche neuen Datenelemente zu gestatten.
-
Die
vorliegenden Techniken liefern verschiedene zweckmäßige Funktionen,
die, obwohl sie miteinander in Beziehung stehen, als unterschiedlich angesehen
werden sollten. Zunächst
bezieht sich die „Identifikation" von Datenelementen
auf die Auswahl von Elementen, die von Interesse oder potentiellem Interesse
sind. Dies wird typischerweise durch Referenz zu den Attributen
der Domaindefinition und zu jeglichen Regeln oder Algorithmen erbracht,
die implementiert sind, um in Verbindung mit den Attributen zu arbeiten.
Die „Analyse" der Elemente beinhaltet die
Untersuchung von Merkmalen, die durch die Daten definiert werden.
Viele Analysearten können
wiederum auf Basis der interessierenden Attribute, der Attribute
der Elemente und der Regeln oder Algorithmen durchgeführt werden,
auf denen die Strukturierung, das Mapping und die Klassifikation
basiert. Die Analyse wird außerdem
auf den strukturierten und klassifizierten Datenelementen durchgeführt, beispielsweise
um Ähnlichkeiten,
Unterschiede, Trends und sogar vorher nicht erkannte Beziehungen
zu identifizieren.
-
Die „Strukturierung" bezieht sich hier
auf den Aufbau des konzeptuellen Rahmens oder der Domaindefinition.
Auf dem Gebiet des Data-Minings werden manchmal der Begriff „Strukturierung" und die Unterscheidung
zwischen „strukturierten" und „unstrukturierten" Daten genutzt (beispielsweise
wie oben in Bezug auf die strukturierten und unstrukturierten Datenelementen,
wie sie in 1 repräsentiert sind). Eine solche „Struktur" kann als Implementierung
eines speziellen analytischen Systems an oder innerhalb gewisser
Datenelemente gedacht werden. Somit kann ein Dokument in einen Titel,
eine Zusammenfassung und Kapitel unterteilt werden. Innerhalb jedes
dieser Teile können
die Daten jedoch im Wesentlichen unstrukturiert bleiben. Die vorliegenden
Techniken gestatten die Nutzung solcher Strukturen, die geändert oder
sogar verworfen worden sein können,
in Abhängigkeit
von dem speziellen konzeptuellen Rahmen der Domaindefinition. Solche Strukturierung
kann die Übersetzung,
die Formatierung, das Tagging oder eine anderweitige Transformation
der Daten in eine Form mit sich bringen, die leichter durchsucht,
analysiert, verglichen und klassifiziert werden kann. Beispielsweise
kann eine solche Strukturierung die Umsetzung der Daten in einen speziellen
Dateityp oder ein Format beinhalten, wie beispielsweise durch die
Nutzung einer Mark-up-Language, wie beispielsweise XML.
-
„Mapping" der Elemente beinhaltet
die Beziehung der Attribute der Domaindefinition zu den Merkmalen
und Attributen der Datenelemente. Ein solches Mapping kann als ein
Prozess gedacht werden, in dem die Domaindefinition auf Daten jedes Elements
in Übereinstimmung
mit den Attributen der Domaindefinition und der genutzten Regeln
und Algorithmen angewendet wird. Obwohl stark verwandt, ist das
Mapping im vorliegenden Kontext von der „Klassifikation" zu unterscheiden.
Die Klas sifikation ist die Festschreibung einer Beziehung zwischen
den Subdivisionen des konzeptuellen Rahmens der Domaindefinition
und den Datenelementen (z.B. über Attribute
der Achsen und Label). Im vorliegenden Kontext wird auf ein→viele-Mapping und auf eins→viele-Klassifikation
Bezug genommen, wobei das Mapping der Prozess zur Herbeiführung der Klassifikation
auf Basis des strukturellen Systems und der Domaindefinition ist.
-
Der
resultierende Prozess kann von manchen existierenden Techniken,
wie beispielsweise dem Data Mining, der Taxonomie, Mark-up-Languages
und einfachen Suchmaschinen unterschieden werden, obwohl diese für die hier
implementierten Teilprozesse genutzt werden können. Beispielsweise identifiziert
das Data Mining Beziehungen oder Muster in den Daten vom Standpunkt
des Datenelements und nicht auf Basis einer durch eine Domaindefinition vorgegebenen
Struktur. Das Data Mining liefert allgemein keine eins→viele-Mappings
oder -Klassifikationen der Einheiten. Taxonomien schreiben eine
einheitliche Klassifikation von Elementen durch die Unterteilung
der Kategorien vor, die die Taxonomie definieren. Mark-up-Languages sind,
obwohl sie für
die Strukturierung von Elementen potentiell zweckmäßig sind,
für das
eins→viele-Mapping
oder -Klassifikation nicht besonders gut geeignet und liefern allgemein eine „Struktur" innerhalb der Elemente
auf Basis von Tags oder anderen Merkmalen der Sprache. Ähnlich liefern
einfache Suchtechniken typischerweise nur Listen von Elementen,
die gewisse Suchkriterien erfüllen,
jedoch erbringen sie kein Mapping oder Klassifikation der Elemente,
wie hier vorgelegt.
-
Das
Verarbeitungssystem 14 bezieht sich außerdem auf Regeln und Algorithmen 38 zur
Analyse, Strukturierung, zum Map ping und zur Klassifikation der
Datenelemente. Wie detaillierter weiter unten beschrieben, sind
die Regeln und Algorithmen 38 typischerweise für spezielle
Typen von Datenelementen geeignet und tatsächlich für spezielle Zwecke (z.B. zur
Analyse und Klassifizierung) der Datenelemente eingerichtet. Beispielsweise
können
die Regeln und Algorithmen sich auf die Analyse von Text in Textdokumenten
oder Textteilen von Datenelementen beziehen. Die Algorithmen können eine
Bildanalyse für
Bildelemente oder Bildteile von Elementen und so weiter erbringen.
Die Regeln und Algorithmen können
in dem Verarbeitungssystem 14 gespeichert sein oder das
Verarbeitungssystem kann bei Bedarf auf diese zugreifen. Beispielsweise
können
einige der Algorithmen ziemlich speziell auf verschiedene Typen
von Datenelementen eingerichtet sein, wie beispielsweise diagnostische
Bilddaten. Unter den Algorithmen können sich ausgeklügelte Algorithmen zur
Analyse und Identifikation von interessierenden Merkmalen in Bildern
finden und diese können,
wenn sie zur Analyse von Datenelementen erforderlich sind, abgerufen
werden.
-
Das
Datenverarbeitungssystem 14 ist außerdem an eine oder mehrere
Speichereinrichtungen 40 angeschlossen, um Ergebnisse von
Suchvorgängen, Analyseergebnisse,
Nutzerbezüge
und alle anderen permanenten oder temporären Daten zu speichern, die
erforderlich sein mögen,
um die Zwecke der Analyse, Struktur, des Mappings und der Klassifikation
zu erzielen. Speziell kann der Speicher 14 zur Abspeicherung
der IKB 34 genutzt werden, wenn die Analyse, die Strukturierung,
das Mapping und die Klassifikation einer Serie identifizierter Datenelemente durchgeführt ist.
Wiederum können
mit der Zeit der IKB zusätzliche
Datenelemente hinzugefügt
werden, und die Analyse und Klassifikation der Datenelemente in
der IKB kann verfeinert oder auf Basis von Veränderungen in der Domainde finition
den Regeln, die zur Analyse und Klassifikation angewendet werden usw.
sogar verändert
werden.
-
Ein
Bereich editierbarer Schnittstellen kann zur Interaktion mit der
Domaindefinition, den Regeln und Algorithmen und den Elementen selbst
vorgesehen sein. Lediglich beispielsweise und wie in 1 veranschaulicht,
sind gegenwärtig
vier solcher Schnittstellen vorgesehen. Diese können eine Domaindefinitionsschnittstelle 42 zur
Festlegung der Achsen, Labels und Attribute der Domain umfassen. Es
kann eine Regeldefinitionsschnittstelle 44 vorgesehen sein,
um spezielle zu nutzende Regeln oder Links oder externe Regeln und
Algorithmen festzulegen. Es kann eine Suchdefinitionsschnittstelle 46 vorgesehen
sein, um zu ermöglichen,
Datenelemente 46 entweder von allgemeinen Quellen oder
einer IKB zu durchsuchen, zu analysieren und zu klassifizieren und
verschiedene Ergebnissichtungsschnittstellen 48 können vorgesehen
sein, um die Ergebnisse der Analyse einer oder mehrerer Datenelementen zu
veranschaulichen. Die Schnittstellen werden typischerweise vom Bediener über eine
Workstation 50 bedient, die mit dem Verarbeitungssystem 14 verbunden
ist. Tatsächlich
kann das Verarbeitungssystem 14 Teil einer Workstation 50 oder
vollständig
von der Workstation entfernt aufgebaut und durch ein geeignetes
Netzwerk angeschlossen sein. Die Schnittstellen können verschiedene
Ansichten erbringen, wie beispielsweise die in 1 aufgezählten und
die als Briefmarkenansicht, als Formansicht, als Draufsicht, als
hervorgehobene Ansicht, als räumliche Grundansicht
(Splay), als Splay mit Überlagerung oder
als nutzerdefiniertes Schema oder irgendeine andere Ansicht bezeichnet
werden. Es sollte daran gedacht werden, dass dies lediglich exemplarische Aufzählungen
von Analysen und Klassifikationen sind und dass viele andere Ansichten
o der Varianten dieser Ansichten ins Auge gefasst werden können.
-
Wie
oben angemerkt, liefert die vorliegende Technik eine Nutzerdefinition
und eine Verfeinerung des konzeptuellen Rahmens, der durch die Domaindefinition
repräsentiert
wird. 2 veranschaulicht exemplarische Schritte beim
Definieren des konzeptuellen Rahmens einer Domain. Die allgemein
durch das Bezugszeichen 52 bezeichnete Gesamtlogik enthält allgemeine
Spezifikationen der Domain für
eine erste Phase 54 gefolgt von einer Verfeinerung der Domaindefinition
in einer zweiten Phase 56. Die Spezifikation der Domain 54 kann
einen Bereich von Schritten, wie beispielsweise eine Definition
von Domainachsen 58 und eine Definition von Labels 60 innerhalb
jeder Achse enthalten. Wie oben diskutiert, repräsentieren die Achsen allgemein
konzeptuelle Teile der Domain, die in jeder geeigneten, von dem Bediener
definierten Weise unterteilt werden können. Die Labels repräsentieren
ihrerseits eine konzeptuelle Unterteilung der individuellen Achsen.
Die Labels und tatsächlich
auch die Achsen können
als konzeptuelle Unterteilungsklassifikationsebenen gedacht werden.
Wie detaillierter weiter unten diskutiert ist, können manche der Ebenen redundant
sein oder niedrigere Ebenen können
ebenso zu höheren
Ebenen redundant sein, um ein „konzeptuelles
Zooming" in der
Domain zu gestatten. Dies bedeutet, dass insbesondere Labels als
Achsen der Domain gelistet sein können, was die Analyse und Visualisierung
der Basen für
spezielle Klassifikationen von Datenelementen gestattet.
-
Auf
die Spezifikation der Domain folgend, kann die Domain in Phase 56 weiter
verfeinert werden. Eine solche Verfeinerung kann Listingattribute für verschiedene
Labels jeder Achse beinhalten. Allgemein können diese Attribute jegliche Eigenschaft der
Datenelemente sein, die in den Datenelementen zu finden sind und
deren Identifikation, Analyse, Strukturierung, Mapping oder Klassifikation
erleichtern. Wie in 2 veranschaulicht, können solche Elemente
bei Dokumenten Worte, Variationen von Worten und Begriffen, Synonyme,
in Beziehung stehende Worte, Konzepte und so weiter enthalten. Diese
können
für jedes
Label einfach aufgelistet werden, wie weiter unten detaillierter
erläutert
wird. Auf Basis der gelisteten Attribute kann, wie in Schritt 64 angedeutet
ist, eine Assoziationsliste erzeugt werden. Diese Assoziationsliste
repräsentiert
die Sammlung von Attributen wirksam die jedem Label und jeder Achse
zugeordnet sind.
-
Auf
die Definition der Domain folgend, werden in Schritt 66 die
Regeln und Algorithmen identifiziert, die zur Durchsuchung, Analyse,
Strukturierung, zum Mapping und zur Klassifikation der speziellen Datenelemente
anzuwenden sind. Diese Regeln und Algorithmen können zusammen mit der Domain
von dem Nutzer festgelegt werden. Solche Regeln und Algorithmen
können
so einfach sein wie beispielsweise ob und wie Worte und Wortfolgen
identifiziert werden (z.B. ob nach einem ganzen Wort oder einer
ganzen Phrase gesucht wird, Nachbarschaftskriterien und so weiter).
In anderen Zusammenhängen
können
verfeinerte Algorithmen genutzt werden. Beispielsweise kann sogar
bei der Analyse von Textdokumenten eine komplexe Textanalyse, eine
Indexierung, eine Klassifizierung, ein Tagging oder andere solche
Algorithmen benutzt werden. Im Fall von Bilddatenelementen können die
Algorithmen Algorithmen umfassen, die die Identifikation, Segmentierung, Klassifikation,
den Vergleich und so weiter spezieller Bereiche oder interessierender
Merkmale innerhalb der Bilder gestatten. Im Kontext der medizinischen Diagnose
können
solche Algorithmen beispielsweise die computergestützte Diagnose
von Krankheitszu ständen
oder sogar eine verfeinertere Analyse der Bilddaten gestatten. Außerdem können die
Regeln und Algorithmen die gesonderte Analyse von Text und anderen
Daten, einschließlich
Bilddaten, Audiodaten usw. gestatten. Des Weiteren können die
Regeln und Algorithmen zu einer Kombination der Analyse von Text
und anderen Daten führen.
-
Wie
detaillierter weiter unten diskutiert wird, liefern die vorliegenden
Techniken eine bisher ungekannte Freiheit und Spielraum hinsichtlich
der Typen von Daten, die analysiert werden können sowie hinsichtlich der
Klassifikation von Datenelementen auf Basis einer Kombination von
Algorithmen für
Text, Bild und andere in den Elementen enthaltene Datentypen. In
Schritt 68 werden optional Links zu solchen Regeln und
Algorithmen bereitgestellt. Solche Links können beispielsweise zweckmäßig sein,
wenn spezielle Datenelemente zu lokalisieren, jedoch komplex, sich
entwickelnd sind oder wenn sogar neue Algorithmen für deren
Analyse und Klassifikation verfügbar
werden. Viele solcher Links können,
falls angemessen, dazu genutzt werden, die Klassifikation von individuellen
Datenelementen auf Basis von nutzereingegebenen Suchkriterien zu
erleichtern, sobald sie identifiziert sind.
-
In
Schritt 40 wird auf Datenelemente zugegriffen. Die Datenelemente
können
wiederum an jedem geeigneten Ort einschließlich allgemeiner Datenquellen
und bekannter oder sogar vordefinierter Datenbanken und ähnlichem
gefunden werden. Die vorliegenden Techniken können sich auf die Akquisition
oder die Erzeugung der Datenelemente selbst beziehen, obwohl bei
der Verarbeitung nach 2 davon ausgegangen wird, dass
die Datenelemente bereits existieren. In Schritt 72 können die
Datenelemente optional indexiert und gespeichert werden. Wie der
Fachmann zu würdigen
weiß,
gestattet eine solche In dexierung die nachfolgende sehr schnelle Verarbeitung
der Datenelemente. Eine solche Indexierung kann insbesondere in
Situationen zweckmäßig sein,
in denen auf die Datenelemente wieder zugegriffen werden muss und
in denen die originalen Elemente entweder unstrukturiert oder teilstrukturiert sind
oder sogar als Rohdaten vorliegen (z.B. Rohtext). Wo eine solche
Indexierung durchgeführt wird,
werden die indexierten Elemente typischerweise in Schritt 72 für einen
späteren
Zugriff zur Analyse, zum Mapping und zur Klassifikation gespeichert.
Wie oben angemerkt, kann die Domaindefinition sogar für Elemente
und Teile von Elementen, die strukturiert oder teilstrukturiert
sind, solche Strukturen nutzen (wo beispielsweise die existierende
Struktur in dem Element dem strukturellen System der Domaindefinition
entspricht) oder die Daten restrukturieren oder weiter strukturieren
oder sogar die vorhandene Datenstruktur des Elements ignorieren.
-
In
Schritt 74 werden in 2 die Domaindefinition
und die zugeordneten Regeln und Algorithmen auf die im Zugriff befindlichen
Datenelemente angewandt. Auf Basis der Domaindefinition und der Regeln
und Algorithmen werden spezielle Datenelemente identifiziert, analysiert,
strukturiert, gemappt und klassifiziert. Es sollte angemerkt werden,
dass, wie weiter unten in größerem Detail
beschrieben, die in Schritt 74 speziell durchgeführte Suche
von dem Nutzer spezifiziert oder gestaltet werden kann. Dies bedeutet,
dass von dem Nutzer über
eine geeignete Suchschnittstelle zur speziellen Suche sowohl für allgemeine
Quellen als auch Quellen innerhalb einer IKB definiert werden können. Bei
einer vorliegenden Implementierung kann die Suchschnittstelle im
Wesentlichen identisch zu der sich ergebenden Domaindefinitionsschnittstelle
einschließlich ähnlicher
Achsen und Labels sein, die von dem Bediener zur Durchführung der
Suche ausgewählt
werden können.
-
In
Schritt 76 werden die Ergebnisse der Anwendung der Domaindefinition
und -regeln gespeichert. In Schritt 78 werden Schnittstellenseiten
präsentiert,
die die Analyse und Klassifikation und tatsächlich die Datenelemente selbst
wiedergeben. Auf Basis solcher Wiedergaben können die Domaindefinition und
die Attribute sowie die Regeln und Algorithmen, die auf Basis der
Domaindefinition angewendet werden, geändert werden, wie in 2 durch
die Pfeile angedeutet ist, die zu früheren Verarbeitungsschritten
zurück
verweisen.
-
Die
speziellen Schritte und Stufen beim Zugreifen und Behandeln von
Datenelementen sind in 3 schematisch veranschaulicht.
In 3, in der die Datenelementeverarbeitungslogik
allgemein durch das Bezugszeichen 80 bezeichnet ist, beginnt die
Klassifikation der Datenelemente auf Basis der Domaindefinition
(oder den von dem Nutzer definierten Suchkriterien) und den Regeln
und Algorithmen, die der Definition zugeordnet sind. Diese Klassifikationsergebnisse
führen
zu einem eins→viele-Mapping und
-Klassifikation, wie durch das Bezugszeichen 84 angedeutet.
Wie der Fachmann weiß wird
ein solches Mapping typischerweise nicht durch konventionelle Suchmaschinen
und Data-Mining-Werkzeuge erbracht. Weil viele verschiedene Achsen,
Labels und tatsächlich
verschiedene Ebenen derselben in eine Domaindefinition gemeinsam
mit zugeordneten Attributen, Regeln und Algorithmen eingeschlossen werden
können,
kann somit jedes Datenelement in mehr als einer Achse und Label
gemappt und klassifiziert werden. Somit kann jedes Datenelement
auf viele verschiedene konzeptuelle Subdivisionen des konzeptuellen
Rahmens der Domaindefinition gemappt werden. Dieses eins→viele-Mapping
und -Klassifikation liefert eine starke Basis zur nachfolgenden
Analyse, zum Vergleich und zur Betrachtung des Datenelements.
-
Auf
das Mapping und die Klassifikation folgend kann die Analyse der
Datenelemente, wie in Schritt 86 in 3 angedeutet,
durchgeführt
werden. Wiederum kann eine solche Analyse auf nutzerdefinierten
Achsenregeln und Algorithmen sowie auf statistischen, analytischen
Techniken beruhen. Beispielsweise können dort wo Dokumente durchsucht und
klassifiziert werden, Korrespondenzen, Überlappungen und Unterscheidungen
zwischen den Dokumenten analysiert werden. Außerdem können einfache Analysen, wie
beispielsweise Zählungen
und Dokumenterelevanz auf Basis multipler Kriterien ermittelt und
viele viel→eins-Mappings
innerhalb der Klassifizierungsschritte durchgeführt werden. Die Analyseergebnisse
und Ansichten werden dann ausgegeben, wie Block 88 besagt.
Solche Ansichten können Teil
eines Softwarepakets sein, das die vorliegenden Techniken implementiert
oder sie können
nutzerdefiniert sein.
-
In
Schritt 90 werden die Analyseergebnisse und Ansichten durch
einen Nutzer durchgesehen. Die Durchsicht kann jede geeignete Form
haben und kann unmittelbar, beispielsweise auf eine Suche folgend,
oder zu jeder anderen nachfolgenden Zeit stattfinden. Die Durchsichten
werden an den individuellen Analyseansichten, wie in Block 92 gekennzeichnet,
durchgeführt.
Auf Basis der Durchsicht kann der Bediener jeden Teil des konzeptuellen
Rahmens verfeinern, wie in Block 94 angedeutet ist. Eine solche
Verfeinerung kann die Veränderung
der Domaindefinition, jedes Teils der Domaindefinition, die Veränderung
der angewendeten Regeln oder Algorithmen, die Änderung des Typs oder der Natur
der durchzuführenden
Analyse usw. beinhalten. Somit liefert die vorliegende Technik ein
hochflexibles und interaktives Werkzeug zur Identifikation, Analyse
und Klassifizierung der Datenelemente.
-
Wie
oben angemerkt, können
innerhalb des konzeptuellen Netzwerks und der Domaindefinition viele
Strategien zur Unterteilung und Definierung der Achsen und Labels
ins Auge gefasst werden. 4 veranschaulicht einen exemplarischen
Mapping-Prozess zur Entwicklung eines eins→viele-Mappings und -Klassifikation
eines Datenelements. Für
die vorliegenden Zwecke wird das Mapping, das insgesamt mit dem
Bezugszeichen 96 bezeichnet ist, auf Basis einer exemplarischen
Domaindefinition 98 durchgeführt. Die Domaindefinition enthält eine
Serie von Achsen 22 und deren zugeordnetes Label 24. 4 veranschaulicht
außerdem
ein Beispiel dafür,
wie ein „konzeptuelles
Zoom" durch die
Domaindefinition selbst durchgeführt
werden kann. In dem veranschaulichten Beispiel werden Attribute 26 einer
ersten Achse I und eines Labels IA innerhalb dieser Achse an einer
Labelebene 100 einer nachfolgenden Achse A angegeben. Dies
heißt,
dass die Achse A identisch zu dem Label IA der Achse I ist. Weil
die Attribute des Labels IA die gleichen wie die des Labels der
Achse A sind, kann es sein, dass wenn sie in einer Suche von einem
Bediener, wie nachstehend beschrieben, ausgewählt sind, die wiedergegebenen Suchresultate
nicht nur diejenigen Datenelemente repräsentieren, die den Kriterien
des Labels IA entsprechen, sondern sie liefert eine höhere Ebene
oder Auflösung
oder Granularität
dafür,
warum die Elemente durch Referenz zu den Labels der Achse A selektiert,
gemappt und klassifiziert worden sind.
-
Wie
bei Bezugszeichen 102 in 4 angedeutet
ist, wird davon ausgegangen, dass ein spezielles Datenelement eine
Serie von Attributen aufweist. In dem Fall eines Textelements können diese Attribute
Worte oder Wortverbindungen sein. Dies bedeutet, dass in dem Datenelement
gewisse Worte oder Wortverbindungen zu finden sind, die durch die Attribute
der Domaindefinition definiert werden. Dann indiziert das Mapping, das
durch die Referenz Nr. 96 repräsentiert wird, dass das Datenelement
gemäß der individuellen
Achsen, Labels und Labelattribute zu klassifizieren ist, die den
Attributen entsprechen, die in dem Element gefunden werden. In diesem
Fall wird das Element an einer Achsenebene 104 gemäß der Achsen
I, II und A klassifiziert. Außerdem
wird das Element auf einer Labelebene in Label IA, IIB, IIC, AAa
und AAc klassifiziert. Darüber
hinaus wird in Folge des konzeptuellen Zooms, der durch die zusätzliche
Achse A erbracht wird, das Element an einer „Attribut"-Ebene mit Attributen IAa und IAc assoziiert.
Bei einer vorliegenden Implementierung werden die Attribute bei
der Wiedergabe der Suchergebnisse nicht direkt angezeigt, wie nachstehend
beschrieben. Jedoch kann durch Anbringung der Attribute des Labels
IA in der Labelebene 100 der Achse A diese zusätzliche
Klassifikation durchgeführt
werden.
-
Das
in 4 veranschaulichte Mapping wird in der Klassifikationsphase
der oben diskutierten vorliegenden Techniken durchgeführt. Es
sollte angemerkt werden, dass diese Klassifikation nutzergewählt sein
kann. Dies bedeutet, wie nachstehend beschrieben, dass wenn die
Definition erstellt ist, alle identifizierten Datenelemente gemäß allen
Achsen, Labeln und Attributen strukturiert gemappt und klassifiziert
werden können.
Jedoch kann ein Bediener, wo es angemessen ist, lediglich einige
der Achsen und Labels für
eine gewünschte
Klassifikation auswählen.
Sobald die Klassifikation durchgeführt ist, kann die Suche jedoch
dazu durchgeführt
werden, bestimmte Datenelemente entsprechend einiger oder aller
der Achsen, Labels und Attribute zu identifizieren, die den konzeptuellen
Rahmen der Domaindefinition bilden. Aus diesem Grund kann es vorteilhaft
sein, zur Identifizierung, Strukturierung, Mapping und Klassifikation
der Datenelemente und um eine Nutzerauswahl eines Subsets derselben
bei späte ren
Suchen zu ermöglichen,
alle Achsen, Ebenen und Attribute zu nutzen. Wenn eine Indexierung
oder andere Datenverarbeitungstechnik genutzt wird, gestattet außerdem die
Verwendung aller Achsen und Labels und der zugeordneten Attribute
die Indexierung zur Erfassung all dieser, so dass nachfolgende Suchen
und Analysen stark erleichtert sind.
-
Wie
oben erwähnt,
kann der konzeptuelle Rahmen, der durch die Domaindefinition repräsentiert
wird, einen weiten Bereich von Ebenen und jede konzeptuelle Unterteilung
der Ebenen enthalten. 5 repräsentiert eine exemplarische
Domain 110, die in diesem Fall als „Superdomain" bezeichnet ist. Der
Begriff Superdomain wird hier dazu benutzt zu illustrieren, dass
die Domain ihrerseits unterteilt werden kann. Dies bedeutet, dass
viele unterschiedliche Ebenen bei der konzeptuellen Unterteilung
in der Klassifikation erhalten werden können. Bei der veranschaulichten
Ausführungsform
sind in der Superdomain vier Domains zu identifizieren, zu denen
die Domains 112, 114, 116 und 118 gehören. Diese
Domains können
sich miteinander überlappen.
Dies bedeutet, dass in den Domains bestimmte Labels oder Attribute
zu finden sind, die ebenfalls in anderen Domains gefunden werden
können.
In speziellen Fällen kann
es jedoch auch sein, dass zwischen den Domains keine Überlappung
besteht. Wie in 5 veranschaulicht, werden die
Domains ihrerseits als die Achsen der Superdomain angesehen. In
einer weiteren konzeptuellen Ebene kann jede Domain in Sub-Domains
unterteilt werden, wie für
die Domain 112 durch die Subdomains 120 dargestellt.
Dies bedeutet, dass jede Domain konzeptuell unterteilt werden kann,
um Datenelemente zu klassifizieren, die sich innerhalb der Domain
unterscheiden. Schlussendlich werden individuelle Achsen mit Labeln
für jede
Achse und Attribute für
jedes Label definiert.
-
Dieser
Multiebenenansatz, für
den durch die Domain definierten konzeptuellen Rahmen, wird in 6 weiter
veranschaulicht. 6 veranschaulicht tatsächlich sechs
gesonderte Klassifikations- und Analyseebenen. In einer ersten Ebene
L1 ist die Superdomain definiert. Diese Superdomain 110 ist
typischerweise das Feld selbst, in dem die Datenelemente zu finden
sind. Wie der Fachmann erkennen kann, ist das Feld tatsächlich lediglich
eine von dem Bediener definierte Abstraktionsebene. Innerhalb der
Superdomain kann eine Serie von Domains 112 bis 118 gefunden
werden, wie in Ebene L2 in 6 veranschaulicht
ist. Außerdem
kann innerhalb jeder Domain eine Ebene von Subdomains definiert
werden, die von einer Serie von Achsen gefolgt sind, wobei alle
Achsen individuelle Labels und schlussendlich Attribute für jedes
Label haben, wie durch die Ebenen L3 bis L6 veranschaulicht ist.
Somit kann zur Definition der Domain eine beliebige Anzahl von konzeptuellen
Ebenen definiert werden. Auf Basis der ultimativen Attribute der
Datenelemente wird dann das Mapping zu und die Klassifizierung in
entsprechende Ebenen und Sub-Ebenen durchgeführt.
-
Wie
oben erwähnt,
liefern die vorliegenden Techniken eine Nutzerdefinition der Domain
und ihres konzeptuellen Rahmens. 7 veranschaulicht eine
exemplarische Computerschnittstellen-Bildschirmseite zur Definition
einer Domain. Lediglich beispielshalber enthält die Domain in dieser veranschaulichten
Implementierung lediglich die Domainebene, die Achsenebene, die
Labelebene und zugeordnete Attribute. Das Domain-Definitions-Template (Formular),
das durch das Bezugszeichen 22 indiziert ist, kann einen
Abschnitt 124 für
bibliografische Daten, einen subjektiven Datenabschnitt 126 und einen
Klassifikationsdatenabschnitt 128 aufweisen, in dem die
Achsen und Labels gelistet sind.
-
Wo
es vorgesehen ist, gestattet der bibliografische Datenabschnitt 124,
dass bestimmte Identifizierungsmerkmale von Datenelementen in entsprechende
Felder geliefert werden. Beispielsweise kann ein Datenelementfeld 130 zusammen
mit einem Datenelementidentifikationsfeld 132 vorgesehen sein,
die zusammen das Datenelement eindeutig kennzeichnen. Außerdem kann
ein Titelfeld 134 zur weiteren Identifizierung des Datenelements
vorgesehen sein. Zusätzliche
Felder 136 können
vorgesehen sein, die nutzerdefiniert sind. Es können außerdem Daten, die die Herkunft
des Datenelements kennzeichnen, vorgesehen werden, wie in Blöcken 138 und 140 angedeutet.
Es kann weitere Information, wie beispielsweise ein Statusfeld 142 vorgesehen werden,
wenn es gewünscht
ist. Schließlich
kann ein allgemeines Zusammenfassungsfeld 144 vorgesehen
sein, wie beispielsweise zur Aufnahme von Information, wie beispielsweise
eine Zusammenfassung eines Dokuments usw. Es können Auswahlen 146 oder
Feldidentifizierungen vorgesehen werden, wie beispielsweise zur
Auswahl von Datenbanken, deren Datenelemente zu durchsuchen, zu
analysieren, zu mappen und zu klassifizieren sind. Wie der Fachmann
erkennt, dienen die exemplarischen Felder des bibliografischen Abschnitts 124 hier
nur als Beispiel. Einiges oder alles dieser Information kann über die strukturierten
Datenelemente verfügbar
sein oder die Felder können
von einem Bediener vervollständigt werden.
Außerdem
können
einige der Felder nur durch Verarbeitung und Analyse der Datenelemente selbst
oder einen Teil der Datenelemente gefüllt werden. Beispielsweise
kann solche bibliografische Information in bestimmten Abschnitten
von Dokumenten, wie beispielsweise Deckblättern von Patentdokumenten,
bibliografischen Auflistungen von Büchern und Artikeln usw. zu
finden sein. Es können andere
bibliografische Daten gefunden werden, wie beispielsweise in den
Headern (Köpfen)
von Bilddateien, Textteile, die Audiodateien zugeordnet sind, Anmerkungen,
die in den Text-, Bild- und Audiofiles eingeschlossen sind usw.
-
Der
subjektive Datenabschnitt 126 kann jeden aus einer Auswahl
subjektiver Daten beinhalten, die typische Eingaben einer oder mehrerer
Bediener sind. In dem veranschaulichten Beispiel gehört zu den
subjektiven Daten ein Feld 148 zur Elementidentifizierung
oder -bezeichnung und ein Feld zur Identifikation einer sichtenden
Person 150. Außerdem
können "Felder 152 für ein subjektives
Rating vorgesehen werden. Bei der veranschaulichten Ausführungsform
kann ein weiteres Feld 144 zur Identifikation einer Qualitäten des
Datenelements vorgesehen sein, wie es von einer sichtenden Person,
einem Experten oder einer anderen qualifizierten Person beurteilt worden
ist. Die Qualität
kann beispielsweise eine Nutzereingaberelevanz oder andere qualifizierende Kennzeichnung
sein. Schlussendlich kann ein Kommentarfeld 156 vorgesehen
sein, um Kommentare der sichtenden Person aufzunehmen. Es sollte
angemerkt werden, dass einige oder alle Felder in einem Abschnitt 126 für subjektive
Daten durch menschliche Nutzer und Experten ausgefüllt werden
können und
dass einige oder alle dieser Felder durch automatisierte Techniken
einschließlich
Computeralgorithmen ausgefüllt
werden können.
-
Der
Klassifikationsdatenabschnitt 128 enthält in der veranschaulichten
Ausführungsform
Eingaben für
die verschiedenen Achsen und Label sowie virtuelle Schnittstellentools
(z.B. Buttons/Schaltflächen)
zum Starten von Suchaufgaben und Durchführungen. In der veranschaulichten
Ausführungsform gehört zu diesen
ein virtueller Button 158, um eine Domaindefi nition zum
Suchen, Analysieren, Strukturieren, Mappen und Klassifizieren von
Datenelementen gemäß der Definition
in Auftrag zu geben. Die Auswahl von Views zur Wiedergabe verschiedener Ergebnisse
oder zusätzlicher
Schnittstellenseiten kann vorgesehen sein, wie durch Buttons 160 veranschaulicht
wird. Bei der in 7 veranschaulichten Implementierung
ist eine Serie auswählbarer
Blocks 162 vorgesehen, die es einem Bediener gestatten, eine
oder alle Achsen auszuwählen,
die die Domaindefinition bilden. Ähnlich ist für jedes
Label der nutzerwählbare
Block 164 bereitgestellt. Obwohl es in 7 im
Interesse der Klarheit nicht veranschaulicht ist, können alle
Achsen viele verschiedene Labels aufweisen und tun dies typischerweise
auch. In der Domaindefinition kann jede Anzahl von Achsen vorgesehen
sein und für
jede Achse kann eine beliebige Anzahl von Labels vorgesehen sein.
Schließlich
kann eine Anzahl von Identifizierern oder Hinweiskästen 166 vorgesehen
sein, die automatisch angesehen oder durch einen Nutzer einsehbar
sind (beispielsweise durch Betätigung
eines Knopfes an einer Maus oder einer anderen Eingabeeinrichtung),
um das Abrufen der Bedeutung oder des Umfangs verschiedener Achsen
oder Labels zu erleichtern oder um Attribute individueller Labels
anzuzeigen.
-
Zur
Identifizierung und Bezeichnung der Achsen und Labels können viele
verschiedene zusätzliche
Schnittstellen vorgesehen sein. Beispielsweise veranschaulicht 8 eine
exemplarische Schnittstelle 168 zur Definition von Achsen,
Labeln und Hinweistext für
jedes Label. In der Schnittstelle kann der Bediener den Achsennamen
in ein Feld 170 und eine Serie von Labelnamen für die Achse
in das Feld 172 eintragen. Die Schnittstelle 168 gestattet
es dem Bediener weiter, Hinweistexte einzugeben wie bei Bezugszeichen 174 angedeutet
ist, der genutzt oder für
den Bediener angezeigt werden kann, um den Bediener über die
Bedeutung jedes Labels und den Umfang der Labels zu erinnern. Selbstverständlich kann
für jede
Achse ein ähnlicher
Hinweistext eingeschlossen werden.
-
Ähnlich können es
die Schnittstellenseiten dem Bediener gestatten, die speziellen
Attribute jedes Labels festzulegen. 9 veranschaulicht
eine exemplarische Eingabeseite für diesen Zweck. Die Seite zeigt
dem Bediener die individuellen Achsen und das Label für die Achse
an für
die die Attribute zuzuordnen sind. In dem veranschaulichten Beispiel sind
die Attribute Attribute von Textdokumenten, wie beispielsweise Worte
und Wortfolgen, die von dem Bediener in einer Liste, wie beispielsweise
in einem Feld 176 definiert werden können. Es ist ein weiteres Feld 178 für ein exaktes
Wort oder Wortfolgen vorgesehen. In Abhängigkeit von der Gestaltung
der Schnittstellen können
Eingabeblocks, wie beispielsweise Block 170, vorgesehen
sein, die es dem Bediener gestatten, ein spezielles Wort oder eine
Wortfolge mit Auswahlen einzugeben, wie beispielsweise Auswahl 182 zur
Auswahl, ob es ein Wortbestandteil oder ein Wortfolgenbestandteil
oder ein exaktes Wort oder eine exakte Wortfolge ist. Es kann insbesondere für verschiedene
Typen von Datenelementen und unterschiedlichen Datentypen, die in
dem Element erwartet werden, ein weiter Bereich von Attributeingabeschnittstellen
vorgesehen werden. Schlussendlich können Blocks zusammen mit anderen
virtuellen Tools vorgesehen werden, um Attribute hinzuzufügen, Attribute
zu löschen,
Attribute zu modifizieren usw. wie in 9 allgemein
mit Bezugszeichen 184 angedeutet ist.
-
Wie
oben angemerkt, können
die vorliegenden Techniken zur Identifizierung, Analyse, Strukturierung,
zum Mapping, zum Klassifizieren und weiteren Vergleichen sowie zur
Durchführung
anderer Analysefunktionen an einer Vielzahl von Da tenelementen genutzt
werden. Außerdem
können
diese aus einem großen
Spektrum von Ressourcen, einschließlich allgemeiner Quellen,
gewählt
werden. Außerdem
können
die Datenelemente, wie oben beschrieben, verarbeitet und in einer
IKB gespeichert werden. 10 veranschaulicht
eine exemplarische Logik bei der Durchführung einiger dieser Operationen.
-
Die
in 10 veranschaulichte exemplarische Logik 186 beginnt
mit dem Zugriff auf ein oder mehrere Templates (Formulare) zur Auswahl,
Analyse und Klassifizierung von Datenelementen, wie bei Bezugszeichen 188 angedeutet.
Bei einer vorliegenden Implementierung werden für diesen Schritt zur anfänglichen
Selektion und Klassifizierung der Datenelemente alle Achsen, Labels
und Attribute der Domaindefinition genutzt. Jedoch kann der Bediener, wie
mit Bezugszeichen 190 angedeutet, wo immer gewünscht, eine
Zieldatenbank oder Ressource zur Identifikation und Klassifikation
der Datenelemente anhand von Achsen und Labels aus dem Template wählen. Im
vorliegenden Kontext sind die in Schritt 190 genannten
Assets Datenelemente und das Asset-Ziel sind eine oder mehrere Orte,
an denen Datenelemente zu finden oder zu finden erhofft sind. Das
Asset-Ziel kann beispielsweise bekannte Datenbanken, öffentlich
zugängliche
Datenbanken und Bibliotheken, subskriptionsbasierte Datenbanken
und Bibliotheken usw. sein. Beispielsweise können solche Asset-Ziele, wenn
nach geistigen Schutzrechten gesucht wird, Datenbanken eines Patentamts
umfassen. Wenn als anderes Beispiel nach diagnostischen medizinischen
Bildern gesucht wird, kann das Asset-Ziel Ablagen solcher Bilder,
wie beispielsweise Bildarchivierungs- und -kommunikationssysteme (PACS)
oder andere Ablagen enthalten. Wiederum kann jede geeignete Quelle
für diesen
Zweck genutzt werden.
-
Auf
Basis der in Schritt 190 gewählten Achsen und Labels wird
in Schritt 192 auf die ausgewählten Attribute zugegriffen.
Diese Attribute entsprechen allgemein den Achsen und gewählten Labels,
wie sie von dem Nutzer und der Domaindefinition festgelegt sind.
Wiederum können
zur anfänglichen
Klassifizierung von Datenelementen, wie beispielsweise zum Einschluss
einer IKB, alle Achsen und Labels und deren zugeordnete Attribute
genutzt werden. Bei nachfolgenden Suchen jedoch und wenn gewünscht bei der
anfänglichen
Suche werden nur die gewählten Attribute
benutzt, wobei ein Subset von Achsen und/oder Labels als ein Suchkriterium
genutzt werden. In Schritt 194 wird auf die ausgewählten Regeln und
Algorithmen zugegriffen. Wiederum können diese Regeln und Algorithmen
für die
gesamte Analyse und Klassifikation oder lediglich für ein Subset
genutzt werden, wie beispielsweise in Abhängigkeit von Suchkriterien,
die durch den Nutzer über
ein Suchformular ausgewählt
worden sind. Schließlich
wird in Schritt 196 auf das Asset-Zielfeld, auf das Datenelement
selbst oder auf Teile der Datenelemente oder sogar auf indizierte
Versionen der Elemente zugegriffen. Dieser Zugriff erfolgt typischerweise über ein Netzwerk,
wie beispielsweise ein Wide Area Network (WAN) und insbesondere über das
Internet. Beispielsweise wird in Schritt 196 auf Rohdaten
der Elemente oder lediglich auf spezielle Abschnitte der Elemente
zugegriffen, wenn eine solche Aufteilung verfügbar ist (z.B. anhand einer
in den Elementen vorhandenen Struktur). Deshalb kann bei Schutzrechtdokumenten,
wie beispielsweise Patenten, der Zugriff auf spezielle Teile, wie
beispielsweise Deckblätter,
Zusammenfassungen, Ansprüche
usw. beschränkt
sein. Ähnlich
kann bei Bilddateien der Zugriff lediglich auf die bibliografische
Information, auf den Bildinhalt oder Kombinationen daraus beschränkt sein.
-
Wenn
die Datenelemente in einer IKB zum späteren Zugriff, zur Reklassifizierung,
zur Analyse usw. zu klassifizieren sind, kann, wie in 10 durch gestrichelte
Linien dargestellt ist, eine Serie von Teilschritten ausgeführt werden.
Allgemein können
dazu Schritte gehören,
wie beispielsweise zur Übersetzung
von Daten, wie bei Bezugszeichen 198 angedeutet ist. Wie
der Fachmann erkennt, kann in Schritt 198 eine Übersetzung
der Daten angeraten sein, weil die vorliegenden Werkzeuge für ein weites
Spektrum von Daten implementiert werden kann, deren Format, Inhalt
und Struktur unbekannt sein kann. Eine solche Übersetzung kann die Reformatierung,
die Sektionierung, die Partitionierung oder anderweitige Manipulation
der Daten in ein zur Analyse und Klassifikation gewünschtes
Format umfassen. Wenn gewünscht,
können
die Einheiten in Schritt 200 indexiert werden. Eine solche
Indexierung kann, wie der Fachmann wiederum erkennen kann, eine
Unterteilung der Datenelemente in eine Serie von Einheiten oder Abschnitte
enthalten, wobei jeder Abschnitt zur späteren Analyse getagt oder indexiert
wird. Eine solche Indexierung kann beispielsweise lediglich an Teilen der
Elemente durchgeführt
werden, wenn es gewünscht
ist. Die Indexierung wird, wenn sie durchgeführt ist, in Schritt 202 gespeichert,
um einen schnelleren Zugriff und eine Bewertung der indizierten
Datenelemente bei späteren
Suchen zu ermöglichen.
-
Es
kann, wenn gewünscht,
eine „Kandidatenliste" genutzt werden,
um die Geschwindigkeit der Klassifizierung spezieller Datenelemente,
insbesondere von Textdokumenten zu erhöhen bzw. erleichtern. Wenn
solche Kandidatenlisten genutzt werden, wird die Kandidatenliste
typischerweise im Vorhinein erzeugt, wie in Schritt 204 in 10 angedeutet
ist. Die Kandidatenliste kann allgemein die Achsen und Labels zusammen
mit zugeordneten Attributen enthalten, die in den behandelten Datenelementen
von besonderem Interesse sind. Die Kandidatenliste kann dazu verwendet
werden, die Datenelemente zum Einschluss in die IKB schnell zu selektieren, wenn
gewisse einfache Kriterien in dem Datenelement gefunden werden,
wie beispielsweise das Vorhandensein eines Wortes oder einer Wortverbindung.
Wo solche Kandidatenlisten benutzt werden, wird die vordefinierte
Liste in Schritt 206 auf die im Zugriff befindlichen Datenelemente
angewendet. Eine weitere Filterung und Überprüfungen können auf eine Vielzahl von
Arten durchgeführt
werden, was von der Natur des Datenelements und der Filterung abhängt, die
implementiert werden kann. Beispielsweise kann der Prozess, wie
in 10 in Schritt 208 veranschaulicht ist,
eine Überprüfung auf
Redundanzen und eine Filterung gewisser Dokumente oder anderer Datenelemente
erfordern. Beispielsweise kann der Schritt, wenn eine IKB bereits
errichtet ist, die Überprüfung beinhalten,
ob bestimmte Datensätze oder
Datenelemente bereits in die IKB eingeschlossen sind sowie die Beseitigung
solcher Datenelemente, um redundante Datensätze in der IKB zu vermeiden. Ähnlich können diese
wenn herausgefunden wird, dass Datensätze im Wesentlichen die gleiche zugrunde
liegende Information repräsentieren,
diese in Schritt 208 gefiltert werden. In dem Beispiel
der geistigen Schutzrechte kann z.B. gefunden werden, dass eine
bestimmte Patentanmeldung als Patent erschienen ist und die Patentinformation
im Gegensatz zu der Patentanmeldungsinformation behalten und die
frühere
Information, wenn gewünscht,
in Schritt 208 verworfen werden. Es kann eine große Vielzahl von Überprüfungen und
Verifikationen implementiert werden.
-
In
Schritt 210 werden die Datenelemente gemappt und klassifiziert.
Das Mapping und die Klassifikation folgen wiederum der Domaindefinition,
die durch Achsen, Label und Att ribute gegeben ist. Wie oben angemerkt,
ist die in Schritt 210 durchgeführte Klassifikation eine eins→viele-Klassifikation, in
der jedes einzelne Datenelement hinsichtlich mehr als einer korrespondierenden
Achse und Labels klassifiziert werden kann. Schritt 210 kann
andere Funktionen enthalten, wie beispielsweise das Hinzufügen subjektiver
Information von Anmerkungen usw. Natürlich kann diese Art von Anmerkung
und Hinzufügung
subjektiver Bemerkungen oder anderer subjektiven Eingaben in einer
späteren
Stufe durchgeführt werden.
In Schritt 210 werden die Datenelemente zusammen mit der
Indexierung, der Klassifizierung usw. in der IKB gespeichert. Es
sollte angemerkt werden, dass die Wissensdatenbank, wenn der Begriff „IKB" im vorliegenden
Kontext benutzt wird, tatsächlich
ein großes
Spektrum von Formen annehmen kann. Die spezielle Form der IKB kann
dem Diktat der speziellen Software oder Plattformen folgen, für die die
IKB definiert ist. Die vorliegenden Techniken sollen die spezielle
Software oder Form der IKB in keiner Weise beschränken.
-
Es
sollte angemerkt werden, dass die IKB generell Klassifizierungsinformation
enthält,
wobei sie jedoch alle Arten von Datenelementen selbst oder verarbeiteten
(d.h. indizierten oder strukturierten Versionen) von Datenelementen
oder Elementteilen enthalten kann. Die Klassifizierung kann jede
geeignete Form haben und z.B. einfach als tabellierte Zuordnung
des strukturellen Systems der Domaindefinition zu entsprechenden
Datenelementen oder Teilen der Elemente aufweisen.
-
Nach
Aufbau der IKB oder Klassifizierung der Datenelemente allgemein
können,
wie in den Schritten 214 angedeutet, verschiedene Suchen durchgeführt werden.
Der in 10 von Schritt 194 zu
Schritt 214 führende
Pfeil soll veranschauli chen, dass die in Schritt 214 durchgeführten Suchen
entweder an Datenelementen durchgeführt werden können, die
in einer IKB gespeichert sind, oder an Datenelementen, die nicht
in einer IKB gespeichert sind. Dies bedeutet, dass die Suchen an
großen
Quellen von Datenelementen einschließlich externen Datenbanken,
strukturierten Daten, nichtstrukturierten Daten usw. durchgeführt werden
können.
Wenn jedoch eine IKB aufgebaut worden ist, führt der bei der Referenznummer 196 durchgeführte Zugriffsschritt
direkt zum Zugriff auf die IKB und zur Durchsuchung der Datensätze der
IKB in Schritt 214. In Schritt 216 werden dann
auf Basis der in Schritt 214 definierten Suche und der
zugeordneten Regeln und Algorithmen die Suchergebnisse präsentiert.
Wiederum können
diese Suchergebnisse in einem weiten Spektrum von Formen präsentiert
werden, die die Analyse individueller Datenelemente beinhalten oder
die Ergebnisse können
die Datenelemente in ihrer Originalform oder in hervorgehoben markierter
oder anderweitig manipulierter Form enthalten.
-
Auf
Basis einiger oder aller Suchergebnisse können die Auswahl von Datenelementen,
die Klassifikation von Datenelementen oder jede andere Eigenschaft
der Domaindefinition oder ihrer Funktion, die Domaindefinition,
die Regeln oder andere Aspekte des konzeptuellen Rahmens und zur
Analyse genutzten Tools modifiziert werden, wie in 10 allgemein
bei Bezugszeichen 94 angedeutet ist. Dies bedeutet, dass,
wenn sich herausstellt, dass die Suchresultate zu viele oder zu
wenige Treffer einschließen,
beispielsweise die Domaindefinition wie auch die Regeln verändert werden
können,
die zur Auswahl der Datenelemente, zur Klassifikation der Datenelemente
oder zur Analyse der Elemente genutzt worden sind. Ähnlich können, wenn
sich herausstellt, dass zu viele Unterscheidungen oder unzureichende
Unterscheidung zwischen den Datenelementen vor liegen, diese in Schritt 94 geändert werden.
Außerdem
können,
wenn neue konzeptuelle Unterscheidungen oder neue Attribute erkannt
werden, wie beispielsweise in Folge von Fortentwicklungen auf einem
Gebiet, diese in einer Veränderung
der Domaindefinition, der Regeln und der angewendeten Algorithmen
usw. resultieren. Außerdem
können, wenn
neue Regeln und Algorithmen zur Klassifikation der Datenelemente
entwickelt oder verfügbar
werden, diese in Schritt 94 zu Veränderungen führen. Auf Basis solcher Veränderungen
kann der gesamte Prozess neu gestaltet werden. Dies bedeutet, dass
zusätzliche
Suchen durchgeführt,
zusätzliche
Datenelemente zu der IKB hinzugefügt, neue IKBs erzeugt werden
können
usw. Tatsächlich
können
solche Veränderungen
einfach zu einer Neuklassifizierung der in einer IKB bereits vorhandenen
Datenelemente führen.
-
11 veranschaulicht
den in 10 schematisch veranschaulichten
Prozess in Anwendung auf gewisse Textdatenelemente zur Erzeugung
einer IKB. Der IKB-Erzeugungsprozess, der in 11 allgemein
durch die Bezugsnummer 218 bezeichnet ist, startet mit
einem Formular 220, das ähnlich oder gleich zu dem Formular
sein kann, das zur Definition der Domain benutzt wird. Wie oben
angemerkt, wird es bevorzugt, anfänglich für die Suche zur Erzeugung der
IKB alle Achsen, Labels und Attribute der Labels einzuschließen. Wenn
gewünscht,
kann das Formular dem Nutzer jedoch gestatten, bestimmte Achsen
oder Labels auszuwählen,
wie durch die vergrößerten Checkboxen 224 in
dem Formular 220 nach 11 veranschaulicht
ist. Auf Basis der Auswahl einiger oder aller Achsen und Labels
kann dann eine Assoziationsliste 226 genutzt werden. Die
Assoziationsliste 226 kann in dem veranschaulichten Beispiel
eine Identifikation der individuellen Attribute der speziellen Labels
zusammen mit nutzerdefinierten spezifischen Attributen und gewissen
Selektionskriterien enthalten. In der Veranschaulichung nach 11 sind
die speziellen Attribute beispielsweise Worte, die sich auf Webpages
oder ein ähnliches technische
Feld beziehen. Zu den Selektionskriterien gehören bei dem veranschaulichten
Beispiel, ob das gesamte Wort oder weniger als das gesamte Wort zur
Identifikation der Datenelemente benutzt wird, ob ein Nähekriterium
genutzt werden soll, wie bei Bezugszeichen 34 angedeutet
ist, und ob irgendeine spezielle Schwelle benutzt werden soll, wie
bei Bezugszeichen 236 angedeutet ist. Wie es dem Fachmann
einleuchtet, können
sogar innerhalb des Felds für
Textsuche und Klassifikation viele solcher Kriterien genutzt werden.
Die vorliegenden Techniken sollen nicht auf solche Selektionskriterien
beschränkt werden.
Außerdem
sollte erkannt werden, dass die Selektionskriterien in Form einer
Qualität
des Attributs genutzt werden können
oder dass solche Kriterien außerdem
als eine auf den Selektions- und Klassifikationsprozess anzuwendende
Regel implementiert werden können.
-
Auf
Basis der Domaindefinition oder Teil der von dem Bediener ausgewählten Domaindefinition und
auf Basis solcher Eingaben wie beispielsweise der Kandidatenliste,
sofern angewendet, werden Regeln zur Selektion und Klassifizierung
der Datenelemente genutzt, wie in 11 durch
Bezugszeichen 238 angedeutet. In dem veranschaulichten
einfachen Beispiel werden einem Regelidentifizierer 240 verschiedene
Regeln 242 zugeordnet. Außerdem können in dem veranschaulichten
Beispiel jeder der Regeln Relevanzkriterien 244 zugeordnet
werden. Wie oben angemerkt, sollte daran gedacht werden, dass zur
Selektion und Klassifikation der Datenelemente alle gewünschten
Regeln angewendet werden können.
Im Fall von Textdokumenten können
diese Regeln ziemlich einfach sein. Jedoch können bei komplexeren Dokumenten
oder wo Text und Bilder oder Text und andere Formen von Daten zu
Klassifikationszwecken zu analy sieren sind, diese Regeln Kriterien
zur Selektion und Analyse von Text sowie zur Selektion und Analyse
von anderen Teilen der Daten, wie beispielsweise Bilder, kombinieren.
Wie oben diskutiert, können
die Regeln in den Code eingeschlossen werden, der den Selektions-
und Klassifikationsprozess implementiert oder mit dem Code verbunden
werden. Wenn komplexe Algorithmen genutzt werden, beispielsweise
zur Bildanalyse und Klassifikation, mögen Algorithmen zu voluminös oder auch
zu selten benutzt sein, um die Verlinkung mit den Algorithmen als
effizienteste Lösung
erscheinen zu lassen.
-
Auf
Basis der Domaindefinition kann auf jede Kandidatenliste, jede Regel
usw. und dann auf jede große
Ressource 32 zugegriffen werden, die ein großes Spektrum
verschiedener Datenelemente 246 enthält. Die Domaindefinition, ihre
Attribute und die Regeln gestatten dann die Wahl eines Subsets dieser
Elemente zum Einschluss in die IKB, wie bei Bezugszeichen 248 angedeutet.
Bei der vorliegenden Implementierung werden nicht nur diese Elemente zum
Einschluss in die IKB ausgewählt
sondern zusätzliche
Daten, wie beispielsweise wenn eine Indexierung, eine Analyse, ein
Tagging usw. durchgeführt worden
ist, begleiten die Elemente, um deren weitere Analyse, Wiedergabe,
Selektion, Durchsuchung usw. zu gestatten und erleichtern.
-
Die
an den gewählten
und klassifizierten Datenelementen durchgeführte Analyse kann stark in Abhängigkeit
von dem Interesse des Nutzers und von der Natur der Datenelemente
variieren. Außerdem kann
sogar vor der Klassifizierung, während
der Klassifizierung oder auf die anfängliche Klassifizierung folgend
eine zusätzliche
Analyse und Klassifizierung durchgeführt werden. 12 veranschaulicht
die allgemeine Logik für
eine computerunterstützte
Verarbeitung, Analyse und Klassifizierung von interessierenden Merkmalen
der Datenelemente.
-
Diese
allgemein durch das Bezugszeichen 250 bezeichnete Logik
kann mit der Akquisition der in jeder Einheit enthaltenen Daten
beginnen. Wie oben angemerkt, geht der vorliegende Prozess allgemein davon
aus, dass eine solche Akquisition a priori durchgeführt wird.
Jedoch können
die vorliegenden Techniken auf Basis spezieller Analysen und Klassifikationen
auch empfehlen, dass zusätzliche
Datenelemente erzeugt werden, indem zusätzlich Daten akquiriert werden.
In Schritt 254 wird, wie oben beschrieben, auf die Daten
zugegriffen. Dem Zugriff auf die Daten folgt eine Nachverarbeitung über computerunterstützte Techniken,
wie in 12 allgemein mit Bezugszeichen 256 angedeutet.
-
Wie
oben angemerkt, liefert die vorliegende Technik ein hohes Maß an operativer
Integration bei der computerunterstützten Suche, Analyse und Klassifikation
von Datenelementen. Diese Operationen werden generell durch computerunterstützte Datenverarbeitungsalgorithmen,
speziell zur Analyse und Klassifizierung von Datenelementen unterschiedlicher
Typen durchgeführt.
Manche solcher Algorithmen sind in verschiedenen Gebieten entwickelt
worden und hinsichtlich der Verwendung relativ beschränkt, wie
beispielsweise bei der computerunterstützten Erfassung oder Diagnose
von Krankheiten, computerunterstützter
Verarbeitung oder Akquisition von Daten usw. Bei der vorliegenden
Technologie ist jedoch ein fortgeschrittenes Niveau von Integration und
Interoperabilität
durch Interaktionen zwischen Algorithmen zur Analysierung und Klassifizierung
neu lokalisierter Datenelemente und zur nachfolgenden Analyse und
Klassifikation bekannter Elemente erbracht, wie beispielsweise in
einer IKB. Die Technologie nutzt ungekannte Kombinationen von Algorithmen
für komplexere
oder Multimediadaten, wie beispielsweise Text und Bilder, Audiodateien
usw.
-
12 liefert
einen Überblick über die
Interoperabilität
solcher Algorithmen, auf die im vorliegenden Kontext allgemein als
computerunterstützte
Datenverarbeitungsalgorithmen oder CAX Bezug genommen wird. Solche
CAX-Algorithmen können
im vorliegenden Kontext auf Basis bereits vorhandener Algorithmen
aufgebaut oder modifiziert oder gänzlich auf Basis der zusätzlichen
Datenquellen und -elemente, der Integration solcher Datenquellen
und -elemente oder zur Analyse und Klassifikation spezifischer Typen
von Datenelementen aufgebaut werden. In den Überblick nach 12 ist
beispielsweise insgesamt ein CAX-System veranschaulicht, wie es einen
weiten Bereich von Schritten, Prozessen und Modulen einschließt, die
Teil eines voll integrierten Systems sein können. Wie oben angemerkt, können außerdem beschränktere Implementierungen
ins Auge gefasst werden, bei denen lediglich einige solcher Prozesse,
Funktionen oder Module vorhanden sind. Außerdem können solche CAX-Systeme bei gegenwärtig in
Betracht gezogenen Ausführungsformen
im Kontext einer IKB so implementiert werden, dass Information gesammelt
werden kann, um eine Adaptierung oder Optimierung sowohl der Algorithmen
selbst als auch des Datenmanagements durch die Daten zu erbringen,
die durch die Algorithmen zur Analyse und Klassifizierung des Datenelements
behandelt werden. Es können
verschiedene Aspekte der einzelnen CAX-Algorithmen verändert werden, einschließlich der
Regeln oder Prozesse, die in den Algorithmen implementiert sind,
oder es können
spezifische Regeln geschrieben und während des Datenelement-Minings,
der Analyse und der Klassifikationsprozesse abgerufen werden.
-
Während viele
solcher computerunterstützten
Datenbehandlungsalgorithmen ins Auge gefasst werden können, werden
in 12 gewisse Algorithmen veranschaulicht, um an
den Da tenelementen spezifische Funktionen auszuführen, wobei diese Prozesse
generell durch Bezugszeichen 256 bezeichnet sind. Werden
die Datenmanipulationsschritte, die in 12 zusammengefasst
sind, im weiteren Detail betrachtet werden in Schritt 258 die
im Zugriff befindlichen Daten allgemein verarbeitet, wie beispielsweise
zur Indexierung, Redundanzprüfung,
Reformatierung der Daten, Übersetzung
der Daten usw. Wie der Fachmann erkennt, hängt die in Schritt 258 ausgeführte Verarbeitung
von dem Typ des Datenelements ab, das analysiert wird sowie von
dem Typ der Analyse oder der Funktionen, die ausgeführt werden.
Es sollte jedoch bemerkt werden, dass die Datenelemente von jeder
der oben diskutierten Quellen verarbeitet werden können, einschließlich großer Quellen
und IKBs. In Schritt 258 wird ähnlich eine Analyse der Datenelemente
durchgeführt.
Wiederum hängt
eine solche Analyse von der Natur der Datenelemente, den Daten in
den Elemente und der Natur der Algorithmen ab, mit denen die Analyse
durchgeführt
wird. Eine solche Verarbeitung kann beispielsweise gewisse Ähnlichkeiten
oder Unterschiede zwischen den Datenelementen ausfindig machen.
Solche Daten können
dann zur Präsentation
tabelliert, gezählt
usw. werden. Ähnlich
können
an den Datenelementen statistische Analysen durchgeführt werden,
um solche Beziehungen wie Relevanz, Ähnlichkeitsgrad und jede andere
interessierende Eigenschaft sowohl innerhalb der Elemente als auch
zwischen den Elementen zu ermitteln.
-
In
Schritt 260 können
auf eine solche Verarbeitung und Analyse folgend interessierende
Merkmale in allgemeiner Weise segmentiert oder umschrieben werden.
Die Erkennung von Merkmalen in Textdaten kann Operationen beinhaltet,
wie beispielsweise einfach die Erkennung spezieller Passagen und
Begriffe, das Hervorheben solcher Passagen und Begriffe, die Identifizierung
relevanter Teile von Dokumenten usw. Bei Bilddaten kann eine solche
Merkmalssegmentierung die Identifikation von Grenzen oder Kanten
von Merkmalen und Objekten, die Bestimmung von Kontrast, Helligkeit
oder jede Anzahl von bildbasierten Analysen enthalten. Im medizinischen
Kontext kann die Segmentierung beispielsweise die Entgrenzung oder
Hervorhebung spezieller Anatomien oder Pathologien beinhalten. Allgemeiner
soll die in Schritt 260 ausgeführte Segmentierung jedoch einfach
die Beschränkung
jeder Art von Merkmal einschließlich
verschiedener Beziehungen zwischen Daten, Korrelationsgrößen usw. herausfinden.
-
Bei
einer solchen Segmentierung können Merkmale
in den Daten identifiziert werden, wie in Schritt 262 zusammengefasst
ist. Während
die Identifikation von Merkmalen an Bilddaten gemäß allgemein
bekannter Techniken durchgeführt
werden kann, sollte daran gedacht werden, dass die in Schritt 262 ausgeführte Merkmalsidentifikation
allgemeinerer Natur sein kann. Dies bedeutet, dass in Folge des großen Spektrums
von Daten, die in das erfindungsgemäße System integriert werden
können,
die Merkmalsidentifikation Verbindungen von Daten, wie beispielsweise
Text, Bilder, Audiodaten oder Kombinationen solcher Daten enthalten
kann. Allgemein kann die Merkmalsidentifizierung jede Art von Erkennung oder
Korrelationen zwischen den Daten einschließen, die für den von dem CAX-Algorithmus ausgeführten Prozess
von Interesse sind.
-
In
Schritt 266 werden solche Merkmale klassifiziert. Eine
solche Klassifikation enthält
typischerweise den Vergleich von Profilen in der segmentierten Eigenschaft
mit bekannten Profilen für
bekannte Bedingungen. Die Klassifikation kann sich allgemein aus
Attributen, Parametereinstellungen, Werten usw. ergeben, die Profilen
in einer bekannten Population von Datensätzen mit einem Datensatz oder
betrachteten Datenele ment ergeben. Im vorliegenden Kontext können die
Profile dem Satz von Attributen der Achsen und Labels der Domaindefinition
oder einen Subsatz entsprechen, wenn diese gewünscht werden. Außerdem kann
die Klassifikation allgemein auf gewünschten Regeln oder Algorithmen
beruhen, wie oben diskutiert ist. Wiederum können diese Algorithmen Teil
des gleichen Softwarecodes wie die Domaindefinition und der Such-,
Analyse- und Klassifikationssoftware sein oder es können spezielle
Algorithmen wie erforderlich durch entsprechende Links in der Software
aufgerufen werden. Jedoch kann die Klassifikation außerdem auf
Basis eines nichtparametrischen Profil-Matchings durchgeführt werden, wie
beispielsweise durch Trendanalyse für ein spezielles Datenelement
oder -elementen über
den Zeit, durch den Raum, über
die Population usw.
-
Wie
in 12 veranschaulicht, können die während der Analyse und der Klassifikation
ausgeführten
Prozesse entweder auf großen
Ressourcen 32 oder Datenelementen beruhen, die in einer
IKB gespeichert sind, wie mit Bezugszeichen 34 angezeigt.
Ebenfalls können
diese Prozesse, wie in 12 angemerkt, durch eine Eingabe über ein
Formular 220 des oben beschriebenen Typs ausgelöst werden.
Als Ergebnis der Analyse und Klassifizierung wird dem Bediener allgemein
eine Repräsentation
geboten, wie mit Bezugszeichen 20 angedeutet.
-
Die
vorliegenden Techniken zur Durchsuchung, Identifizierung, Analyse,
Klassifikation usw. von Datenelementen dient speziell der Erleichterung und
Verbesserung von Entscheidungsprozessen. Zu den Prozessen kann ein
großes
Spektrum von Entscheidungen, wie beispielsweise Marketingentscheidungen,
Forschungs- und Entwicklungsentscheidungen, technische Entwicklungsentscheidungen,
rechtliche Entscheidungen, finanzielle und Investmententscheidungen,
klinische Diagnose- und
Behandlungsentscheidungen usw. gehören. Diese Entscheidungen und
deren Prozesse werden in 12 bei
Bezugsziffer 268 zusammengefasst. Wie oben diskutiert,
werden auf Basis der Repräsentationen 20 und zusätzlich auf
Basis der Entscheidungsprozesse weitere Verfeinerungen für die Analyse- und Klassifikationsalgorithmen,
die Datenelemente, die Domaindefinition usw. durchgeführt, wie
in 12 durch den optionalen Block 270 angedeutet
ist. Wie der Fachmann erkennt, kann eine solche Verfeinerung die
Akquisition zusätzlicher
Daten, die Akquisition von Daten unter unterschiedlichen Bedingungen,
die speziell zusätzliche
Analyse von Daten, eine weitere Segmentierung oder unterschiedliche
Segmentierung der Daten, unterschiedliche Identifizierungen von
Merkmalen und alternative Klassifikationen von Daten enthalten,
ohne darauf beschränkt
zu sein.
-
Wie
oben angemerkt, werden bei der vorliegenden Technik zusätzliche
Schnittstellen zur Durchführung
von Suchen und zur weiteren Identifikation und Klassifikation von
Datenelementen, wie beispielsweise aus einer IKB geschaffen. 15 veranschaulicht
einen Überblick über die
Durchführung von
Durchsuchungen von Datenelementen, wie beispielsweise in einer IKB
gespeicherten Elementen. Es wird bemerkt, dass der Überblick
dem in 11 veranschaulichten Überblick ähnlich ist,
in dem die Datenelemente zur Bildung der IKB durchsucht und strukturiert
werden. Bei dem in 13 veranschaulichten Arbeitsablauf,
der allgemein mit dem Bezugszeichen 272 ist, wird wiederum
ein Suchformular 220 genutzt, das eine graphische Veranschaulichung
der Domaindefinition einschließlich
Achsen und Labels enthält.
Wiederum werden Attribute und, wenn zweckmäßig, Assoziationslisten mit
dem Suchformular kombiniert, um die Merkmale der Datenelemente festzulegen,
nach denen zu suchen und die zu klassifizieren sind. Somit kann
zur automatisierten Suche und Klassifikation eine Assoziationsliste 226 genutzt werden.
Der Bediener kann dann über
das ausgefüllte
Formular 220 die speziellen Achsen und Labels definieren,
die in den strukturierten Datenelementen, die die IKB enthält, zu lokalisieren
sind. Auf Basis des ausgefüllten
Formulars, der Assoziationsliste 226 und der Regeln, die
allgemein durch das Bezugszeichen 238 bezeichnet werden,
wird die IKB durchsucht. Dies bedeutet, dass ausgewählte und
klassifizierte Elemente 248 durchsucht werden, um, wo immer
angemessen, die Datenelemente zu identifizieren und reklassifizieren,
die den Kriterien entsprechen, die für die Suche genutzt worden
sind (wie durch das Formular, irgendwelche Assoziationslisten und
anwendbaren Regeln definiert sind). Bei der in 13 veranschaulichten
Ausführungsform
werden die Suchergebnisse über
ein Formular geliefert, das an das Suchformular erinnert. Jedoch
werden in der Repräsentation,
die hier als „Formularansicht" 274 bezeichnet
ist, nur die Achsen und Labels, die für jeden Datensatz oder jedes
Datenelement lokalisiert sind, in dem Formular hervorgehoben. Somit
kann der Bediener die Basis für
das eins→viele-Mapping schnell
identifizieren, das bei dem Klassifikationsvorgang vorgenommen worden
ist. Es kann eine Anzahl solcher Datensätze 276 zurückgeliefert
werden, wobei, wenn gewünscht,
jeder bibliographische Daten, subjektive Daten, Klassifikationsdaten
usw. anzeigt, wie oben diskutiert.
-
Bei
einer anderen Implementierung können Datenelemente
für spezielle
Merkmale oder Attribute hervorgehoben werden, die in den Such- und
Analyseschritten lokalisiert worden sind und die in strukturierte
Datenelemente klassifiziert worden sind. 14 veranschaulicht
einen exemplarischen Arbeitsablauf für eine solche Implementierung.
Die Texthervorhebeimplementierung nach 14, die allgemein
durch das Be zugszeichen 278 bezeichnet wird, kann mit der
Identifizierung von speziellen Merkmalen oder Kandidaten von einer
Kandidatenliste 280 beginnen. Die Kandidatenwahlen, die
durch das Bezugszeichen 282 indiziert sind, gehen von der Liste
aus und es können
effiziente Suchen zum Hervorheben individueller interessierender
Merkmale durchgeführt
werden. Bei der in 14 veranschaulichten Implementierung
wird beispielsweise eine Textsuche in einem Dokument-ID-Feld 284 durchgeführt, wobei
hervorgehobene Worte mit dem Bezugszeichen 286 bezeichnet
sind. Individuelle Worte, die individuellen Attributen von Labels
in der Domaindefinition entsprechen können, werden somit hervorgehoben,
wie in der Element-Datenansicht 288 der 14 angedeutet.
In einer vorliegenden Implementierung kann die Hervorhebung durch
Veränderung der
Farbe des Worts oder des das Wort umgebenden Hintergrunds vollbracht
werden. Wie durch die Bezugszeichen 290, 292 und 294 angedeutet,
können für verschiedene
Begriffe oder beispielsweise für
Begriffe, die mit einem einzigen Label oder einer einzigen Achse
verbunden sind, unterschiedliche Hervorhebungen vorgenommen werden.
Hier ist wiederum die Basis für
die Klassifizierung (und Selektion) der Datenelemente für den Nutzer
durch die Hervorhebung leicht ersichtlich. Wie der Fachmann bemerken wird,
können
obwohl das relativ einfache Beispiel eines Textdokuments erläutert worden
ist, ähnliche Techniken
für einen
weiten Bereich von Datenelementtypen angewandt werden. Beispielsweise
können,
wie unten stehend diskutiert, Bilddaten, Audiodaten oder andere
Daten oder Kombinationen dieser Typen von Daten analysiert und in ähnlicher
Weise hervorgehoben werden. Wo Bilddaten hervorgehoben werden, können beispielsweise
graphische Techniken genutzt werden, wie Einrahmung interessierender
Merkmale, Zeiger für
interessierende Merkmale, Anmerkungen, die interessierende Merkmale
kennzeichnen usw.
-
Wo
Datenelemente mit Text, Bild und anderen Datentypen analy siert werden,
können
Kombinationen dieser Herangehensweisen zur Hervorhebung genutzt
werden.
-
Weitere
Ausführungsbeispiele,
die dazu genutzt werden können,
die analysierten und klassifizierten Datenelemente zu evaluieren,
umfassen verschiedene räumliche
Darstellungen, wie die in den 15 bis 22 veranschaulichten.
In der räumlichen
Darstellung (Splay), die in 16 veranschaulicht
ist, ist eine datenzentrische Ansicht einer Serie von Datensätzen veranschaulicht,
die Suchkriterien entsprechen und gemäß der Suchkriterien klassifiziert
worden sind. Die räumliche
Wiedergabe 296 hat die Form einer Matrix oder eines Arrays
von Daten, die ein Paar Achsen 298 und 300 der
Domaindefinition anzeigen. Die tabellarische Zusammenfassung 302 folgt
diesen Achsen und den individuellen Labels jeder Achse. Ein Zähler oder
eine Nummer der Datensätze
oder Datenelemente, der den Schnitten der Achsen und individuellen
Labels entspricht, wird durch einen Zähler oder eine Score-Nummer 304 gekennzeichnet.
Zusätzliche
Information kann natürlich in
jedem Schnittblock wiedergegeben werden, wie im Detail weiter unten
diskutiert. Wo gewünscht,
kann zusätzliche
Information wiedergegeben werden, wie beispielsweise durch Anklicken
eines Zählers
mit einer Maus zur Erzeugung eines Drop-Down-Menüs oder
einer Liste, wie Bezugszeichen 306 andeutet. Es sollte
daran gedacht werden, dass das veranschaulichte Beispiel lediglich
eines von vielen Möglichkeiten
ist. Zusätzliche
Möglichkeiten
werden nachstehend diskutiert und sind formell ein Teil der unzähligen Optionen,
die der Systemdesigner hat. Bei einer vorliegenden Implementierung
werden beispielsweise für
die individuellen Elemente oder Datensätze des Listings 306 zusätzliche
Links bereitgestellt, wobei die Datensätze ihrerseits von dem Listing
verfügbar
sind. Eine Auswahl von Datensätzen von
dem Listing kann eine Wiedergabe in Form einer Ansicht, wie beispielsweise
in 13 veranschaulicht, oder einer hervorgehobenen
Ansicht, wie in 14 oder irgendeiner ähnlichen
Repräsentation des
gesamten Datenelements oder Teilen desselben ergeben.
-
Ein
weiteres Beispiel einer räumlichen
Wiedergabe ist in 16 veranschaulicht. Die in 16 veranschaulichte
Wiedergabe kann als datensatzzentrische räumliche Wiedergabe 308 angesehen werden.
Die datensatzzentrische Wiedergabe ist ähnlich zu der Wiedergabe nach 15,
jedoch hebt sie Überschneidungen
von Labeln hervor, die Attributen individueller Datenelemente oder
Datensätze entsprechen.
Dies bedeutet beispielsweise, dass für ein spezifisches Suchkriterium,
wie beispielsweise dem Eigentümer
einer Gesellschaft oder eines speziellen geistigen Schutzrechts
eine Anzahl von Datensätzen
geliefert werden kann, die in einer ersten Farbe oder Graphik hervorgehoben
werden, wie in 16 durch die rechts geneigte
Schraffierung indiziert ist. Datensätze, die Datenelementen entsprechen,
die für
eine zweite Gesellschaft zurück
geliefert werden, können
in anderer Weise gekennzeichnet werden, wie durch die links geneigte
Schraffierung angedeutet. Selbstverständlich sind andere graphischen
Techniken, wie Farben, verfügbar,
die deutlicher sind und besser aussehen. Wiederum kann die Hervorhebung
anzeigen, dass in den überschneidenden
Blocks wenigstens ein Datensatz für jedes der hervorgehobenen
Merkmale lokalisiert worden ist (z.B. Eigentümer der Gesellschaft). Die
räumliche Wiedergabe
macht es leichter sichtbar wo Überschneidungen
zwischen die entsprechenden Attribute aufweisenden, zurück gelieferten
Datenelementen existieren, sowie von Bereichen wo keine solche Datensätze zurück geliefert
worden sind. Die spezielle Datensatzhervorhebung, die durch die
Bezugszeichen 310 und 312 angezeigt worden ist,
kann sich somit überlappen,
wie es bei den beiden zentralen Blöcken des Überschneidungsraums 314 der
Fall ist, was anzeigt, dass wenigstens ein Datensatz in jedem der
Blöcke
zu einer oder der anderen Basis zur Hervorhebung gehört. Wiederum
können
zusätzliche graphische
oder analytische Techniken, wie beispielsweise das Datensatzlisting 316,
genutzt werden, über
das spezielle Datensätze
oder -ansichten abgerufen werden können.
-
17 veranschaulicht
eine zusätzliche räumliche
Wiedergabe, die als eine zusätzliche
Art datensatzzentrierter Wiedergabe angesehen werden kann. In der
Wiedergabe der 17 sind wiederum die Achsen 298 und 300 mit
entsprechenden Labels für
jede Achse indiziert. Es werden dann Blöcke geliefert, die die Schnitte
mit jedem Label veranschaulichen. Bei der räumlichen Wiedergabe 318 werden
jedoch für
jeden individuellen Datensatz oder jedes Datenelement gesonderte
Blöcke
bereitgestellt. Solche Blöcke
werden mit Bezugszeichen 320, 322 und 324 indiziert.
Auf Basis des Inhalts des strukturierten Datenelements können dann
die individuellen Überschneidungsblöcke anzeigen,
ob ein Datensatz Achsen-Label-Attribute enthält oder nicht. Beispielsweise haben
bei den veranschaulichten Daten die Datenelemente 320, 322 und 324 keine
Attribute gemeinsam, die dem Label IIA entsprechen, wobei jedoch die
Elemente 322 und 324 eine Überschneidung bei Label IC/IIB
gemeinsam haben. Hier erleichtert wiederum die Darstellung der Daten
die Identifikation der Einheitlichkeit oder Gesondertheit von Datenelementen
und ihren Verwandten.
-
In 18 ist
eine etwas ähnliche
räumliche Darstellung
veranschaulicht. Eine räumliche
Wiedergabe der in 18 veranschaulichten Art kann
für ein
spezielles interessierendes Merkmal in Betracht gezogen werden,
wie beispielsweise den Eigner einer Fabrik oder eines speziellen
Schutzrechts.
-
Selbstverständlich kann
zur Erzeugung der Wiedergabe jedes andere geeignete Merkmal herangezogen
werden. Wie veranschaulicht werden die Achsen und Labels wiederum
in tabellarischer Form wiedergegeben, wobei jedoch die spezifischen
interessierenden Merkmale in individuellen Überschneidungsblocks aufgerufen
werden, wie mit den Bezugszeichen 320, 322 und 324 angezeigt.
Beispielsweise kann im Falle von Betriebsvergleichen jede der Spalten 320, 322 und 324 der
Anzahl von Merkmalen in jedem Überschneidungsblock
entsprechen, der zu jedem der Betriebe gehört. Deshalb ist die Analyse für den Betrachter
durchschaubar und kennzeichnet die Stärken und Schwächen jedes
Betriebseigners auf relativer Basis. Beispielsweise erscheint der
Betrieb 322 in dem Überschneidungsraum
IC/IIB relativ dominant jedoch schwach bei Betrieb 320 an
der Überscheidungsstelle
IB/IIB.
-
Ein
weiteres illustratives Beispiel einer räumlichen Wiedergabe ist in 19 veranschaulicht. 19 kann
als unterschiedlicher Typ von datensatz- oder datenelementzentrischer
Ansicht angesehen werden. Wiederum sind die Achsen 298 und 300 wiedergegeben.
Außerdem
ist eine Anzahl von Datenelementen oder Datensätzen 320, 322 und 324 in tabellarischer
Form angegeben. Hier sind jedoch für die Achsen 298, 300 und
jede zusätzliche
Achse 330 individuelle Label mit allen entsprechenden Korrespondenzen
angezeigt, für
die die Klassifikation auf Basis des Inhalts der Datenelemente veranschaulicht sind.
Somit kann der Nutzer leicht unterscheiden wie und warum bestimmte
Datensätze
zurück
geliefert werden, wie bestimmte Datensätze strukturiert und klassifiziert
wurden sowie die Basis für
das eins→viele-Mapping
jedes Datenelements oder Datensatzes.
-
Ein
weiteres Beispiel einer räumlichen
Wiedergabe veranschaulicht 20. In
der Repräsentation
der 20 veranschaulicht die räumliche Wiedergabe 332 graphische
Räume in
gekacheltem Format entsprechend jeder Achse 334 der Domaindefinition
mit individuellen Labels 336, die jeder Achse zugeordnet
sind. Jedes Label ist in einem Block oder Bereich 338 wiedergegeben.
Im veranschaulichten Beispiel ist ein Zählwert oder kumulierter Wert 340 für die Anzahl
von Datenblöcken,
die den Attributen jedes Labels entsprechen, in dem entsprechenden Block
veranschaulicht. Ein generell durch das Bezugszeichen 342 bezeichneter
Hintergrund kann eingefärbt
oder gemäß einer
speziellen Graphik gestaltet sein, die für den Hintergrund genutzt wird,
um eine Ebene oder Anzahl von Datenelementen zu kennzeichnen, die
den Attributen der individuellen Labels entsprechen. Außerdem kann
in dem veranschaulichten Beispiel ein Einsatz 344 vorgesehen
sein, der eine spezielle Bedeutung haben kann, wie beispielsweise
Datenblöcke,
die einem spezifischen Merkmal entsprechen, wie beispielsweise Betriebseigner
eines Schutzrechts. Hier kann wiederum jede andere geeignete Bedeutung
zu jedem der Hintergründe oder
zu dem Einsatz 344 zugeordnet werden. Außerdem können viele
solcher Einsätze
oder andere graphische Werkzeuge verwendet werden, um spezielle interessierende
Merkmale kenntlich zu machen.
-
In
dem illustrierten Beispiel ist für
die spezielle Farbe oder zur Hervorhebung des Verständnisses der
präsentierten
Daten genutzte Graphik eine Legende 346 bereitgestellt.
In dem illustrierten Beispiel können
beispielsweise unterschiedliche Farben für die Anzahl von Datenelementen
genutzt werden, die den Attributen spezifischer Labels entsprechen,
wobei die Farben in Einsätzen 348 der
Legende erläutert
werden. Es können
zusätzliche
Legenden bereitgestellt werden, bei spielsweise wie bei Bezugszeichen 350 angedeutet,
um die Bedeutung der Hintergründe
und der Einsätze
für jedes
Label zu erläutern. Somit
können
hochkomplexe und sophistische Datenpräsentationstools einschließlich verschiedener Typen
von Graphiken zur Analyse und für
Entscheidungsfindungsprozesse auf Basis der Klassifikation der strukturierten
Datenelemente genutzt werden. Wo zweckmäßig und wie oben angemerkt,
können zusätzliche
Merkmale, wie beispielsweise Datenelement- oder Datensatzlistings 352 genutzt
werden, um es dem Bediener zu gestatten, sich in die Datenelemente „hineinzubohren", die speziellen
Achsen, Labels, Attributen oder anderen interessierenden Eigenschaften
entsprechen.
-
21 veranschaulicht
die grundlegende räumliche
Wiedergabe gemäß 20 mit
zusätzlich zugeordneter
erläuternder
Graphik. In der Veranschaulichung nach 21 sind
beispielsweise graphische Repräsentationen
einer Anzahl spezieller Merkmale veranschaulicht, wie beispielsweise
Einsätze
oder Menüs,
Graphiken, verlinkte Displays usw., um die individuellen Datenelemente
durch Zählwerte
zu klassifizieren, wie beispielsweise Betriebseigner oder jedes
andere interessierende Merkmal. Beispielsweise kann der Bediener
in dem Einsatz 354 die Anzahl von Datenelementen in einem graphischen
Format 356 anzeigen, das den individuellen Labels der ersten
Achse I entspricht. Wie veranschaulicht, ist beispielsweise ein
interessierender Betrieb („Betrieb
1") mit einer Anzahl
von Datenelementen veranschaulicht, die den individuellen Labels IA
bis IF entsprechen, wobei Zählwerte
der individuellen Datenelemente oder Datensätze in einem graphischen Balkendiagramm
veranschaulicht werden, in dem die Nummer oder Anzahl von Datenblöcken für jedes
entlang einer Achse 358 veranschaulichte Label gekennzeichnet
ist. Diese Zähler
können
in diesem Beispiel durch die Balken 360 repräsentiert werden.
-
Ähnlich kann,
wie in 21 durch die graphische Wiedergabe 362 indiziert
ist, für
ein individuelles Label dann eine Anzahl von Datenelementen für verschiedene
Betriebe wiedergegeben werden (z.B. „B1", „B2", „B3"). Die Betriebsbezeichnungen
können entlang
der Achse 366 angezeigt werden, wobei dann die Zähler durch
Balken 368 wiedergegeben werden. Die graphische Wiedergabe 364 liefert
dann eine Veranschaulichung der Anzahl von Merkmalen, die jeder
Betrieb für
ein individuelles Label aufweist. Hier kann wiederum jedes andere
Merkmal für
eine solche Analyse und Wiedergabe genutzt werden.
-
22 veranschaulicht
ein Beispiel einer interaktiven räumlichen Wiedergabe einer Repräsentation
von analysierten und klassifizierten Datenelementen, wie es beispielsweise
durch eine interaktive Computerschnittstelle implementiert werden
kann. Die interaktive Repräsentation 370 enthält in dem veranschaulichten
Beispiel eine Top-Level-Ansicht einer Superdomain 374.
Wie oben angemerkt können
solche Bezeichnungen etwas willkürlich
sein und zeigen lediglich Klassifizierungsniveaus an, wie sie für die Datenelemente
definiert sind. Wie in 22 veranschaulicht, enthält die Superdomain
verschiedene individuelle Domains 376, wobei jede Domain eine
Serie von Achsen 378 beinhaltet. Wie oben in der Definition
der Superdomain und der Domains angemerkt, sind jeder Achse individuelle
Attribute oder Merkmale von Interesse zugeordnet, über die
die Strukturdatenelemente analysiert und klassifiziert werden. Aufgrund
der Wiedergabe zusammen mit der graphischen Wiedergabe der Superdomain
kann sich ein Nutzer in individuelle Domains oder Achsen „hineinbohren", wie durch die Ansicht 380 veranschaulicht
wird. Bei der veranschaulichten Implementierung wird durch Wahl
der Achse IA die Ansicht 380 erzeugt, in der die individuellen
Labels der ausgewählten
Achse mit einem vergrößerten Einsatz 384 veran schaulicht
werden. Dieser Einsatz veranschaulicht die Labels wie bei Bezugszeichen 386 angezeigt
und zusätzliche
Information, wie beispielsweise Zähler oder Gesamtzahlen von
Datenelementen, die den Labels entsprechen, können wiedergegeben werden (in 22 nicht
veranschaulicht). Hier werden wiederum allen Labels Attribute zugeordnet, wie
in 22 durch Bezugszeichen 388 angedeutet. Die
Attribute können,
müssen
aber nicht zusammen mit den Labels wiedergegeben werden, jedoch
kann auf die Attribute als Indikation dafür, auf welcher Basis die Selektion
und Klassifikation der Datenelemente durchgeführt worden ist, durch den Nutzer
zugegriffen werden. Bei der Implementierung nach 22 können wiederum
die individuellen Achsen der anderen Domains komprimiert werden,
wie mit Bezugszeichen 382 angedeutet. Wie mit Bezug auf
die anderen obigen räumlichen
Wiedergaben angemerkt, können andere
Graphiken, wie beispielsweise Datensatzlistings 390, bereitgestellt
werden, um es dem Nutzer zu ermöglichen,
Datenelemente, Teile von Datenelementen, Zusammenfassungen von Datenelementen usw.
einzusehen. Natürlich
können
andere Arte graphischer Wiedergaben bereitgestellt werden, wie beispielsweise
Diagrammansichten, Tabellenansichten oder hervorgehobene Ansichten,
wie oben zusammengefasst.
-
Wie
oben durchgängig
durch die vorstehende Diskussion angemerkt, können die vorliegenden Techniken
zum Durchsuchen, Klassifizieren und Analysieren jedes geeigneten
Typs von Datenelement genutzt werden. Allgemein werden gegenwärtig verschiedene
Typen von Datenelementen in Betracht gezogen, zu denen Textelemente,
Bildelemente, Audioelemente und Kombinationen derselben gehören. Dies
bedeutet, für
reine Textelemente, Wortselektions- und Klassifikationstechniken
und Techniken auf Basis von Worten und Text kann zusammen mit Textindikation
durch graphische Information, subjektive Information usw. angewandt
werden. Für
Bildelemente steht ein weiter Bereich von Bildanalysetechniken zur
Verfügung,
einschließlich
computerunterstützte
Analysetechniken, computerunterstützte Erkennungstechniken, Techniken
zur Segmentierung, Klassifizierung usw.
-
Bei
spezifischen Gebieten, wie beispielsweise der medizinischen diagnostischen
Bildgebung, können
diese Techniken außerdem
die Einschätzung von
Bilddaten zur Analysierung und Klassifizierung möglicher Krankheitszustände, zur
Diagnose von Krankheiten, zur Empfehlung von Behandlungen, zur Empfehlung
weiterer Verarbeitung oder Akquisition von Bilddaten, zur Empfehlung
der Akquisition anderer Bilddaten usw. enthalten. Die vorliegenden
Techniken können
an Bildern einschließlich
kombinierten Text- und Bilddaten angewandt werden, wie beispielsweise
Textinformation, die in angehängter
bibliographischer Information vorhanden ist. Der Fachmann erkennt,
dass in gewissen Umgebungen, wie beispielsweise bei der medizinischen
Bildgebung an die Bilddaten Header angehängt sind, wie beispielsweise
Standard-DICOM-Header, die wesentliche Information über die
Quelle und den Typ des Bilds, Daten, demographische Information
usw. enthalten. Jede und alle dieser Informationen können analysier und
somit gemäß der vorliegenden
Techniken zur Klassifikation und weiterer Analyse strukturiert werden.
Auf Basis solcher Analyse- und Klassifikation können die DAtenelemente in einer
Wissensdatenbank, wie beispielsweise einer integrierten Wissensdatenbank
oder IKB in einer strukturierten, semistrukturierten oder unstrukturierten
Form gespeichert werden. Wie der Fachmann erkennt, gestattet die
vorliegende Technik somit unzählige
vorteilhafte Anwendungen einschließlich der integrierten Analyse komplexer
Datensätze
für solche
Zwecke wie Finanzanalyse, Erkennung von Krankheiten, Erkennung von
Behandlungen, Erhebungen von demo graphischem Interesse, Erkennung
von Zielmärkten,
Risikoerkennung oder jede andere Korrelation, die zwischen Datenelementen
existieren, die aber so komplex oder wenig ersichtlich sind, dass
es schwierig ist, sie anderweitig ausfindig zu machen.
-
Die 23, 24 und 25 veranschaulichen
eine Anwendung der vorgenannten Techniken auf Bilddaten und insbesondere
auf Bilddaten, die mit Textdaten verbunden sind. Wie in 23 veranschaulicht,
folgt das Bild/Text-Elementverarbeitungssystem 392 allgemein
den oben gegebenen technischen Erläuterungen, wobei mit Bild-
und Textdateien begonnen wird, wie bei Bezugszeichen 394 angedeutet.
Wiederum können
hier die den Dateien entsprechenden Datenelemente in einer einzelnen
Datei oder in vielen Dateien eingeschlossen sein oder es können Links
zwischen Dateien vorhanden sein, wie beispielsweise bei Anmerkungen,
die auf Bilddaten beruhen usw. Allgemein enthält jedes Datenelement dann
ein Textsegment 396 und ein Bildsegment 398. Das
Textsegment 396 kann strukturierte, unstrukturierte oder
subjektive Daten in Form von ein oder mehreren Textstrings 400 enthalten.
Das Bildsegment 398 kann bibliographische Daten 402,
wie beispielsweise Textdaten in einem Bildheader und Bildinhaltsdaten 404 enthalten.
Bildinhaltsdaten liegen typischerweise in Form von Bildpixeldaten,
Voxeldaten, Overlaydaten usw. vor. Im Allgemeinen können die
Bilddaten 404 generell ausreichend sein, um die Rekonstruktion
von sichtbaren Bildern 406 oder Bildserien zur Wiedergabe
gemäß einer
gewünschten Rekonstruktionstechnik
zu ermöglichen.
Dem Fachmann leuchtet ein, dass die spezielle Rekonstruktionstechnik
allgemein gemäß der Natur
der Bilddaten den Typ des Bildgebungssystems, von dem die Daten
akquiriert worden sind, usw. ausgewählt werden kann.
-
Die
Datenelemente werden einem Verarbeitungssystem 14 des oben
beschriebenen Typs zur Verfügung
gestellt. Allgemein kann die gesamte oben beschriebene Verarbeitung
insbesondere die im Hinblick auf die 10 und 12 beschriebene,
an den komplexen Datenelementen durchgeführt werden. Gemäß dieser
Verarbeitungstechniken können spezielle
interessierende Merkmale sowohl in dem Text, in den Bildern und
zwischen dem Text und den Bildern segmentiert, identifiziert, gefiltert,
verarbeitet, klassifiziert usw. werden und zwar in Übereinstimmung
mit der Domaindefinition und den Regeln oder Algorithmen, die durch
die Domaindefinition festgelegt sind, wie mit Bezugszeichen 38 angedeutet.
Auf Basis der an den komplexen Datenelementen durchgeführten Verarbeitung
werden dann die sich ergebenden strukturierten Daten in irgendeinem
geeigneten Speicher 40 gespeichert und es kann eine integrierte
Wissensdatenbank oder IKB erzeugt werden, wie mit Bezugszeichen 34 angedeutet
ist. Wie außerdem
oben angemerkt, können
auf Basis des für
jedes Datenelement durchgeführten
eins→viele-Mappings ähnliche
Suchen für
individuelle interessierende Merkmale entweder in dem Text, in den
Bildern oder beidem durchgeführt
werden. Während 23 in den
komplexen Datenelementen Text- und Bilddateien veranschaulicht,
sollte außerdem
angemerkt werden, dass die Datenelemente Text- und Audiodaten, Audiodaten
und Bilddaten, Text- und Audio- und Bilddaten oder sogar zusätzliche
Datentypen wie beispielsweise Wellenformdaten oder Daten ähnlichen anderen
Typs enthalten können.
-
Die
spezielle Bild/Text-Elementverarbeitung 408, die an komplexen
Datenelementen durchgeführt wird,
ist in 24 allgemein veranschaulicht.
Wie oben angemerkt, werden Textdaten 410 (veranschaulicht
in 24 in hervorgehobener Ansicht) und Bilddaten 412 gemäß individueller
Textregeln und Algorithmen 414 und individueller Bildregeln
und Algorithmen 416 analysiert und klassifiziert. Es sollte jedoch
angemerkt werden, dass gewisse Regeln und Algorithmen zur Klassifikation
und zum Mapping Kriterien enthalten können, die auf Text- und Bilddaten basieren.
Beispielsweise kann der Nutzer ein spezielles Interesse an speziellen
anatomischen interessierenden Merkmalen haben, die in Bilddaten
nur für eine
spezielle Gruppe von Subjekten sichtbar sind, die nur aus der Textanalyse
heraus unterscheidbar sind. Solche kombinierte Analyse liefert ein
mächtiges
Werkzeug zur verbesserten Klassifikation und Mapping. Dann wird
auf Basis der Domaindefinition 12 das Mapping durchgeführt, wie
in 24 in Block 210 indiziert, um Ergebnisse
zu liefern, die dann in einer IKB 34 gespeichert werden
können.
-
Zusätzlich zur
Analyse und Klassifikation komplexer Datenelemente können alle
hier beschriebenen Techniken für
komplexe Datenelemente genutzt werden, zu denen Text, Bild, Audio-
und andere Art von Daten gehören,
wie in 25 allgemein kenntlich gemacht. 25 veranschaulicht
eine exemplarische Formularansicht zur Kombination von Text- und
Bilddaten ähnlich
zu den oben beschriebenen Textdaten allein. In den Zusammenfassungen, die
in den Ansichten 420, wie in 25 dargestellt, gegeben
werden, kann bibliographische Information zusammen mit subjektiver
Information und Klassifizierungsinformation wiedergegeben werden,
was allgemein mit dem Bezugszeichen 422 gekennzeichnet ist.
Hier kann jedoch zusätzliche
Information über
die Analyse von Bilddaten zusammen mit Bildrepräsentationen bereitgestellt
werden, wie mit Bezugszeichen 424 angedeutet ist. Wo zweckmäßig, können Links
zu tatsächlichen
Bildern, kommentierten Bildern oder zusätzlichen subjektiven oder bibliographischen
Daten bereitgestellt werden.
-
Wie
oben angemerkt, können
die vorliegenden Techniken auf jedes geeignete Datenelement angewendet
werden, das sich zur Analyse und Klassifizierung eignet. In einer
exemplarischen Verwirklichung der Technik wird es auf die Suche
nach, die Analyse, die Strukturierung und die Klassifizierung von
Patentdokumenten und Anmeldungen angewandt. Solche Dokumente enthalten
insbesondere wenn auf sie über
kommerziell verfügbare
Sammlungen zugegriffen wird, Strukturen, wie beispielsweise Unterteilungen
der Dokumente in Header (z.B. Titel, Zusammenfassung, Deckblatt,
Ansprüche
usw.). Zur Identifikation und Klassifikation der interessierenden Dokumente
wird zunächst
die relevante Datendomain definiert. Achsen können sich auf den Patentgegenstand
oder technische Gebiete, wie beispielsweise Bildgebungsmodalitäten, klinische
Verwendungen gewisser Typen von Bildern, Bildrekonstruktionstechniken
usw. beziehen. Labels solcher Achsen unterteilen die Achsen dann,
um eine Matrix technischer Konzepte zu bilden. Worte, Begriffe des
Fachgebiets, Wortverbindungen und ähnliches werden dann jedem
Label als Attribute des Labels zugeordnet. Regeln und Algorithmen
zur Erkennung ähnlicher
Begriffe werden aufgebaut oder selektiert einschließlich Nachbarschaftskriterien,
Regeln über
ganze Worte oder Teile von diesen usw. Es können alle geeigneten Textanalyseregeln
genutzt werden.
-
Auf
Basis der Domaindefinition und der Regeln wird auf Patente und Patentanmeldungsdateien über verfügbare Datenbanken
zugegriffen. Die Struktur in den Dokumenten kann beispielsweise
zur Identifikation von Abtretungsempfängern, Erfindern usw. genutzt
werden, wenn eine solche Struktur in der Domaindefinition implementiert
ist. Die in den Dokumenten präsente
Struktur, die von der Domaindefinition nicht verwendet wird, kann
dennoch genutzt werden, beispielsweise um Fel der für bibliographische Daten
auszufüllen
oder sie kann ignoriert werden, wenn sie für die Domaindefinition als
irrelevant erscheint. In den Dokumenten enthaltene, nicht strukturierte
Information kann andererseits strukturiert werden, wie beispielsweise
durch Identifikation von Begriffen in Abschnitten des Dokuments,
die in allgemein nicht strukturierten Bereichen aufgefunden werden
(z.B. Textabschnitte, Zusammenfassungtext usw.). Um eine spätere Suche
und Klassifikation zu erleichtern, können die Dokumente ebenfalls
indexiert werden.
-
Die
Dokumente werden dann auf die Domaindefinition gemapt, um eine eins→viele-Klassifikation
aufzubauen. Diese Klassifikation kann jedes spezielle Dokument in
eine Anzahl von verschiedenen Achsen/Label-Assoziationen einordnen.
Viele verschiedene Typen von Analysen können dann an den Dokumenten
durchgeführt
werden, wie beispielsweise Suche nach Dokumenten, die sich auf eine
spezielle Kombination von Themen beziehen, Dokumente, die speziellen
Titelhaltern zugeordnet sind und Kombinationen davon. Die Matrix
von Achsen und Labeln mit den zugeordneten Begriffen und Attributen
gestattet eine riesige Anzahl von Subsets von Dokumenten durch Wahl
geeigneter Kombinationen von Achsen und/oder Labeln in speziellen
Suchen zu definieren.
-
Bei
einer anderen exemplarischen Implementierung können diagnostische medizinische
Bilddateien klassifiziert werden. Solche Dateien enthalten typischerweise
sowohl Bilddaten als auch bibliographische Daten. Subjektive Daten ärztlicher
Anmerkungen und ähnliches
können
ebenfalls vorhanden sein. Bei diesem Beispiel kann ein Bediener
eine Domain mit Achsen definieren, die entsprechenden Anatomien,
spezifischen Krankheitszuständen,
Behandlungen, demographischen Daten und jeder anderen interessierenden
relevanten Kategorie entsprechen. Wiederum unterteilen die Labels
die Achsen logisch und es werden jedem Label Attribute zugeordnet.
Für Textdaten
können
die Attribute Begriffe, Worte, Wortverbindungen usw. sein, wie im
vorstehenden Beispiel beschrieben. Jedoch können für Bilddaten ein Spektrum komplexer
und mächtiger
Attribute definiert werden, wie beispielsweise Attribute die nur
durch algorithmische Analyse der Bilddaten identifizierbar sind.
Manche dieser Attribute können durch
computerunterstütze
Diagnose (CAD) und ähnliche
Programme analysiert werden. Wie oben angemerkt können diese
in die Domaindefinitionen eingebettet oder aufgerufen werden, wenn
sie gebraucht werden, wenn die Bilddaten zu analysieren und zu klassifizieren
sind.
-
Es
sollte angemerkt werden, dass bei dieser Art der Implementierung
Text-, Bild-, Audio-, Wellenform-, und andere Arten von Daten unabhängig analysiert
werden können
oder komplexe Kombinationen von Klassifikationen definiert werden
können.
Pro Einzeiten durch das eins→viele-Mapping
klassifiziert werden, können
dann reiche Analysen durchgeführt werden,
wie beispielsweise zur Lokalisierung von Populationen, die spezielle
Charakteristika oder Krankheitszustände ausbilden, die aus den
Bilddaten zu unterscheiden sind und gewissen Ähnlichkeiten oder Gegensätze auf
andere Weise haben, die lediglich aus dem Text- oder anderen Daten
oder Kombinationen solcher Daten hervorgehen.
-
Bei
beiden dieser Beispiele und bei jeder Implementierung können die
oben beschriebenen Analysetechniken benutzt werden und an den speziellen Typ
des Datenelements angepasst werden. Beispielsweise kann ein Textdokument
wie beispielsweise ein Patent, in hervorgehobener Ansicht veranschaulicht
werden, in dem bestimmte zutreffende Worte oder Wortverbin dungen
hervorgehoben werden. Ebenso können
Bilder hervorgehoben werden, indem Farbveränderungen bestimmter Merkmale oder
interessierender Bereiche vorgenommen werden oder durch Nutzung
graphischer Werkzeuge wie Zeiger, Kästchen usw.
-
Während hier
lediglich gewisse Ausprägungen
der Erfindung veranschaulicht und beschrieben worden sind, sind
dem Fachmann viele Modifikationen und Abwandlungen ersichtlich.
Es versteht sich deshalb, dass die nachfolgenden Ansprüche alle
solche Modifikationen und Abwandlungen erfassen sollen, die den
Geist der Erfindung enthalten.
-
Zusammenfassung:
-
Es
ist eine Technik zur Durchführung
einer domainspezifischen Analyse, Strukturierung, zum Mapping und
zur Klassifikation von Datenelementen, wie beispielsweise Textdokumenten,
Bildern, Audiodaten, Waveformdaten usw. beschrieben worden. Es wird
eine Domaindefinition gegeben, die eine Anzahl von Klassifikationsachsen
und Labels für
jede Achse umfasst. Es wird auf diejenigen Datenelemente zugegriffen,
die potentiell interessante Attribute haben und entsprechend den
Achsen und Labels klassifizierbar sind. Auf Basis ihrer Attribute
werden zutreffende Elemente dann identifiziert und die Elemente werden
klassifiziert. Die Klassifikation und die Elemente selbst oder Teile
derselben können
in einer Wissensdatenbank zur weiteren Klassifizierung, Suche und
Referenz gespeichert werden. Es sind komplexe Kombinationen von
Klassifikationen einschließlich
Kombinationen durch Referenz auf Daten unterschiedlicher Typen mittels
der Domaindefinition und Regeln oder Algorithmen möglich, die
durch die Definition für
ein eins→viele-Mapping
der Datenelemente auf Achsen und Labels genutzt werden.