DE69231013T2

DE69231013T2 - Verfahren und Anordnung zum Registrieren von Textdokumenten und zur Dokumentwiederauffindung

Info

Publication number: DE69231013T2
Application number: DE69231013T
Authority: DE
Inventors: Satoshi Asakawa; Hiromichi Fujisawa; Atsushi Hatakeyama; Kanji Kato; Hisamitsu Kawaguchi; Naoki Minegishi; Katsumi Tada
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1991-02-28
Filing date: 1992-02-25
Publication date: 2001-02-22
Anticipated expiration: 2012-02-26
Also published as: DE69231013D1; EP0501416A3; EP0501416A2; EP0501416B1

Description

HINTERGRUND DER ERFINDUNG

Die vorliegende Erfindung betrifft allgemein ein Dokumentendaten-Verarbeitungssystem und insbesondere ein Volldokumenten-Wiedergewinnungssystem, das auch als ein Volltext- Suchsystem zum Suchen und Wiedergewinnen eines Volltexts eines Dokuments aus einer Dokumenten-Datenbank auf der Grundlage einer bezeichneten Zeichenkette bekannt ist. Insbesondere betrifft die vorliegende Erfindung ein Verfahren und System zum Wiedergewinnen von Dokumenten, wodurch eine Volltextwiedergewinnungs-Verarbeitung unter Verwendung einer Hilfsdatei für die Suchverarbeitung erheblich beschleunigt werden kann.
Bei den bisher bekannten Dokumenten-Registrierungs/Wiedergewinnungs-Systemen wird allgemein ein solches Schema verwendet, bei dem ein Wort oder ein Term (als ein Schlüsselwort bezeichnet), der den Inhalt eines zu registrierenden Dokuments darstellt, als ein Index verwendet wird. Gemäß diesem Verfahren ist es jedoch erforderlich, zu veranlassen, daß ein "Indexaufsteller" genannter Experte jedes zu registrierende Dokument sorgfältig liest und den Dokumenten auf der Grundlage seines Verständnisses ihres Inhalts passende Schlüsselwörter zuweist. Bei einem Versuch, diese beschwerliche und zeitaufwendige Arbeit für die Dokumentenregistrierung zu vermeiden, ist ein Verfahren vorgeschlagen worden, nach dem alle in den Texten eines Dokuments erscheinenden Wörter oder Terme als die Schlüsselwörter in einer Indexdatei registriert werden, wie beispielsweise in JP-A-63- 198124 offenbart ist.
Das erwähnte Verfahren weist jedoch immer noch den Nachteil auf, daß Schwierigkeiten beim Bestimmen eines semantisch bedeutungsvollen Worts oder Terms einer minimalen Einheit beim Vorbereiten oder Erzeugen der Indexdatei auftreten. Überdies ist die Analyse von Sätzen infolge eines möglichen Mangels in einem Wort-Wörterbuch und/oder grammatischer Regeln oft nicht erfolgreich, wodurch das Problem auftritt, daß selbst ein wichtiges Wort nicht als das Schlüsselwort gewonnen werden kann.
Als eine Vorgehensweise zum Lösen des oben angegebenen Problems ist bereits ein Volldokumenten-Wiedergewinnungssystem vorgeschlagen worden, das auch als Volltext-Suchsystem bezeichnet wird und bei dem Dokumente beim Dokumentenregistrieren direkt mittels eines Computers als aus codierten Zeichen bestehende Texte in eine Datenbank geladen werden, während der Inhalt aller in der Datenbank gespeicherter Dokumente beim Wiedergewinnen eines Dokuments gelesen wird, um dadurch das ein gegebenes oder festgelegtes Schlüsselwort (nachfolgend als "Suchterm" bezeichnet, um es von dem in Zusammenhang mit dem herkömmlichen System verwendeten autorisierten oder gesteuerten Schlüsselwort zu unterscheiden) enthaltende Dokument wiederzugewinnen, wie beispielsweise in einem in "Study Reports of the Information Processing Society of Japan: Informatics Fundamentals 14-7", Band 89, Nr. 66 (27. Juli 1989) enthaltenen Artikel mit dem Titel "Text Database Manage System SIGMA and Applications" offenbart ist. Dieses Volltext-Suchsystem bietet unter anderem ein auf der Zeichen-für-Zeichen-Grundlage beruhendes Durchsuchen einer gesamten Textdatei vom Anfang an, wie im Oberbegriff des zweiten Abschnitts des oben erwähnten Artikels beschrieben ist. Durch dieses Merkmal kann ein Dokument unter Verwendung des Textkörpers als ein Schlüssel selbst dann gesucht oder aus der Datenbank wiedergewonnen werden, wenn keine Indexdatei verfügbar ist, die den Schlüsselwörtern entsprechende Dokumentidentifizierer enthält. Mit anderen Worten kann nur das Dokument, in dem der Suchterm beschrieben oder enthalten ist, durch Ausführen einer auf der Zeichenkette beruhenden Suche für alle Textdaten mit Hilfe eines gegebenen Suchterms als das Ergebnis der Wiedergewinnung ausgegeben werden.
Dieses Volldokumenten- oder Text-Wiedergewinnungssystem nimmt jedoch viel Zeit für die Suchverarbeitung in Anspruch, weil die gesamte Textdatei von Anfang an auf der Zeichen-für- Zeichen-Grundlage durchsucht werden muß, wodurch das Problem auftritt, daß die Volltextsuche nicht praktisch auf eine Großdatenbank angewendet werden kann. Es ist im oben erwähnten Artikel im zweiten Abschnitt auch ausgesagt, daß das betrachtete Volltext-Suchsystem selbst dann, wenn ein Universal-Großrechner verwendet wird, nur die Suchverarbeitungsgeschwindigkeit (Suchverarbeitungsrate) von 2 MB/s verwirklichen kann. Die Verarbeitungsgeschwindigkeit dieser Ordnung kann natürlich eine praktisch zulässige Suchzeit gewähren, solange die Kapazität einer Datenbank um einige Megabytes beträgt. In Wirklichkeit verlangt eine in der Praxis für Geschäftszwecke oder dergleichen verwendete Datenbank jedoch gewöhnlich eine Kapazität von einigen Hundert Megabytes. In diesem Fall ist das oben erwähnte Volltext-Suchsystem nicht in der Lage, eine zufriedenstellende Antwortzeit für die Dokumentensuche sicherzustellen.
In dem Bemühen, die oben erwähnten Schwierigkeiten anzugehen, haben die Erfinder der vorliegenden Anmeldung bereits ein Informations-Wiedergewinnungssystem vorgeschlagen, bei dem das Lesen von Textdaten sowie die unter Verwendung eines Suchterms ausgeführte Suchverarbeitung durch Bereitstellen von eigens dafür vorgesehener Hardware beschleunigt werden, während vor einer Textkörpersuche sozusagen eine Vorsuche an einer Hilfsdatei vorgenommen wird, in der die Textdaten vorher im komprimierten Zustand gespeichert wurden, um dadurch die der Textkörpersuche zu unterziehenden Dokumente auszusieben oder zu verschieben, damit die Volltextsuche mit einer entsprechend erhöhten Geschwindigkeit verwirklicht werden kann. In diesem Zusammenhang kann auf WO/90/16036, das EP-A-0 437 615 entspricht, bezug genommen werden. Insbesondere bietet dieses Informations-Wiedergewinnungssystem die Vorsuchvorgänge, die als eine Komponenten-Zeichentabellen-Suche bzw. eine verdichtete Textsuche bezeichnet werden, wobei die der Textkörpersuche zu unterziehenden Dokumente sozusagen hierarchisch ausgesiebt werden (d. h. die Anzahl der Dokumente verringert wird), indem die Komponenten-Zeichentabellen-Suche und die verdichtete Textsuche schrittweise ausgeführt werden. Anders gesagt kann die Anzahl der Dokumente, die der Textkörpersuche, die den größeren Teil der gesamten Suchzeit einnimmt, zu unterziehen sind, durch die Dokumenten-Aussiebungs- oder Einschränkungsverarbeitung verringert werden, was wiederum bedeutet, daß die von der gesamten Such- oder Wiedergewinnungsverarbeitung in Anspruch genommene Zeit entsprechend verkürzt werden kann, wodurch die Volltextsuche mit einer entsprechend erhöhten Geschwindigkeit verwirklicht werden kann.
Gemäß der oben erwähnten hierarchischen Vorsuche, die das von den Erfindern vorgeschlagene System auszeichnet, wird die Anzahl der Dokumente zuerst durch die auf der Zeichenart beruhende unter Hinzuziehen der Komponenten-Zeichentabelle ausgeführte Suche verringert, woraufhin die zweite Verringerung der Dokumentenanzahl durch die Wort- oder Term-basierte Suche erfolgt, die an den selbst nach der auf der Zeichenart beruhenden Suche verbleibenden Dokumenten unter Verwendung der verdichteten Texttabelle ausgeführt wird. In Zusammenhang mit der Kapazität der Datenbank sei bemerkt, daß das Speichern eines verdichteten Texts etwa 30% der Kapazität für das Speichern eines Texts erfordert, während die Komponenten- Zeichentabelle 256 Bytes je Dokument erfordert.
Beim oben erwähnten Informations-Wiedergewinnungssystem werden jedoch die Sätze oder Wörter nicht berücksichtigt, in denen die in der Komponenten-Zeichentabelle enthaltenen Zeichen verwendet werden, weil die Dokumentenaussiebung oder -verringerung ausschließlich in Abhängigkeit davon verwirklicht wird, ob ein einen Teil des Suchterms bildendes Zeichen in der Komponenten-Zeichentabelle auftritt. Daher kann die Komponenten-Zeichentabellen-Suche für einen Eingabe-Suchterm, der aus den im Text mit einer hohen Häufigkeit auftretenden Zeichen besteht, kein ausreichend hohes Aussiebungsverhältnis zum Verringern der Dokumente gewähren, wodurch ein Problem hervorgerufen wird. In diesem Fall wird die Anzahl der der Textkörpersuche zu unterziehenden Dokumente nicht in dem Maße verringert, daß eine ausreichend hohe Wiedergewinnungsantwort sichergestellt werden kann.
Als eine andere Vorgehensweise zum Beschleunigen der Volltextsuche kann ein Verfahren erwähnt werden, das in einem in "Study Reports of the Information Processing Society of Japan: Database System 83-1", Band 91, Nr. 46 (24. Mai 1991) enthaltenen Artikel mit dem Titel "Method of Speeding-Up Katakana Character Search in Full Document Retrieval By Using Character String Matching" offenbart ist. Gemäß diesem bekannten Verfahren werden Anordnungsinformationen über alle in einem Dokument auftretenden Zeichen als die Indizes auf einer Zeichen-für-Zeichen-Grundlage gespeichert, wobei ein Dokument, in dem alle einen festgelegten oder eingegebenen Suchterm bildende Zeichen aufeinanderfolgend auftreten, mit Bezug auf die Indizes gesucht wird. Dieses Verfahren erfordert jedoch unter der Annahme, daß beispielsweise bei einem zehntausend Zeichen enthaltenden Dokument die Anordnungsinformationen von vier Bytes für jedes Zeichen gespeichert werden, etwa 40 kB für die Indizes. Demgemäß erfordert ein Versuch einer Strukturierung einer etwa Hunderttausend dieser Dokumente enthaltenden Datenbank eine Speicherkapazität von 4 GB für die Indizes zusätzlich zu 2 GB für das Speichern der Dokumente selbst. Demgemäß kann angesichts der für das Indexspeichern erforderlichen enormen Kapazität keineswegs behauptet werden, daß ein solcher Versuch praktisch ist.

ZUSAMMENFASSUNG DER ERFINDUNG

Angesichts des oben beschriebenen Stands der Technik besteht eine Aufgabe der vorliegenden Erfindung darin, ein Dokumentendaten-Verarbeitungsverfahren und -system zum schnellen Volldokumenten-Wiedergewinnen bereitzustellen, das es erlaubt, daß das Wiedergewinnungs- oder Suchergebnis selbst bei der Durchsuchung einer Großdatenbank bei einer praktischen Anwendung innerhalb einer praktisch annehmbaren Suchzeit ausgegeben wird. Diese Aufgabe wird durch das Verfahren nach Anspruch 1 und das System nach Anspruch 22 gelöst. Die Unteransprüche beziehen sich auf bevorzugte Ausführungsformen der Erfindung. Die Erfindung stellt ein Dokumenten-Wiedergewinnungsverfahren vom hierarchischen Vorsuchtyp, das die Erzeugung einer verketteten Komponenten-Zeichentabelle und Sucheinrichtungen mit einem für einen gegebenen Suchterm ausreichenden Dokumenten-Aussiebungsvermögen beinhaltet, sowie ein Volldokumenten-Wiedergewinnungssystem zum Ausführen des Verfahrens bereit.
Verschiedene Erscheinungsformen, die beim Verstehen der Erfindung und zum Erhalten praktischer Verwirklichungen der Erfindung nützlich sind, werden nun erörtert.
Gemäß einer ersten Erscheinungsform werden ein Dokumentendaten-Verarbeitungsverfahren zum Volldokumenten-Wiedergewinnen, das die unten erwähnten Verarbeitungsschritte aufweist, und ein System zum Ausführen des Verfahrens bereitgestellt.
(1) Ein Schritt des Speicherns oder Ladens von Texten selbst.
(2) Ein Schritt des Zerlegens gespeicherter Texte in mehrere Teil-Zeichenketten auf der Wortebene, wobei eine Einschlußbeziehung geprüft wird, die möglicherweise zwischen den Teil-Zeichenketten besteht, die sich aus der Zerlegung und Erzeugung verdichteter Texte ergeben, von denen jeder aus einem Satz von Teil-Zeichenketten besteht, in denen jede von einer anderen Zeichenkette eingeschlossene oder abgedeckte Zeichenkette beseitigt ist.
(3) Ein Schritt des Erzeugens einer Komponenten-Zeichentabelle, in der im Text verwendete Zeichen ohne Wiederholung gesammelt sind.
(4) Ein Schritt des Einteilens oder Aufteilens eines gegebenen Suchterms auf der Zeichenebene und des Ausführens einer Komponenten-Zeichentabellen-Suche zum Gewinnen nur der Dokumente, die alle den Suchterm bildenden Zeichen enthalten.
(5) Ein Schritt des Gewinnens der den gegebenen Suchterm enthaltenden Dokumente unter Hinzuziehen der verdichteten Texte, die den durch die Komponenten-Zeichentabellen-Suche gewonnenen Dokumenten entsprechen.
(6) Ein Schritt des Ausführens einer Textkörpersuche zum unter Hinzuziehen der den durch die verdichtete Textsuche gewonnenen Dokumenten entsprechenden Textkörperdaten erfolgenden Gewinnen nur des Dokuments, das die gegebenen Suchterme enthält und zugleich die Abfragebedingung, wie die Anordnungsbeziehung zwischen den Suchtermen, erfüllt, wenn eine gegebene Suchabfragebedingung (d. h. eine Anweisung einer Bedingung für die Suche oder anders gesagt eine Suchbedingungsanweisung) Anordnungsbeziehungen zwischen mehreren gegebenen Suchtermen in einem Text festlegt.
Unter Verwendung eines solchen hierarchischen Vorsuchmechanismus, bei dem die Anzahl der der Wiedergewinnung unterzogenen Dokumente hierarchisch durch die Komponenten- Zeichentabellen-Suche und die verdichtete Textsuche verringert wird und diese Dokumente schließlich der oben beschriebenen Textkörpersuche unterzogen werden, werden jene Dokumente, die die gegebene Suchabfragebedingung nicht erfüllen können, durch die Komponenten-Zeichentabellen-Suche und die verdichtete Textsuche vor der Textkörpersuche verworfen, wodurch die Anzahl der Dokumente, die zum Wiedergewinnen des betroffenen Texts oder Dokuments der Textkörpersuche zu unterziehen sind, erheblich verringert werden kann (d. h., eine erhebliche Verringerung der Dokumente vor der Textkörpersuche verwirklicht werden kann). Demgemäß kann die gesamte Suchzeit infolge der Verringerung der für die Textkörpersuche, die einen großen Teil der gesamten Suchzeit einnimmt, erforderlichen Zeit verringert werden.
Es sei der Veranschaulichung halber angenommen, daß eine "suche ein Dokument mit einem Text, in dem " " und " " im selben Satz erscheinen" lautende Abfragebedingungsanweisung gegeben ist. In diesem Fall dauert gemäß den bisher bekannten für die Ausführung der Suche direkt an den Texten ausgelegten Suchverfahren die Suche aller 500 MB umfassenden Texte unter der Annahme, daß die Suchverarbeitungsrate 2 MB/s beträgt, 250 Sekunden oder etwa 4 Minuten. Wenn die hierarchische Vorsuche dagegen ausgeführt wird, kann die Anzahl der Texte durch die Komponenten-Zeichentabellen-Suche auf 10% aller in der Datenbank gespeicherten Texte reduziert werden, und sie kann durch die verdichtete Textsuche weiterhin auf 10% der Texte oder Dokumente, die in einem typischen Fall nach der Komponenten-Zeichentabellen-Suche verbleiben, verringert werden. Unter der Annahme, daß der Umfang der verdichteten Texte 30% der Texte beträgt, beträgt daher der Umfang der der Suche zu unterziehenden verdichteten Texte 15 MB, weil die Kapazität der Komponenten-Zeichentabelle so gering ist, daß sie verglichen mit der Kapazität der gesamten Datenbank vernachlässigt werden kann. Demzufolge beträgt der Umfang der der Textkörper-Suchverarbeitung zu unterziehenden Texte nicht mehr als 1% der Kapazität der Datenbank, also 5 MB. Demgemäß kann die Dokumenten-Wiedergewinnungsverarbeitung selbst bei der Suchrate von 2 MB/s innerhalb von 10 Sekunden abgeschlossen werden.
Auf diese Weise werden bei der hierarchischen Vorsuchverarbeitung gemäß der ersten Erscheinungsform die beiden Vorsuchen der "Komponenten-Zeichentabellen-Suche" und der "verdichtete Textsuche" schrittweise vorbereitend ausgeführt, um die Dokumente auf der "Zeichenebene" bzw. der "Term- oder Wortebene" auszusieben, um dadurch die der Textkörpersuche zu unterziehenden Dokumente auf ein mögliches Minimum zu beschränken (d. h. deren Anzahl zu verringern). Durch dieses Merkmal kann die Anzahl der der zeitaufwendigsten Textkörpersuche zu unterziehenden Dokumente verringert werden, wodurch die Volltextsuche mit einer entsprechend erhöhten Geschwindigkeit ausgeführt werden kann.
Wenn die Abfragebedingungsanweisung weiterhin einen einzigen Suchterm festlegt oder eine UND-, ODER- oder NICHT- Bedingung (eine Boolesche Bedingung) für mehrere Suchterme vorschreibt, kann das Ergebnis der verdichteten Textsuche als das endgültige Ergebnis der Dokumenten-Wiedergewinnung ausgegeben werden. Dies kann durch die Tatsache erklärt werden, daß das Wort oder der Term, der im Text auftritt, nicht nochmals gesucht werden muß, weil dieser Term ohnehin mit Sicherheit im Text auftritt. In diesem Fall kann die Textkörpersuche, die viel Zeit für die Suche auf der Wortebene in Anspruch nimmt, weitgehend erspart werden, wodurch die gesamte Suchzeit weiter verringert werden kann.
Es wird anhand des oben Angegebenen verständlich sein, daß eine schnelle Volldokumenten-Wiedergewinnung oder Volltextsuche gemäß dem Dokumenten-Wiedergewinnungsverfahren verwirklicht werden kann, das die zuvor erwähnten Verarbeitungsschritte aufweist, weil die Belastung für das direkte Suchen der Texte im voraus verringert werden kann.
Gemäß einer zweiten Erscheinungsform wird ein Dokumentendaten-Verarbeitungsverfahren bereitgestellt, das die unten erwähnten Verarbeitungsschritte sowie ein System zum Ausführen von diesen aufweist.
Insbesondere treten beim Registrieren von Dokumenten zum Verwirklichen einer Datenbank die folgenden Schritte auf:
(1) ein Schritt des Ladens von Textdaten,
(2) ein Schritt des Berechnens der Häufigkeiten, mit denen Zeichenketten aus jeweils einer vorbestimmten Anzahl n von Zeichen in den Textdaten auftreten, und des Neuanordnens der Zeichenketten in der Reihenfolge der jeweiligen Häufigkeiten,
(3) ein Schritt des Herstellens von Entsprechungen zwischen den Zeichenketten und einer Anzahl von Einträgen, die geringer als diejenige der Zeichenketten ist, und des Speicherns der Entsprechungen in Form einer Hash-Tabelle, und (4) ein Schritt des Speicherns der in den Textdaten verwendeten Zeichenketten an den den Zeichenketten entsprechenden Einträgen in Form von Komponenten-Zeichenlisten, die das Auftreten der jeweiligen Zeichenketten angeben, und beim Wiedergewinnen eines festgelegten Dokuments.
(5) ein Schritt des Einteilens oder Aufteilens eines festgelegten Schlüsselworts oder Suchterms in jeweils aus n Zeichen bestehende Teil-Zeichenketten,
(6) ein Schritt des Gewinnens der Einträge, die den aus der Aufteilung resultierenden Zeichenketten entsprechen, aus der oben erwähnten Komponenten-Zeichentabelle und
(7) ein Schritt des Suchens eines Dokuments, in dem alle das Schlüsselwort bildenden Zeichenketten auftreten, unter Hinzuziehen der aus der Komponenten-Zeichentabelle gewonnenen Einträge, um dadurch die Komponenten-Zeichentabellen-Suche zum Gewinnen nur des möglicherweise den festgelegten Suchterm enthaltenden Dokuments auszuführen.
Die zweite Erscheinungsform betrifft demgemäß eine Verbesserung der Struktur der Komponenten-Zeichentabelle.
Der Vorgang zum Einrichten oder Erzeugen der Komponenten-Zeichentabelle durch die oben erwähnte Verarbeitung wird weiter unten in Einzelheiten mit Bezug auf Fig. 34 der anliegenden Zeichnung beschrieben.
Beim ersten Schritt werden die Textdaten in Zeichenketten mit jeweils einer vorbestimmten Längen zerlegt.
Beim zweiten Schritt wird entschieden, welchem der Einträge in der Komponenten-Zeichentabelle eine sich aus der Zerlegung ergebende Zeichenkette entspricht.
Beim dritten Schritt werden die Informationen aufgezeichnet, die das Auftreten der dem beim zweiten Schritt festgelegten Eintrag entsprechenden Zeichenkette angeben.
Ein Vorgang zum Suchen der auf diese Weise eingerichteten Komponenten-Zeichentabelle wird unten mit Bezug auf Fig. 35 beschrieben.
Ein Suchterm wird wie bei der Erzeugung der Komponenten- Zeichentabelle bei einem ersten Schritt zur Wiedergewinnungs- oder Suchverarbeitung in Teil-Zeichenketten mit jeweils derselben Kettenlängen aufgeteilt.
Bei einem zweiten Schritt werden den Teil-Zeichenketten entsprechende Einträge der Komponenten-Zeichentabelle unter Verwendung der gleichen Hash-Tabelle, die bei der Erzeugung der Komponenten-Zeichentabelle verwendet wird, erhalten.
Bei einem dritten Schritt wird nur das Dokument, das Beschreibungen aller Existenzinformationen an den allen so erhaltenen Teil-Zeichenketten entsprechenden Einträgen der Komponenten-Zeichentabelle enthält, als das Ergebnis der Komponenten-Zeichentabellen-Suche ausgegeben.
Durch derartiges Einrichten der Komponenten-Zeichentabelle auf der Grundlage von in den Textdaten enthaltenen Zeichenketten mit jeweils einer vorbestimmten Länge (einer vorbestimmten Anzahl von Zeichen) können die Dokumente, deren Anzahl nicht durch die Suche unter Verwendung eines einzigen Zeichens, das häufig in auf Japanisch geschriebenen Dokumenten verwendet wird, verringert werden kann, unter Verwendung eines vorstehenden und/oder nachstehenden Zeichens als ein Schlüssel wirksam markiert und ausgefiltert werden. Es sei beispielsweise eine Zeichenkette " " betrachtet. In diesem Fall kann die Anzahl der Dokumente mit der Suche mit einem einzigen Zeichen nicht auf mehr als etwa 20% verringert werden. Die Suche mit der aus zwei Zeichen bestehenden Zeichenkette ermöglicht es dagegen, daß die Anzahl der Dokumente auf 3% verringert wird. Folglich wird die Anzahl der Dokumente, deren Textdaten durchsucht werden sollen, entsprechend verringert, wodurch die Volltext- oder Dokumentensuche innerhalb einer entsprechend verkürzten Zeit ausgeführt werden kann.
Bei der Einrichtung der beim zweiten Schritt der Komponenten-Zeichentabellen-Erzeugungsverarbeitung verwendeten Hash-Tabelle werden die einzelnen Zeichenketten so verteilt, daß sie auf der Grundlage von Häufigkeitsinformationen der in dem zu registrierenden Dokument enthaltenen Zeichen so oft wie möglich getroffen werden können. Zu diesem Zweck werden alle Zeichencodes vorher auf die Häufigkeiten geprüft, mit denen die entsprechenden Zeichen in den Dokumenten erscheinen, woraufhin demselben Eintrag der Komponenten-Zeichentabelle so viele Zeichen mit geringer Häufigkeit wie möglich zugeordnet werden, so daß ungeachtet der im Suchterm verwendeten Zeichen im Durchschnitt ein maximales Trefferverhältnis erzielt werden kann.
Wenn die Komponenten-Zeichentabelle auf der Grundlage mehrerer Zeichen erzeugt wird, muß die Komponenten-Zeichentabelle erzeugt werden, die Kombinationen aller Zeichen als Einträge enthält. In diesem Zusammenhang sei bemerkt, daß die Anzahl von Zeichen beim Verschiebungs-JIS-Code-System "6879" beträgt, was wiederum bedeutet, daß die Einträge für 47.320.641 (= 6879 · 6879) verschiedene Kombinationen von Zeichenketten zur Erzeugung der Komponenten-Zeichentabelle durch Kombinieren von beispielsweise zwei Zeichen vorbereitet werden müssen. Dies ist vom praktischen Standpunkt her offensichtlich nicht vorteilhaft, weil dann ein Speicher mit einer enormen Kapazität erforderlich wäre.
Um dieses Problem anzugehen, werden die Zeichen zuerst auf einer Zeichen-für-Zeichen-Grundlage einer Hash-Verarbeitung unterzogen, so daß sie einer kleineren Anzahl verschiedener Zeichen, wie beispielsweise 256 Zeichen, zugeordnet werden, wodurch 65536 Kombinationen (= 256 · 256) vorbereitet werden. Anschließend werden die 65536 Kombinationen wiederum einer Hash-Verarbeitung unterzogen, um dadurch die eine verringerte Anzahl von Teil-Zeichenketten enthaltende Komponenten-Zeichentabelle zu erzeugen. Diese Tabelle wird nachfolgend zur Unterscheidung von der gemäß der ersten Erscheinungsform verwendeten Komponenten-Zeichentabelle als die verkettete Komponenten-Zeichentabelle bezeichnet. Beispielsweise können die 65536 Kombinationen in 2048 Einträge zerlegt werden. Durch die Hash-Verarbeitungen bei den oben erwähnten zwei Schritten kann die verkettete Komponenten-Zeichentabelle mit einer praktisch annehmbaren Speicherkapazität verwirklicht werden.
Beim Ausführen der Suche unter Verwendung beispielsweise einer auf zwei Zeichen beruhenden verketteten Komponenten- Zeichentabelle wird ein gegebener Suchterm, beispielsweise " " folgendermaßen auf einer Zweizeichen-Grundlage aufgeteilt:
" ", " ", " ", " "
wie in Fig. 36 bei 0 dargestellt ist, oder alternativ
" ", " ", " ", " ", " ", " ", " "
wie in Fig. 36 bei 2 dargestellt ist, woraufhin ein alle diese Zeichenkombinationen enthaltendes Dokument aus der verketteten Komponenten-Zeichentabelle herausgesucht wird, die die Zeichenkombinationen als die oben beschriebenen Einträge enthält.
Um die Festlegung des aus einem einzigen Zeichen bestehenden Suchterms anzugehen, wird zusätzlich zur oben erwähnten verketteten Komponenten-Zeichentabelle weiterhin eine auf einer Grundlage des einzigen Zeichens erzeugte Komponenten- Zeichentabelle bereitgestellt. In diesem Fall kann das Ergebnis der Suche der auf einem einzigen Zeichen beruhenden Komponenten-Zeichentabelle dann, wenn keine Faltung durch die Hash-Verarbeitung ausgeführt wird, als das endgültige Wiedergewinnungsergebnis ausgegeben werden, weil dem relevanten Eintrag nicht mehr als ein Zeichen zugeordnet ist. Demgemäß kann die Dokumenten-Wiedergewinnungssuche nach Abschluß der Suche der auf einem einzigen Zeichen beruhenden Komponenten- Zeichentabelle für den aus einem Zeichen bestehenden gegebenen Suchterm abgeschlossen werden.
Durch Erzeugen der verketteten Komponenten-Zeichentabelle, in der eine aus n Zeichen bestehende Teil-Zeichenkette einen Eintrag bildet, kann die Erscheinungshäufigkeit der Zeichenkette im Vergleich zu derjenigen der aus einem Zeichen bestehenden Kette reduziert werden, wodurch eine ausreichende Verringerung der Dokumente selbst dann verwirklicht werden kann, wenn die den Suchterm bildenden Zeichen häufig verwendet werden. Anders ausgedrückt kann eine stabile Dokumenten-Aussiebungs- oder Filterungsfunktion ohne Beein trächtigung durch die Zeichen des Suchterms ausgeführt werden. Durch dieses Merkmal kann eine relativ große Anzahl von für den Suchterm irrelevanten Dokumenten durch die Suche der verketteten Komponenten-Zeichentabelle verworfen werden, wodurch die Anzahl der verdichteten Texte und somit der der anschließenden Textkörpersuche unterzogenen Texte erheblich verringert wird. Dies bedeutet, daß die Zeit, die für die Textkörpersuche, die einen größeren Teil der gesamten Suchzeit einnimmt, sowie für die verdichtete Textsuche in Anspruch genommen wird, verringert werden kann, wodurch die gesamte Suchzeit wesentlich verkürzt wird.
Es sei nun angenommen, daß eine Abfragebedingungsanweisung festgelegt ist, die "suche ein Dokument mit einem Text, in dem ' ' und ' ' gemeinsam im selben Satz auftreten" lautet und die ein Beispiel der Abfragebedingungsanweisung ist, die auch die Anordnungsbeziehung zwischen den zwei Suchtermen in einem Text festlegt. In diesem Fall dauert es unter der Annahme, daß die Suchverarbeitungsrate 2 MB/s ist, gemäß dem Verfahren aus dem Stand der Technik, das durch direktes Hinzuziehen der Texte ausgeführt wird, 250 Sekunden oder etwa 4 Minuten, die Suche an allen Texten von 500 MB vorzunehmen. Weiterhin sei angenommen, daß durch die unter Verwendung der auf einem Zeichen beruhenden Komponenten- Zeichentabelle ausgeführte hierarchische Vorsuche die Anzahl der Dokumente durch die Komponenten-Zeichentabellen-Suche auf 30% des gesamten Datenbankumfangs verringert oder eingeschränkt werden kann, während sie durch die verdichtete Textsuche nur auf 1% der gesamten Datenbank reduziert werden kann. Wenn der Umfang der verdichteten Texte in diesem Fall 30% desjenigen der Texte ist, beträgt der Umfang der der Suche unterzogenen verdichteten Texte 45 MB, während derjenige der Texte 5 MB, d. h. 1% der gesamten Datenbankkapazität, beträgt, wobei der Umfang der Komponenten-Zeichentabelle vernachlässigt wird, woraufhin die Suchverarbeitung mit der Suchgeschwindigkeit von 2 MB/s innerhalb von 25 Sekunden abgeschlossen werden kann. Wenn die Dokumentenanzahl dagegen durch die verkettete Komponenten-Zeichentabellen-Suche auf 10% der gesamten Datenbank, d. h. auf ein Drittel der durch das Verfahren aus dem Stand der Technik verringerten Dokumentenanzahl, verringert werden kann, beträgt der Umfang der der Suche zu unterziehenden verdichteten Texte 15 MB, wobei derjenige der Texte 5 MB beträgt, wodurch ermöglicht wird, daß die Wiedergewinnungsverarbeitung innerhalb von 10 Sekunden abgeschlossen wird, was bedeutet, daß die Such- oder Wiedergewinnungsgeschwindigkeit um etwa das 2,5fache gegenüber derjenigen gemäß dem Verfahren aus dem Stand der Technik erhöht werden kann.
Indem die Zwei-Ebenen-Vorsuchverarbeitung auf diese Weise hierarchisch mit Hilfe der verketteten Komponenten- Zeichentabelle bzw. der verdichteten Texte ausgeführt wird, können die Dokumente auf der Ebene der auf n Zeichen beruhenden Teil-Zeichenkette bzw. auf der Wortebene ausgesondert oder ausgesiebt werden, um dadurch die Anzahl der der Textkörpersuche als der zeitaufwendigsten Verarbeitung zu unterziehenden Dokumente zu verringern, wodurch die Volldokumenten-Wiedergewinnung mit einer sehr hohen Geschwindigkeit verwirklicht werden kann.
Wenn ein aus weniger als n Zeichen bestehender einziger Suchterm gegeben ist, kann das Ergebnis der verketteten Komponenten-Zeichentabellen-Suche weiterhin als das endgültige Ergebnis der Dokumenten-Wiedergewinnung ausgegeben werden. In diesem Fall kann das Wiedergewinnungsergebnis innerhalb einer äußerst kurzen Zeit erzielt werden.
Es wird nun anhand des oben Angegebenen verständlich sein, daß beim Volldokumenten-Wiedergewinnungsverfahren mit den oben erwähnten Schritten (1) bis (8) der Umfang der Texte, die direkt mittels der erfindungsmäßigen hierarchischen Vorsuche zu suchen sind, wesentlich verringert werden kann, wodurch die Volldokumenten-Wiedergewinnung sehr vorteilhaft mit einer äußerst hohen Geschwindigkeit ausgeführt werden kann.
Die Erfindung wird nun mit Bezug auf die in der Zeichnung dargestellten Beispiele erklärt, wobei die Beispiele 1 bis 14 diejenigen sind, die für das Verständnis der Erfindung nützlich sind, und die restlichen Beispiele Ausführungsformen der Erfindung sind.

KURZBESCHREIBUNG DER ZEICHNUNG

Fig. 1 ist ein schematisches Diagramm zur Darstellung einer allgemeinen Anordnung eines Volldokumenten-Wiedergewinnungssystems gemäß einem ersten Beispiel,
Fig. 2 ist ein schematisches Flußdiagramm zur Darstellung einer Registrierungsverarbeitung für eine hierarchische Vorsuche,
Fig. 3 ist ein schematisches Flußdiagramm zur Darstellung einer mit der hierarchischen Vorsuche verbundenen Suchverarbeitung,
Fig. 4 ist ein schematisches Flußdiagramm zur beispielhaft Darstellung eines Vorgangs zum Erzeugen eines verdichteten Texts,
Fig. 5 ist eine Ansicht, in der eine Art der Speicherung der verdichteten Texte beispielhaft dargestellt ist,
Fig. 6 ist eine Ansicht zur schematischen Darstellung einer Struktur einer Komponenten-Zeichentabelle,
Fig. 7 ist eine Ansicht zur schematischen Darstellung eines Komponenten-Zeichentabellen-Suchvorgangs,
Fig. 8 ist ein PAD-Diagramm zur Darstellung eines mit der hierarchischen Vorsuche verbundenen Verarbeitungsvorgangs,
Fig. 9 ist Diagramm zur Darstellung einer Komponenten- Zeichentabellen-Suchverarbeitung gemäß einem dritten Beispiel,
Fig. 10 ist ein PAD-Diagramm zur Darstellung einer Verarbeitung, die bei der Codeübersetzung einer beim Volldokumenten-Wiedergewinnungssystem gemäß dem dritten Beispiel verwendeten Komponenten-Zeichentabelle auftritt,
Fig. 11 ist ein Diagramm zur Darstellung einer Codeumwandlung der beim Volldokumenten-Wiedergewinnungssystem gemäß einem vierten Beispiel verwendeten Komponenten-Zeichentabelle,
Fig. 12 ist eine Ansicht zur schematischen Darstellung einer Struktur der gemäß dem vierten Beispiel verwendeten Komponenten-Zeichentabelle,
Fig. 13 ist eine Ansicht zur schematischen Darstellung einer Struktur der bei einem fünften Beispiel verwendeten Komponenten-Zeichentabelle,
Fig. 14 ist ein PAD-Diagramm zur Darstellung eines Verarbeitungsvorgangs der bei dem fünften Beispiel verwendeten hierarchischen Vorsuche,
Fig. 15 ist eine Ansicht zur schematischen Darstellung einer allgemeinen Struktur der gemäß einem sechsten Beispiel verwendeten Komponenten-Zeichentabelle,
Fig. 16 ist ein PAD-Diagramm zur Darstellung eines Verarbeitungsvorgangs der bei dem sechsten Beispiel verwendeten hierarchischen Vorsuche,
Fig. 17 ist eine Ansicht zur Darstellung eines allgemeinen Konzepts, das einem Komponenten-Zeichentabellen-Erzeugungsverfahren gemäß einem siebten Beispiel zugrunde liegt,
Fig. 18 ist eine Ansicht zur schematischen Darstellung einer Struktur einer Zeichencode/Eintrags-ID-Nummer-Entsprechungstabelle zur Veranschaulichung einer gemäß dem siebten Beispiel verwendeten Hash-Funktion,
Fig. 19 ist ein schematisches Flußdiagramm zur Darstellung eines Verfahrens zum Erzeugen eines verdichteten Texts gemäß einem achten Beispiel,
Fig. 20 ist ein schematisches Flußdiagramm zur Darstellung eines beim achten Beispiel verwendeten Hiragana-Zeichenketten-Verarbeitungsverfahrens für einen verdichteten Text,
Fig. 21 ist eine Ansicht, in der eine Struktur eines Grundwort-Wörterbuchs beispielsweise dargestellt ist, auf das bei einer beim achten Beispiel verwendeten Analyse der untergeordneten Wörter bezug genommen wird,
Fig. 22 ist eine Ansicht, in der Verbindungsregeln beispielsweise dargestellt sind, auf die bei der beim achten Beispiel verwendeten Analyse der untergeordneten Wörter bezug genommen wird,
Fig. 23 ist ein PAD-Diagramm zur Darstellung eines Verarbeitungsvorgangs einer beim achten Beispiel verwendeten hierarchischen Vorsuche,
Fig. 24 ist ein schematisches Flußdiagramm zur Darstellung eines Verfahrens zum Erzeugen eines verdichteten Texts gemäß einem neunten Beispiel,
Fig. 25 ist ein PAD-Diagramm zur Darstellung eines Verarbeitungsvorgangs einer hierarchischen Vorsuche gemäß dem neunten Beispiel,
Fig. 26 ist ein schematisches Flußdiagramm zur Darstellung eines Verfahrens zum Erzeugen eines verdichteten Texts gemäß einem zehnten Beispiel,
Fig. 27 ist ein PAD-Diagramm zur Darstellung eines Verarbeitungsvorgangs einer beim zehnten Beispiel verwendeten hierarchischen Vorsuche,
Fig. 28 ist ein schematisches Flußdiagramm zur Darstellung eines Verfahrens zum Erzeugen eines verdichteten Texts gemäß einem elften Beispiel,
Fig. 29 ist ein PAD-Diagramm zur Darstellung eines Verarbeitungsvorgangs einer beim elften Beispiel verwendeten hierarchischen Vorsuche,
Fig. 30 ist ein schematisches Funktionsblockdiagramm zur Darstellung einer allgemeinen Anordnung eines Volldokumenten- Wiedergewinnungssystems gemäß einem zwölften Beispiel,
Fig. 31 ist eine Fig. 30 ähnelnde Ansicht und zeigt restliche Teile des Systems gemäß dem zwölften Beispiel,
Fig. 32 ist ein PAD-Diagramm zur Darstellung eines Verarbeitungsvorgangs einer beim zwölften Beispiel verwendeten hierarchischen Vorsuche,
Fig. 33 ist eine Ansicht, in der eine Struktur einer Komponenten-Zeichentabelle beispielsweise dargestellt ist, in der Zeichen auf einer Zeichen-für-Zeichen-Grundlage gespeichert sind,
Fig. 34 ist ein PAD-Diagramm zur Darstellung eines Vorgangs zum Erzeugen einer Komponenten-Zeichentabelle,
Fig. 35 ist ein PAD-Diagramm zur Darstellung eines Vorgangs zum Ausführen einer Suche an einer Komponenten-Zeichentabelle,
Fig. 36 ist eine Ansicht, in der Arten des Vorbereitens verketteter Zeichenketten dargestellt sind,
Fig. 37 ist ein schematisches Funktionsblockdiagramm zur Darstellung einer allgemeinen Anordnung des Volldokumenten- Wiedergewinnungssystems gemäß einer fünfzehnten Ausführungsform der Erfindung,
Fig. 38 ist ein PAD-Diagramm zur Darstellung eines Vorgangs zum Registrieren von Dokumenten,
Fig. 39 ist ein PAD-Diagramm zur Darstellung eines Vorgangs zum Erzeugen einer verketteten Komponenten-Zeichentabelle des vom Zeichencode abhängigen Typs,
Fig. 40 ist eine Ansicht, in der eine Struktur der verketteten Komponenten-Zeichentabelle beispielhaft gezeigt ist,
Fig. 41 ist ein PAD-Diagramm zur Darstellung eines Steuervorgangs einer hierarchischen Suche,
Fig. 42 ist eine Ansicht, in der eine Struktur der verketteten Komponenten-Zeichentabelle des vom Zeichencode abhängigen Typs beispielhaft gezeigt ist,
Fig. 43 ist ein PAD-Diagramm zur Darstellung eines Vorgangs zum Suchen der verketteten Komponenten-Zeichentabelle des vom Zeichencode abhängigen Typs,
Fig. 44 ist eine Ansicht zur schematischen Darstellung einer Komponenten-Zeichentabellen-Suche,
Fig. 45 ist eine Ansicht zur schematischen Darstellung eines allgemeinen Konzepts, das der unter Verwendung sich wiederholender Zeichenketten ausgeführten Komponenten- Zeichentabellen-Suche gemäß einer sechzehnten Ausführungsform der Erfindung zugrunde liegt,
Fig. 46 ist eine Ansicht, in der nutzlose Einträge in der verketteten Komponenten-Zeichentabelle des vom Zeichencode abhängigen Typs gezeigt sind,
Fig. 47 ist eine Ansicht, in der eine Codeumwandlungsverarbeitung einer Komponenten-Zeichentabelle gemäß einer siebzehnten Ausführungsform der Erfindung dargestellt ist,
Fig. 48 ist eine Ansicht zur schematischen Darstellung einer Struktur einer verketteten Komponenten-Zeichentabelle des Zeichencode-Umwandlungstyps,
Fig. 49 ist ein PAD-Diagramm zur Darstellung eines Vorgangs zum Erzeugen der verketteten Komponenten-Zeichentabelle des Zeichencode-Umwandlungstyps,
Fig. 50 ist ein PAD-Diagramm zur Darstellung eines Vorgangs zum Suchen der verketteten Komponenten-Zeichentabelle des Zeichencode-Umwandlungstyps,
Fig. 51 ist ein PAD-Diagramm zur Darstellung eines Steuervorgangs für die hierarchische Vorsuche, der unter Verwendung einer verketteten Komponenten-Zeichentabelle vom Hash-Typ ausgeführt wird,
Fig. 52 ist ein PAD-Diagramm zur Darstellung eines Vorgangs zum Erzeugen einer verketteten Komponenten-Zeichentabelle vom Hash-Typ gemäß einer achtzehnten Ausführungsform der Erfindung,
Fig. 53 ist eine Ansicht zur schematischen Darstellung einer Struktur einer verketteten Komponenten-Zeichentabelle vom Hash-Typ,
Fig. 54 ist ein PAD-Diagramm zur Darstellung eines Vorgangs zum Suchen einer verketteten Komponenten-Zeichentabelle vom Hash-Typ,
Fig. 55 ist eine Ansicht zur schematischen Darstellung einer Struktur einer auf der Zeichenart beruhenden verketteten Komponenten-Zeichentabelle vom Hash-Typ, die bei einer neunzehnten Ausführungsform der Erfindung verwendet wird,
Fig. 56 ist ein PAD-Diagramm zur Darstellung eines Vorgangs zum Erzeugen der auf der Zeichenart beruhenden verketteten Komponenten-Zeichentabelle vom Hash-Typ,
Fig. 57 ist eine Ansicht, in der Zeichencodebereiche von Zeichen verschiedener Arten gezeigt sind,
Fig. 58 ist ein PAD-Diagramm zur Darstellung eines Vorgangs zum Suchen einer auf der Zeichenart beruhenden verketteten Komponenten-Zeichentabelle vom Hash-Typ,
Fig. 59 ist ein schematisches Funktionsblockdiagramm zur Darstellung einer allgemeinen Anordnung des Volldokumenten- Wiedergewinnungssystems gemäß einer zwanzigsten Ausführungsform der Erfindung,
Fig. 60 ist eine Ansicht, in der die Festlegung eines Standards oder Bezugs für die Hash-Verarbeitung dargestellt ist, die beim Einrichten einer verketteten Komponenten-Zeichentabelle vom auf Häufigkeitsinformationen beruhenden Hash- Typ verwendet wird,
Fig. 61 ist ein PAD-Diagramm zur Darstellung eines Vorgangs zum Festlegen eines Standards oder Bezugs für die Hash- Verarbeitung, die beim Einrichten einer verketteten Komponenten-Zeichentabelle vom auf Häufigkeitsinformationen beruhenden Hash-Typ verwendet wird,
Fig. 62 ist eine Ansicht zur schematischen Darstellung eines Konzepts der Hash-Verarbeitung von Häufigkeitsinformationen,
Fig. 63 ist ein PAD-Diagramm zur schematischen Darstellung eines Hash-Verarbeitungsvorgangs für Häufigkeitsinformationen,
Fig. 64 ist eine Ansicht zur schematischen Darstellung einer Struktur einer Hash-Tabelle,
Fig. 65 ist ein PAD-Diagramm zur Darstellung eines mit dem Suchen der Komponenten-Zeichentabelle vom auf Häufigkeitsinformationen beruhenden Hash-Typ verbundenen Vorgangs,
Fig. 66 ist ein schematisches Funktionsblockdiagramm zur Darstellung einer allgemeinen Anordnung eines Volldokumenten- Wiedergewinnungssystems gemäß einer einundzwanzigsten Ausführungsform der Erfindung,
Fig. 67 ist ein PAD-Diagramm zur Darstellung eines Vorgangs zum Einrichten oder Erzeugen einer verketteten Kompo nenten-Zeichentabelle vom auf Häufigkeitsinformationen beruhenden Vor-Hash-Typ, und
Fig. 68 ist eine Ansicht, in der ein Verfahren zum Zugriff auf eine verkettete Komponenten-Zeichentabelle unter Verwendung einer Vor-Hash-Tabelle dargestellt ist.

BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN

Die vorliegende Erfindung wird nun in Zusammenhang mit Beispielen und bevorzugten Ausführungsformen mit Bezug auf die Zeichnung in Einzelheiten beschrieben.
Mit Bezug auf Fig. 1 wird das erste Beispiel beschrieben. Ein in dieser Figur dargestelltes Dokumentendaten- Verarbeitungssystem umfaßt eine Anzeigeeinheit 100, eine Tastatur 101, eine Zentralverarbeitungseinheit oder CPU 102, eine Speicherdateieinheit 110 mit einer Magnetplatte oder dergleichen, die als ein Speichermedium zum Speichern einer Komponenten-Zeichentabelle 105, verdichteter Texte 104 und von Dokumenten oder Texten 103 dient, einen Diskettentreiber oder FDD 106 und einen Hauptspeicher 20. Weiterhin bezeichnet eine Bezugszahl 107 eine Diskette.
Im Hauptspeicher 200 sind ein Textregistrierungsprogramm 201, ein Programm 202 zum Erzeugen/Registrieren eines verdichteten Texts, ein Programm 203 zum Erzeugen/Registrieren einer Komponenten-Zeichentabelle, ein Komponenten-Zeichentabellen-Suchprogramm 204, ein Programm 205 zur verdichteten Textsuche, ein Textkörper-Suchprogramm 206 und ein Programm 207 zum Steuern einer hierarchischen Vorsuche gespeichert. Weiterhin wird ein Datenbereich 208 im Hauptspeicher 200 gesichert. Die oben erwähnten Programme werden von der CPU 102 ausgeführt.
Zum Registrieren eines Dokuments wird über die Tastatur 10 ein entsprechender Befehl eingegeben. In Reaktion auf den Befehl ruft die CPU 102 Dokumentendaten aus der im Diskettentreiber 106 angeordneten Diskette 107 ab und führt das Textregistrierungsprogramm 201 aus, um dadurch die abgerufenen Dokumentendaten als einen Text 103 in der Datei 110 zu spei chern. In diesem Zusammenhang sei bemerkt, daß die vorliegende Erfindung keinesfalls auf die Eingabe der Dokumentendaten unter Verwendung der Diskette beschränkt ist. Die Erfindung kann gleichermaßen auf eine solche Anordnung angewendet werden, bei der die Dokumentendaten über eine Kommunikationsleitung oder ähnliche Schaltungen von einer anderen Einrichtung oder einem anderen System geladen werden. Daraufhin führt die CPU 102 das Programm 202 zum Erzeugen/Registrieren eines verdichteten Texts aus, um dadurch den Text 103 in Teil-Zeichenketten auf einer Wortebene einzuteilen oder zu zerlegen und eine wechselseitige Einschlußbeziehung zu prüfen, die möglicherweise unter den aus der Zerlegung resultierenden Teil-Zeichenketten besteht, um die von anderen Teil-Zeichenketten eingeschlossenen oder abgedeckten Teil-Zeichenketten zu beseitigen, wodurch ein aus einem Satz dieser Teil-Zeichenketten, die keine Einschlußbeziehung zueinander aufweisen, bestehender verdichteter Text erzeugt wird. Der auf diese Weise erzeugte oder vorbereitete verdichtete Text 104 wird in der Datei 110 gespeichert. Schließlich führt die CPU 102 das Programm 202 zum Erzeugen/Registrieren einer Komponenten-Zeichentabelle aus, um dadurch die Komponenten-Zeichentabelle 105 zu erzeugen, in der im Text 103 verwendete Zeichen ohne Wiederholung gesammelt sind. Die so vorbereitete Komponenten-Zeichentabelle 105 wird dann ebenfalls in der Datei 110 gespeichert.
Beim Dokumenten- oder Textsuch-Vorgang wird eine Abfragebedingungsanweisung (d. h. eine Anweisung der Bedingung für die Suche) über die Tastatur 101 eingegeben und der CPU 102 zugeführt, die darauf antwortet, indem sie zuerst das Programm 207 zum Steuern der hierarchischen Vorsuche ausführt, woraufhin sequentielle Ausführungen des Komponenten-Zeichentabellen-Suchprogramms 204, des Programms 206 zur verdichteten Textsuche und des Textkörper-Suchprogramms 206 in dieser Reihenfolge gesteuert vom Programm 207 zum Steuern der hierarchischen Vorsuche folgen.
Insbesondere wird beim Ausführen der Komponenten- Zeichentabellen-Suche ein von der eingegebenen Abfragebedingungsanweisung gegebener Suchterm (oder Suchterme) in Teil- oder Komponentenzeichen eingeteilt oder gespalten, woraufhin nur die Dokumente, die alle den Suchterm bildenden Zeichen enthalten, gewonnen werden. Als nächstes wird in den verdichteten Texten, die den durch die Komponenten- Zeichentabellen-Suche gewonnenen Dokumenten entsprechen, nachgesehen, um dadurch die den gegebenen Suchterm (oder die gegebenen Suchterme) enthaltenden Dokumente zu gewinnen. Falls die gegebene Abfragebedingungsanweisung nur einen einzigen Suchterm (d. h. einen Term, der als ein Schlüsselwort zum Suchen oder Wiedergewinnen eines Dokuments dient) oder nur eine logische oder eine Boolesche Beziehung unter mehreren Suchtermen und nicht die Anordnungsbeziehung dieser Suchterme im Text festlegt, endet die Text- oder Dokumentenwiedergewinnungs-Verarbeitung, indem das Ergebnis der verdichteten Textsuche als das endgültige Ergebnis der Dokumenten-Wiedergewinnung ausgegeben wird. Im anderen Fall, in dem die Anordnungsbeziehung(en) oder -bedingung(en) unter mehreren Suchtermen im Text durch die gegebene Abfragebedingungsanweisung festgelegt wird (werden), werden die den gewonnenen Dokumenten entsprechenden Textdaten oder Textkörper dagegen durch die verdichtete Textsuche geprüft, wodurch nur der Text, der die gegebenen Suchterme enthält und die Abfragebedingung hinsichtlich der den Suchtermen auferlegten Anordnungsbeziehung erfüllt, gewonnen und als das Ergebnis der ausgeführten Wiedergewinnung ausgegeben wird.
Das oben Erwähnte ist ein Entwurf des Konzepts, das der Volltext- oder Dokumenten-Wiedergewinnung gemäß der vorliegenden Erfindung zugrunde liegt.
Nachfolgend werden allgemein die Registrierungs- und Suchverfahren in Zusammenhang mit der hierarchischen Suchverarbeitung beschrieben, die die Vorsuchschritte der Komponenten-Zeichentabellen-Suche und der verdichteten Textsuche zur Aussiebung und Verringerung der Anzahl der Dokumente sowie der Textkörpersuche gemäß dem ersten Beispiel beinhaltet.
Zuerst sei daran erinnert, daß das Erzeugen des verdichteten Texts und der Komponenten-Zeichentabelle beim Registrieren eines Dokuments automatisch durchgeführt wird. Ein Vorgang der beim Erzeugen und Registrieren der verdichteten Texte und der Komponenten-Zeichentabelle verwendeten Verarbeitung ist in Fig. 2 dargestellt.
Mit Bezug auf Fig. 2 sei bemerkt, daß ein zu registrierendes Dokument beim Laden intakt als ein Text gespeichert wird. Daraufhin wird aus diesem Text ein verdichteter Text geschaffen oder erzeugt. Der verdichtete Text wird dann durch Zerlegen des Texts in Zeichenketten auf der Grundlage der Zeichenarten oder -typen, wie der chinesischen Zeichen (Kanji), der kursiven Kana-Zeichen (Hiragana), der geraden Kana- Zeichen (Katakana), der alphabetischen Zeichen und anderer, vorbereitet, wobei die Wiederholung einer Zeichenkette, die mehrmals in Erscheinung tritt, ausgeschlossen wird. Es sei beispielsweise angenommen, daß ein betroffener Text " ... (eine Suchtechnik für eine unscharfe Suche...)" ist, wie durch einen in Fig. 2 dargestellten Text #1 beispielhaft angegeben ist. In diesem Fall wird das Wort " (Suche)" als ein sich wiederholendes Wort fortgelassen, so daß " (unscharf)", " (Suchtechnik)" und " (für)" als Teil-Zeichenketten, die einen verdichteten Text bilden, übrigbleiben.
Weiterhin wird anhand des Texts eine Komponenten- Zeichentabelle erzeugt. Zu diesem Zweck wird im Text erscheinenden Zeichen eine Einbit-Information zugeordnet oder zugewiesen. Beispielsweise wird im Fall des oben erwähnten Texts #1 eine Bitinformation von "1" für " " bzw. " " (Hiragana- Zeichen) festgelegt, weil sie im Text 1 auftreten, während das Bit "0" " " zugewiesen oder zugeordnet wird, das im Text #1 nicht vorkommt. Ebenso wird das Bit "1" für " " bzw. " " (chinesische Zeichen) festgelegt. Durch eine ähnliche Technik wird den Zeichen der Komponenten-Zeichentabelle, die im betroffenen Text gefunden werden, jeweils eine "1" zugewiesen, während den Zeichen in der Komponenten-Zeichentabelle, die im jeweiligen Text fehlen, jeweils eine "0" beigefügt wird.
Durch den oben beschriebenen Vorgang werden der, verdichtete Text und die Komponenten-Zeichentabelle automatisch beim Registrieren eines Dokuments erzeugt, wodurch die Ausführung der hierarchischen Vorsuchverarbeitung vorbereitet wird.
Die Text- oder Dokumenten-Wiedergewinnung wird unter Nachsehen in der Hilfsdatei (den Hilfsdateien), die die verdichteten Texte und die Komponenten-Zeichentabelle speichert (speichern), in der Reihenfolge, die zu derjenigen bei der in Fig. 3 dargestellten Registrierung umgekehrt ist, ausgeführt.
Insbesondere wird zuerst die Komponenten- Zeichentabellen-Suche ausgeführt, wodurch die Komponentenzeichen in der Komponenten-Zeichentabelle, denen Einsen zugeordnet sind und die allen in einem gegebenen Suchterm erscheinenden Zeichen entsprechen, ausgewählt werden. Bei einem zweiten Schritt wird die verdichtete Textsuche ausgeführt, wodurch die verdichteten Texte, die die durch die Komponenten-Zeichentabellen-Suche ausgewählten Zeichen enthalten, geprüft werden, um dadurch gegebenenfalls wahlweise die Dokumente aufzunehmen, die den durch die Abfragebedingungsanweisung gegebenen Suchterm enthalten. Schließlich wird bei der Textkörpersuche nur der Text ausgewählt, der den Suchterm (oder die Suchterme) enthält, der (die) im Text an einer Positionen (an Positionen) auftritt (auftreten), welche die gegebene Abfragebedingung erfüllt (erfüllen). Im Fall des in Fig. 3 lediglich zur Veranschaulichung dargestellten Beispiels wird angenommen, daß die nachfolgende Abfragebedingungsanweisung gegeben ist:
" [4C] "
Die oben angegebene Abfragebedingungsanweisung schreibt vor: "suche ein Dokument mit einem Text, in dem die Terme ' ' und ' ' in einer solchen Nähebeziehung auftreten, daß die beiden Terme um nicht mehr als vier Zeichen voneinander ent fernt sind". Als Ergebnis dieser Suchverarbeitung wird ein Dokument mit einem Text #4 gewonnen, in dem " " und " " an den jeweiligen Positionen vorkommen, die um vier Zeichen voneinander entfernt sind.
Die nachfolgende Beschreibung dient einer konkreten Erklärung eines Verfahrens zum Erzeugen oder Vorbereiten der verdichteten Texte des auf der Zeichenart beruhenden zerlegten Typs mit ausgeschlossener Wiederholung sowie eines Verfahrens zum Erzeugen der Komponenten-Zeichentabelle des vom Zeichencode abhängigen Typs zusammen mit dem Verfahren zum Steuern einer hierarchischen Vorsuche, bei dem die verdichteten Texte und die Komponenten-Zeichentabelle der oben erwähnten Typen verwendet werden.
Zuerst wird das Verfahren zum Erzeugen der verdichteten Texte des auf der Zeichenart beruhenden zerlegten Typs mit ausgeschlossener Wiederholung beschrieben, das beim ersten Beispiel des Dokumentendaten-Verarbeitungssystems zum Volldokumenten-Wiedergewinnen gemäß der Erfindung verwendet wird. Wie in Fig. 4 dargestellt ist, wird ein gegebener Text auf der Grundlage der Zeichentypen oder -arten (oder entsprechend diesen) in Teil-Zeichenketten zerlegt. Als die Zeichenarten können "Kanji (chinesisches Zeichen)", "Hiragana (japanisches kursives Kana-Zeichen)", "Katakana (japanisches gerades Kana- Zeichen)", "alphabetischer Buchstabe", "numerisches Zeichen", "Symbol" usw. erwähnt werden, Der Text wird in Teil-Zeichenketten zerlegt, von denen jede aus einer Zeichenkette desselben Typs, beispielsweise einer Kanji-Zeichenkette, einer Hiragana-Zeichenkette, einer Katakana-Zeichenkette usw., besteht. Als nächstes wird jede Zeichenkette, die sich aus der oben erwähnten Zerlegung ergibt und von anderen Zeichenketten, die sich ebenfalls aus der Zerlegung desselben Texts, der den ersteren enthält, ergeben, vollständig eingeschlossen oder abgedeckt ist, aus dem Satz der den entsprechenden verdichteten Text bildenden Teilzeichen als eine sich wiederholende Zeichenkette fortgelassen oder ausgeschlossen. Es sei beispielsweise eine Zeichenkette " (Suche)" betrachtet.
Es ist leicht zu verstehen, daß diese Zeichenkette vollständig von einer anderen Zeichenkette " (intelligente Suchtechnik)" eingeschlossen oder abgedeckt ist, die in demselben Text auftritt. Dementsprechend wird die Zeichenkette " " aus der Registrierung ausgeschlossen. Es sei jedoch bemerkt, daß die Zeichenkette " (Suche)" bei der verdichteten Textsuche selbst dann als ein Teil der Zeichenkette " (intelligente Suchtechnik)" getroffen werden kann, wenn die Kette " " nicht registriert ist.
Die so zur Registrierung festgelegten Zeichenketten, wobei eine Wiederholung bei der Registrierung auf diese Weise ausgeschlossen wurde, werden durch Einfügen eines Separators in jeden Text und jedes Dokument voneinander getrennt, wie in Fig. 5 dargestellt ist. Beim in Fig. 5 dargestellten Beispiel wird ein Symbol "," als der Separator verwendet. Andererseits ist bei den in den Fig. 2 und 3 dargestellten Beispielen der Separator durch ein Symbol " " dargestellt. In diesem Zusammenhang ist es unnötig, den Separator in Form eines Zeichens darzustellen. Jeder bestimmte dem Zeichen nicht zugeordnete Code kann gleichermaßen mit derselben Wirkung als der Separator verwendet werden.
Als nächstes wird ein Verfahren zum Erzeugen oder Vorbereiten der Komponenten-Zeichentabelle des vom Zeichencode abhängigen Typs beschrieben, die beim aktuellen Beispiel verwendet wird.
Wie in Fig. 6 dargestellt ist, wird die Komponenten- Zeichentabelle des vom Zeichencode abhängigen Typs zum Festlegen der Bitposition verwendet, an der eine "1" als das Informationsbit, das das Vorhandensein eines Zeichens als einen Zeichencode angibt, gesetzt werden soll. Beim in Fig. 6 dargestellten Beispiel wird angenommen, daß das Verschiebungs-JIS-Code-System lediglich zur Veranschaulichung verwendet wird. In dieser Figur stellt "(XXXX)H" Zeichen in der Hexadezimalschreibweise dar. Zur Angabe, daß eine Zeichenkette " " in einem Text eines Dokuments #1 auftritt, werden Bits "1" in der Bitliste für das Dokument #1 an den Posi tionen (8C9F)H und (8DF5)H für das Dokument #1 gesetzt. Der einfachen Darstellung halber wird die einem betroffenen Zeichen entsprechende Bitposition als eine Eintragsidentifizierer- oder ID-Nummer der Komponenten-Zeichentabelle bezeichnet. Demgemäß ist beispielsweise die Eintrags-ID-Nummer (der Eintrags-ID-Identifikator) " " in der Dezimalschreibweise durch "(8C9F)H oder "35999" gegeben.
Unter Verwendung der Komponenten-Zeichentabelle und der verdichteten Texte, die oben beschrieben wurden, werden das Steuern der hierarchischen Vorsuche und der Dokumenten- (Text)-Suchvorgang in der unten beschriebenen Weise ausgeführt. Zuerst wird der durch die Abfragebedingungsanweisung bezeichnete Suchterm in Einzelzeichen zerlegt, um die Komponenten-Zeichentabellen-Suche auszuführen. Durch diese Komponenten-Zeichentabellen-Suche werden Dokumente mit den jeweiligen Bitlisten bestimmt, in denen Einsen an den Positionen der Eintrags-ID-Nummern in der Liste gesetzt sind, die den Zeichencodes entsprechen, welche den gegebenen Suchterm bilden. Beispielsweise sei angenommen, daß eine Zeichenkette " " als der Suchterm gegeben ist. In diesem Fall werden die Dokumente #1, #2, #3, #4, ..., die alle die jeweiligen Bitlisten aufweisen, in denen Einsen an den den " " bzw. " " entsprechenden Codes (8C9F)H bzw. (SDFS)H entsprechenden Bitpositionen festgelegt sind, als das Ergebnis der Komponenten-Zeichentabellen-Suche gewonnen. Insbesondere sei mit Bezug auf Fig. 7 bemerkt, daß eine UND-Operation auf einer Bit-für-Bit-Grundlage zwischen einer Bitliste 701 mit der das Zeichen " " darstellenden Eintrags-ID-Nummer "(8C9F)H" und einer Bitliste 702 mit der das Zeichen " " darstellenden Eintrags-ID-Nummer "(8DF5)" ausgeführt wird, um dadurch ein Ergebnis der bitweisen UND-Operation in Form einer Bitliste 703 zu erhalten. In dieser Bitliste 703, die die Ergebnisse der bitweisen UND-Operation enthält, stellen die den Bitpositionen "1" entsprechenden Dokumenten-ID-Nummern die Dokumente dar, die während der Ausführung der Komponenten-Zeichentabellen-Suche getroffen worden sind. Mit anderen Worten werden alle Dokumente (Texte), die " " und " " enthalten, als das Ergebnis der Komponenten-Zeichentabellen-Suche gewonnen.
Es sei am Rande bemerkt, daß in dem Fall, in dem der Suchterm aus nur einem Zeichen, wie " " (einem Kanji-Zeichen, das im Englischen "See" bedeutet), besteht, die Dokumenten-Wiedergewinnung durch die Ausgabe des Ergebnisses der Komponenten-Zeichentabellen-Suche beendet wird.
Als nächstes wird die Suchverarbeitung der verdichteten Texte der durch die Komponenten-Zeichentabellen-Suche gewonnenen Dokumente ausgeführt. Zu diesem Zweck wird der Inhalt der auf einer in Fig. 5 dargestellten Dokument-für-Dokument- Grundlage registrierten verdichteten Texte gesucht, um dadurch die Dokumente zu gewinnen, die, falls vorhanden, den gegebenen Suchterm als ein einen Teil des Dokuments bildendes Wort enthalten. Mit anderen Worten werden beim oben erwähnten Beispiel nur die Dokumente gewonnen, die die zwei aufeinanderfolgend auftretenden Zeichen " " und " " enthalten. Anders ausgedrückt werden jene Dokumente, die die Zeichen " " und " " enthalten und in denen diese Zeichen als Teile voneinander verschiedener Terme, wie " " und " " erscheinen, verworfen. Zu diesem Zweck wird auf einer Zeichen- für-Zeichen-Grundlage eine Suche ausgeführt, die der an den verdichteten Texten aller durch die Komponenten-Zeichentabellen-Suchverarbeitung gewonnenen Dokumente ausgeführten Textkörpersuche gleicht. Zu diesem Zeitpunkt reicht es jedoch aus, nur den Inhalt der verdichteten Texte, die den als das Ergebnis der Komponenten-Zeichentabellen-Suche erhaltenen Dokumenten-ID-Nummern entsprechen, zu durchsuchen. Beispielsweise werden die verdichteten Texte der Dokumenten-ID-Nummern #1, #2, #3, #4 usw. dann, wenn die Komponenten-Zeichentabellen-Suche zur Wiedergewinnung der Dokumenten-(ID)-Nummern #1, #2, #3, #4 usw. führt, bei der verdichteten Textsuchverarbeitung gesucht, und das Dokument (die Dokumente), das (die) den in Wirklichkeit auftretenden Suchterm enthält (enthalten), wird (werden) als das Wiedergewinnungsergebnis der verdichteten Textsuchverarbeitung ausgegeben.
Es wird anhand der oben angegebenen Beschreibung verständlich sein, daß im Schema der hierarchischen Vorsuche bei dem nun erörterten zur Veranschaulichung angegebenen Beispiel zwei Schritte der Vorsuche, d. h. die Komponenten-Zeichentabellen-Suche und die verdichtete Textsuche, vorhergehend ausgeführt werden, um die Dokumente auf der Zeichenebene bzw. der Wortebene (oder der Ausdruckebene) auszusieben, um dadurch vorhergehend die Anzahl der Dokumente, die der zeitaufwendigen Textkörpersuche unterzogen werden müssen, auf ein mögliches Minimum zu verringern, wodurch der Umfang der Dokumente, die der Textkörpersuche unterzogen werden müssen, entsprechend verringert werden kann, was wiederum in gleicher Weise bedeutet, daß die Volltext- oder Dokumenten-Wiedergewinnung mit einer sehr hohen Geschwindigkeit ausgeführt werden kann.
Genauer gesagt kann bei der Komponenten-Zeichentabellen- Suche, bei der das Vorhandensein eines betroffenen Zeichens durch eine Einbit-Information dargestellt wird, der Datenumfang, der zur Wiedergewinnung gesucht werden soll, stark verringert werden, wobei die für die Suche in Anspruch genommene Zeit entsprechend reduziert wird. Überdies kann durch das logische UND-Verknüpfen der Bitlisten, die für die die Teile des Suchworts (Schlüsselworts) bildenden Zeichen erzeugt wurden, jeweils eine relativ große Anzahl der für den Suchterm (die Suchterme) irrelevanten Dokumente verworfen werden, wodurch die Anzahl der Dokumente, die der nachfolgenden Wiedergewinnungsverarbeitung zu unterziehen ist, wesentlich verringert werden kann.
Zusätzlich sei bemerkt, daß die für die verdichtete Textsuchverarbeitung gemäß der Erfindung in Anspruch genommene Zeit infolge eines im Vergleich zu demjenigen beim direkten Durchsuchen der Texte verringerten Datenumfangs auch verringert sein kann.
Es wird nun ein zweites Beispiel des Verfahrens und Systems zum Wiedergewinnen von Volldokumenten beschrieben. Das zweite Beispiel bezieht sich auch auf die Volldokumenten- Wiedergewinnung, die es erlaubt, die hierarchischen Vorsuchverarbeitungen selbst dann wirksam auszuführen, wenn mehrere Suchterme festgelegt sind.
Es sei beispielsweise angenommen, daß eine Abfragebedingungsanweisung gegeben ist, die "' ' UND ' '" vorschreibt. In diesem Fall wird die Komponenten-Zeichentabelle als der erste Verarbeitungsschritt gesucht. Bei diesem Schritt werden alle Dokumente gesucht, die alle Zeichen enthalten, welche Teile der gegebenen Suchterme bilden, woraufhin das Suchen des auszugebenden Dokuments folgt, das die den Suchtermen auferlegte Beziehung erfüllt. Wenn die Abfragebedingungsanweisungs-Ablesung, beispielsweise "' ' UND ' '" lautet, werden die Dokumente gesucht, die zwei Zeichen " " und " " sowie zwei Zeichen " " und " " enthalten. Die Suche wird insbesondere ausgeführt, um die Dokumente zu finden, die die unten angegebene Bedingung erfüllen:
"(' ' UND ' ') UND (' ' UND ' ')"
Anders ausgedrückt gilt
"' ' UND ' ' UND ' ' UND ' '"
Mit anderen Worten werden die Dokumente gesucht, die gleichzeitig die vier oben erwähnten Zeichen enthalten.
Als nächstes wird die Suche der gefilterten verdichteten Texte ausgeführt, die den Dokumenten entsprechen, welche als das Ergebnis der Komponenten-Zeichentabellen-Suche gefunden wurden. Bei der verdichteten Textsuche werden nur die Dokumente gewonnen, bei denen die bezeichneten Schlüsselwörter als die semantisch bedeutungsvollen Wörter (oder Ausdrücke) auftreten. Insbesondere werden die Dokumente gesucht, die gleichzeitig beide Wörter oder Ausdrücke (bedeutungsvolle Zeichenketten) " " und " " enthalten.
Wenn die Beziehung zwischen den Suchtermen durch die Boolesche Beziehung, wie "UND", "ODER" oder andere, dargestellt ist und keine anderen Bedingungen gegeben sind, die die Anordnungsbeziehung zwischen den Suchtermen (Schlüsselwörtern) vorschreiben, gelangt die Wiedergewinnungsverarbeitung an ihr Ende, woraufhin das Ergebnis der verdich teten Textsuche als das endgültige Ergebnis der Dokumenten- Wiedergewinnungsverarbeitung ausgegeben wird. Wenn andererseits eine beliebige Anordnungsbedingung festgelegt ist, wird die Suche an den durch die verdichtete Textsuche gewonnenen Texten ausgeführt, um dadurch den die bezeichnete Bedingung erfüllenden Text zu markieren und ihn als das endgültige Ergebnis der Dokumenten-Wiedergewinnungsverarbeitung auszugeben.
Der Wiedergewinnungs- oder Suchvorgang des Volldokumenten-Wiedergewinnungssystems gemäß der aktuellen (zweiten) Ausführungsform der vorliegenden Erfindung wird nun anhand der vorhergehenden Beschreibung verständlich sein. Indem die Komponenten-Zeichentabellen-Suche und die UND-Verknüpfungsoperation an den Suchtermen bei der Komponenten-Zeichentabellen-Suche ausgeführt werden, kann die hierarchische Vorsuche wirksam ausgeführt werden, um dadurch selbst dann eine schnelle Volltext-Wiedergewinnung zu verwirklichen, wenn mehrere Suchterme gegeben sind.
Als nächstes wird ein drittes Beispiel zur Erklärung der Suchsteuerung bei der hierarchischen Vorsuche in allgemeinen Ausdrücken beschrieben. Fig. 8 ist ein PAD-Diagramm (Problemanalysediagramm) zur Veranschaulichung der Steuerung, die beim Vorgang der hierarchischen Vorsuche verwendet wird. Es wird wiederum angenommen, daß eine folgendermaßen lautende Abfragebedingungsanweisung gegeben ist:
"' ' ODER ' '"
Die oben angegebene Anweisung schreibt vor, daß ein " (Computer)" oder " (intelligente Schnittstelle)" enthaltendes Dokument gesucht und wiedergewonnen werden soll.
Zuerst wird bei einem Schritt 8000 die Komponenten- Zeichentabellen-Suche ausgeführt. Bei diesem Schritt werden die alle Zeichen der Suchterme enthaltenden Dokumente nach jedem der festgelegten Suchterme gesucht, woraufhin der Schritt des Ausgebens der Dokumente folgt, welche die den Suchtermen auferlegte zusammengesetzte Bedingung erfüllen. Beim nun betrachteten Beispiel wird für jedes der drei Zei chen, die einen Suchterm " " bilden, die bitbasierte UND- Operation zwischen den relevanten Eintrags-ID-Nummern in der Komponenten-Zeichentabelle ausgeführt, wie in Fig. 9 dargestellt ist. Anschließend wird in ähnlicher Weise die bitbasierte UND-Operation zwischen den relevanten Eintrags-ID- Nummern in der Komponenten-Zeichentabelle für jedes der neun Zeichen, die " " bilden, ausgeführt. Schließlich wird das Ergebnis der bitbasierten UND-Operation für " " und dasjenige für " " einer logischen ODER-Verknüpfung unterzogen. Anders ausgedrückt wird der folgende Suchbedingungsbefehl ausgeführt:
"(' ' UND ' ' UND ' ') ODER (' ' UND ' ' UND ' ' UND ' ' UND ' ' UND ' ' UND ' ' UND ' ' UND ' ')"
Dadurch werden, falls vorhanden, alle Dokumente gewonnen, die alle drei " " bildenden Zeichen oder alle neun " " bildenden Zeichen enthalten.
Falls die Anzahl der durch die oben erwähnte Komponenten-Zeichentabellen-Suche gewonnenen Dokumente null ist, wird das Suchergebnis, das null Dokumente (d. h. keines der Dokumente) angibt, als das endgültige Ergebnis der Dokumenten- Wiedergewinnung ausgegeben, wie in Fig. 8 dargestellt ist, woraufhin die Dokumentenwiedergewinnungs-Verarbeitung an ihr Ende gelangt. Weiterhin wird die Wiedergewinnungsverarbeitung dann, wenn der Suchterm aus nur einem Zeichen besteht, wie bei " ", durch Ausgeben des Ergebnisses der Komponenten- Zeichentabellen-Suche (Schritt 8010 in Fig. 8) beendet.
Wenn der Suchterm aus mehreren Zeichen besteht und das Ergebnis der Komponenten-Zeichentabellen-Suche nicht den Nulltext ergibt, wird anschließend die verdichtete Textsuche ausgeführt. Der registrierte Inhalt des verdichteten Texts besteht aus Zeichenketten, die sich aus der zuvor beschriebenen auf der Zeichenart beruhenden Zerlegung ergeben. Für den Suchterm, der aus Zeichen verschiedener Typen oder Arten besteht, wie beispielhaft durch " (Kanji- und Katakanazeichen)" angegeben ist, wird der Term in Teil-Zeichenketten im verdichteten Text, wie " ", durch die Trennmarkierung "," getrennt zerlegt. Folglich führt das einfache Durchsuchen eines verdichteten Texts, der den heterogenen Suchterm, wie " ", enthält, zum Fehlen der entsprechenden Zeichenkette. Unter diesen Umständen wird der Suchterm vor dem Ausführen der verdichteten Textsuche geprüft, um dadurch jeden aus verschiedenen Zeichenarten bestehenden Suchterm in Zeichenunterketten zu zerlegen, wobei jede von der gleichen oder homogenen Zeichenart ist. Der einfachen Beschreibung halber wird der Suchterm, der auf diese Weise auf der Grundlage der Zeichenart zerlegt wurde, als der aufgeteilte Suchterm bezeichnet, um den letzteren vom Quellsuchterm zu unterscheiden, von dem der aufgeteilte Suchterm ausgeht. Die verdichtete Textsuche wird dann unter Verwendung der aufgeteilten Suchterme " " (intelligent)" und " (Schnittstelle)" zusätzlich zu " (Computer)" beim zuvor erwähnten Beispiel ausgeführt. Es sei jedoch bemerkt, daß die aufgeteilten Suchterme, die vom selben Quellsuchterm ausgehen, bei der Ausführung der verdichteten Textsuche einer logischen UND-Verknüpfung unterzogen werden. Wenn die Abfragebedingungsanweisungs beispielsweise
" " ODER " "
lautet, wird die verdichtete Textsuche unter der folgenden Bedingung ausgeführt:
( ) ODER (" " UND " ")
Die oben angegebene Bedingung schreibt vor, daß ein Dokument, in dem " " und und " " nebeneinander auftreten, oder ein Dokument, in dem " " auftritt, gesucht wird.
Wenn das Ergebnis der verdichteten Textsuche null (kein Text) ist, wird das Suchergebnis "null" oder "kein Dokument" ausgegeben, woraufhin die verdichtete Textsuche an ihr Ende gelangt. Zu dieser Zeit wird die Textkörpersuche nur dann ausgeführt, wenn eine Nähebedingung oder eine Kontextbedingung festgelegt ist oder wenn ein aufzuteilender Suchterm, wie " ", gegeben ist (d. h. wenn sich der Suchterm von den aufgeteilten Suchtermen unterscheidet). Andernfalls wird die hierarchische Vorsuchverarbeitung durch die Ausgabe des Ergebnisses der verdichteten Textsuche ausgeführt. Dabei ist die Kontextbedingung (oder einfach der Kontext) so, wie durch die folgende Bedingungsanweisung gegeben ist:
" " [S] " "
die vorschreibt, daß ein Dokument, in dem " " und " " im selben Satz zusammen auftreten, gesucht wird. Weiterhin wird die Nähebeziehung beispielsweise folgendermaßen beschrieben:
" " [10C] " "
Diese Nähebedingungsanweisung schreibt vor, daß ein Dokument, in dem " " und " " in derartiger Nähe auftreten, daß beide Terme um nicht mehr als zehn Zeichen entfernt sind, gesucht wird.
Mit anderen Worten stellen die Kontextbedingung und die Nähebedingung die Abfragebedingungen dar, welche die Anordnungsbeziehungen zwischen den in einem Dokument auftretenden Suchtermen bezeichnen.
Wenn die Abfragebedingung gegeben ist, die die Anordnungsbeziehung zwischen den in einem Text auftretenden Suchtermen angibt, oder wenn ein heterogener Suchterm vorliegt, der aus Unterketten heterogener oder unterschiedlicher Zeichenarten besteht, die durch den Separator im verdichteten Text getrennt sind, wird auf die dem Ergebnis der verdichteten Textsuche entsprechenden Textdaten bezug genommen, wodurch nur das Dokument, in dem die Suchterme im Text entsprechend der gegebenen Bedingung auftreten, ausgegeben wird, woraufhin die Dokumenten-Wiedergewinnungsverarbeitung an ihr Ende gelangt.
Es ist anhand der oben angegebenen Beschreibung verständlich, daß die hierarchische Vorsuche wirksam ausgeführt werden kann, um dadurch zu ermöglichen, daß eine schnelle Volltext-Wiedergewinnung selbst dann verwirklicht wird, wenn der Suchterm aus Unterketten heterogener Zeichenarten besteht oder wenn die Bedingung hinsichtlich der Positionen oder Orte festgelegt ist, an denen die Suchterme im Text auftreten müssen.
Es wird nun ein viertes Beispiel beschrieben. Bei diesem Beispiel ist es beabsichtigt, die Kapazität der Komponenten- Zeichentabelle zu verringern, die beim Volldokumenten-Wiedergewinnungssystem gemäß dem ersten Beispiel verwendet wird. Wenngleich die Komponenten-Zeichentabelle des vom Zeichencode abhängigen Typs eine vereinfachte und erleichterte Verarbeitung bieten kann, tritt insbesondere das Problem auf, daß die Komponenten-Zeichentabelle notwendigerweise eine erhebliche Größe aufweist, weil die Bitliste für jedes Dokument lang ist. Weil die Eintrags-ID-Nummer überdies ungeachtet des Fehlens eines relevanten Zeichencodes zugeordnet wird, weist die Komponenten-Zeichentabelle nicht wenige nutzlose Bereiche oder Orte auf, wodurch ein anderes Problem hervorgerufen wird. Beim Verschiebungs-JIS treten beispielsweise keine Zeichencodes auf, die für die Eintrags-ID-Nummern zwischen (0000)H und (8140)H bzw. zwischen (A000)H und (E040)H, d. h. in den Bereichen von der nullten bis zur 33087ten Eintrags- ID-Nummer bzw. von der 40960ten bis zur 5740Bten Eintrags-ID- Nummer, relevant sind. Dessen ungeachtet muß die Komponenten- Zeichentabelle diese Orte als die Einträge aufweisen, weil die Eintrags-ID-Nummern durch die Zeichencodes festgelegt sind.
Im Hinblick auf das Beseitigen der nutzlosen Bereiche in der Bitliste wird gemäß den Lehren des vierten Beispiels vorgeschlagen, daß eine Komponenten-Zeichentabelle des Zeichencode-Umwandlungstyps derart erzeugt wird, daß die Bitpositionen oder -orte beginnend mit der nullten Bitposition, ohne daß eine Lücke oder ein Abstand zwischen den Bitpositionen vorhanden wäre, verwendet werden können, indem eine Zeichencode-Umwandlungstechnik eingesetzt wird, wie anhand der nachfolgenden detaillierten Beschreibung offensichtlich wird.
Als ein Beispiel des Zeichencode-Umwandlungsausdrucks zum Erzeugen der Komponenten-Zeichentabelle des Zeichencode- Umwandlungstyps kann das folgende angeführt werden. (Ein entsprechendes PAD-Diagramm ist in Fig. 10 dargestellt.)
if SJIS < (A000)H
then
SCODE = SJIS - (8040)H
else
SCODE = SJIS - (C040)H
SCODE = SCODE - (SCODE/256) · 64 (4-1)
Im oben angegebenen Ausdruck wird (8040)H anstelle von (8140)H verwendet, um angesichts der Tatsache, daß die Zeichencodes mit geringeren Werten oft als die Steuercodes verwendet werden, einen größeren oder kleineren Spielraum zu gewähren. Weiterhin wird der dem Dezimalkomma des Ergebnisses der Operation "(SCODE/256)" folgende Bruchteil verworfen, woraufhin das so abgerundete Ergebnis mit "64" multipliziert wird.
Im oben angegebenen Ausdruck gibt "SJIS" den ursprünglichen JIS-Code an, wobei "SCODE" einen nach der Umwandlung erhaltenen Zeichencode angibt. In diesem Zusammenhang sei bemerkt, daß das KEIS-Codesystem oder ein anderes Codesystem, für das eine Entsprechung mit dem Verschiebungs-JIS-Code hergestellt wurde, in gleicher Weise entsprechend einem dem oben erwähnten Ausdruck (4-1) ähnelnden Ausdruck in den SCODE umgewandelt werden kann. Fig. 11 zeigt die Umwandlung entsprechend dem Ausdruck (4-1) in Form einer Zeichencodetabelle. Wie beim Betrachten von Fig. 11 auch ersichtlich ist, werden die zwischen (0000)H und (FFFF)H liegenden und als (8140)H bis (9FFC)H und (E040)H bis (FFFC)H verteilten Zeichencodes so umgewandelt, daß sie ohne einen Zwischenraum beginnend mit dem Zeichencode (0000)H angeordnet werden.
Mittels der entsprechend dem Ausdruck (4-1) erfolgenden Codeumwandlung kann die Länge der Bitliste erheblich verkürzt werden, wie in Fig. 12 ersichtlich ist, was wiederum bedeutet, daß die Kapazität der gesamten Komponenten-Zeichentabelle entsprechend verringert werden kann.
Die Steuerung für die hierarchische Vorsuche ist mit der zuvor in Zusammenhang mit dem ersten Beispiel beschriebenen identisch. Insbesondere kann der in Fig. 8 dargestellte Steuervorgang ohne eine Modifikation verwendet werden, um zuerst unter Verwendung der den Suchterm bildenden Zeichen die Komponenten-Zeichentabellen-Suche auszuführen, woraufhin die verdichtete Textsuche unter Verwendung des (der) Suchterms (Suchterme) folgt. Wenn die Kontextbedingung nicht gegeben ist, wird das Ergebnis der verdichteten Textsuche als das Ergebnis der Wiedergewinnung ausgegeben, woraufhin die Dokumentenwiedergewinnungs-Verarbeitung beendet wird. Andererseits wird die Textkörpersuche dann, wenn die Kontextbedingung festgelegt ist, als der dritte Suchverarbeitungsschritt ausgeführt, woraufhin das Ergebnis der Textkörpersuche als das Dokumentenwiedergewinnungs-Ergebnis ausgegeben wird. Es sei jedoch bemerkt, daß jeder verwendete Suchterm bei der Ausführung der Komponenten-Zeichentabellen-Suche zuvor der Zeichencodeumwandlung entsprechend dem Ausdruck (4-1) unterzogen werden muß.
Die Lehre hinsichtlich der Verwendung der Komponenten- Zeichentabelle des Zeichencode-Umwandlungstyps zur Verringerung der Kapazität von dieser wird anhand der oben angegebenen Beschreibung des vierten Beispiels verständlich sein. Insbesondere wird die Komponenten-Zeichentabelle durch Anordnen der der Codeumwandlung unterzogenen Zeichencodes an den Bitpositionen beginnend mit der nullten Bitposition ohne einen Zwischenraum erzeugt, wodurch die Einträge, denen keine Zeichencodes zugeordnet sind, aus der Komponenten-Zeichentabelle beseitigt werden können, wodurch der Vorteil erzielt wird, daß die Komponenten-Zeichentabelle mit einer wesentlich verringerten Kapazität eingerichtet werden kann.
Es wird nun ein fünftes Beispiel beschrieben, bei dem es beabsichtigt ist, die Kapazität der gemäß dem vierten Beispiel eingerichteten Komponenten-Zeichentabelle unter Verwendung einer Hash-Technik weiter zu verringern.
Zur Verringerung der Kapazität der gemäß dem vierten Beispiel erzeugten Komponenten-Zeichentabelle wird beim fünften Beispiel der Erfindung daran gedacht, mehrere Zeichen einer einzigen Eintrags-ID-Nummer in der Bitliste zuzuordnen. Insbesondere wird ein Verfahren zur Herstellung von Entsprechungen zwischen den den Suchterm bildenden Zeichen und den Bitpositionen in der Bitliste unter Verwendung einer Hash- Funktion verwendet. Die Hash-Funktion hierzu kann folgendermaßen ausgedrückt werden:
h (SCODE) = mode (SCODE, N) (5-1)
wobei "SCODE" einen aus der Umwandlung entsprechend dem oben erwähnten Ausdruck (4-1) resultierenden Zeichencode darstellt, "mod" eine Funktion darstellt, die zur Ausgabe eines aus dem Dividieren des ersten Arguments durch das zweite Argument resultierenden Rests verwendet wird, und "N" einen gegebenen ganzzahligen Wert darstellt. Unter der Annahme, daß beispielsweise "512" als der Wert von N verwendet wird, nimmt " " die Eintrags-ID-Nummer "480" an, wobei " " die Eintrags-ID-Nummer "118" annimmt.
Ein Beispiel der auf diese Weise erzeugten Komponenten- Zeichentabelle ist in Fig. 13 dargestellt. Bei diesem Beispiel wird N auf "512" gesetzt. Es sei bemerkt, daß nicht mehr als 512 Bits für das Registrieren eines Dokuments erforderlich sind. Beim Wiedergewinnen werden die Eintrags-ID- Nummern für jedes Zeichen eines gegebenen Suchterms unter Verwendung der durch den Ausdruck (5-1) dargestellten Hash- Funktion festgelegt, woraufhin bezug auf die entsprechenden Bitpositionen in der Komponenten-Zeichentabelle genommen wird (Fig. 13). Bei einer Zeichenkette " " wird beispielsweise ein Dokument, für das alle Bits an den durch die Eintrags-ID-Nummern "480", "482" bzw. "128" in Fig. 13 angegebenen Positionen Einsen sind, als das Ergebnis der Komponenten- Zeichensuche ausgegeben. Anschließend wird die verdichtete Textsuche für das durch den Komponenten-Zeichentabellen-Suchvorgang gesuchte Dokument ausgeführt.
Als nächstes werden die Steuervorgänge für die verdichtete Textsuche und die Textkörpersuche mit Bezug auf Fig. 14 beschrieben. Wenn der Suchterm aus einem Zeichen besteht, wird beim ersten Beispiel die hierarchische Vorsuche nach der Komponenten-Zeichentabellen-Suche durch Ausgeben ihres Suchergebnisses als das Ergebnis der Dokumenten-Wiedergewinnung abgeschlossen. Beim nun betrachteten fünften Beispiel ist es dagegen erforderlich, fortlaufend die hierarchische Vorsuche bis einschließlich der verdichteten Textsuche auszuführen, weil das Erzeugen eines Suchrauschens bei der Komponenten- Zeichentabellen-Suche in der gemäß dem fünften Beispiel vorbereiteten Komponenten-Zeichentabelle möglich ist. Beispielsweise wird einem in Form des Verschiebungs-JIS-Codes durch "(82CD)H" dargestellten Hiragana-Zeichen " " entsprechend dem Ausdruck (5-1) die Eintrags-ID-Nummer "13" zugeordnet. Es sei in diesem Zusammenhang bemerkt, daß einem Kanji-Zeichen " ", das ebenfalls durch einen Verschiebungs-JIS-Code "(8ACD)H" dargestellt ist, dieselbe Eintrags-ID-Nummer "13" zugeordnet wird. Dies bedeutet, daß alle das Hiragana-Zeichen " " enthaltenden Dokumente als das Ergebnis der Komponenten- Zeichentabelle ausgegeben werden, wenn ein Kanji-Zeichen " " als ein Suchterm festgelegt ist. Dies ist das sogenannte Suchrauschen. Unter diesen Umständen wird es erforderlich, die verdichteten Texte zu durchsuchen, um dadurch das Dokument, das tatsächlich das Kanji-Zeichen " " enthält, zu gewinnen und es als das Suchergebnis der hierarchischen Vorsuchverarbeitung auszugeben.
Es wird anhand des oben Erwähnten verständlich sein, daß es gemäß der Lehre des fünften Beispiels möglich ist, die Kapazität der Komponenten-Zeichentabelle durch eine solche Anordnung stärker zu verringern, bei der mehrere Zeichen unter Verwendung der Hash-Funktion einem Eintrag der Komponenten-Zeichentabelle zugewiesen oder zugeordnet werden.
Als nächstes wird ein sechstes Beispiel beschrieben.
Bei einer derartigen einfachen Hash-Verarbeitung, die oben in Zusammenhang mit dem fünften Beispiel beschrieben wurde, wird dem Zeichen, das wahrscheinlich oft in einem Dokument auftritt, wie die Hiragana-Zeichen, und dem Zeichen, das wahrscheinlich nicht im Dokument auftritt, wie die Kanji- Zeichen, die zum JIS-Kanji-Zeichensatz der zweiten Ebene gehören, dieselbe Eintragsnummer zugeordnet. Beispielsweise wird einem Hiragana-Zeichen " " und einem Kanji-Zeichen " " dieselbe Eintragsnummer "13" zugeordnet, wie zuvor beschrieben wurde. Wenn der Term " " dementsprechend als der Suchterm gegeben ist, werden alle Dokumente, die das Hiragana- Zeichen " " enthalten, gleichermaßen während der Komponenten-Zeichentabellen-Suche getroffen. In der Praxis werden bei der Komponenten-Zeichentabellen-Suche im wesentlichen alle Dokumente getroffen, weil das Hiragana-Zeichen " " eines derjenigen ist, die am häufigsten in den auf Japanisch geschriebenen Dokumenten verwendet werden. Folglich wird das Verhältnis des Aussiebens oder des Filterns der Dokumente bei der Komponenten-Zeichentabellen-Suche verringert, was wiederum bedeutet, daß die Anzahl der bei der verdichteten Textsuchverarbeitung zu durchsuchenden Dokumente entsprechend erhöht wird, wodurch das Problem hervorgerufen wird, daß die für die gesamte Wiedergewinnungsverarbeitung in Anspruch genommene Zeit ansteigt.
Um das Verringern des Dokumenten-Aussiebungsverhältnisses bei der Komponenten-Zeichentabellen-Suche zu verhindern, ist es erforderlich, die Hash-Funktion unter Berücksichtigung der Häufigkeiten, mit denen Zeichen verwendet werden, zu definieren. In der folgenden Beschreibung des sechsten Beispiels wird die verwendete Komponenten- Zeichentabelle als die auf der Zeichenart beruhende Komponenten-Zeichentabelle vom Hash-Typ bezeichnet, um sie von denjenigen zu unterscheiden, die beim ersten bis fünften Beispiel verwendet wurden. Zum Erzeugen der auf der Zeichenart beruhenden Komponenten-Zeichentabelle vom Hash-Typ werden Eintragsbereiche einer Komponenten-Zeichentabelle den einzelnen Zeichenarten bzw. -typen zugeordnet, woraufhin eine solche Hash-Funktion eingerichtet wird, die sich bei einem Zeichen code innerhalb des zugeordneten relevanten Eintragsbereichs faltet, wie in Fig. 15 dargestellt ist. Dieser Typ der Hash- Funktion kann durch Festlegen der Zeichenart auf der Grundlage des Zeichencodes und dann erfolgendes Zusammenfalten durch die "mod"-Funktion oder alternativ durch Einrichten einer Entsprechungstabelle, die Entsprechungen zwischen den Zeichencodes und den Eintrags-ID-Nummern angibt, verwirklicht werden. Fig. 16 ist ein PAD-Diagramm zur Darstellung eines Zeichentabellen-Suchvorgangs unter Verwendung der Hash- Funktion dieses Typs unter der Annahme, daß die Nummern von Einträgen (oder kürzer die Eintragsnummern) von Hiragana- Zeichen, Katakana-Zeichen und alphabetischen Zeichen jeweils "20" sind, die Eintragsnummer des Symbolzeichens "10" ist, die Eintragsnummer der numerischen Zeichen "10" ist, die Eintragsnummer des Kanji-Zeichens, das zum JIS-Kanji- Zeichensatz erster Ebene gehört, "370" ist und daß die Eintragsnummer des Kanji-Zeichens, das zum JIS-Kanji-Zeichensatz der zweiten Ebene gehört, "61" ist. Mit Bezug auf Fig. 16 sei bemerkt, daß die Arten oder Typen der den Suchterm bildenden Zeichen auf der Grundlage der Zeichencodes bzw. der Eintragsbereiche der der Zeichenart zugeordneten Komponenten- Zeichentabelle für einen eingegebenen Suchterm identifiziert und unter Verwendung der zuvor definierten "mod"-Funktion zusammengefaltet werden.
Wenn ein SCODE insbesondere in einem Bereich von (OIDF)H bis (0231)H liegt, bedeutet dies eine Zeichenkette aus Hiragana-Zeichen. Dementsprechend wird ein durch mod (SCODE, 20) erhaltener Wert als die Eintrags-ID-Nummer festgelegt.
Wenn der SCODE in einen Bereich von (0240)H bis (0296)H fällt, stellt er eine Katakana-Zeichenkette dar. Dementsprechend wird ein durch Addieren der Ergebnisse von mod (SCODE, 20) zu der am Anfang des Katakana-Zerlegebereichs eingegeben "20" erhaltener Wert als die Eintrags-ID-Nummer festgelegt.
Wenn der SCODE in einem Bereich von (01A0)H bis (01DA)H liegt, stellt er eine alphabetische Zeichenkette dar. Dementsprechend wird ein durch Addieren des Werts von mod (SCODE, 20) zu der am Anfang des alphabetischen Zeichen-Zerlegebereichs eingegebenen "40" erhaltener Wert als die Eintrags- ID-Nummer festgelegt.
Wenn der SCODE in einem Bereich von (018F)H bis (0198)H liegt, stellt er eine numerische Zeichenkette dar. Dementsprechend wird ein durch Addieren des Werts von mod (SCODE, 10) zu der am Anfang des Bereichs der Hash-Verarbeitung numerischer Zeichen eingegebenen "70" erhaltener Wert als die Eintrags-ID-Nummer festgelegt.
Wenn der SCODE in einem Bereich von (065F)H bis (1232)H liegt, stellt er eine Kanji-Zeichenkette dar, die zum JIS- Kanji-Zeichensatz der ersten Ebene gehört. Dementsprechend wird der Wert von mod (SCODE, 30) zu der am Anfang des dem JIS-Kanji-Zeichensatz der ersten Ebene zugeordneten Hash- Verarbeitungs-Bereichs eingegebenen "80" addiert, und der sich ergebende Wert wird als die Eintrags-ID-Nummer festgelegt.
Wenn ein SCODE in einem Bereich von (125F)H bis (1FDE)H liegt, stellt er eine Kanji-Zeichenkette dar, die zum JIS- Kanji-Zeichensatz der zweiten Ebene gehört. Dementsprechend wird der Wert von mod (SCODE, 61) zu der am Anfang des dem JIS-Kanji-Zeichensatz der zweiten Ebene zugeordneten Hash- Verarbeitungs-Bereichs eingegebenen "450" addiert, und der sich ergebende Wert wird als die Eintrags-ID-Nummer festgelegt.
Der andere SCODE wird als eine Zeichenkette von Symbolen darstellend angesehen. Dementsprechend wird der Wert von mod (SCODE, 10) zu der am Anfang des den Symbolen zugeordneten Hash-Verarbeitungs-Bereichs eingegeben "60" addiert, und der sich ergebende Wert wird als die Eintrags-ID-Nummer festgelegt.
Der mit Hilfe der auf der Zeichenart beruhenden Komponenten-Zeichentabelle vom Hash-Typ ausgeführte Vorgang zum Steuern der hierarchischen Vorsuche ist mit dem zuvor in Zusammenhang mit dem fünften Beispiel beschriebenen Steuervorgang identisch. Insbesondere wird die Komponenten- Zeichentabellen-Suche zuerst unter Verwendung der im Suchterm enthaltenen Zeichen ausgeführt, und es wird dann die verdichtete Texttabellensuche unter Verwendung des Suchterms vorgenommen. Wenn die Kontextbedingung und andere nicht festgelegt sind, wird die Wiedergewinnung am Ende der verdichteten Textsuche abgeschlossen. Andernfalls wird die Textkörpersuche ausgeführt, deren Ergebnis als das Dokumenten- Wiedergewinnungsergebnis ausgegeben wird.
Es wird anhand der oben angegebenen Beschreibung verständlich sein, daß das sechste Beispiel erlaubt, das Erzeugen des Suchrauschens beim Durchsuchen der Dokumente in der verdichteten Texttabelle wesentlich zu verringern, wodurch der Volltext-Wiedergewinnungsvorgang insgesamt infolge der Verwendung der auf der Zeichenart beruhenden Komponenten- Zeichentabelle vom Hash-Typ, in der Entsprechungen zwischen den ID-Nummern bzw. dem Zeichen abhängig von der Zeichenart hergestellt sind, wobei den Häufigkeiten, mit denen die Zeichen verwendet werden, Rechnung getragen ist, entsprechend beschleunigt wird.
Ein siebtes Beispiel wird in Zusammenhang mit einem Verfahren zum Steuern der hierarchischen Vorsuche beschrieben, das unter Verwendung einer auf Häufigkeitsinformationen beruhenden Komponenten-Zeichentabelle vom Hash-Typ ausgeführt wird und das das Dokumenten-Aussiebungsverhältnis bei der Komponenten-Zeichentabellen-Suche verbessern und somit die Belastung beim Durchsuchen der verdichteten Texte verringern kann.
Zum Erzeugen der auf Häufigkeitsinformationen beruhenden Komponenten-Zeichentabelle vom Hash-Typ werden die Häufigkeiten, mit denen Zeichen von in einer Datenbank registrierten Dokumenten auftreten, geprüft, um dadurch die Hash-Funktion auf der Grundlage der so erhaltenen Häufigkeitsinformationen festzulegen. Die Hash-Funktion wird so angepaßt, daß ein Eintrag für ein mit einer hohen Häufigkeit verwendetes Zeichen gegen andere eingegebene Zeichen maximal möglich geschützt ist, während der Eintrag für ein mit einer niedri gen Häufigkeit verwendetes Zeichen die Eingabe mehrerer Zeichen erlaubt. Dank einer solchen Einrichtung der Hash-Funktion kann die Komponenten-Zeichentabellen-Suche verwirklicht werden, die ein stabiles durchschnittliches Text-Aussiebungsverhältnis (Dokumenten-Verringerungsverhältnis) sicherstellen kann. Genauer gesagt wird eine Anzahl von Dokumenten unter Verwendung eines betroffenen Zeichens oder betroffener Zeichen in einer Datenbank auf der Grundlage des entsprechend dem zuvor erwähnten Ausruck (4-1) erhaltenen SCODE geprüft und in der Reihenfolge von hohen zu niedrigen Häufigkeiten neu angeordnet, wie in Fig. 17 dargestellt ist. Anschließend wird eine Anzahl von Dokumenten, die der Anzahl Nt der Einträge in der Komponenten-Zeichentabelle entspricht, beginnend mit dem Dokument, in dem die betroffenen Zeichen mit der höchsten Häufigkeit erscheinen, ausgewählt. Anschließend werden den anderen Einträgen abgesehen vom der höchsten Häufigkeit bei einer Häufigkeitsverteilung über Nt entsprechenden Eintrag aufeinanderfolgend die Eintrags-ID-Nummern, die größer als Nt sind, zugeordnet. Zu diesem Zweck wird die Zuordnung der Eintrags-ID-Nummern so ausgeführt, daß die ab Nt fortlaufend zunehmenden Eintrags-ID-Nummern beispielsweise in einer solchen Weise zugeordnet werden, daß die Eintrags- ID-Nummer Nt einem (Nt + 1)ten Eintrag, die Eintrags-ID-Nummer (Nt + 1) dem (Nt + 2)ten Eintrag usw. zugeordnet wird. Während der Zuordnung der Eintrags-ID-Nummern wird dafür gesorgt, daß die Eintrags-ID-Nummer nicht dem Eintrag mit der höchsten Häufigkeit zugeordnet wird. Die zugeordneten Eintrags-ID-Nummern werden in Form einer Tabelle gespeichert, wie in Fig. 18 dargestellt ist. Die Hash-Funktion wird unter Hinzuziehen dieser Tabelle verwirklicht. Es ist anhand der Tabelle leicht ersichtlich, daß beispielsweise das im SCODE durch (095F)H dargestellte Zeichen " " die ihm zugeordnete Eintrags-ID-Nummer "231" aufweist.
Beim aktuellen Beispiel ist der Steuervorgang für die hierarchische Vorsuchverarbeitung mit dem zuvor in Zusammenhang mit dem fünften Beispiel beschriebenen identisch. Insbe sondere wird der in Fig. 14 dargestellte Steuervorgang unverändert verwendet, um dadurch zuerst die Komponenten-Zeichentabellen-Suche unter Verwendung der im gegebenen Suchterm enthaltenen Zeichen vorzunehmen, woraufhin die verdichtete Textsuche unter Verwendung des Suchterms folgt. Wenn die Kontextbedingung oder dergleichen nicht festgelegt ist, wird die Wiedergewinnung am Ende der verdichteten Textsuche abgeschlossen. Andernfalls wird die Textkörpersuche ausgeführt, deren Ergebnis dann als das Dokumenten-Wiedergewinnungsergebnis ausgegeben wird.
Es ist anhand der oben angegebenen Beschreibung verständlich, daß die Anordnung des siebten Beispiels durch Verwendung der auf der Grundlage von Informationen über die Häufigkeitsverteilung tatsächlich in einer Datenbank verwendeter Zeichen erzeugten Komponenten-Zeichentabelle konstant und stabil ein hohes Dokumenten-Aussiebungsverhältnis in der Komponenten-Zeichentabelle gewährleisten kann. Dadurch kann die für die Wiedergewinnungsverarbeitung erforderliche Zeit unabhängig von den Suchtermen gleichmäßig verringert werden.
Die vorhergehende Beschreibung bezog sich auf die Ausführungsformen, bei denen sich die jeweiligen Komponenten- Zeichentabellen voneinander unterscheiden. Nachfolgend werden Beispiele beschrieben, die sich hinsichtlich der Struktur des verdichteten Texts von den bisher beschriebenen unterscheiden.
Wenngleich die beim ersten Beispiel verwendete Verarbeitung zum Erzeugen des verdichteten Texts einfach ist, tritt das Problem auf, daß selbst eine Zeichenkette, die nicht immanent für die Suche oder Wiedergewinnung verwendet werden soll, wie eine Hiragana-Zeichenkette " " (die im Englischen "für" entspricht), im verdichteten Text enthalten ist und ein Hindernis beim Erhöhen des Verdichtungsverhältnisses des verdichteten Texts darstellt. Dies bedeutet wiederum, daß der Umfang des bei der Wiedergewinnung zu durchsuchenden verdichteten Texts erhöht wird, wodurch die für die Dokumenten-Wiedergewinnungsverarbeitung in Anspruch genommene Zeit ebenfalls erhöht wird. Ein Hauptfaktor, der das Verdichtungsverhältnis des verdichteten Texts verringert, kann durch die Tatsache erklärt werden, daß eine Zeichenkette, die ein untergeordnetes oder nebengeordnetes Wort, das an sich keine semantische Bedeutung aufweist, darstellt, auch als ein Teil des verdichteten Texts registriert wird.
Ein unten beschriebenes achtes Beispiel betrifft die hierarchische Vorsuche, die unter Verwendung der verdichteten Texte ausgeführt wird, in denen nutzlose oder bedeutungslose Zeichenketten entfernt worden sind. Dieser Typ des verdichteten Texts wird als ein verdichteter Text des auf der Zeichenart beruhenden zerlegten Typs mit ausgeschlossener Wiederholung und beseitigten untergeordneten Wörtern bezeichnet. Mit Bezug auf Fig. 19 sei bemerkt, daß ein Verfahren zum Erzeugen des verdichteten Texts dieses Typs darin besteht, daß ein Quelltext auf der Grundlage der Zeichenart in Teil- Zeichenketten zerlegt wird und die Wiederholung der Zeichenketten ausgeschlossen wird, worauf die Beseitigung des (der) untergeordneten Worts (Wörter) folgt. Die Verfahren zum zeichenbasierten Textzerlegen und Ausschließen der Wiederholung einer Zeichenkette gleichen dem zuvor in Zusammenhang mit dem ersten Beispiel beschriebenen Vorgang. Das Entfernen des untergeordneten Worts wird an der Hiragana-Zeichenkette nach dem Ausschließen der Wiederholung vorgenommen. Die Analyse zum Beseitigen des untergeordneten Worts wird mit Hilfe eines Grundwort-Wörterbuchs und entsprechend den Verbindungsregeln ausgeführt, wie in Fig. 20 dargestellt ist. Im Grundwort- Wörterbuch sind Hiragana-Zeichen-Wörter registriert, die als Verben, Substantive, demonstrative Pronomen, Adjektive, adjektivische Verben, Adverbien, Konjunktionen, nachgestellte Wörter (Joshi im Japanischen), von denen jedes als ein Hilfswort gegenüber einem Hauptwort wirkt, sowie Hilfsverben zusammen mit Beugungsformen dieser Sprachteile und Informationen darüber wirken, wie in Fig. 21 dargestellt ist. Beim dargestellten Beispiel sind die Verben " (sein)", " (werden)", " (haben)" und andere zusammen mit ihren Beu gungsinformationen registriert. Als die Verbindungsregeln sind die Regeln registriert, die bedingen, welches von den im Grundwort-Wörterbuch registrierten Wörtern mit welchem von anderen im Grundwort-Wörterbuch registrierten Wörtern verbunden werden darf, wie in Fig. 22 dargestellt ist, aus der ersichtlich ist, daß ein Substantiv " " mit einer Partizipform eines Verbs " " verbunden werden darf, ein nachgestelltes Wort " " mit einem Substantiv " " verbunden werden darf usw. Unter Hinzuziehen des Grundwort-Wörterbuchs und der Verbindungsregeln, die oben erwähnt wurden, wird die Entscheidung getroffen, ob eine aus Hiragana-Zeichen bestehende gegebene Teil-Zeichenkette ein untergeordnetes Wort oder ein Hilfswort bildet, um dadurch zu bestimmen, ob die gegebene betroffene Hiragana-Zeichenkette in einen relevanten verdichteten Text aufgenommen werden sollte. Beispielsweise kann eine Hiragana-Teil-Zeichenkette " " analytisch in eine Reihe von Unterketten aus einem nachgestellten Wort " ", einem Substantiv " " und einem nachgestellten Wort " " zerlegt werden. Dementsprechend wird entschieden, daß diese Hiragana-Teil-Zeichenkette nur aus den untergeordneten Wörtern besteht, von denen jedes an sich semantisch bedeutungslos ist und aus diesem Grund fortgelassen oder gelöscht wird. Andererseits hat eine Hiragana-Zeichenkette " " an sich eine Bedeutung und kann nicht als ein untergeordnetes Wort angesehen werden. Dementsprechend wird diese Hiragana- Zeichenkette in den zu registrierenden verdichteten Text auf genommen.
Durch Analysieren der Hiragana-Zeichenketten zur Beseitigung des untergeordneten Worts werden nutzlose Informationen gelöscht, die nicht wirklich bei der Dokumenten- Wiedergewinnungsverarbeitung verwendet werden können, wodurch das Verdichtungsverhältnis des so vorbereiteten verdichteten Texts erhöht werden kann. Es sei an dieser Stelle hinzugefügt, daß das Grundwort-Wörterbuch und die Verbindungsregeln im Gegensatz zu einem herkömmlichen Schlüsselwort-Wörterbuch, bei dem die Anzahl registrierter Wörter als eine Funktion der Zeit oder der Erzeugung ansteigt, vorteilhafterweise von universeller Natur sind und im wesentlichen nicht aktualisiert werden müssen, nachdem sie einmal erzeugt worden sind. Weil nur die Hiragana-Zeichenketten, die sich der Analyse unterziehen lassen und als das untergeordnete Wort bestimmt sind, beseitigt werden, kann jedes beliebige neue Wort, das aus im Wörterbuch fehlenden Hiragana-Zeichen besteht, notwendigerweise im verdichteten Text enthalten sein.
Es wird nun der Steuervorgang für die hierarchische Vorsuchverarbeitung beschrieben, bei der der verdichtete Text des auf der Zeichenart beruhenden zerlegten Typs mit ausgeschlossener Wiederholung und beseitigten untergeordneten Wörtern verwendet wird. Beim verdichteten Text dieses Typs sind einige Hiragana-Zeichenketten nicht als das Ergebnis der oben beschriebenen Analyse der untergeordneten Wörter registriert. Wenn die Wiedergewinnung unter Verwendung einer bestimmten Hiragana-Zeichenkette als Suchterm ausgeführt werden soll, kann daher der Fall auftreten, in dem kein relevanter verdichteter Text durch die verdichtete Textsuche wiedergewonnen werden kann. Es sei beispielsweise eine Hiragana-Zeichenkette " " (ein Wort, das im Englischen "Schwindel" bedeutet) angenommen. Diese Hiragana-Zeichenkette kann jedoch als eine Kette aus einem nachgestellten Zeichen " ", das eine nicht beendete Beugungsform eines Verbs darstellt, und einer Endform " " eines Hilfsverbs analysiert werden. Es sei in diesem Zusammenhang wiederum ein Ausdruck " " ("kann nicht anerkannt werden" auf Englisch) betrachtet. " " kann jedoch aus dem oben gerade beschriebenen Grund selbst dann als Ergebnis der Beseitigungsverarbeitung des untergeordneten Worts aus dem verdichteten Text gelöscht werden, wenn es als ein Substantiv verwendet wird. Dementsprechend kann die Wiedergewinnung der verdichteten Texte unter Verwendung von " " als ein Suchterm bewirken, daß ein gewisser relevanter Text fortgelassen wird. Unter diesen Umständen ist es erforderlich, vor dem Beginnen mit der verdichteten Textsuche zu prüfen, ob ein gegebener Such term ein Wort ist, das nicht ursprünglich im verdichteten Text auftritt, oder ein Wort ist, das möglicherweise während der Erzeugung des verdichteten Texts gelöscht werden könnte. Zum Prüfen, ob ein Suchterm ein Wort ist, das in einem verdichteten Text registriert werden sollte, kann der bei der Erzeugung des verdichteten Texts verwendete Algorithmus zum Beseitigen untergeordneter Wörter ohne irgendeine Modifikation angewendet werden. Beim oben erwähnten Beispiel kann der als der Suchterm gegebene Ausdruck " " als eine Kette aus den untergeordneten Wörtern festgelegt werden.
Der oben umrissene Wiedergewinnungs-Steuervorgang wird in Einzelheiten mit Bezug auf Fig. 23 beschrieben. Zuerst wird die Komponenten-Zeichentabellen-Suche ausgeführt. Wenn das Ergebnis der Wiedergewinnung null ist, gelangt die Dokumenten-Wiedergewinnungsverarbeitung durch Ausgeben einer Null (d. h. keines Dokuments) an ihr Ende. Wie zuvor in Zusammenhang mit dem ersten Beispiel beschrieben wurde, kann das Ergebnis der Komponenten-Zeichentabellen-Suche beim System, bei dem keine Hash-Funktion verwendet wird, als das endgültige Ergebnis ausgegeben werden, wenn der Suchterm aus einem einzigen Zeichen besteht.
Dementsprechend wird dann, wenn die in Zusammenhang mit dem ersten und vierten Beispiel beschriebene Komponenten- Zeichentabelle verwendet wird, geprüft, ob der Suchterm aus einem Zeichen besteht. Wenn dies der Fall ist, wird das Ergebnis der Komponenten-Zeichentabellen-Suche als das endgültige Widergewinnungsergebnis ausgegeben, woraufhin die Dokumenten-Wiedergewinnungsverarbeitung abgeschlossen wird. Wenn andererseits die Komponenten-Zeichentabelle verwendet wird, die unter Verwendung der zuvor in Zusammenhang mit dem fünften, sechsten und siebten Beispiel beschriebenen Hash- Funktion eingerichtet wurde, wird die Prüfung, ob der Suchterm aus einem Zeichen besteht, nicht vorgenommen, es wird jedoch die nachfolgende verdichtete Textsuche notwendigerweise ausgeführt. Anschließend werden die aufgeteilten Suchterme wie beim ersten Beispiel erzeugt.
Bei einem nächsten Verarbeitungsschritt wird die zuvor beschriebene Analyse der untergeordneten Wörter für jeden der aufgeteilten Suchterme ausgeführt. In diesem Fall besteht selbst dann, wenn einer der aufgeteilten Suchterme analytisch als das untergeordnete Wort bestimmt wird, die Möglichkeit, daß der ursprüngliche Suchterm aus dem verdichteten Text beseitigt worden ist. Dementsprechend wird die verdichtete Textsuche übersprungen und die Textkörpersuche einfach auf der Grundlage der Ergebnisse der Komponenten-Zeichentabellen- Suche ausgeführt. Wenn das Ergebnis der Analyse der untergeordneten Wörter dagegen zeigt, daß alle aufgeteilten Suchterme nicht die untergeordneten Wörter darstellen, wird die verdichtete Textsuche in der gleichen Weise wie beim ersten Beispiel ausgeführt. Wenn weder die Nähebedingung noch die Kontextbedingung gegeben ist oder wenn der aufgeteilte Suchterm dem Quellsuchterm oder dem ursprünglichen Suchterm gleicht, wird das Ergebnis der verdichteten Textsuche als das endgültige Ergebnis der Dokumenten-Wiedergewinnung ausgegeben, woraufhin die Wiedergewinnungsverarbeitung abgeschlossen wird. Wenn die Nähe- oder Kontextbedingung dagegen gegeben ist oder wenn sich der aufgeteilte Suchterm vom ursprünglichen Suchterm unterscheidet, wird dann die Textkörpersuche ausgeführt, deren Ergebnis als das endgültige Ergebnis der Dokumenten-Wiedergewinnung ausgegeben wird.
Es wird anhand der oben angegebenen Beschreibung des achten Beispiels verständlich sein, daß das Verdichtungsverhältnis des verdichteten Texts erhöht werden kann, wobei die für die Wiedergewinnungsverarbeitung in Anspruch genommene Zeit durch Verwenden des verdichteten Texts des auf der Zeichenart beruhenden zerlegten Typs mit ausgeschlossener Wiederholung und beseitigten untergeordneten Wörtern, aus dem die nutzlose Kette von untergeordneten Wörtern gelöscht worden ist, entsprechend verringert werden kann.
Als nächstes wird ein neuntes Beispiel der Vorsuchverarbeitung vom hierarchischen Typ beschrieben, bei der ein verdichteter Text des auf der Zeichenart beruhenden zerlegten Typs mit ausgeschlossener Wiederholung und beseitigten Hiragana-Ketten verwendet wird. Durch die Anordnung aus dem neunten Beispiel kann das Verdichtungsverhältnis des verdichteten Texts mit Sicherheit verbessert werden. Es besteht jedoch die Möglichkeit, daß die Analyse der untergeordneten Wörter fehlerhaft ausgeführt werden kann. In Wirklichkeit wird, auch wenn es selten ist, zusätzlich zur in Zusammenhang mit dem achten Beispiel erörtertern Hiragana-Zeichenkette " " eine solche Zeichenkette getroffen, die es unmöglich macht, lediglich unter Verwendung der Analyse der untergeordneten Wörter richtig zu entscheiden, welche Unterkette im wesentlichen ein untergeordnetes Wort ist. Es sei beispielsweise eine Zeichenkette " " angenommen. In diesem Fall ist es schwierig, zu entscheiden, ob eine Hiragana-Zeichenkette " " " (betreibt und dies)" oder " " (betreibt, während ein Hebel)" bedeutet. Im letzteren Fall macht es die Festlegung von " (Hebel)" als Suchterm, der nicht das untergeordnete Wort in dem hier verwendeten Sinn ist, schwierig, einen relevanten verdichteten Text wiederzugewinnen. Andererseits wird die Hiragana-Zeichenkette " " beim Erzeugen des verdichteten Texts als eine bedeutungslose untergeordnete Kette interpretiert und aus dem verdichteten Text gelöscht, was dann einen Grund für das Fortlassen des relevanten Texts aus der Wiedergewinnung bei der verdichteten Textsuche bietet.
Unter diesen Umständen wird beim neunten Beispiel daran gedacht, das Steuern der hierarchische Vorsuche unter Verwendung eines einfachen Unterscheidungsverfahrens zu verwirklichen, um zu entscheiden, ob ein Suchterm eine Hiragana- Zeichenkette ist, wodurch die Unvollständigkeit der oben in Zusammenhang mit dem achten Beispiel beschriebenen Analyse der untergeordneten Wörter ergänzt wird. Fig. 24 veranschaulicht ein Verfahren zum Erzeugen verdichteter Texte gemäß dem neunten Beispiel. Kurz gesagt werden gemäß diesem Verfahren Hiragana-Zeichenketten nach der auf der Zeichenart beruhenden Zerlegung gelöscht, um dadurch die sich wiederholende Registrierung auszuschließen.
Mit Bezug auf ein in Fig. 25 dargestelltes PAD-Diagramm wird nun der Vorgang zum Steuern der hierarchischen Vorsuche beschrieben, bei der der verdichtete Text des auf der Zeichenart beruhenden zerlegten Typs mit ausgeschlossener Wiederholung und beseitigten Hiragana-Ketten verwendet wird. Zuerst wird die Komponenten-Zeichentabellen-Suche wie beim achten Beispiel ausgeführt. Anschließend werden aufgeteilte Suchterme (d. h. Suchzeichen-Unterketten) erzeugt. Als nächstes wird geprüft, ob jeder der aufgeteilten Suchterme oder jede der aufgeteilten Unterketten eine Hiragana-Kette ist. Falls einer der aufgeteilten Suchterme eine Hiragana-Kette ist, wird die verdichtete Textsuche nicht vorgenommen, sondern die Textkörpersuche direkt auf der Grundlage des Ergebnisses der Komponenten-Zeichentabellen-Suche ausgeführt. Wenn die aufgeteilten Suchterme dagegen überhaupt keine Hiragana- Zeichenketten aufweisen, wird die verdichtete Textsuche ausgeführt, wie zuvor in Zusammenhang mit dem ersten Beispiel beschrieben wurde. In diesem Fall wird die Wiedergewinnungsverarbeitung dann, wenn die Nähe- oder Kontextbedingung festgelegt ist oder wenn sich der aufgeteilte Suchterm vom ursprünglichen Suchterm unterscheidet, bis einschließlich der Textkörpersuche fortgesetzt.
Es wird anhand der oben angegebenen Beschreibung des neunten Beispiels verständlich sein, daß die richtige Volldokumenten-Wiedergewinnung unter Verwendung des verdichteten Texts, aus dem alle Hiragana-Zeichenketten gelöscht worden sind, ohne Fortlassen von Text verwirklicht werden kann.
Als nächstes wird ein zehntes Beispiel beschrieben.
Beim Volltext-Wiedergewinnungssystem gemäß dem neunten Beispiel tritt die Notwendigkeit des direkten Hinzuziehens des Textkörpers auf, wenn ein aus Hiragana-Zeichen bestehender Suchterm gegeben ist. Dadurch wird viel Zeit für die Wiedergewinnungsverarbeitung benötigt. Beim zehnten Beispiel wird daran gedacht, ein Verfahren bereitzustellen, bei dem das Volldokumenten-Wiedergewinnen selbst dann mit einer hohen Geschwindigkeit ausgeführt werden kann, wenn ein Suchterm aus Hiragana-Zeichen gegeben ist. Zu diesem Zweck wird vorgeschlagen, daß verdichtete Texte, in denen Hiragana-Zeichenketten registriert sind, die bei der Dokumenten-Wiedergewinnung gemäß dem neunten Beispiel beseitigt werden, zusätzlich zu den darin verwendeten verdichteten Texten erzeugt werden. Insbesondere wird es nach dem auf der Zeichenart beruhenden Zerlegen und dem Ausschließen der Wiederholung entschieden, ob verbleibende Zeichenunterketten Hiragana-Zeichenketten sind, woraufhin andere Zeichenketten als die Hiragana-Kette als ein verdichteter Text A registriert werden, während die Hiragana-Zeichenketten als ein verdichteter Text B registriert werden, wie in Fig. 26 dargestellt ist.
Durch diese Anordnung kann die Suche an den verdichteten Texten B ausgeführt werden, wenn ein nur aus Hiragana-Zeichen bestehender Suchterm gegeben ist, wodurch die für die Wiedergewinnung in Anspruch genommene Zeit weiter verringert werden kann. Ein praktisches Beispiel des Steuervorgangs für die hierarchische Vorsuche ist in Fig. 27 dargestellt. Mit Bezug auf diese Figur sei bemerkt, daß zuerst die Komponenten-Zeichentabellen-Suche in der gleichen Weise, wie zuvor in Zusammenhang mit dem achten Beispiel beschrieben ist, ausgeführt wird. Wenn diese Suche zu null oder keiner Wiedergewinnung führt, wird die Verarbeitung zu diesem Zeitpunkt beendet. Anschließend werden aufgeteilte Suchterme erzeugt, die dann in einen nur aus einer Hiragana-Zeichenkette bestehenden Term und in einen aus einer anderen Zeichenkette als den Hiragana- Zeichen bestehenden Term eingestuft werden, worauf die Suche am verdichteten Text B folgt, wenn der aufgeteilte Suchterm aus einer Hiragana-Zeichenkette existiert. Danach wird die Wiedergewinnungsverarbeitung in der gleichen Weise wie beim ersten Beispiel der Erfindung bis zur Textkörpersuche fortgesetzt, wenn die Nähe-/Kontextbedingung gegeben ist oder wenn sich der aufgeteilte Suchterm vom ursprünglichen Suchterm unterscheidet.
Auf diese Weise können die verdichteten Texte, indem die aus Hiragana-Zeichen bestehenden vedichteten Texte getrennt von den aus den anderen als Hiragana-Zeichen gebildeten gespeichert werden, ungeachtet der Typen oder Arten der den Suchterm bildenden Zeichen wirksamer und effizienter verwendet werden, wodurch eine schnelle Volldokumenten-Wiedergewinnung stets gewährleistet werden kann.
Als nächstes wird ein elftes Beispiel beschrieben.
Dieses Beispiel betrifft ein Dokumenten-Wiedergewinnungssystem, bei dem unabhängige verdichtete Texte jeweils für unterschiedliche Zeichenarten zum Erhöhen des Verdichtungsverhältnisses des verdichteten Texts verwendet werden. In diesem Zusammenhang kann der verdichtete Text als der verdichtete Text des auf der Zeichenart beruhenden zerlegten Typs mit ausgeschlossener Wiederholung und auf der Zeichenart beruhender Registrierung bezeichnet werden. Zum Erzeugen des verdichteten Texts dieses Typs werden die nach der auf der Zeichenart beruhenden Zerlegung und der eine wiederholte Registrierung ausschließenden Verarbeitung verbleibenden Zeichenketten hinsichtlich der Zeichenart unterschiedlich identifiziert, um dadurch einen verdichteten Text H aus Hiragana-Zeichen, einen verdichteten Text I aus Katakana-Zeichen, einen verdichteten Text J aus Kanji-Zeichen, einen verdichteten Text K aus alphabetischen Zeichen, einen verdichteten Text L aus numerischen Zeichen und einen verdichteten Text m aus Symbolen oder anderen Zeichen für die Registrierung einzustufen, wie in Fig. 28 dargestellt ist.
Durch eine solche Anordnung kann die für die Dokumenten- Wiedergewinnung in Anspruch genommene Zeit weiter verringert werden. Wenn eine Text-Wiedergewinnung insbesondere beispielsweise mit Hilfe einer Kanji-Zeichen-Suche ausgeführt werden soll, ist es ausreichend, nur den verdichteten Text J aus Kanji-Zeichen zu suchen.
In diesem Zusammenhang ist ein typischer Steuervorgang für die hierzu dienende hierarchische Vorsuche in Fig. 29 dargestellt. Mit Bezug auf die Figur sei bemerkt, daß zuerst die Komponenten-Zeichentabellen-Suche in der gleichen Weise wie beim achten Beispiel ausgeführt wird. Wenn diese Vorsuche zu null oder keiner Wiedergewinnung führt, wird die Wiedergewinnungsverarbeitung abgeschlossen. Andernfalls werden anschließend aufgeteilte Suchterme erzeugt und abhängig von der Zeichenart eingestuft, wie oben erwähnt wurde. Als nächstes wird der zu suchende verdichtete Text entsprechend der Zeichenart des aufgeteilten Suchterms ausgewählt. Beispielsweise wird der verdichtete Text H für den aufgeteilten Suchterm aus Hiragana-Zeichen ausgewählt, während der verdichtete Text I für den aufgeteilten Suchterm aus Katakana-Zeichen usw. ausgewählt wird. Danach wird die Wiedergewinnungsverarbeitung in der gleichen Weise wie beim ersten Beispiel bis zur Textkörpersuche fortgesetzt, wenn die Nähe-/Kontextbedingung festgelegt ist oder wenn sich der aufgeteilte Suchterm vom ursprünglichen Suchterm unterscheidet.
Indem die verdichteten Textdateien jeweils getrennt für die unterschiedlichen Zeichenarten vorbereitet werden, um dadurch den Umfang jedes der einzelnen verdichteten Texte zu verringern, kann die Volldokumenten-Wiedergewinnung unter Verwendung des aus Zeichen einer Art, beispielsweise nur Kanji-Zeichen, nur Katakana-Zeichen oder nur Hiragana- Zeichen, bestehenden Suchterms mit einer höheren Geschwindigkeit ausgeführt werden.
Als nächstes wird mit Bezug auf die Fig. 30 und 31 ein zwölftes Beispiel beschrieben. Bei der vorliegenden Ausführungsform wird daran gedacht, die Erfindung unter Verwendung eines in PCT/JP/90/00774 vorgeschlagenen Dokumenten-Wiedergewinnungssystems zu verwirklichen.
Das Dokumenten-Wiedergewinnungssystem weist eine Tastatur 3001, ein Suchabfrage-Analyseprogramm 3002, einen Bitsuchprozessor 3007a, eine Kettensuchmaschine 3006, einen Entscheidungsmikropozessor 3045a für die zusammengesetzte Bedingung, einen Suchergebnisspeicher 3046, einen Bildschirm 3020, eine Halbleiter-Speichereinheit 3010a, eine RAM-Platteneinheit 3010b, eine Satztyp-Magnetplatteneinheit 3010c und ein Suchausführungs-Steuerprogramm 3008 als Hauptkomponenten auf. Die Halbleiter-Speichereinheit 3010a ist dafür vorgesehen, die Komponenten-Zeichentabelle zu speichern, während die verdichteten Texte dafür vorgesehen sind, in der RAM-Platteneinheit 30 gespeichert zu werden, wobei die Texte in der Satztyp-Magnetplatteneinheit 3010c gespeichert werden. Es sei jedoch erwähnt, daß die Komponenten-Zeichentabelle und die verdichteten Texte zuvor in der Satztyp-Magnetplatteneinheit 3010c gespeichert werden und bei Inbetriebnahme des Dokumenten-Wiedergewinnungsystems gemäß der vorliegenden Ausführungsform in die Halbleiter-Speichereinheit 3010a bzw. die RAM-Platteneinheit 3010b geladen werden.
Der Vorgang zum Steuern der hierarchischen Vorsuche gleicht dem bei den vorhergehenden Beispielen. Das zwölfte Beispiel unterscheidet sich vom letzteren in der Hinsicht, daß die Komponenten-Zeichentabelle im Halbleiterspeicher gespeichert ist, die verdichteten Texte in der RAM-Platte und die Texte in der Satztyp-Magnetplatteneinheit gespeichert sind und daß der für die Komponenten-Zeichentabellen-Suche vorgesehene Mikroprozessor in Verbindung mit der für die verdichtete Textsuche und die Textkörpersuche vorgesehenen Kettensuchmaschine bereitgestellt ist.
Weiter unten wird der Wiedergewinnungsverarbeitungs-Vorgang bei diesem System beschrieben.
Die über die Tastatur 3001 eingegebene Abfragebedingungsanweisung wird durch das auf einem die Suchmaschine steuernden Mikroprozessor MPU03050 laufende Suchabfrage- Analyseprogramm 3002 analysiert. Insbesondere teilt das Suchabfrage-Analyseprogramm 3002 die eingegebene Abfragebedingungsanweisung in einen Suchterm-(Schlüsselwort)-Teil und einen die zusammengesetzte Bedingung beschreibenden Teil auf, der die Einschlußbedingung und die Anordnungsbedingung der Suchterme beschreibt. Die Einschlußbedingung ist als eine Boolesche oder eine logische Bedingung gegeben, während die Anordnungsbedingung in Form der Nähebedingung oder der Kontextbedingung gegeben ist.
Nach der Aufteilungs- und Wiedergewinnungsverarbeitung wird der Suchtermteil zu einem auch am Mikroprozessor MPU3050 laufenden Synonymerzeugungsprogramm 3003 übertragen, während der die zusammengesetzte Bedingung beschreibende Teil zum Programm 3041 zur Analyse der zusammengesetzten Bedingung übertragen wird.
Mit dem Synonymerzeugungsprogramm 3003 werden Synonyme des eingegebenen Suchterms unter Hinzuziehen eines im Programm 3003 vorhandenen Synonymwörterbuchs festgelegt. Beim in Fig. 30 dargestellten Beispiel werden Synonyme " ", " ", "COMPUTER" und dergleichen aus einem Eingabe- Schlüsselwort " " erzeugt.
Mit einem Rechtschreibvarianten-Erzeugungsprogramm 3002 wird der zu ihm übertragene Eingangssuchterm weiterhin einer Rechtschreibvarianten-Erzeugungsverarbeitung unterzogen, wodurch Rechtschreibvarianten des Eingabesuchterms erzeugt werden. Beim in Fig. 30 dargestellten Beispiel wird " " aus " " erzeugt, wobei "Computer" aus "COMPUTER" erzeugt wird.
Die der Synonymerzeugungsverarbeitung und der Rechtschreibvarianten-Erzeugungsverarbeitung unterzogenen Suchterme werden dann einem auf einem Automaterzeugungs-Mikroprozessor MPU3005a laufenden Automaterzeugungsprogramm 3005 zugeführt.
Mit dem Automaterzeugungsprogramm 3005 wird ein Automat zum Ausführen einer Stapel-Gleichheitsprüfungs- (En-bloc- Gleichheitsprüfungs-) oder Vergleichsverarbeitung an den zum Programm 3005 übertragenen Suchtermen erzeugt, woraufhin der Automat in Form einer Zustandsübertragungstabelle und von Identifikationscodeinformationen der der Anpassungsverarbeitung zu unterziehenden Suchterme, in die Suchmaschine eingesetzt wird. Es sei am Rande bemerkt, daß die Suchmaschine 3006 als eine auf einem endlichen Automat beruhende schnelle Mehrzeichenketten-Anpassungsschaltung verwirklicht wird.
Die aus der Verarbeitung durch das Rechtschreibvarianten-Erzeugungsprogramm 3004 resultierenden Suchwörter werden zusammen mit dem relevanten Eingangssuchwort zu einem auf einem Bitsuchmikroprozessor MPU3007a laufenden Bitsuchprogramm übertragen.
Andererseits werden die Nähebedingung, die Kontextbedingung und die Boolesche Bedingung, wie eine logische UND-, ODER- oder ähnliche Bedingung, vom Suchabfrage-Analyseprogramm 3002 über ein Programm 3041 zur Analyse der zusammengesetzten Bedingung, ein Nähebedingungs-Analyseprogramm 3042, ein Kontextbedingungs-Analyseprogramm 3043 und ein Programm 3044 zur Analyse der Booleschen Bedingung zum Entscheidungsprogramm 3045 für die zusammengesetzte Bedingung übertragen.
Nachdem für die Dokumenten-Wiedergewinnung erforderliche Abfrageinformationen dem Bitsuchprogramm 3007, der Kettensuchmaschine 3003 und dem Entscheidungsprogramm 3045 für die zusammengesetzte Bedingung zugeführt worden sind, aktiviert das Suchsteuerungs-Ausführungsprogramm 3008 zuerst das Bitsuchprogramm 3007.
Das Bitsuchprogramm 3007 liest dann die in der Halbleiter-Speichereinheit 3010a gespeicherte Komponenten-Zeichentabelle, um dadurch die Komponenten-Zeichentabellen-Suche auszuführen, deren Ergebnis im Suchergebnisspeicher 3046 gespeichert wird.
Beim Abschließen der Komponenten-Zeichentabellen-Suche zieht das Suchausführungs-Steuerprogramm 3008 den Suchergebnisspeicher 3046 hinzu. Wenn die Anzahl der Suchergebnisse null ist, wird kein Ergebnis oder null als das Wiedergewinnungsergebnis ausgegeben, woraufhin die Wiedergewinnungsverarbeitung unterbrochen wird. Andernfalls wird die Kettensuchmaschine 3006 aktiviert, und der verdichtete Text des während der Komponenten-Zeichentabellen-Suche, deren Ergebnis im Suchergebnisspeicher 3046 gespeichert ist, getroffenen Dokuments aus der RAM-Platteneinheit 2910b ausgelesen und nachfolgend zur Kettensuchmaschine 3006 gesendet, um zu ermöglichen, das die letztere die verdichtete Textsuche ausführt. Die Bedingungsentscheidung, ob das Ergebnis der ver dichteten Textsuche null ist, wird durch das Suchausführungs- Steuerprogramm 3008 ausgeführt.
Die Kettensuchmaschine 3006 führt unter Verwendung der aufgeteilten Suchterme die Textsuche an den aus der RAM-Platteneinheit 3010b ausgelesenen verdichteten Texten aus. Die von der verdichteten Textsuche erhaltenen Ergebnisse der Gleichheitsprüfung oder des Vergleichs werden anschließend zum Entscheidungsprogramm 3045 für die zusammengesetzte Bedingung gesendet, das dann die den Suchtermen auferlegte logische Bedingung festlegt und anschließend Dokumentidentifizierer von die logische Bedingung erfüllenden Dokumenten im Suchergebnisspeicher 3046 speichert.
Nach dem Abschließen der verdichteten Textsuche bezieht sich das Suchausführungs-Steuerprogramm 3008 nochmals auf den Suchergebnisspeicher 3046. Wenn die Anzahl der Ergebnisse null ist, wird kein Ergebnis oder null als das Ergebnis der Wiedergewinnung ausgegeben.
Wenn das Wiedergewinnungsergebnis nicht null ist, werden die aus der Suche erhaltenen Dokumentidentifizierer nur dann aus dem Suchergebnisspeicher ausgelesen, wenn die Nähe-/Kontextbedingung auferlegt ist oder wenn sich die aufgeteilten Suchterme vom ursprünglichen Suchterm unterscheiden, woraufhin die den Dokumentidentifizierern entsprechenden Texte aus der Satztyp-Magnetplatteneinheit 3010c ausgelesen und anschließend zur Kettensuchmaschine 3006 gesendet werden, die dann veranlaßt wird, die Textkörpersuche auszuführen. Wenn die Nähe-/Kontextbedingung nicht auferlegt ist und wenn der aufgeteilte Suchterm mit dem ursprünglichen Suchterm identisch ist, wird das im Suchergebnisspeicher gespeicherte Suchergebnis als das Wiedergewinnungsergebnis ausgegeben.
Die Kettensuchmaschine 3006 führt die Textkörpersuche aus, indem sie die aus der Satztyp-Magnetplatteneinheit 3010c ausgelesenen Texte sucht. Das Ergebnis der Textkörpersuche wird zum Entscheidungsprogramm 3045 für die zusammengesetzte Bedingung übertragen, das dann über die den Suchtermen auferlegte logische Bedingung sowie die Nähe-/Kontextbedingung entscheidet, wodurch die Dokumentidentifizierer jener Dokumente, die die oben erwähnten Bedingungen erfüllen, aufeinanderfolgend im Wiedergewinnungsergebnis-Speicher 3046 gespeichert werden.
Wenn die Suchverarbeitung bis einschließlich der Textkörpersuche ausgeführt wird, bezieht sich das Suchausführungs-Steuerprogramm 3008 auf das Wiedergewinnungsergebnis- Speicherprogramm 3046, um dadurch das Ergebnis der Wiedergewinnung auszugeben, woraufhin die Dokumenten-Wiedergewinnungsverarbeitung an ihr Ende gelangt.
Es wird anhand des oben Erwähnten verständlich sein, daß die Textkörperdaten mit einem relativ großen Umfang in der Magnetplatteneinheit gespeichert sind, während die Komponenten-Zeichentabelle und die verdichteten Texte mit einem relativ geringen Umfang im Halbleiterspeicher und in der RAM- Platteneinheit gespeichert sind. Durch dieses Merkmal kann die Volltext-Wiedergewinnungsverarbeitung selbst für eine Großdatenbank mit einer hohen Geschwindigkeit verwirklicht werden.
Als nächstes wird ein dreizehntes Beispiel beschrieben, bei dem die verdichteten Texte in einer Magnetplatteneinheit gespeichert werden können.
Bei der Anwendung, bei der die verdichteten Texte in der Magnetplatteneinheit gespeichert sind, kann die hierarchische Vorsuche durch Optimieren des mit der hierarchischen Vorsuche verbundenen Steuervorgangs mit einer höheren Geschwindigkeit als die herkömmliche hierarchische Vorsuche einer gleichen Struktur ausgeführt werden, wie weiter unten erklärt wird.
Die Magnetplatteneinheit ist gewöhnlich mit einem mechanisch betätigten Magnetkopf ausgestattet. Dementsprechend kann das Stapelinformationslesen aus der Magnetplatte (als sequentieller Zugriff bezeichnet) mit einer höheren Geschwindigkeit als das sprungweise Informationslesen (als der sprungweise Zugriff bezeichnet) ausgeführt werden. Unter der Annahme, daß die Dokumente einen gleichmäßigen Umfang aufweisen und die Ablesegeschwindigkeit beim sprungweisen Zugriff durch VSKIP (MB/s), die Lesegeschwindigkeit beim sequentiellen Zugriff durch Vseq (MB/s), die Anzahl der Dokumente in der gesamten Datenbank durch Na und die Anzahl der Ergebnisse bei der Komponenten-Zeichentabellen-Suche durch Nc dargestellt ist, kann die Zugriffszeit durch Ausführen der Suche aller verdichteten Texte durch den sequentiellen Zugriff kürzer als durch den auf der Grundlage der Komponenten-Zeichentabellen- Suche ausgeführten sprungweisen Zugriff gemacht werden, wenn die folgende Bedingung erfüllt ist.
Nc > (VSKIP / VSEQ) · Na (12-1)
Dementsprechend wird die Anzahl der Wiedergewinnungsergebnisse nach der Komponenten-Zeichentabellen-Suche durch Ausführen des Programms zum Steuern der hierarchischen Vorsuche bestimmt, und wenn herausgefunden wird, daß die Anzahl der die Bedingung (12-1) erfüllenden Treffer erreicht worden ist, wird das Ergebnis der Komponenten-Zeichentabellen-Suche vernachlässigt, woraufhin die verdichteten Texte aus der gesamten Datenbank gesucht werden.
Bei Verwendung des oben beschriebenen Verfahrens wird es unnötig, die RAM-Platte einer großen Kapazität zum Speichern der verdichteten Texte in der Magnetplatte zu verwenden. Dadurch kann die Volldokumenten-Wiedergewinnung mit einer relativ kostengünstigen Struktur des Dokumenten-Wiedergewinnungssystems bei einer relativ hohen Geschwindigkeit verwirklicht werden.
Es wird nun ein vierzehntes Beispiel beschrieben, bei dem die verdichteten Texte in einer Magnetplatteneinheit gespeichert sind.
Wenn die Nähe- und die Kontextbedingung festgelegt sind und die Anzahl der sich aus der Komponenten-Zeichentabellen- Suche ergebenden Wiedergewinnungen sehr gering ist, kann die für die ganze Wiedergewinnungsverarbeitung in Anspruch genommene Zeit durch direktes Suchen des Textkörpers auf der Grundlage des Ergebnisses der Komponenten-Zeichentabellen- Suche viel stärker verringert werden, ohne daß die verdichtete Textsuche ausgeführt wird.
Wenn nun die Rate der verdichteten Textsuche durch Vsr (in MB/s), diejenige der Textkörpersuche durch Vtx (in MB/s), die Anzahl der sich aus der Komponenten-Zeichentabellen-Suche ergebenden Wiedergewinnungen durch Nc, die Anzahl der sich aus der verdichteten Textsuche ergebenden Wiedergewinnungen durch Vsr, der Umfang der Daten für einen verdichteten Text durch Qsr und der Umfang der Daten für einen Text durch Qtx dargestellt wird, kann die für die ganze Wiedergewinnungsverarbeitung in Anspruch genommene Zeit durch direktes Ausführen der Textkörpersuche verringert werden, während die verdichtete Textsuche fortgelassen wird, wenn die folgende Bedingung erfüllt ist:
NcQsr / Vsr + NsrQtx / Vtx > NcQtx / Vtx (13-1)
Wenngleich die Anzahl der Wiedergewinnungsergebnisse Nsr unbestimmt bleibt, bis die verdichtete Textsuche tatsächlich ausgeführt worden ist, kann durch Voreinstellen einer Konstante bestimmt werden, ob die verdichtete Textsuche ausgeführt werden soll.
Wenn beispielsweise die Anzahl aller in einer Datenbank gespeicherten Dokumente durch Na und der Term Nsr durch
Nsr = α Na (wobei 0 < α < 1) (13-2)
dargestellt wird, kann der Ausdruck (13-1) folgendermaßen neu geschrieben werden:
Nc < αNa (Qtx / Vtx) / (Qtx / Vtx - Qsr / Vsr) (13-3)
Wenn die durch den obigen Ausdruck (13-3) gegebene Bedingung erfüllt ist, wird die Textkörpersuche direkt ausgeführt.
Indem der Wert von α zuvor als ein Schwellenwert vor der Dokumentenwiedergewinnung gesetzt wird, wird nach der Komponenten-Zeichentabellen-Suche entsprechend dem Ausdruck (13-3) bestimmt, ob die verdichtete Textsuche ausgeführt werden soll.
Unter Verwendung dieses Steuervorgangs kann die Volldokumenten-Suche oder -Wiedergewinnung unter Festlegung der Nähe-/Kontextbedingung mit einer hohen Geschwindigkeit verwirklicht werden.
Mit den Anordnungen aus dem dreizehnten und dem vierzehnten Beispiel kann das Text-Wiedergewinnungssystem verglichen mit dem System aus dem zwölften Beispiel mit weniger Kosten verwirklicht werden.
Zusätzlich zu den Systemen und Verfahren gemäß dem dreizehnten und vierzehnten Beispiel kann ein weiteres Verfahren vorgeschlagen werden, das die hierarchische Vorsuche durch Ausführen der Textkörpersuche direkt anhand der Komponenten- Zeichentabellen-Suche verwirklichen kann, während der Schritt der verdichteten Textsuche fortgelassen wird und die verdichteten Texte überhaupt nicht verwendet werden. Wenngleich der Umfang der zu durchsuchenden Texte gemäß diesem Verfahren mehr oder weniger zunimmt und eine entsprechend längere Zeit für die Wiedergewinnung erfordert, kann ein weniger teures Dokumenten-Wiedergewinnungssystem verwirklicht werden, weil die Verwendung der teuren RAM-Platte mit einer Verringerung der Magnetplattenkapazität nicht notwendig ist, die andernfalls zum Speichern der verdichteten Texte erforderlich wäre.
Weiterhin kann die hierarchische Vorsuche auch unter Verwendung eines solchen Steuerverfahrens verwirklicht werden, gemäß dem alle verdichteten Texte auf der RAM-Platte oder der Magnetplatte direkt ohne Verwendung der Komponenten- Zeichentabelle gesucht werden, woraufhin die Textkörpersuche nur in dem Fall ausgeführt wird, in dem die Abfragebedingung hinsichtlich der Anordnungsbeziehung zwischen den Suchtermen, wie der Nähe-/Kontextbedingung, festgelegt ist. Wenngleich dieses Verfahren infolge einer Erhöhung des Umfangs der zu suchenden verdichteten Texte mit einer gewissen Erhöhung der für die Wiedergewinnung in Anspruch genommenen Zeit verbunden ist, kann sich die Verwendung des Halbleiterspeichers zum Speichern der Komponenten-Zeichentabelle erübrigen, wodurch das Dokumenten-Wiedergewinnungssystem mit entsprechend verringerten Kosten verwirklicht werden kann.
Es sei weiterhin erwähnt, daß anstelle der in den bisher beschriebenen Ausführungsformen verwendeten Komponenten- Zeichentabelle vom Bitlisten-Typ eine solche Komponenten- Zeichentabelle verwendet werden kann, in der die Zeichencodes selbst gespeichert werden, statt daß ein Zeichen durch ein Bit dargestellt wird, wie in Fig. 33 dargestellt ist. Überdies kann die Kapazität der Komponenten-Zeichentabelle verringert werden, indem eine Entsprechung zwischen einem Zeicheneintrag und mehreren Zeichen unter Verwendung der zuvor in Zusammenhang mit dem fünften, sechsten und siebten Beispiel beschriebenen Hash-Funktion hergestellt wird. Die Komponenten-Zeichentabellen-Suche, die auf der die oben erwähnten Zeichencodes speichernden Komponenten-Zeichentabelle beruht, kann durch Lesen von Daten aus der Datei auf einer Zeichen-für-Zeichen-Grundlage und Entscheiden über das Vorhandensein eines relevanten Zeichens wie bei der verdichteten Textsuche und der Textkörpersuche verwirklicht werden.
Unter Verwendung der Komponenten-Zeichentabelle, die nur die im Text verwendeten Zeichen enthält, kann nicht nur die Datenstruktur sondern auch die gesamte Wiedergewinnungsverarbeitung vereinfacht werden, weil die der verdichteten Textsuche und der Textkörpersuche ähnelnde Durchsuchung verwendet werden kann, während sich die bitbasierte Operation erübrigt, was ein weiterer Vorteil ist.
Es sei weiterhin erwähnt, daß die hierarchische Vorsuche gleichermaßen mit einer Systemanordnung verwirklicht werden kann, bei der die Komponenten-Zeichentabelle in der Magnetplatteneinheit gespeichert ist. In diesem Fall werden die Bitlisten der im Suchterm verwendeten und in der Komponenten- Zeichentabelle gespeicherten Zeichen aufeinanderfolgend aus der Magnetplatte ausgelesen und auf einer Bit-Grundlage verarbeitet. Falls die Zeichencodes in der oben beschriebenen Komponenten-Zeichentabelle intakt gespeichert sind, werden die Komponenten-Zeichentabellen-Daten aufeinanderfolgend ausgelesen, um dadurch das alle relevanten Zeichen enthaltende Dokument auszuwählen oder wiederzugewinnen.
Das Verfahren, bei dem die Komponenten-Zeichentabelle in der Magnetplatte gespeichert ist, erlaubt es, daß das Dokumenten-Wiedergewinnungssystem unter weit geringeren Kosten verwirklicht werden kann, weil der Halbleiterspeicher eingespart werden kann.
Als nächstes werden die Ausführungsformen fünfzehn bis einundzwanzig der vorliegenden Erfindung beschrieben, die im wesentlichen Verbesserungen oder vorteilhafte Modifikationen der Komponenten-Zeichentabellen-Struktur betreffen.
Mit Bezug auf Fig. 37 wird zuerst die fünfzehnte Ausführungsform der Erfindung beschrieben. Ein in dieser Figur dargestelltes Dokumenten-Verarbeitungsystem umfaßt eine Anzeigeeinheit 3700, eine Tastatur 3701, eine Zentralverarbeitungseinheit oder CPU 3702, eine Speicherdateieinheit 3710 mit einer Magnetplatte oder dergleichen, die als ein Speichermedium zum Speichern von Texten 3707, verdichteten Texten 3704 und einer verketteten Komponenten-Zeichentabelle 3705 dient, ein Diskettenlaufwerk oder FDD 3706 und einen Hauptspeicher 3800. In der Figur bezeichnet eine Bezugszahl 3707 eine Diskette.
Im Hauptspeicher 3800 sind ein Dokumentenregistrierungs- Steuerprogramm 3809, ein Textregistrierprogramm 3801, ein Programm 3802 zum Erzeugen/Registrieren eines verdichteten Texts, ein Programm 3803 zum Erzeugen/Registrieren einer verketteten Komponenten-Zeichentabelle, ein Programm 3807 zum Steuern einer hierarchischen Vorsuche, ein Suchabfrage-Analyseprogramm 3810, ein Komponenten-Zeichentabellen-Suchprogramm 3804, ein Programm 3805 zur verdichteten Textsuche und ein Textkörper-Suchprogramm 3806 gespeichert. Weiterhin wird ein Datenbereich 3808 im Hauptspeicher 3800 gesichert. Die oben erwähnten Programme werden von der CPU 3702 entsprechend über die Benutzertastatur 3701 eingegebenen Befehlen ausgeführt.
Beim Registrieren von Dokumenten wird über die Tastatur 3701 ein entsprechender Befehl eingegeben. In Reaktion auf den Befehl wird das Dokumentenregistrierungs-Steuerprogramm 3809 aktiviert, das wiederum zuerst das Textregistrierprogramm 3801 aktiviert, um dadurch Dokumentendaten aus der im Diskettentreiber 3706 angeordneten Diskette 3707 abzurufen, wodurch ermöglicht wird, daß die abgerufenenen Dokumentendaten als die Textdaten 3703 in der Speicherdatei 3710 gespeichert werden. In diesem Zusammenhang sei erwähnt, daß die Erfindung keinesfalls auf die Eingabe von Textdaten unter Verwendung der Diskette beschränkt ist. Die vorliegende Erfindung kann gleichermaßen auf eine solche Anordnung angewendet werden, bei der die Daten von einer anderen Einrichtung oder einem anderen System über eine Kommunikationsleitung oder ähnliche Schaltungen geladen werden. Daraufhin aktiviert das Dokumentenregistrierungs-Steuerprogramm 3809 das Programm 3802 zum Erzeugen/Registrieren eines verdichteten Texts, um den Text 3703 in Teil-Zeichenketten auf einer Wortebene zu zerlegen und wechselseitige Einschlußbeziehungen zu prüfen, die möglicherweise zwischen den aus der Zerlegung resultierenden Zeichenketten bestehen, um dadurch die von anderen Zeichenketten eingeschlossenen oder abgedeckten Zeichenketten zu beseitigen, wodurch ein verdichteter Text erzeugt wird, der aus einem Satz derjenigen Zeichenketten besteht, die keine Einschlußbeziehung zueinander aufweisen. Der auf diese Weise erzeugte verdichtete Text 3704 wird in der Speicherdatei 3710 gespeichert. Schließlich aktiviert das Dokumentenregistrierungs-Steuerprogramm 3809 das Programm 3802 zum Erzeugen/Registrieren einer verketteten Komponenten- Zeichentabelle, um dadurch eine Komponenten-Zeichentabelle 3705 zu erzeugen oder einzurichten, in der eine vorbestimmte Anzahl n von Zeichen einschließende und im Text 3703 verwendete Zeichenketten ohne Wiederholung gesammelt sind. Die so vorbereitete Komponenten-Zeichentabelle 3705 wird dann in der Speicherdatei 3710 als die verkettete Komponenten-Zeichentabelle 3705 gespeichert.
Beim Dokumenten-Wiedergewinnungsvorgang wird eine Suchabfrageanweisung über die Tastatur 3701 eingegeben und der CPU 3702 zugeführt, die darauf reagiert, indem sie zuerst das Programm 3807 zum Steuern der hierarchischen Vorsuche aktiviert, woraufhin das Suchabfrage-Analyseprogramm 3810, das Komponenten-Zeichentabellen-Suchprogramm 3804, das Programm 3805 zur verdichteten Textsuche und das Textkörper-Suchprogramm 3806 in dieser Reihenfolge gesteuert vom Programm 3807 zum Steuern der hierarchischen Vorsuche nacheinander aktiviert und ausgeführt werden.
Insbesondere wird beim Ausführen der Komponenten- Zeichentabellen-Suche ein von der eingegebenen Suchabfrageanweisung gegebener Suchterm in Teilzeichenketten aus jeweils n Zeichen aufgeteilt, woraufhin nur das Dokument oder der Text, der alle den Suchterm bildenden Zeichen enthält, gewonnen wird. Als nächstes wird in den verdichteten Texten, die den durch die Komponenten-Zeichentabellen-Suche gewonnenen Dokumenten entsprechen, nachgesehen, um dadurch das den gegebenen Suchterm enthaltende Dokument zu gewinnen. Falls die gegebene Suchabfrageanweisung nur einen einzigen Suchterm oder nur eine logische Beziehung unter mehreren Suchtermen festlegt, und falls sie nicht die Anordnungsbeziehung der Suchterme im Text festlegt, endet die Suchverarbeitung, indem das Ergebnis der verdichteten Textsuche als das Ergebnis der Dokumenten-Wiedergewinnung ausgegeben wird. In anderen Fällen, in denen die Anordnungsbeziehung(en) unter mehreren Suchtermen im Text durch die gegebene Suchabfrageanweisung festgelegt ist (sind), werden die den gewonnenen Dokumenten entsprechenden Textdaten dagegen durch die verdichtete Textsuche geprüft, um dadurch nur die Textdaten zu gewinnen, die den gegebenen Suchterm enthalten und die Bedingung hinsichtlich der den Suchtermen auferlegten Anordnungsbeziehung erfüllen. Die so gewonnenen Textdaten werden als das Ergebnis der Wiedergewinnungsverarbeitung ausgegeben. Als die Bedin gungen hinsichtlich der Anordnungsbeziehung der Suchterme können eine durch
" " [8C] " "
beispielhaft angegebene Nähebedingung, die "suche ein Dokument, in dem " " und " " in einer solchen Nähe erscheinen, daß diese Terme um nicht mehr als zehn Zeichen voneinander entfernt sind" vorschreibt, sowie eine durch
" " [S] " "
beispielhaft langegebene Kontextbedingung, die "suche ein Dokument, in dem die Terme " " und " " gleichzeitig in demselben Satz erscheinen" bedeutet, erwähnt werden.
Das oben Erwähnte ist ein Umriß des Volltext- Wiedergewinnungssystems gemäß der fünfzehnten Ausführungsform der Erfindung.
Nachfolgend werden die in der verketteten Komponenten- Zeichentabellen-Suche gemäß der vorliegenden Ausführungsform aufgenommenen Registrier- und Suchverarbeitungen im allgemeinen unter der Annahme beschrieben, daß die Längen der Zeichenkette in der verketteten Komponenten-Zeichentabelle gleich "2" ist. (Bei der Beschreibung der anderen folgenden Ausführungsformen wird dieselbe Annahme verwendet.)
Zuerst sei erwähnt, daß die Erzeugung der verketteten Komponenten-Zeichentabelle automatisch durch Ausführen des Programms zum Erzeugen/Registrieren einer verketteten Komponenten-Zeichentabelle vorgenommen wird, das durch das Dokumentenregistrierungs-Steuerprogramm beim Registrieren eines Dokuments aktiviert wird.
Die verkettete Komponenten-Zeichentabelle wird auf der Grundlage der Textdaten erzeugt. Zu diesem Zweck wird das Vorhandensein/Fehlen von Zeichenketten, die im Text auftreten und jeweils aus zwei Zeichen bestehen, durch eine Einbit- Information dargestellt. Beim in Fig. 40 dargestellten Dokument #1 wird beispielsweise ein Bit "1" für " " gesetzt, während "0" für " " gesetzt wird. In ähnlicher Weise wird " " das Bit "1" zugeordnet. Auf diese Weise wird den Zei chenketten in der verketteten Komponenten-Zeichentabelle abhängig davon, ob die relevante Zeichenkette im Text erscheint, das Bit "1" oder "0" zugewiesen oder zugeordnet.
Auf diese Weise wird die verkettete Komponenten- Zeichentabelle automatisch beim Registrieren eines Dokuments erzeugt, um dadurch die Ausführung der hierarchischen Vorsuche bei der Wiedergewinnungsverarbeitung vorzubereiten.
Als nächstes wird das Such- oder Wiedergewinnungsverfahren beschrieben.
Wenn eine Suchabfrageanweisung über die Tastatur eingegeben wird, wird das Programm 3807 zum Steuern der hierarchischen Vorsuche aktiviert, wodurch zuerst das Suchabfrage- Analyseprogramm 3810 ausgeführt wird. Daraufhin wird das Komponenten-Zeichentabellen-Suchprogramm 3804 aktiviert, wodurch die verkettete Komponenten-Zeichentabelle hinzugezogen wird, um dadurch die Auswahl der Zeichenketten in der Komponenten-Zeichentabelle zu ermöglichen, die allen im Suchterm enthaltenen Zeichenketten entsprechen und die mit Einsen versehen sind. Anschließend wird das Programm 3805 zur verdichteten Textsuche aktiviert, wodurch die durch die Komponenten-Zeichentabellen-Suche ausgewählten verdichteten Texte der Dokumente geprüft werden, um die Dokumente auszuwählen, die den durch die Eingabe-Suchabfrageanweisung gegebenen Suchterm enthalten. Schließlich wird durch die Textkörpersuche ein Text gefunden, der den an der die Suchabfrageanweisung erfüllenden Position auftretenden Suchterm enthält.
Mit Bezug auf ein PAD-Diagramm aus Fig. 41 wird nun der Vorgang des Steuerns der hierarchischen Vorsuche gemäß der vorliegenden Ausführungsform beschrieben. Zuerst wird die Komponenten-Zeichentabellen-Suche unter Verwendung von im Suchterm enthaltenen Zeichenketten ausgeführt. Wenn die Anzahl von Ergebnissen der Komponenten-Zeichentabellen-Suche null ist, wird das Wiedergewinnungsergebnis von null ausgegeben, woraufhin die Dokumenten-Wiedergewinnung abgeschlossen wird. Weiterhin wird dann, wenn der Suchterm nicht mehr als ein Zeichen enthält, das Ergebnis der Komponenten-Zeichen tabellen-Suche ausgegeben, woraufhin die Dokumenten-Wiedergewinnungsverarbeitung gleichfalls an ihr Ende gelangt.
Wenn der Suchterm aus zwei oder mehr Zeichen besteht und das Ergebnis der Komponenten-Zeichentabellen-Suche nicht null ist, wird dann die verdichtete Textsuche ausgeführt. Wenn das Ergebnis der verdichteten Textsuche null ist, wird in diesem Zusammenhang das Wiedergewinnungsergebnis von null ausgegeben, woraufhin die Dokumenten-Wiedergewinnungsverarbeitung abgeschlossen wird. Solange die Nähebedingung oder die Kontextbedingung festgelegt ist oder wenn nur der Suchterm vorliegt, der sich auf der Grundlage der Zeichenart, wie " " (Kombination von Katakana- und Kanji-Zeichenketten), aufteilen läßt, wird die Textkörpersuche ausgeführt. Andernfalls wird die hierarchische Vorsuche abgeschlossen, indem das Ergebnis der verdichteten Textsuche als das Dokumenten-Wiedergewinnungsergebnis ausgegeben wird.
Es werden nun ein Verfahren zum Erzeugen einer Komponenten-Zeichentabelle (die als die verkettete Komponenten-Zeichentabelle des vom Zeichencode abhängigen Typs bezeichnet werden kann) und ein Steuervorgang für die unter Verwendung der oben erwähnten Tabelle ausgeführte Komponenten-Zeichentabellen-Suche detailliert beschrieben.
Zuerst wird das Verfahren zum Erzeugen der bei der vorliegenden Ausführungsform verwendeten verketteten Komponenten-Zeichentabelle des vom Zeichencode abhängigen Typs beschrieben.
Wie in Fig. 42 dargestellt ist, wird die verkettete Komponenten-Zeichentabelle des vom Zeichencode abhängigen Typs so eingerichtet, daß verkettete Zeichen in Form einer Kette von Zeichencodes ausgedrückt werden. Beim in Fig. 42 dargestellten Beispiel wird angenommen, daß das Verschiebungs-JIS- Code-System verwendet wird, wenngleich es lediglich der Veranschaulichung dient. In dieser Figur stellt "XXXXXXXX)H" einen Zeichencode für ein erstes Zeichen durch zwei MSBs (bedeutsamere Bytes) in der Hexadezimalschreibweise dar, während ein Zeichencode eines zweiten Zeichens durch zwei LSB (weniger bedeutsame Bytes) dargestellt wird. Zur Angabe, daß eine Zeichenkette " " (wobei " " durch "8C6F" und " " durch "8DCF" dargestellt ist) in einem Text eines Dokuments #1 auftritt, wird ein Bit "1" an der Position (8C6F8DCF)H in einer Bitliste für das Dokument #1 gesetzt. Der einfachen Beschreibung halber wird die einer gegebenen betroffenen Zeichenkette entsprechende Bitposition als die Eintrags-ID- Nummer der Komponenten-Zeichentabelle bezeichnet. Demgemäß ist die Eintrags-ID-Nummer von " " beispielsweise durch "(8C6F8DCF)H" oder in der Dezimalschreibweise "2.356.121.039" gegeben.
Unter Verwendung der oben beschriebenen verketteten Komponenten-Zeichentabelle werden das Steuern der hierarchischen Vorsuche und der Text-Wiedergewinnungsvorgang in der unten mit Bezug auf Fig. 43 beschriebenen Weise ausgeführt. Zuerst wird der durch die Suchabfrageanweisung festgelegte Suchterm in Zweizeichen-Ketten (d. h. jeweils aus zwei Zeichen bestehende Zeichenketten) aufgeteilt, woraufhin die Bitliste aus der verketteten Komponenten-Zeichentabelle für jede der Zeichenketten ausgelesen wird. Die ausgelesenen Bitlisten werden dann einer logischen UND-Verknüpfung unterzogen. In diesem Fall wird ein Dokument bestimmt, das eine Bitliste aufweist, in der allen Positionen der Eintrags-ID-Nummern in der Bitliste, die den den gegebenen Suchterm bildenden Zeichencodes und der Kombination der Zeichencodes entsprechen, jeweils eine "1" zugeordnet ist. Wenn beispielsweise eine Zeichenkette " " als der Suchterm gegeben ist, wird ein solches Dokument, in dem das (83898343)H-te und das (83498393)H-te Bit in den " " bzw. " " entsprechenden Bitlisten Einsen sind, als das Ergebnis der verketteten Komponenten-Zeichentabellen-Suche ausgegeben, wie in Fig. 44 dargestellt ist. Insbesondere werden die Bitliste 1200 der " " angebenden Eintrags-ID-Nummer "(83898343)H" und die Bitliste der " " angebenden Eintrags-ID-Nummmer "(83498393)H" auf der Bit-für- Bit-Grundlage einer logischen UND-Verknüpfung unterzogen, um dadurch das Ergebnis 1202 der UND-Operation zu erhalten, wie in Fig. 44 dargestellt ist. Das Ergebnis 1202 der Bit-UND- Operation stellt das Dokument mit den entsprechenden Bitpositionen von "1" in den Bitlisten als das aus der verketteten Komponenten-Zeichentabellen-Suche resultierende getroffene Dokument dar. Mit anderen Worten werden das Dokument oder die Dokumente, die " " und " " enthalten, gewonnen.
Für einen aus zwei Zeichen bestehenden und die gleiche Länge wie die verketteten Zeichenketten aufweisenden Suchterm, wie " ", kann das Ergebnis der verketteten Komponenten-Zeichentabellen-Suche intakt als das Ergebnis der Dokumenten-Wiedergewinnung ausgegeben werden.
Weiterhin wird für einen nicht mehr als ein Zeichen enthaltenden Suchterm, wie " ", die Komponenten-Zeichentabelle auf einer Einzeichen-Grundlage erzeugt, um die Komponenten- Zeichentabellen-Suche in der gleichen Weise wie die zuvor beschriebene auszuführen.
Es wird anhand der oben angegebenen Beschreibung verständlich sein, daß die verkettete Komponenten-Zeichentabellen-Suche gemäß der vorliegenden Ausführungsform die gesamte Wiedergewinnungsgeschwindigkeit erhöhen kann, wodurch es ermöglicht wird, daß eine Volldokumenten-Wiedergewinnung durch eine vorläufige Registrierung von jeweils aus zwei Zeichen bestehenden Zeichenanordnungen oder -sätzen an einem großen Umfang von Dokumentendaten beim Dokumentenregistrieren ausgeführt wird, wodurch der Umfang verdichteter Texte, die beim hierarchischen Wiedergewinnungsvorgang wiedergewonnen werden sollen, verringert wird. Wenngleich in Zusammenhang mit der aktuellen Ausführungsform beschrieben wurde, daß die verkettete Komponenten-Zeichentabelle aus Zeichenketten besteht, die auf einer Zweizeichen-Grundlage miteinander gekoppelt sind, ist es leicht zu verstehen, daß die Tabelle auch auf einer Grundlage von drei oder mehr Zeichen eingerichtet werden kann, um eine ähnliche Komponenten-Zeichentabellen-Suche zu ermöglichen.
Als nächstes wird mit Bezug auf Fig. 45 eine sechzehnte Ausführungsform der Erfindung beschrieben, die ein Volldoku menten-Wiedergewinnungsverfahren betrifft, das das Dokumenten-Aussiebungs- oder Verringerungsverhältnis bei der verketteten Komponenten-Zeichentabellen-Suche durch Erlauben einer Wiederholung beim Aufteilen des Suchterms verbessern kann.
Es wird beispielsweise wiederum angenommen, daß eine Suchabfrageanweisung oder ein Suchterm " " gegeben ist. Dann wird bei einem ersten Schritt die verkettete Komponenten-Zeichentabellen-Suche ausgeführt. Bei der oben beschriebenen fünfzehnten Ausführungsform der Erfindung wird der gegebene Suchterm in Zeichenketten aus jeweils zwei Zeichen aufgeteilt, die sich nicht wiederholen, woraufhin das alle diese Zeichenketten enthaltende Dokument als das Ergebnis der verketteten Komponenten-Zeichentabellen-Suche ausgegeben wird. Wenn die Suchabfrageanweisung oder der Suchterm beispielsweise " " lautet, wird der Term in ein Paar von Zweizeichen-Ketten " " und " " eingeteilt, woraufhin das diese Zeichenketten enthaltende Dokument durch deren logische UND-Verknüpfung gesucht wird, wie beispielhaft durch
" " UND " "
angegeben ist.
Beim oben erwähnten Dokumenten-Suchverfahren ist jedoch ein " " und " " enthaltendes Dokument und zusätzlich sogar ein " " nicht enthaltendes Dokument im Wiedergewinnungsergebnis enthalten.
Zum Beseitigen dieses Suchrauschens wird gemäß der in der sechzehnten Ausführungsform enthaltenen Lehre der Erfindung vorgeschlagen, einen gegebenen Suchterm in Zeichenketten aus jeweils zwei Zeichen, die sich in den aus dem Aufteilen resultierenden Zeichenketten wiederholen, aufzuteilen, woraufhin das alle Zeichenketten enthaltende Dokument gesucht wird. Genauer gesagt wird der Suchterm " " in drei Zeichenketten " ", " " und " " aufgeteilt, wie in Fig. 45 dargestellt ist. Dann werden diese Zeichenketten einer logischen UND-Verknüpfung unterzogen. Nämlich
" " UND " " UND " "
Demgemäß kann das " " nicht enthaltende, jedoch " " und " " enthaltende Dokument aus dem Ergebnis der verketteten Komponenten-Zeichentabellen-Suche ausgeschlossen werden. Auf diese Weise kann bei der verketteten Komponenten-Zeichentabellen-Suche ein hohes Dokumenten-Aussiebungs- oder Verringerungsverhältnis erreicht werden.
Es wird anhand der oben angegebenen Beschreibung gemäß der in der sechzehnten Ausführungsform enthaltenen Lehre der Erfindung, daß der Suchterm in sich wiederholende Zeichenketten aufgeteilt wird, verständlich sein, daß eine erhöhte Anzahl von Dokumenten, die bei der verdichteten Komponenten- Zeichentabellen-Suche irrelevant zum Suchterm sind, verworfen werden kann, wodurch die Volldokumenten-Wiedergewinnung mit einer gegenüber der fünfzehnten Ausführungsform erhöhten Verarbeitungsgeschwindigkeit verwirklicht werden kann.
Als nächstes wird eine siebzehnte Ausführungsform der Erfindung beschrieben. Bei dieser Ausführungsform ist es beabsichtigt, die Kapazität der beim Dokumenten-Wiedergewinnungssystem gemäß der fünfzehnten Ausführungsform der Erfindung verwendeten verketteten Komponenten-Zeichentabelle zu verringern. Wenngleich die bei der fünfzehnten Ausführungsform verwendete Komponenten-Zeichentabelle des vom Zeichencode abhängigen Typs eine vereinfachte und erleichterte Verarbeitung bieten kann, weist sie insbesondere das Problem auf, daß die Tabellengröße infolge einer großen Länge der Bitliste für jedes Dokument relativ groß ist. Weil die Eintragsnummer außerdem ungeachtet des Fehlens eines relevanten Zeichencodes oder eines Satzes von Zeichencodes zugeordnet wird, weist die verkettete Komponenten-Zeichentabelle nicht wenige nutzlose Bereiche oder Orte auf, was ein weiteres Problem hervorruft. Beim Verschiebungs-JIS-Code-System treten beispielsweise keine für die Eintrags-ID-Nummern relevanten Zeichencodes auf, die zwischen (0000)H und (8140)H sowie zwischen (A000)H und (E040)H, d. h. in den Bereichen von der zehnten bis zur 33087ten Eintragsnummer bzw. von der 40960ten bis zur 57408ten Eintragsnummer liegen, wie in Fig. 47 darge stellt ist. Dessen ungeachtet muß die Komponenten-Zeichentabelle diese Bereiche für die Einträge aufweisen, weil die Eintrags-ID-Nummern abhängig von den Zeichencodes festgelegt werden. Falls die verkettete Komponenten-Zeichentabelle auf der Zweizeichen-Grundlage eingerichtet ist, sind alle Einträge nutzlos, die in Fig. 46 dargestellten leeren Bereichen entsprechen.
Gemäß der in der siebzehnten Ausführungsform enthaltenen Lehre der Erfindung wird es angesichts der Beseitigung der nutzlosen Bereiche in den Bitlisten vorgeschlagen, daß die verkettete Komponenten-Zeichentabelle so erzeugt wird, daß die Bitpositionen oder Orte beginnend mit der nullten Bitposition unter Verwendung einer Zeichencode-Umwandlungstechnik verwendet werden können, ohne daß eine Lücke oder Leerstelle (ein Abstand) zwischen den angrenzenden Bitpositionen vorhanden wäre. Diese verkettete Komponenten-Zeichentabelle wird als die verkettete Komponenten-Zeichentabelle vom Zeichencode-Umwandlungstyp bezeichnet. Das Text-Wiedergewinnungssystem, bei dem die verkettete Komponenten-Zeichentabelle vom Zeichencode-Umwandlungstyp verwendet wird, wird weiter unten in Einzelheiten beschrieben.
Als ein Beispiel des Zeichencode-Umwandlungsausdrucks zum Erzeugen der Komponenten-Zeichentabelle vom Zeichencode- Umwandlungstyp kann das folgende erwähnt werden.
SCODE = (SJIS_H & 0xBF) X 0xC0 + SJIS_L - 0x6000 (17-1)
Im oben angegebenen Ausdruck stellt "SJIS_H" ein MSB (bedeutsameres Byte) des ursprünglichen Verschiebungs-JIS- Codes dar, wobei SJIS_L ein LSB von diesem darstellt und "SCODE" der Umwandlung unterzogene Zeichencodes darstellt. In diesem Zusammenhang sei erwähnt, daß das KEIS-Code-System oder ein anderes Codesystem, für das eine Entsprechung zum Verschiebungs-JIS-Code-System hergestellt werden kann, entsprechend einem dem oben erwähnten ähnelnden Ausdruck gleichermaßen in das SCODE-System umgewandelt werden kann.
Fig. 45 zeigt die entsprechend dem Ausdruck (17-1) erfolgende Umwandlung in Form einer Komponenten-Zeichentabelle. Wie aus Fig. 45 auch ersichtlich ist, werden die Zeichencodes, die zwischen (0000)H und (FFFF)H angeordnet und als
(8140)H bis (9FFC)H und
(E040) bis (FFFC)H
verteilt sind, so umgewandelt, daß sie ohne einen Zwischenraum beginnend mit dem Zeichencode (0000)H angeordnet werden.
Durch die entsprechend dem Ausdruck (17-1) erfolgende Codeumwandlung kann die Länge der Bitliste erheblich verringert werden, wie in Fig. 48 ersichtlich ist, was wiederum bedeutet, daß die gesamte verkettete Komponenten-Zeichentabelle auf eine äußerst geringe Kapazität verringert werden kann.
Zum Erzeugen der verketteten Komponenten-Zeichentabelle vom Zeichencode-Umwandlungstyp werden wie bei der Tabelle des vom Zeichencode abhängigen Typs zwei verkettete oder angrenzende Zeichen aus dem Text ausgelesen, wie in Fig. 49 dargestellt ist. Die so ausgelesenen Zeichenpaare werden dann der entsprechend dem Ausdruck (17-1) erfolgenden Zeichencode- Umwandlung unterzogen, woraufhin Einsen für die jeweils den Zeichenpaaren entsprechenden Bits der Komponenten-Zeichentabelle vom Code-Umwandlungstyp gesetzt werden.
Wie in Fig. 50 dargestellt ist, wird beim Suchvorgang ein in der Suchabfrageanweisung gegebener Suchterm in Paare angrenzender oder verketteter Zeichen aufgeteilt, woraufhin die Zeichenpaare der entsprechend dem Ausdruck (17-1) erfolgenden Zeichencode-Umwandlung unterzogen werden. Anschließend werden die Bitlisten für jede aufgeteilte Zeichenkette aus der verketteten Komponenten-Zeichentabelle ausgelesen und auf der Bit-für-Bit-Grundlage einer logischen UND-Verknüpfung unterzogen.
Die Steuerung für die hierarchische Vorsuche ist mit der zuvor in Zusammenhang mit der fünfzehnten Ausführungsform der Erfindung beschriebenen identisch, wobei jedoch alle eingegebenen Suchterme bei der verketteten Komponenten-Zeichentabel len-Suche der entsprechend dem Ausdruck (17-1) erfolgenden Zeichencode-Umwandlungsverarbeitung unterzogen worden sind. Insbesondere wird der in Fig. 41 dargestellte Steuervorgang ohne eine Modifikation verwendet, um zuerst die verkettete Komponenten-Zeichentabellen-Suche unter Verwendung der im Suchterm enthaltenen Zeichenketten auszuführen, worauf die verdichtete Textsuche unter Verwendung des Suchterms (der Suchterme) folgt. Wenn die Kontextbedingung nicht gegeben ist, wird das Ergebnis der verdichteten Textsuche als das Wiedergewinnungsergebnis ausgegeben, woraufhin die Dokumenten-Wiedergewinnungsverarbeitung abgeschlossen wird. Wenn die Kontextbedingung andererseits festgelegt ist, wird die Textkörpersuche als der dritte Suchschritt ausgeführt, woraufhin das Ergebnis der Textkörpersuche als das Dokumenten-Wiedergewinnungsergebnis ausgegeben wird.
Die Lehre der vorliegenden Erfindung hinsichtlich der Verwendung der verketteten Komponenten-Zeichentabelle vom Zeichencode-Umwandlungstyp zum Verringern der Tabellenkapazität wird anhand der oben angegebenen Beschreibung der siebzehnten Ausführungsform der Erfindung verständlich sein. Insbesondere wird die verkettete Komponenten-Zeichentabelle gemäß der in der siebzehnten Ausführungsform enthaltenen Lehre der Erfindung erzeugt, indem die der Codeumwandlung unterzogenen Zeichencodes an den Bitpositionen ohne einen Zwischenraum beginnend mit dem nullten Bit angeordnet werden, wodurch die Einträge in der verketteten Komponenten-Zeichentabelle, denen keine Zeichencodes zugeordnet sind, beseitigt werden können, wodurch der Vorteil erzielt wird, daß die verkettete Komponenten-Zeichentabelle bei einer wesentlich verringerten Kapazität eingerichtet werden kann.
Es wird nun eine achtzehnte Ausführungsform der Erfindung beschrieben, bei der es beabsichtigt ist, die Kapazität der durch den oben in Zusammenhang mit der siebzehnten Ausführungsform beschriebenen Vorgang erhaltenen verketteten Komponenten-Zeichentabelle unter Verwendung eines Hash-Verfahrens weiter zu verringern.
Es wird bei der achtzehnten Ausführungsform der Erfindung im Hinblick auf das Verringern der Kapazität der gemäß der siebzehnten Ausführungsform erzeugten verketteten Komponenten-Zeichentabelle daran gedacht, mehrere Zeichen oder Zeichenketten einem einzigen Eintrag in der Bitliste zuzuordnen. Insbesondere wird ein Verfahren zum Herstellen von Entsprechungen zwischen den im Suchterm enthaltenen Zeichenketten und den Bitpositionen in der Bitliste unter Verwendung eines Hash-Funktion eingesetzt. Die hierzu dienende Hash- Funktion kann folgendermaßen ausgedrückt werden.
h((SCODE1)(SCODE2)) = mod ((SCODE1)(SCODE2), N) (18-1)
wobei "SCODE1" einen aus der zuvor erwähnten entsprechend dem Ausdruck (17-1) erfolgenden Codeumwandlung des Verschiebungs- JIS resultierenden ersten Zeichencode und "SCODE2" einen aus der Umwandlung des Verschiebungs-JIS resultierenden zweiten Zeichencode darstellt. Weiterhin stellt "mod" eine zur Ausgabe eines aus dem Dividieren eines ersten Arguments durch ein zweites Argument resultierenden Rests verwendete Funktion und "N" einen gegebenen ganzzahligen Wert dar. Unter der Annahme, daß beispielsweise "4096" als ein Wert von N verwendet wird, wird " ("tun" im Englischen)" die Eintrags-ID- Nummer "618" zugeordnet.
Als nächstes wird der Wiedergewinnungsvorgang gemäß der vorliegenden Ausführungsform mit Bezug auf Fig. 51 beschrieben. Es sei daran erinnert, daß bei der fünfzehnten Ausführungsform der Erfindung dann, wenn der Suchterm aus zwei Zeichen besteht, die hierarchische Vorsuche nach der verketteten Komponenten-Zeichentabellen-Suche durch Ausgeben des Ergebnisses von dieser abgeschlossen wird. Bei der vorliegenden Ausführungsform der Erfindung ist es dagegen erforderlich, die hierarchische Vorsuche fortlaufend bis einschließlich der verdichteten Textsuche auszuführen, weil bei der Komponenten-Zeichentabellen-Suche, die an der bei der vorliegenden Ausführungsform verwendeten verketteten Komponenten- Zeichentabelle ausgeführt wird, möglicherweise Suchrauschen erzeugt wird. Beispielsweise wird einer durch "(82BB82B1)H" gemäß dem Verschiebungs-JIS-Code-System dargestellten Hiragana-Kette " " die Eintrags-ID-Nummer "561" entsprechend dem Ausdruck (18-1) zugeordnet. In diesem Zusammenhang sei bemerkt, daß einer durch einen Verschiebungs-JIS-Code "(8D7387F1)H dargestellten Kanji-Zeichenkette " " auch dieselbe Eintrags-ID-Nummer "561" zugeordnet wird. Dies bedeutet, daß die die Hiragana-Zeichenkette " " enthaltenden Dokumente auch als das Wiedergewinnungsergebnis der Komponenten-Zeichentabellen-Suche ausgegeben werden, wenn die Kanji-Zeichenkette " " als ein Suchterm festgelegt ist. Unter diesen Umständen ist es erforderlich, die verdichteten Texte zu durchsuchen, um dadurch das tatsächlich die Kanji- Zeichenkette " " enthaltende Dokument zu gewinnen und es als dieses Wiedergewinnungsergebnis auszugeben.
Mit Bezug auf Fig. 52 wird nun ein Vorgang zum Erzeugen der bei der vorliegenden Ausführungsform verwendeten verketteten Komponenten-Zeichentabelle beschrieben. Zuerst wird ein Paar angrenzender Zeichen aus dem Text ausgelesen und der entsprechend dem Ausdruck (17-1) erfolgenden Zeichencodeumwandlung unterzogen, wie zuvor in Zusammenhang mit dem Erzeugen der Zeichentabelle vom Zeichencode-Umwandlungstyp beschrieben wurde. Aus dem aus dieser Umwandlung resultierenden Zeichencode wird die Eintrags-ID-Nummer für die gepaarten Zeichen erhalten, und "1" wird für das Bit der der oben erwähnten Eintrags-ID-Nummer entsprechenden verketteten Komponenten-Zeichentabelle gesetzt.
Ein Beispiel der auf diese Weise erzeugten verketteten Komponenten-Zeichentabelle ist in Fig. 53 dargestellt. Bei diesem Beispiel wird N entsprechend dem Ausdruck (18-1) auf "4096" gesetzt. Es sei bemerkt, daß nicht mehr als 4096 Bits für die Registrierung eines Dokuments erforderlich sind. Beim Registrieren werden die Eintragsnummern für jedes Zeichen eines gegebenen Suchterms unter Verwendung der durch den Ausdruck (18-1) dargestellten Hash-Funktion festgelegt, und es wird dann auf die entsprechenden Bitpositionen in der verketteten Komponenten-Zeichentabelle bezug genommen. Bei einer Zeichenkette " " wird beispielsweise ein Dokument, für das alle Bits an den durch die Eintrags-ID-Nummern "643", "646" bzw. "723", die " ", " " bzw. " " entsprechen, angegebenen Positionen Einsen sind, wie in Fig. 53 dargestellt ist, als das Ergebnis der Komponenten-Zeichentabellen- Suche ausgegeben. Beim Suchvorgang wird jeder der in der Suchabfrageanweisung festgelegten Suchterme jeweils in Paare angrenzender oder verketteter Zeichen aufgeteilt, die dann der Zeichencodeumwandlung entsprechend dem Ausdruck (17-1) unterzogen werden, woraufhin die Eintrags-ID-Nummern entsprechend dem Ausdruck (18-1) bestimmt werden, wie in Fig. 54 dargestellt ist. Dann werden die Bitlisten für jede Eintrags- ID-Nummer aus der verketteten Komponenten-Zeichentabelle ausgelesen und der bitbasierten UND-Operation unterzogen. Anschließend wird die verdichtete Textsuche für das durch den Vorgang der verketteten Komponenten-Zeichentabellen-Suche bestimmte Dokument ausgeführt.
Es sei bemerkt, daß bei der achtzehnten Ausführungsform der Erfindung die Kapazität der verketteten Komponenten- Zeichentabelle vorteilhafterweise erheblich durch eine solche Anordnung verringert werden kann, bei der mehrere Zeichen oder Zeichenketten unter Verwendung der Hash-Funktion jedem der Einträge der Tabelle zugeordnet werden.
Als nächstes wird eine neunzehnte Ausführungsform der vorliegenden Erfindung beschrieben.
Bei einer solchen einfachen Hash-Verarbeitung, wie oben in Zusammenhang mit der achtzehnten Ausführungsform beschrieben wurde, kann der Zeichenkette, die wahrscheinlich oft in einem Dokument auftritt, wie die Hiragana-Zeichen, und der Zeichenkette, die selten im Dokument auftritt, wie die Kanji- Zeichen, möglicherweise dieselbe Eintrags-ID-Nummer zugeordnet werden. Beispielsweise wird einer Hiragana-Zeichenkette " " und einer Kanji-Zeichenkette " " dieselbe Eintrags- ID-Nummer zugeordnet. Dementsprechend werden während der Komponenten-Zeichentabellen-Suche alle die Hiragana-Zeichenkette " " enthaltenden Dokumente getroffen, wenn die Kanji- Zeichenkette " " als der Suchterm gegeben ist. In Wirklichkeit werden bei der Komponenten-Zeichentabellen-Suche möglicherweise im wesentlichen alle Dokumente getroffen, weil die Hiragana-Zeichenkette " " eine Zeichenkette ist, die mit einer relativ hohen Häufigkeit in den auf Japanisch geschriebenen Dokumenten verwendet wird. Demzufolge wird das Verhältnis des Aussiebens oder Verringerns der Anzahl von Dokumenten bei der verketteten Komponenten-Zeichentabellen- Suche verkleinert, und der Umfang der bei der verdichteten Textsuchverarbeitung zu durchsuchenden Dokumente wird entsprechend erhöht, wodurch das Problem auftritt, daß sich die für die gesamte Wiedergewinnungsverarbeitung erforderliche Zeit schließlich erhöht.
Um zu vermeiden, daß das Dokumenten-Verringerungsverhältnis bei der verketteten Komponenten-Zeichentabellen- Suche verringert wird, ist es erforderlich, die Hash-Funktion unter Berücksichtigung der Häufigkeiten, mit denen Zeichenketten verwendet werden, festzulegen. In der folgenden Beschreibung der neunzehnten Ausführungsform der Erfindung wird die verwendete verkettete Komponenten-Zeichentabelle als die von der Zeichenart abhängige Komponenten-Zeichentabelle vom Hash-Typ bezeichnet. Zum Erzeugen der von der Zeichenart abhängigen Komponenten-Zeichentabelle vom Hash-Typ werden Eintragsbereiche einer Komponenten-Zeichentabelle den einzelnen Zeichenarten bzw. -typen zugeordnet, woraufhin eine solche Hash-Funktion eingerichtet wird, die sich bei einem Zeichencode innerhalb des Bereichs faltet, wie in Fig. 55 dargestellt ist. Dieser Typ der Hash-Funktion kann durch Festlegen der Zeichenart auf der Grundlage des Zeichencodes und dann erfolgendes Zusammenfalten unter Verwendung der "mod"-Funktion oder durch Einrichten einer Entsprechungstabelle (nachfolgend als die Hash-Tabelle bezeichnet), die Entsprechungen zwischen den Zeichencodes und den Eintrags-ID- Nummern angibt, verwirklicht werden. Bei der aktuellen Aus führungsform wird angenommen, daß die Eintragsanzahlen (d. h. Anzahl der Einträge) von Hiragana-Zeichen bzw. Katakana- Zeichen "200" sind, die Eintragsanzahl der numerischen Zeichen "50" ist, die Eintragsanzahl der zum JIS-Kanji- Zeichensatz der ersten Ebene gehörenden Kanji-Zeichen "1500" ist, die Eintragsanzahl der zum JIS-Kanji-Zeichensatz der zweiten Ebene gehörenden Kanji-Zeichen "100" ist und daß die Eintragsanzahl der anderen "1946" ist. Die zum JIS-Kanji- Zeichensatz der ersten Ebene gehörenden Kanji-Zeichen weisen eine größere Anzahl von Einträgen als die Kanji-Zeichen des JIS-Kanji-Zeichensatzes der zweiten Ebene auf, weil die ersteren mit einer höheren Häufigkeit als die letzteren verwendet werden. Mit Bezug auf Fig. 56, die einen Vorgang zum Erzeugen der von der Zeichenart abhängigen Komponenten- Zeichentabelle vom Hash-Typ darstellt, sei bemerkt, daß die Arten oder Typen der einen eingegebenen Suchterm bildenden Zeichen auf der Grundlage der aus der zuvor beschriebenen Codeumwandlung erhaltenen Zeichencodes identifiziert werden, während die jeweils den Zeichentypen zugeordneten Eintragsbereiche der Komponenten-Zeichentabelle unter Verwendung der zuvor festgelegten "mod"-Funktion zusammengefalten werden.
Wenn der SCODE1 und der SCODE2 insbesondere in einem Bereich von (021F)H bis (0271)H liegen, stellen diese SCODEs Hiragana-Zeichenketten dar. Dementsprechend werden Werte der mod (SCODE, 200) als die Eintrags-ID-Nummern für Hiragana- Zeichenketten festgelegt.
Wenn der SCODE1 und der SCODE2 beide in einen Bereich von (0280)H bis (02D6)H fallen, stellen sie Katakana-Zeichenketten dar. Dementsprechend werden mod (SCODE, 200) zuzüglich der am Anfang des Katakana-Hash-Verarbeitungsbereichs eingegebenen "200" als die Eintrags-ID-Nummern für die Katakana- Zeichenketten festgelegt.
Wenn der SCODE1 und der SCODE2 beide in einem Bereich von (01E0)H bis (021A)H liegen, stellen sie alphabetische Zeichenketten dar. Dementsprechend werden mod (SCODE, 100) zuzüglich der am Anfang des alphabetischen Zeichen-Hash-Ver arbeitungsbereichs eingegebenen "400" als die Eintrags-ID- Nummern für die alphabetischen Zeichenketten festgelegt.
Wenn der SCODE1 und der SCODE2 in einem Bereich von (01CF)H bis (01D2) liegen, stellen sie numerische Zeichenketten dar. Dementsprechend werden mod (SCODE, 50) zuzüglich der am Anfang des numerischen Zeichen-Hash-Verarbeitungsbereichs eingegebenen "500" als die Eintrags-ID-Nummern für die numerischen Zeichenketten festgelegt.
Wenn der SCODE1 und der SCODE2 beide in einen Bereich von (069F)H bis (1272)H fallen, stellen sie Kanji- Zeichenketten dar, die zum JIS-Kanji-Zeichensatz der ersten Ebene gehören. Dementsprechend werden mod (SCODE, 1500) zuzüglich der am Anfang des dem JIS-Kanji-Satz der ersten Ebene zugeordneten Hash-Verarbeitungsbereichs befindlichen "550" als die Eintrags-ID-Nummern für diese Kanji- Zeichenketten festgelegt.
Wenn der SCODE1 und der SCODE2 in einem Bereich von (129F)H bis (2022)H liegen, stellen sie Kanji-Zeichenketten dar, die zum JIS-Kanji-Zeichensatz der zweiten Ebene gehören. Dementsprechend werden mod (SCODE, 100) zuzüglich der am Anfang des dem JIS-Kanji-Satz der zweiten Ebene zugeordneten Hash-Verarbeitungsbereichs befindlichen "2050" als die Eintrags-ID-Nummern für diese Kanji-Zeichenketten festgelegt.
Die Codebereiche für die oben erwähnten Zeichenarten sind in Fig. 57 dargestellt. Die in dieser Figur in den leeren Bereich fallenden Codes, also die von SCODE1 und SCODE2 verschiedenen Codes, werden als aus Kombinationen von Symbolen oder anderen Zeichenarten bestehende Zeichenketten darstellend angesehen. Dementsprechend werden am Anfang des Hash-Verarbeitungsbereichs der Symbole eingegebene Werte von mod (SCODE, 1946) PLUS "2150" als die Eintrags- Identifizierer-Nummer für die Symbolketten festgelegt.
Wie in Fig. 58 dargestellt ist, wird eine ähnliche Zeichenartunterscheidung auch bei der Suche ausgeführt, woraufhin die den festgelegten Eintrags-ID-Nummern entspre chenden Bitlisten einer logischen UND-Verknüpfung unterzogen werden.
Der mit Hilfe der von der Zeichenart abhängigen verketteten Komponenten-Zeichentabelle vom Hash-Typ ausgeführte Vorgang zum Steuern der hierarchischen Vorsuche ist mit dem zuvor in Zusammenhang mit der achtzehnten Ausführungsform beschriebenen Steuervorgang identisch. Insbesondere wird zuerst die verkettete Komponenten-Zeichentabellen-Suche unter Verwendung der im Suchterm enthaltenen Zeichenkette ausgeführt, woraufhin die verdichtete Textsuche unter Verwendung des Suchterms vorgenommen wird. Wenn die Kontextbedingung und andere nicht auferlegt sind, wird die Dokumenten-Wiedergewinnung am Ende der verdichteten Textsuche abgeschlossen. Andernfalls wird die Textkörpersuche ausgeführt, deren Ergebnis als das Dokumenten-Wiedergewinnungsergebnis ausgegeben wird.
Es wird anhand der oben angegebenen Beschreibung verständlich sein, daß es die neunzehnte Ausführungsform der Erfindung erlaubt, die dem Durchsuchen der Dokumente bei der verdichteten Textsuche auferlegte Belastung zu verringern, um dadurch die Volldokumenten-Wiedergewinnungsverarbeitung unter Verwendung der von der Zeichenart abhängigen Komponenten- Zeichentabelle vom Hash-Typ entsprechend zu beschleunigen, in der Entsprechungen zwischen den Eintrags-ID-Nummern bzw. den Zeichenketten abhängig von der Zeichenart unter Berücksichtigung der Häufigkeiten, mit denen die Zeichenketten verwendet werden, hergestellt sind.
Es wird nun eine zwanzigste Ausführungsform der vorliegenden Erfindung in Zusammenhang mit einem Verfahren zum Steuern der hierarchischen Vorsuche beschrieben, das unter Verwendung einer auf Häufigkeitsinformationen beruhenden verketteten Komponenten-Zeichentabelle vom Hash-Typ ausgeführt wird und das das Aussiebungsverhältnis bei der verketteten Komponenten-Zeichentabellen-Suche verbessern und somit die Belastung beim Durchsuchen von Dokumenten im verdichteten Text verringern kann.
Fig. 59 zeigt ein Text-Wiedergewinnungssystem, das gemäß der zwanzigsten Ausführungsform verwirklicht wurde und sich vom System gemäß der fünfzehnten Ausführungsform in der Hinsicht unterscheidet, daß ein Hash-Tabellen-Erzeugungsprogramm 6011 zusätzlich im Hauptspeicher gespeichert ist. Durch--Ausführen dieses Hash-Tabellen-Erzeugungsprogramms 6011 wird eine Hash-Tabelle 6012 erzeugt und in der Zeichenspeicherdatei 5910 angeordnet.
Zum Erzeugen der auf Häufigkeitsinformationen beruhenden verketteten Komponenten-Zeichentabelle vom Hash-Typ werden die Häufigkeiten, mit denen die Teil-Zeichenketten in den in einer Datenbank registrierten Dokumenten verwendet werden, geprüft, um dadurch die Hash-Funktion auf der Grundlage der so erhaltenen Häufigkeitsinformationen festzulegen. Die Hash- Funktion wird so angepaßt, daß ein Eintrag für ein mit einer hohen Häufigkeit verwendetes Zeichen gegen den Eintrag einer anderen Zeichenkette maximal möglich geschützt ist, während der Eintrag für eine Zeichenkette mit einer niedrigen Häufigkeit die Eingabe mehrerer Zeichenketten erlaubt. Insbesondere wird geprüft, welche der Zeichenketten einer Hash-Verarbeitung zu unterziehen und auf welcher Häufigkeitsebene die Zeichenketten demselben Eintrag zuzuordnen sind. Genauer gesagt wird entsprechend dem in Fig. 61 dargestellten Verarbeitungsvorgang eine Anzahl von Dokumenten unter Verwendung einer betroffenen Zeichenkette in einer Datenbank auf der Grundlage des entsprechend dem zuvor erwähnten Ausdruck (17-1) abgeleiteten Codes SCODE geprüft und in der Reihenfolge von hohen zu niedrigen Häufigkeiten neu angeordnet. Anschließend wird eine Anzahl von Dokumenten, die der Anzahl Nt der Einträge in der verketteten Komponenten-Zeichentabelle entspricht, beginnend mit dem Dokument, in dem die betroffene Zeichenkette mit der höchsten Häufigkeit erscheint, ausgewählt. Als nächstes wird auf der Grundlage einer Summe S1 der Häufigkeiten von mehr als Nt Einträgen eine durch "F Einträge" gegebene Summe festgelegt, in der F eine bestimmte Häufigkeit darstellt. Schließlich wird ein Maximalwert von F, der die Summe S2 geringer als die Summe S1 macht, als der Standard oder Bezug für die Hash-Verarbeitung ausgewählt.
Nachdem der Standard oder Bezug für die Hash- Verarbeitung festgelegt worden ist, werden die Eintrags-ID- Nummern, die größer als Nt sind, aufeinanderfolgend den Einträgen zugeordnet, deren Häufigkeiten geringer als Nt und größer als F sind. Dieser Vorgang wird mit Bezug auf Fig. 63 beschrieben. Wie in dieser Figur ersichtlich ist, wird die Zuordnung der Eintrags-ID-Nummern so ausgeführt, daß die progressiv von Nt zunehmenden Eintrags-ID-Nummern aufeinanderfolgend zugeordnet werden, indem beispielsweise die Eintrags-ID-Nummer Nt einem (Nt + 1)ten Eintrag, die Eintrags- ID-Nummer (Nt + 2) dem (Nt - 1)ten Eintrag usw. zugeordnet oder zugewiesen wird. Während des Zuordnens der Eintragsnummern wird dafür gesorgt, daß kein anderer Eintrag dem Eintrag mit einer größeren Häufigkeit als F zugeordnet wird. Wenn als Ergebnis der Zuordnung herausgefunden wurde, daß die Häufigkeit eines bestimmten Eintrags F überschreitet, wird die Zuordnung dieses Eintrags aufgehoben, woraufhin die Zuordnung wieder mit dem Nt-ten Eintrag begonnen wird. Die zugeordneten Einträge werden in Form einer in Fig. 64 dargestellten Hash- Tabelle gespeichert. Zum Einrichten der Hash-Funktion wird diese Tabelle hinzugezogen. Es ist ersichtlich, daß der durch "(096F0A8F)" in SCODE1 und SCODE2 dargestellten Zeichenkette " " beim zuvor erwähnten Beispiel die Eintrags-ID-Nummer "1682" zugeordnet wird.
Bei der Suche werden die Zeichenketten, die sich aus dem Aufteilen des Suchterms ergeben und jeweils aus zwei Zeichen bestehen, entsprechend dem zuvor erwähnten Ausdruck (17-1) in die Zeichencodes umgewandelt, wie in Fig. 65 dargestellt ist, woraufhin die Eintrags-ID-Nummer unter Hinzuziehen der Hash- Tabelle mittels des durch die Umwandlung erhaltenen Codes festgelegt wird. Anschließend wird die den Eintrags-ID-Nummern entsprechende Bitliste ausgelesen und einer logischen UND-Verknüpfung unterzogen.
Der Steuervorgang für die hierarchische Vorsuchverarbeitung ist mit dem zuvor in Zusammenhang mit der neunzehnten Ausführungsform beschriebenen identisch. Insbesondere wird der in Fig. 51 dargestellte Steuervorgang unverändert verwendet, um dadurch zuerst die verkettete Komponenten-Zeichentabellen-Suche unter Verwendung der im gegebenen Suchterm enthaltenen Zeichen auszuführen, worauf die verdichtete Textsuche unter Verwendung des Suchterms folgt. Wenn die Kontextbedingung und dergleichen nicht festgelegt sind, wird die Wiedergewinnung am Ende der verdichteten Textsuche abgeschlossen. Andernfalls wird die Textkörpersuche ausgeführt, deren Ergebnis dann als das Wiedergewinnungsergebnis ausgegeben wird.
Es wird anhand der oben angegebenen Beschreibung verständlich sein, daß die Wiedergewinnung dadurch stabil innerhalb einer wesentlich verkürzten Zeit ausgeführt werden kann, daß ein hohes Dokumenten-Aussiebungs- oder Verringerungsverhältnis durch die auf der Grundlage der Häufigkeiten tatsächlich in der Datenbank auftretender Zeichenketten eingerichteten verketteten Komponenten-Zeichentabelle bei der verketteten Komponenten-Zeichentabellen-Suche stabil verwirklicht werden kann.
Als eine einundzwanzigste Ausführungsform der Erfindung wird schließlich ein Steuerverfahren für die hierarchische Vorsuche beschrieben, bei dem eine auf Häufigkeitsinformationen beruhende verkettete Komponenten-Zeichentabelle vom Vor- Hash-Typ zum Verringern der Kapazität der bei der zwanzigsten Ausführungsform verwendeten Hash-Tabelle verwendet wird. Die oben in Zusammenhang mit der zwanzigsten Ausführungsform beschriebene Hash-Tabelle weist das Problem auf, daß sich die Tabellenkapazität enorm erhöht, wenn sich n auf "3" oder "4" erhöht, weil die der Anzahl der Kombinationen aller Zeichen entsprechende Tabellenkapazität erforderlich ist.
Fig. 66 zeigt ein Dokumenten-Wiedergewinnungssystem gemäß der einundzwanzigsten Ausführungsform der Erfindung, das sich von der zwanzigsten Ausführungsform in der Hinsicht unterscheidet, daß ein Vor-Hash-Tabellen-Erzeugungsprogramm 6713 neu bereitgestellt und im Hauptspeicher gespeichert ist. Durch Ausführen des Vor-Hash-Tabellen-Erzeugungsprogramms wird eine Vor-Hash-Tabelle 6714 erzeugt und in einer Speicherdatei 6610 gespeichert.
Zum Erzeugen der auf Häufigkeitsinformationen beruhenden verketteten Komponenten-Zeichentabelle vom Vor-Hash-Typ werden Verwendungshäufigkeiten von Zeichen in den in der Datenbank registrierten Dokumenten geprüft, woraufhin die Hash- Funktion auf der Grundlage der so erhaltenen Häufigkeitsinformationen festgelegt wird. Die Hash-Funktion kann in der gleichen Weise wie bei der zwanzigsten Ausführungsform verwirklicht werden. Mit anderen Worten wird die Hash-Verarbeitung nicht direkt an der Zeichenkette sondern am Zeichen selbst ausgeführt. In diesem Fall können verschiedene Zeichen, deren Anzahl 6878 beträgt, so behandelt werden, als ob nur Nt Zeichen auftreten würden. Diese Hash-Verarbeitung wird als die Vor-Hash-Verarbeitung bezeichnet, während die die zugeordneten Einträge speichernde Tabelle als die Vor-Hash- Tabelle bezeichnet wird, die eine gleiche Struktur wie die bei der zwanzigsten Ausführungsform verwendete Hash-Tabelle aufweist, wie in Fig. 64 ersichtlich ist. Die Tabelle kann eine Kapazität aufweisen, die 6879 Zeichen speichern kann. Weiterhin wird eine Verschiebungstabelle eingerichtet, die die Vor-Hash-Eintragsnummern der Zeichenarten des ersten und des zweiten Zeichens zusammen mit der Verschiebung speichert.
Anschließend werden die Verwendungshäufigkeiten von Teil-Zeichenketten im in der Datenbank registrierten Dokument geprüft, um dadurch die Hash-Funktion auf der Grundlage der Häufigkeitsinformationen festzulegen. Hierzu werden die Häufigkeitsinformationen auf jede Kombination der Vor-Hash- Eintrags-ID-Nummern geprüft, die unter Bezugnahme auf die in Form der oben erwähnten Vor-Hash-Tabelle verwirklichten Vor- Hash-Funktion unter Verwendung der Zeichencodes erhalten wurden. Die Hash-Funktion kann in der gleichen Weise wie bei der zwanzigsten Ausführungsform verwirklicht werden. Zur Bezugnahme auf die Hash-Tabelle mit Hilfe der Vor-Hash- Tabelle wird der Vor-Hash-Eintrag des ersten Zeichens mit der Anzahl der Vor-Hash-Einträge der Zeichenart des zweiten Zeichens multipliziert, woraufhin die Vor-Hash-Tabelle unter Verwendung eines aus dem Addieren des Vor-Hash-Eintrags des zweiten Zeichens zur Verschiebung resultierenden numerischen Werts hinzugezogen wird, Beispielsweise wird bei der Zeichenkette " " die Vor-Hash-Tabelle mit SCODEs der einzelnen Zeichen hinzugezogen, um dadurch den Vor-Hash-Eintrag für jedes der Zeichen zu gewinnen. Unter der Annahme, daß der Vor-Hash-Eintrag von " " "16" ist, derjenige von " " "7" ist, die Anzahl der in der Verschiebungstabelle gespeicherten Vor-Hash-Einträge "30" ist und daß die Verschiebung "50" ist, wird die Vor-Hash-Tabelle mit "537" = "16 · 30 + 7 + 50" bezeichnet. Die Struktur der Vor-Hash-Tabelle gleicht derjenigen bei der zwanzigsten Ausführungsform.
Wenn die Anzahl der Vor-Hash-Einträge, also Nt, "1024" beträgt, kann die Vor-Hash-Tabelle eine Kapazität aufweisen, die "1024 · 1024" Einträge zulassen kann.
Der Steuervorgang für die hierarchische Vorsuche gleicht dem zuvor in Zusammenhang mit der neunzehnten Ausführungsform beschriebenen. Insbesondere wird die verkettete Komponenten- Zeichentabelle zuerst unter Verwendung einer im Suchterm enthaltenen Zeichenkette gesucht, woraufhin eine verdichtete Textsuche unter Verwendung des Suchterms ausgeführt wird. Wenn die Kontextbedingung oder eine ähnliche Bedingung nicht festgelegt ist, gelangt die Wiedergewinnung nach dem Abschluß der verdichteten Textsuche an ihr Ende. Andernfalls wird die Textkörpersuche vorgenommen, deren Ergebnis als das Dokumenten-Wiedergewinnungsergebnis ausgegeben wird.
Es wird anhand der oben angegebenen Beschreibung verständlich sein, daß die Kapazität der Hash-Tabelle vorteilhafterweise durch Verwendung des Vor-Hash-Verfahrens gemäß der einundzwanzigsten Ausführungsform der Erfingung erheblich verringert werden kann.
Es ist nun anhand der vorhergehenden Beschreibung verständlich, daß die für den eingegebenen Suchterm irrelevanten Dokumente durch den hierarchischen Vorgang unter Verwendung einer Komponenten-Zeichentabelle (insbesondere der verketteten Komponenten-Zeichentabelle) und der verdichteten Texte unter Fortlassen der Textkörpersuche mit einer hohen Genauigkeit auf der Ebene der Teil-Zeichenkette ausgesiebt werden können, wodurch die Volldokumenten-Wiedergewinnung mit einer entsprechend erhöhten Geschwindigkeit verwirklicht werden kann, was wiederum bedeutet, daß die Volldokumenten-Wiedergewinnung selbst auf einer Groß-Dokumenten-Datenbank bei einer praktisch annehmbaren Antwortrate ausgeführt werden kann.

Claims

1. Verfahren zur Wiedergewinnung eines Textdokuments, das einen von einer Bedienungsperson bezeichneten Suchterm enthält, aus einer Dokumenten-Datenbank, mit folgenden Schritten:

beim Registrieren von Dokumenten in der Dokumenten- Datenbank (3710)

Erzeugen verdichteter Texte (3704) durch Zerlegen der Text-Zeichenketten der zu registrierenden Dokumente in Teil- Zeichenketten auf der Grundlage von Zeichenarten wie Hiragana, Katakana, Kanji, alphabetischen Zeichen und numerischen Zeichen und Prüfen gegenseitiger Einschlußbeziehungen, die unter den aus der Zerlegung hervorgegangenen Teil-Zeichenketten existieren können, um die verdichteten Texte so zu erzeugen, daß sie jeweils durch einen Satz der Teil-Zeichenketten gebildet sind, in dem jede Teil-Zeichenkette eliminiert ist, von der gefunden wurde, daß sie von einer anderen Teil- Zeichenkette umfaßt ist;

Erzeugen einer verketteten Komponenten-Zeichentabelle (3705), indem für jedes der Dokumente solche Informationen über alle verwendbaren Zeichenketten aus jeweils mindestens zwei Zeichen vorbereitet werden, die angeben, ob die einzelnen Zeichenketten in dem zu registrierenden Dokument verwendet werden, oder angeben, ob die einzelnen Zeichenketten in dem verdichteten Text verwendet werden; und

Registrieren der verdichteten Texte (3704) zusammen mit der verketteten Komponenten-Zeichentabelle (3705) zusätzlich zu den Texten (3703) des zu registrierenden Dokuments in der Dokumenten-Datenbank; und

beim Wiedergewinnen des Dokuments, das den bezeichneten Suchterm enthält,

Ausführen einer Komponenten-Zeichentabellen-Suche (3804), um unter Zuhilfenahme der verketteten Komponenten- Zeichentabelle (3705) alle die Dokumente zu gewinnen, in denen alle die Zeichenketten verwendet werden, die in dem von der Bedienungsperson bezeichneten Suchterm enthalten sind und jeweils aus mindestens zwei Zeichen bestehen; und

Ausführen einer verdichteten Text-Suche (3805) unter Zuhilfenahme der verdichteten Texte, die den mittels der Komponenten-Zeichentabellen-Suche gewonnenen Dokumenten entsprechen, um dadurch die Dokumente zu gewinnen, die die Teil- Zeichenketten enthalten, die den von der Bedienungsperson bezeichneten Suchterm bilden;

wodurch eine Volltext-Wiedergewinnung durchgeführt wird.

2. Verfahren nach Anspruch 1, wobei die verkettete Komponenten-Zeichentabelle (3705) auf der Grundlage der einzelnen Zeichenketten, die jeweils aus einer vorbestimmten Zahl n (wobei n eine ganze Zahl größer oder gleich zwei ist) von Zeichen aufgebaut sind, für jede der Zeichenarten einschließlich Hiragana, Katakana, Kanji, numerischen Zeichen, Symbolzeichen und anderen Zeichen erzeugt wird.

3. Verfahren nach Anspruch 1 oder 2, wobei in bezug zur verketteten Komponenten-Zeichentabelle (3705) für jedes der Dokumente eine Bitliste (1200; 1201) vorbereitet wird, in der jeder verwendbaren Zeichenkette aus mindestens zwei Zeichen jeweils eine Einbit-Information zugeordnet wird und die Bitpositionen der Bitliste für in den Dokumenten verwendete Zeichenketten jeweils auf "1" gesetzt werden, während die Bitpositionen für nicht in den Dokumenten verwendete Zeichenketten jeweils auf "0" gesetzt werden.

4. Verfahren nach Anspruch 3, wobei die verkettete Komponenten-Zeichentabelle (3705) erzeugt wird, indem der Bitliste, die eine kleinere Zahl an Einträgen als die Zahl der tatsächlich verwendeten Zeichenkombinationen aufweist, Sätze von Zeichencodes unter Verwendung einer Hash-Funktion zugeordnet werden.

5. Verfahren nach Anspruch 4, wobei jede der tatsächlich verwendeten Zeichenketten auf der Grundlage mindestens einer der Zeichenarten, einschließlich Hiragana, Katakana, Kanji, alphabetischen Zeichen, numerischen Zeichen, Symbolen und anderen Arten zerlegt werden und die verkettete Komponenten- Zeichentabelle erzeugt wird, indem der Bitliste, die eine kleinere Zahl an Einträgen als die Zahl der Kombinationen der tatsächlich verwendeten Zeichen aufweist, unter Verwendung einer Hash-Funktion Sätze von Zeichencodes zugeordnet werden.

6. Verfahren nach Anspruch 4 oder 5, wobei die Häufigkeit, mit der Zeichenketten verwendet werden, geprüft wird und beim Zuordnen der Sätze von Zeichencodes zu der Bitliste mit kleinerer Zahl an Bits als der Zahl der tatsächlich verwendeten Zeichenketten mittels der Hash-Funktion die Zeichenketten geringerer Verwendungshäufigkeit dem gleichen Bit zugeordnet werden.

7. Verfahren nach Anspruch 4, 5 oder 6, wobei die Zeichenketten unter Verwendung der Hash-Funktion einer kleineren Anzahl an Codes von Einträgen zugeordnet werden als der Zahl der tatsächlich verwendeten Zeichen, woraufhin der Bitliste mit einer kleineren Zahl an Einträgen als der Zahl der tatsächlich verwendeten Zeichenketten unter Verwendung einer weiteren Hash-Funktion Sätze der Hash-codierten Zeichencodes zugeordnet werden.

8. Verfahren nach Anspruch 1, wobei die verkettete Komponenten-Zeichentabelle auf der Grundlage von jeweils aus n Zeichen bestehenden Zeichenketten erzeugt wird und in dem Schritt der verketteten Komponenten-Zeichentabellen-Suche ein Dokument, das alle die Zeichenketten enthält, die jeweils aus n Zeichen bestehen und ohne Wiederholung in dem von der Bedienungsperson bezeichneten Suchterm enthalten sind, durch Suchen der Bitliste, deren relevante Bitpositionen alle auf "1" gesetzt sind, gewonnen wird.

9. Verfahren nach Anspruch 1, wobei die verkettete Komponenten-Zeichentabelle auf der Grundlage von Zeichenketten aus jeweils n Zeichen erzeugt wird und im Schritt der verketteten Komponenten-Zeichentabellen-Suche ein Dokument, das all die Zeichenketten enthält, die jeweils aus n Zeichen bestehen und mehrfach im von der Bedienungsperson bezeichneten Suchterm enthalten sind, durch Suchen der Bitliste, deren relevante Bitpositionen alle auf "1" gesetzt sind, gewonnen wird.

10. Verfahren nach Anspruch 1, wobei die verkettete Komponenten-Zeichentabelle aus Zeichenketten gebildet ist, die jeweils aus einer vorgegebenen Zahl an Zeichen im Bereich von 1 bis n aufgebaut sind, und dann, wenn der von der Bedienungsperson bezeichnete Suchterm aus einer kleineren Zeichenzahl als n aufgebaut ist, das Ergebnis der verketteten Komponenten-Zeichentabellen-Suche als endgültiges Ergebnis der Dokumenten-Wiedergewinnung ausgegeben wird, woraufhin die Suchprozedur beendet wird.

11. Verfahren nach einem der Ansprüche 1 bis 10, wobei zuletzt eine Textkörpersuche durchgeführt wird, um aus den über die verdichtete Text-Suche gewählten Dokumenten eines auszuwählen, das eine von der Bedienungsperson dem Suchterm auferlegte Fragebedingung wie beispielsweise eine Anordnungsbedingung des Suchterms im Dokument erfüllt, indem die Texte der durch die verkettete Komponenten- Zeichentabellen-Suche (3804) und die verdichtete Text-Suche (3807) gewonnenen Dokumente zuhilfe genommen werden.

12. Verfahren nach einem der Ansprüche 1 bis 11, wobei der Schritt zur Erzeugung verdichteter Texte (104) das Zerlegen aller Text-Zeichenketten der zu registrierenden Dokumente in Teil-Zeichenketten in Abhängigkeit der Zeichenarten, wobei die Zeichenketten Katakana-Zeichenketten, Hiragana-Zeichenketten, Kanji-Zeichenketten, alphabetische Zei chenketten, numerische Zeichenketten, Symbol-Zeichenketten und andere enthalten können, und das Prüfen gegenseitiger Einschlußbeziehungen, die zwischen den sich aus der Zerlegung ergebenden Teil-Zeichenketten bestehen können, beinhaltet, wobei die Hiragana-Zeichenkette unter Zuhilfenahme eines Grundwort-Wörterbuchs (Fig. 21) und von Verbindungsregeln (Fig. 22) daraufhin geprüft wird, ob sie eine Folge untergeordneter Worte ohne semantische Bedeutung als Suchterm darstellt, um die verdichteten Texte so zu erzeugen, daß sie jeweils aus einem Satz der Teil-Zeichenketten bestehen, in dem jede in einer anderen Zeichenkette enthalten gefundene Zeichenkette und jede Hiragana-Zeichenkette, die als Folge semantisch sinnloser untergeordneter Worte erkannt wurde, eliminiert ist;

der Schritt zur Ausführung einer verdichteten Text-Suche (8030) die Zuhilfenahme der verdichteten Texte (104) der durch die Komponenten-Zeichentabellen-Suche (8000) gewonnenen Dokumente beinhaltet, um lediglich die den verdichteten Texten entsprechenden Dokumente zu gewinnen, die die den Suchterm bildenden Teil-Zeichenketten enthalten, es sei denn, die Teil-Zeichenketten sind nach der Prüfung der Teil- Zeichenketten unter Verwendung des Grundwort-Wörterbuchs (Fig. 20) und der Verbindungsregeln (Fig. 21) als semantisch für den Suchterm sinnlose Worte bestimmt worden; und

zuletzt eine Textkörpersuche (8060) ausgeführt wird, um ein Dokument zu gewinnen, das eine dem Suchterm auferlegte Fragebedingung (8050), beispielsweise eine Anordnungsbeziehung des Suchterms im Text erfüllt, indem die Texte der durch die Komponenten-Zeichentabellen-Suche und die verdichtete Text-Suche gewonnenen Dokumente zuhilfe genommen werden, während die ursprünglichen Texte der durch die Komponenten- Zeichentabellen-Suche gewonnenen Dokumente zuhilfe genommen werden, wenn irgendeine der Teil-Zeichenketten als Folge semantisch sinnloser Worte bestimmt wurde, um dadurch ein Dokument zu gewinnen, das jede der Teil-Zeichenketten enthält und die dem Suchterm betreffend seiner Anordnungsbeziehung auferlegte Wiedergewinnungsbedingung erfüllt.

13. Verfahren nach einem der Ansprüche 1 bis 11, wobei

der Schritt zur Erzeugung verdichteter Texte (104) ein Zerlegen aller Text-Zeichenketten des zu registrierenden Dokuments in Teil-Zeichenketten in Abhängigkeit der Zeichenart, wobei die Zeichenketten Hiragana-Zeichenketten, Kanji-Zeichenketten, alphabetische Zeichenketten, numerische Zeichenketten, Symbol-Zeichenketten und andere enthalten können, sowie das Prüfen gegenseitiger Einschlußbeziehungen, die zwischen den sich aus der Zerlegung ergebenden Teil- Zeichenketten bestehen können, nachdem alle Hiragana- Zeichenketten eliminiert worden sind, beinhaltet, um dadurch die verdichteten Texte so zu erzeugen, daß sie jeweils aus einem Satz der Teil-Zeichenketten aufgebaut sind, in dem jede Zeichenkette, die als in einer anderen Zeichenkette enthalten erkannt wurde, ausgeschlossen ist,

der Schritt der Ausführung einer verdichteten Text-Suche (8030) die Zuhilfenahme der verdichteten Texte (104) der durch die Komponenten-Zeichentabellen-Suche (8000) gewonnenen Dokumente beinhaltet, um lediglich die den verdichteten Texten entsprechenden Dokumente zu gewinnen, die die Teil- Zeichenketten enthalten, die den von der Bedienungsperson bezeichneten Suchterm bilden, vorausgesetzt, die den von der Bedienungsperson bezeichneten Suchterm bildenden Teil- Zeichenketten sind aufgrund eines entsprechenden Entscheidungsschritts als frei von den Hiragana-Zeichenketten bestimmt worden; und

zuletzt eine Textkörpersuche (8060) ausgeführt wird, um ein Dokument zu gewinnen, das eine dem Suchterm auferlegte Fragebedingung (8050), wie beispielsweise ein Anordnungsbeziehung des Suchterms im Text erfüllt, indem die Texte der gewonnenen Dokumente zuhilfe genommen werden, oder um alternativ ein Dokument zu gewinnen, das die bezeichneten Teil- Zeichenketten enthält und die Fragebedingung erfüllt, indem der ursprüngliche Text des durch die Komponenten-Zeichentabellen-Suche gewonnenen Dokuments zuhilfe genommen wird.

14. Verfahren nach einem der Ansprüche 1 bis 11, wobei

der Schritt zum Erzeugen verdichteter Texte (104) ein Zerlegen aller Text-Zeichenketten des zu registrierenden Dokuments in Teil-Zeichenketten in Abhängigkeit der Zeichenart, wobei die Zeichenketten Katakana-Zeichenketten, Hiragana-Zeichenketten, Kanji-Zeichenketten, alphabetische Zeichenketten, numerische Zeichenketten, Symbol-Zeichenketten und andere enthalten können, und ein Prüfen gegenseitiger Einschlußbeziehungen, die zwischen den sich aus der Zerlegung ergebenden Teil-Zeichenketten bestehen können, beinhaltet, um dadurch auf Zeichenart-Grundlage getrennt mehrere verdichtete Texte zu erzeugen, die jeweils aus den Teil-Zeichenketten der gleichen Zeichenart aufgebaut sind, während jede in einer anderen Zeichenkette enthalten gefundene Zeichenkette ausgeschlossen ist; und

der Schritt des Ausführens einer verdichteten Text-Suche (8030), die Zuhilfenahme des verdichteten Texts in den durch die Komponenten-Zeichentabellen-Suche (8000) gewonnenen Dokumenten beinhaltet, der der Zeichenart der Teil-Zeichenketten entspricht, die den von der Bedienungsperson bezeichneten Suchterm bilden, um lediglich die den verdichteten Texten entsprechenden Dokumente zu gewinnen, die die den von der Bedienungsperson bezeichneten Suchterm bildenden Teil-Zeichenketten enthalten, und um dadurch die den bezeichneten Suchterm enthaltenden Dokumente auszuwählen.

15. Verfahren nach einem der Ansprüche 1 bis 11, wobei von der Bedienungsperson mehrere Suchterme bezeichnet werden, und

der Schritt der Erzeugung verdichteter Texte (104) die Zerlegung aller Text-Zeichenketten des zu registrierenden Dokuments in Teil-Zeichenketten in Abhängigkeit der Zeichenarten, wobei Zeichenketten Katakana-Zeichenketten, Hiragana- Zeichenketten, Kanji-Zeichenketten, alphabetische Zeichen ketten, numerische Zeichenketten, Symbol-Zeichenketten und andere enthalten können, und ein Prüfen gegenseitiger Einschlußbeziehungen, die zwischen den sich aus der Zerlegung ergebenden Teil-Zeichenketten bestehen können, beinhaltet, um dadurch die verdichteten Texte so zu erzeugen, daß sie jeweils aus einem Satz von Teil-Zeichenketten, in denen jede als in einer anderen Zeichenkette enthalten gefundene Zeichenkette eliminiert ist, bestehen;

der Schritt des Ausführens einer verdichteten Text-Suche (8030), die Zuhilfenahme der verdichteten Texte der Dokumente beinhaltet, die über die Komponenten-Zeichentabellen-Suche gewonnen wurden, um lediglich die den verdichteten Texten entsprechenden Dokumente zu gewinnen, die all die Teil- Zeichenketten enthalten, die jeweils die von der Bedienungsperson bezeichneten Suchterme bilden, und dadurch die Dokumente mit den bezeichneten Suchtermen auszuwählen; und

zuletzt eine Textkörpersuche (3040) ausgeführt wird, um ein Dokument zu gewinnen, das eine den Suchtermen auferlegte Fragebedingung erfüllt, wie beispielsweise eine Anordnungsbeziehung der Suchterme in dem Text, indem die Texte der durch die Komponenten-Zeichentabellen-Suche und die verdichtete Text-Suche gewonnenen Dokumente zuhilfe genommen werden.

16. Verfahren nach einem der Ansprüche 1 bis 11, wobei die verdichteten Textdaten in einer RAM-Platte (3010b) und die Komponenten-Zeichentabelle in einem Halbleiterspeicher (3010a) gespeichert werden.

17. Verfahren nach einem der Ansprüche 1 bis 11, wobei

der Schritt der Erzeugung verdichteter Texte ein Zerlegen der jeweiligen Text-Zeichenketten der zu registrierenden Dokumente in Teil-Zeichenketten in Abhängigkeit von Zeichenarten, wobei die Zeichenketten Hiragana-Zeichenketten, Kanji-Zeichenketten, alphabetische Zeichenketten, numerische Zeichenketten, Symbol-Zeichenketten und andere enthalten können, und ein Prüfen gegenseitiger Einschlußbeziehungen, die zwischen den sich aus der Zerlegung ergebenden Teil- Zeichenketten bestehen können, beinhaltet, um dadurch die verdichteten Texte (104) so zu erzeugen, daß sie jeweils aus einem Satz der Teil-Zeichenketten bestehen, in dem jede Zeichenkette eliminiert ist, die als in einer anderen Zeichenkette enthalten erkannt ist;

die Textdaten und der verdichtete Text auf einer Magnetplatte (3010c) gespeichert sind, während die Komponenten- Zeichentabelle in einem Halbleiterspeicher (3010a) gespeichert ist;

die Zahl der durch die Komponenten-Zeichentabellen-Suche gewonnenen Dokumente geprüft wird; und

der Schritt des Ausführens einer verdichteten Text-Suche ein Auslesen aller der verdichteten Texte unter Vernachlässigung des Ergebnisses der Komponenten-Zeichentabellen-Suche beinhaltet, wenn die Zahl der gewonnenen Dokumente eine vorbestimmte Zahl erreicht hat, um dadurch lediglich die den verdichteten Texten entsprechenden Dokumente zu gewinnen, die die Teil-Zeichenketten enthalten, die den von der Bedienungsperson bezeichneten Suchterm bilden, während die verdichteten Texte der durch die Komponenten-Zeichentabellen-Suche gewonnenen Dokumente zuhilfe genommen werden, um dadurch lediglich die den verdichteten Texten entsprechenden Dokumente zu gewinnen, die die Teil-Zeichenketten enthalten, die den von der Bedienungsperson bezeichneten Suchterm bilden, wenn die genannte Zahl der gewonnenen Dokumente kleiner als die vorbestimmte Zahl ist.

18. Verfahren nach einem der Ansprüche 1 bis 11, wobei

der Schritt des Erzeugens verdichteter Texte (104) ein Zerlegen aller Text-Zeichenketten der zu registrierenden Dokumente in Teil-Zeichenketten in Abhängigkeit von Zeichenarten, wobei Zeichenketten Hiragana-Zeichenketten, Kanji- Zeichenketten, alphabetische Zeichenketten, numerische Zeichenketten, Symbol-Zeichenketten und andere enthalten können, und Prüfen gegenseitiger Einschlußbeziehungen, die zwischen den sich aus der Zerlegung ergebenden Teil-Zeichenketten bestehen können, beinhaltet, um dadurch die verdichteten Texte so zu erzeugen, daß sie jeweils aus einem Satz der Teil- Zeichenketten bestehen, in dem jede Zeichenkette eliminiert ist, die als in einer anderen Zeichenkette enthalten erkannt ist;

die Zahl der durch die Komponenten-Zeichentabellen-Suche gewonnenen Dokumente geprüft wird;

der Schritt zur Durchführung einer verdichteten Text- Suche lediglich dann ein Auslesen aller verdichteten Texte unter Vernachlässigung des Ergebnisses der Komponenten- Zeichentabellen-Suche beinhaltet, wenn die Zahl der gewonnenen Dokumente eine vorbestimmte Zahl erreicht hat, um dadurch lediglich die den verdichteten Texten entsprechenden Dokumente zu gewinnen, die die Teil-Zeichenketten enthalten, die den von der Bedienungsperson bezeichneten Suchterm bilden; und

eine Textkörpersuche ausgeführt wird, um ein Dokument zu gewinnen, das eine dem Suchterm auferlegte Fragebedingung erfüllt, wie beispielsweise eine Anordnungsbeziehung des Suchterms im Text, indem die Texte der gewonnenen Dokumente zuhilfe genommen werden, während die verdichteten Texte der durch die Komponenten-Zeichentabellen-Suche gewonnenen Dokumente zuhilfe genommen werden, um lediglich ein dem verdichteten Text entsprechendes Dokument zu gewinnen, das die Teil- Zeichenketten enthält, die den von der Bedienungsperson bezeichneten Suchterm bilden, wenn die genannte Zahl der gewonnenen Dokumente kleiner als die vorbestimmte Zahl ist, um so eine Volltext-Wiedergewinnung zu bewirken.

19. Verfahren nach einem der Ansprüche 1 bis 11, wobei

der Schritt zur Erzeugung einer verketteten Komponenten- Zeichentabelle die Erzeugung einer Einzelkomponenten-Zeichentabelle und der genannten verketteten Komponenten-Zeichentabelle (3705) beinhaltet, indem für jedes der Dokumente Informationen aller verwendbaren einzelnen Zeichen und Zeichen ketten aus jeweils mindestens zwei Zeichen erzeugt werden, die eine erste Information beinhalten, die diejenigen Einzelzeichen und Zeichenketten angibt, die in dem zu registrierenden Dokument verwendet werden, und eine zweite Information beinhaltet, die diejenigen Einzelzeichen und Zeichenketten angibt, die in dem zu registrierenden Dokument jeweils nicht verwendet werden.

20. Verfahren nach einem der vorhergehenden Ansprüche, wobei die verkettete Komponenten-Zeichentabelle durch folgende Schritte erzeugt wird:

Bestimmen der Häufigkeit, mit der einzelne Zeichenketten aus jeweils einer vorbestimmten Zahl n von Zeichen in dem Text des Dokuments verwendet werden, und Umstellen der Zeichenketten in eine Reihenfolge in Abhängigkeit der genannten Häufigkeiten;

Festlegen von Beziehungen zwischen den Zeichenketten und einer Anzahl an Einträgen, die kleiner als die Zahl der Zeichenketten ist, und Speichern der Beziehung in Form einer Hash-Tabelle; und

Speichern der Zeichenketten in Form einer Komponenten- Zeichentabelle bei den Einträgen, die den in den Textdaten verwendeten Zeichenketten entsprechen.

21. Verfahren nach Anspruch 20, wobei die Komponenten- Zeichentabellen-Suche folgende Schritte beinhaltet:

Zerlegen des von der Bedienungsperson bezeichneten Suchterms in Teil-Zeichenketten aus jeweils n Zeichen;

Gewinnen derjenigen Einträge aus der Komponenten- Zeichentabelle, die den sich aus der Zerlegung ergebenden Teil-Zeichenketten entsprechen; und

Gewinnen eines Dokuments, in dem alle die Zeichenketten existieren, die den Suchterm bilden, indem die aus der Komponenten-Zeichentabelle gewonnenen Einträge zuhilfe genommen werden.

22. System zur Wiedergewinnung eines Textdokuments, das einen von einer Bedienungsperson bezeichneten Suchterm enthält, aus einer Dokumenten-Datenbank, aufweisend:

zur Registrierung von Dokumenten in der Dokumenten- Datenbank (3710)

eine Einrichtung (3801; 3702) zur Registrierung von Texten (3703) von zu registrierenden Dokumenten;

eine Einrichtung (3802) zur Erzeugung verdichteter Texte (3704) durch Zerlegen der Text-Zeichenketten der zu registrierenden Dokumente in Teil-Zeichenketten auf der Grundlage von Zeichenarten wie beispielsweise Hiragana, Katakana, Kanji, alphabetischen Zeichen und numerischen Zeichen, und Prüfen gegenseitiger Einschlußbeziehungen, die zwischen den sich aus der Zerlegung ergebenden Teil-Zeichenketten bestehen können, um dadurch die verdichteten Texte so zu erzeugen und zu registrieren, daß sie jeweils aus einem Satz der Teil- Zeichenketten bestehen, in dem jede Teil-Zeichenkette eliminiert ist, die als von einer anderen Teil-Zeichenkette umfaßt erkannt ist; und

eine Einrichtung (3803) zur Erzeugung einer verketteten Komponenten-Zeichentabelle (3705) durch Erzeugen von Informationen über alle verwendbaren Zeichenketten aus jeweils mindestens zwei Zeichen für jedes Dokument, wobei die Informationen angeben, ob die einzelnen Zeichenketten in dem zu registrierenden Dokument verwendet werden, oder angeben, ob die einzelnen Zeichenketten in dem verdichteten Text verwendet werden, und zur Registrierung der verketteten Komponenten-Zeichentabelle in der Datenbank, und

zum Wiedergewinnen des den bezeichneten Suchterm enthaltenden Dokuments

eine Komponenten-Zeichentabellen-Sucheinrichtung (3804) zum Gewinnen aller Dokumente, in denen alle die Zeichenketten verwendet werden, die in dem von der Bedienungsperson bezeichneten Suchterm enthalten sind und jeweils aus mindestens zwei Zeichen bestehen, indem die verkettete Komponenten- Zeichentabelle zuhilfe genommen wird; und

eine verdichtete Text-Sucheinrichtung (3805) zur Durchführung einer verdichteten Text-Suche unter Zuhilfenahme der verdichteten Texte (3704), die den durch die Komponenten- Zeichentabellen-Suche (3804) gewonnenen Dokumenten entsprechen, um dadurch die Dokumente zu gewinnen, die die Teil- Zeichenketten enthalten, die den von der Bedienungsperson bezeichneten Suchterm bilden;

wodurch eine Volltext-Wiedergewinnung durchgeführt wird.

23. System nach Anspruch 22, aufweisend:

eine Einrichtung zum Holen von Daten für die Wiedergewinnung;

eine Zähleinrichtung zur Bestimmung von Häufigkeiten, mit denen Zeichen verwendet werden, die in den zur Wiedergewinnung vorgesehenen Daten enthalten sind;

eine Sortiereinrichtung zum Umordnen der Zeichen in der Reihenfolge der Häufigkeiten, mit denen die Zeichen verwendet werden;

eine Einrichtung zur Aufstellung von Beziehungen zwischen den Zeichen und einer entsprechenden Anzahl an Bits, die kleiner als die der Zeichen ist,

eine Einrichtung zum Umwandeln der Zeichencodes der Zeichen in die entsprechenden Bits, und

eine Einrichtung zum bitweisen Manipulieren der Bits.

24. System nach Anspruch 22 oder 23, aufweisend:

eine Eingabeeinrichtung zur Eingabe eines Suchterms;

eine Einrichtung zur Gewinnung von Bitlisten von einer Komponenten-Zeichentabelle entsprechend der Zeichenketten, die den Suchterm bilden;

eine Einrichtung zum logischen UND-Verknüpfen der Bitlisten; und

eine Einrichtung zum Umwandeln des Ergebnisses der UND- Verknüpfung in ein Dokument-Kennzeichen, das an einem Dokument befestigt wird.