[go: up one dir, main page]

DE10131193A1 - Sitzungshistorien-basierte altersgerichtete natürlichsprachliche Dokumentensuche - Google Patents

Sitzungshistorien-basierte altersgerichtete natürlichsprachliche Dokumentensuche

Info

Publication number
DE10131193A1
DE10131193A1 DE10131193A DE10131193A DE10131193A1 DE 10131193 A1 DE10131193 A1 DE 10131193A1 DE 10131193 A DE10131193 A DE 10131193A DE 10131193 A DE10131193 A DE 10131193A DE 10131193 A1 DE10131193 A1 DE 10131193A1
Authority
DE
Germany
Prior art keywords
user
list
computer system
natural language
response
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE10131193A
Other languages
English (en)
Inventor
David E Johnson
Frank J Oles
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE10131193A1 publication Critical patent/DE10131193A1/de
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Eine Methode und Vorrichtung treffen eine Schlüsselwortauswahl und/oder führen eine Gewichtung aus, als Funktion einer Sitzungshistorie einer Benutzereingabe, um Abfragen zu beantworten, die vom Benutzer in ein Computersystem eingegeben werden, durch Bereitstellen von Antworten, die auf gespeicherten Dokumenten basieren. Ziel ist, die besten Antworten zu finden, indem gespeicherte natürlichsprachliche Dokumente sowohl mit der neuesten Abfrage als auch mit der letzten Abfrage in einem Kontext verglichen werden, der die Interaktionen der neuesten Historie erfasst. Hierzu werden Antworten mit einer Gruppe von Schlüsselworten verglichen, die aus der jüngsten Abfrage extrahiert wurden, sowie mit einer Gruppe von Schlüsselworten, die aus denjenigen Abfragen extrahiert wurden, die seit Erkennen des letzten Themenwechsels empfangen wurden. Ein Hauptmerkmal der Methode besteht darin, dass das Computersystem, das diese Methode ausführt, für die Sitzungshistorie eines jeden Benutzers eine Sitzungshistorie pflegt. Von einem System, dass diese Methode ausführt, werden aus jeder Abfrage Schlüsselworte extrahiert. Eine gestaffelte Schlüsselwortliste ist eine Liste von Schlüsselworten, die mit Altersangaben gepaart sind, welche die Indikatoren dafür sind, wie lange die Verwendung dieses Schlüsselwortes in einer Abfrage durch den Benutzer zurückliegt. Gestaffelte Schlüsselwortlisten werden in der Sitzungshistorie gepflegt, so dass das System den Schlüsselworten Gewichtungen zuordnen ...

Description

Querverweis auf verwandte Patentanmeldungen
Die vorliegende Patentanmeldung ist inhaltlich verwandt mit der gleichzeitig anhängigen US Patentanmeldung mit der Serien-Nr. 09/339,872, eingereicht am 25. Juni 1999 von David E. Johnson et al., mit dem Titel "Two Stage Automated Electronic Messaging System", der US Patentanmeldung mit der Serien-Nr. 09/176,322, eingereicht am 22. Oktober 1998 von David E. Johnson et al., mit dem Titel "Text Categorization Toolkit" und der US Patentanmeldung mit der Serien-Nr. 09/570,788 von Thilo W. Goetz et al., mit dem Titel "Interactive Automated Electronic Response System", die auf den Rechtsnachfolger der vorliegenden Patentanmeldung übertragen wurden. Die Beschreibungen der Anmeldung mit der Serien-Nr. 09/339,872, 09/176,322 und 09/570,788 sind hierin durch Bezugnahme enthalten.
Hintergrund der Erfindung Gebiet der Erfindung
Die vorliegende Erfindung betrifft generell die natürlichsprachliche Dokumentensuche in einem Computersystem und im einzelnen die Beantwortung von Abfragen, die von einem Benutzer in ein Computersystem eingegeben werden.
Hintergrund der Erfindung
Es gibt mehrere Schlüsselideen, die den Stand der Technik in der Dokumentensuche voranbringen. In der Patentanmeldung mit der Serien-Nr. 09/339,872 wurde das Konzept der Kategorisierung einer Benutzereingabe zur Ermittlung eines Themas oder einer Domäne beschrieben, auf die eine nachfolgende Schlüsselwortsuche beschränkt werden soll. In der Anmeldung mit der Serien-Nr. 09/570,788 beschrieben wir das Konzept der Kategorisierung einer Sitzungshistorie einer Benutzereingabe, um das Thema einer Suche weiter zu identifizieren und einzugrenzen und um festzustellen, ob der Benutzer die Themen gewechselt hat. Welche Schlüsselworte in der Suchphase verwendet werden hängt davon ab, ob der Benutzer ein Thema vertieft oder das Thema wechselt. In unseren bisherigen Patentanmeldungen haben wir angenommen, das bei einer Themenvertiefung die in der Suchphase verwendeten Schlüsselworte ausschließlich auf allen vorherigen Eingaben, die es zu dem identifizierten Thema gab, basierten. Wenn zum Beispiel ein Benutzer zuerst "Darlehen", dann "Auto", und anschließend "neu" eingegeben hat, womit er mit der dritten Eingabe die Kategorie "Autodarlehen" und die Schlüsselworte (Darlehen, Auto, neu) festgelegt hat, wurden alle Schlüsselworte von der ersten Eingabe an die Suchmaschine geschickt und gleichwertig behandelt. Es wird angenommen, dass die Schlüsselwortsuche disjunktiv ist und damit die Auswirkungen auf die Ergebnisse eines Schlüsselwortes unabhängig davon sind, wann es eingegeben wurde.
In einem Suchsystem, das auf der Sitzungshistorie basiert, wie es in den oben genannten gleichzeitig anhängigen Patentanmeldungen beschrieben wurde, waren mehrere Schlüsselprobleme zu lösen: (1) Themenidentifizierung, (2) Themenvertiefung, (3) Themenwechsel und (4) Schlüsselwortauswahl und/oder -gewichtung als eine Funktion der Sitzungshistorie. Der erste dieser drei Punkte wurde in den Erfindungen gelöst, die in den gleichzeitig anhängigen Patentanmeldungen beschrieben wurden.
Zusammenfassung der Erfindung
Es ist daher eine Aufgabe der Erfindung, eine Methode und eine Vorrichtung zum Lösen der Problematik der Schlüsselwortauswahl und/oder -gewichtung als eine Funktion einer Sitzungshistorie der vom Benutzer gemachten Eingaben zu lösen.
Eine andere Aufgabe der Erfindung ist die Bereitstellung einer Methode und einer Vorrichtung zur Beantwortung von Abfragen, die von einem Benutzer in ein Computersystem eingegeben werden, indem Antworten bereitgestellt werden, die auf gespeicherten Dokumenten basieren.
Ziel der Erfindung ist es, die besten Antworten zu finden, indem die gespeicherten natürlichsprachlichen Dokumente sowohl mit der neuesten Abfrage als auch mit der letzten Abfrage in einem Kontext verglichen werden, der die jeweils neueste Interaktionshistorie erfasst. Hierbei werden die Antworten mit einer Gruppe von Schlüsselworten verglichen, die aus der neuesten Abfrage extrahiert werden, sowie mit einer Gruppe von Schlüsselworten, die aus denjenigen Abfragen extrahiert wurden, die seit Erkennen des letzten Themenwechsels eingegangen sind. Hiermit ist das System in der Lage, Themenwechsel zu erkennen. Durch Erkennen eines Themenwechsels kann man feststellen, wie weit man in der Sitzung zurückgehen muss, bevor man auf Schlüsselworte trifft, die für nachfolgende Abfragen für irrelevant gehalten werden. Dabei müssen wir annehmen, dass es eine Gruppe, eine Hierarchie, oder eine teilweise geordnete Gruppe (das heißt, teilweise geordnet nach Spezifizität) von Kategorien gibt, zu denen Antworten gehören, und dass, als Teil des Prozesses zur Einrichtung eines Systems, das diese Methode implementiert, die Kategorien, zu denen jede Antwort gehört, in einer Datei oder einer Datenbank festgehalten werden. Das System nimmt dann als Beweis für einen Themenwechsel die Entscheidung des Systems, einem Benutzer eine Antwort anzuzeigen, die nicht zu einer der spezifischsten Kategorien gehört, zu der die zuletzt dem Benutzer angezeigte Antwort gehörte. Wäre die Antwort, die der Beweis für einen Themenwechsel ist, ausschließlich auf der Basis von Schlüsselworten gefunden worden, die man aus der letzten Abfrage entnommen hätte (mit anderen Worten, wäre sie ausschließlich auf der Basis von Schlüsselworten mit dem Alter 0 gefunden worden), dann müßte das System anschließend Schlüsselworte aus älteren Abfragen nicht mehr verwenden.
Der Benutzer kann seine Abfragen hierbei in jeder Form eingeben, die einen fortlaufenden Austausch mit dem Benutzer unterstützt, beispielsweise über eine Internetseite oder über ein Telefon, wobei die Sprache des Benutzers von einem Spracherkennungssystem in Text umgewandelt wird.
Ein Hauptmerkmal der Methode gemäß der Erfindung ist, dass das Computersystem diese Methode implementiert, um für jede Sitzung eines Benutzers eine Sitzungshistorie zu pflegen. Aus jeder Abfrage werden von einem System, das diese Methode implementiert, Schlüsselworte extrahiert. Eine gestaffelte Schlüsselwortliste ist eine mit Altersangaben gepaarte Schlüsselwortliste, wobei diese Altersangaben generell numerische Indikatoren dafür sind, wie lange es her ist, seit der Benutzer in dieser Sitzung dieses Schlüsselwort in einer Abfrage verwendet hat. Die gestaffelten Schlüsselwortlisten werden in der Sitzungshistorie gepflegt, so dass das System den Schlüsselworten Gewichtungen zuordnen kann, wobei den neuesten empfangenen Schlüsselworten höhere Gewichtungen zugeordnet werden, als den Schlüsselworten mit einem vergleichsweise höheren Alter. Die den Schlüsselworten zugewiesenen Gewichtungen werden zur Berechnung von Bewertungen verwendet, die angeben, inwieweit ein Dokument mit einer Schlüsselwortliste übereinstimmt. Die Bewertungen für alle möglichen Antworten werden verglichen mit einem Schwellenwert, um festzustellen, bei welchen Antworten die Bewertungen hoch genug sind, um eine Auswahl als die richtigen Antworten auf die Abfrage des Benutzers zu rechtfertigen.
Obwohl wir uns hier auf die Suche nach Schlüsselworten beziehen, die aus Abfragen extrahiert werden, könnten die in dieser Methode verwendeten Techniken gleichermaßen auf andere Merkmale angewandt werden, die anstelle von Schlüsselworten aus den Abfragen extrahiert werden, beispielsweise (1) Phrasen, die aus mehreren Worten bestehen, oder (2) Merkmale, die einem Text auf der Basis einer anderen Verarbeitung zugeordnet werden. Auch kann ein in einem Text gefundenes Schlüsselwort - entweder eine Abfrage oder eine Antwort - während seiner Identifizierung zur Verwendung in einem System, das diese Methode verwendet, gut von einer kanonischen Form stammen oder durch diese ersetzt werden.
Kurze Beschreibung der Zeichnungen
Die obengenannten sowie andere Aufgaben, Aspekte und Vorteile werden besser verständlich anhand der folgenden ausführlichen Beschreibung eines bevorzugten Ausführungsbeispiels der Erfindung unter Bezugnahme auf die Zeichnungen; es zeigt:
Fig. 1 ein Flussdiagramm mit einer High-Level-Beschreibung eines Historie-basierten Suchsystems;
Fig. 2 ein Flussdiagramm, das die Logik eines Entwurfs für ein Historie-basiertes Suchsystem gemäß einem bevorzugten Ausführungsbeispiel der Erfindung erläutert;
Fig. 3 ein Flussdiagramm, das eine von der in Fig. 2 gezeigten Methode aufgerufene Verarbeitungsroutine ausführlicher zeigt;
Fig. 4 ein Flussdiagramm, das eine von der in Fig. 2 gezeigten Methode aufgerufene Anzeigeroutine ausführlicher zeigt; und
Fig. 5 ein Blockdiagramm, das eine bevorzugte Architektur des Historie-basierten Suchsystems gemäß der Erfindung zeigt.
Ausführliche Beschreibung bevorzugter Ausführungsbeispiele der Erfindung
Wir möchten einige Details über die Berechnung von Bewertungen beschreiben, mit denen der Grad der Übereinstimmung zwischen einem Dokument und einer gestaffelten Schlüsselwortliste beurteilt wird. Es sei D ein Dokument. Den aus der neuesten Abfrage extrahierten Schlüsselworten werde das Alter 0, den aus der davorliegenden Abfrage extrahierten das Alter 1 zugeordnet, und so weiter, wobei den Schlüsselworten jeder vorherigen Abfrage ein Alter zugewiesen wird, das um 1 höher ist, als bei den Schlüsselworten der davorliegenden Abfrage. Es sei K eine gestaffelte Schlüsselwortliste der Länge m, in der das i-te Schlüsselwort ki ist und das Alter des Schlüsselwortes ki ai ist. Wir nehmen an, dass das Schlüsselwort ki in dem Dokument D ni mal vorkommt. Es sei w(j) die Gewichtung, die den Schlüsselworten zugewiesen wird, deren Alter j ist. Wie bereits weiter oben erwähnt, muss vorausgesetzt sein, dass
w(0) ≧ w(1) ≧ w(2) ≧ . . .
Eine Möglichkeit zur Berechnung einer Bewertung s(D,K), mit der der Grad der Übereinstimmung zwischen D und K gemessen wird, unter Berücksichtigung des Alters der Schlüsselworte in K, ist die Verwendung einer gewichteten linearen Kombination der Häufigkeit des Vorkommens der Schlüsselworte K in D, wie sie ermittelt wird anhand der folgenden Formel:
Eine höhere Bewertung bedeutet hierbei eine größere Übereinstimmung, als eine niedrigere Bewertung. Dies ist nur ein Beispiel. Andere ähnliche Formeln können in spezifischen Implementierungen verwendet werden.
Bezugnehmend auf die Zeichnungen, und insbesondere auf Fig. 1; hier wird eine High-Level-Beschreibung des Historie- basierten Suchsystems gemäß der Erfindung gezeigt. In Block 11 erhält das System eine neue Benutzereingabe. Hierbei kann es sich entweder um eine neue Abfrage Q oder um eine Auswahl aus einer Liste von Antworttiteln oder Links handeln, die dem Benutzer vorher bereits angezeigt wurden. Wenn die neue Eingabe eine Abfrage Q ist, führt das System in Block 12 folgende Vorgänge aus:
  • 1. Es extrahiert Schlüsselworte aus der Abfrage Q und wählt vergangene Schlüsselworte aus der vorherigen Eingabe des Benutzers aus,
  • 2. Es verwendet die den Schlüsselworten zugewiesenen Altersangaben, um die Gewichtungen für diese Schlüsselworte zu ermitteln,
  • 3. Es verwendet die gewichteten Schlüsselworte, um mögliche Antworten zu bewerten,
  • 4. Es zeigt entweder eine einzelne beste Antwort oder eine Liste von Antworttiteln oder Links an, aus der der Benutzer anschließend auswählen kann, und
  • 5. Es aktualisiert die Sitzungshistorie.
Wenn die neue Eingabe eine Auswahl eines Antworttitels oder eines Links aus einer Liste ist, führt das System in Block 13 folgende Vorgänge aus:
  • 1. Es zeigt die vollständige ausgewählte Antwort an, und
  • 2. es aktualisiert die Sitzungshistorie.
Nach Beendigung dieser Schritte wartet das System in Block 14 anschließend auf die nächste Eingabe des Benutzers.
Fig. 2 zeigt einen Entwurf für ein Historie-basiertes Suchsystem gemäß der Erfindung etwas ausführlicher. In Funktionsblock 20 erhält das System eine neue Benutzereingabe - entweder eine Abfrage Q oder eine Auswahl aus einer Liste von Antworttiteln oder Links, die dem Benutzer zuvor angezeigt worden waren. Wenn es sich hierbei um eine für den Benutzer neue Sitzung handelt, initialisiert das System in Funktionsblock 21 die Sitzungshistorie dieses Benutzers. In Entscheidungsblock 22 wird ermittelt, ob die neue Benutzereingabe eine Abfrage ist. Wenn nicht, ist die neue Eingabe eine Auswahl aus einer Liste, und der Prozess verzweigt zum Funktionsblock 23, wo die Antwort A als die komplette Antwort ausgewählt wird, deren Titel oder Link vom Benutzer gewählt wurde. Die Antwort A wird dem Benutzer in Funktionsblock 24 angezeigt und die Sitzungshistorie des Benutzers wird aktualisiert. In Funktionsblock 25 wartet das System dann auf die nächste Benutzereingabe.
Handelt es sich bei der neuen Eingabe um eine neue Abfrage, was in Entscheidungsblock 23 festgestellt wird, führt das System in Funktionsblock 26 folgende Verarbeitungsschritte aus:
  • 1. Verarbeiten der neuen Abfrage Q im Kontext der Sitzungshistorie, wobei jedem relevanten Schlüsselwort ein Alter zugewiesen wird.
  • 2. Zusammenstellen einer Liste L von Titeln oder Links zu passenden Antworten, wobei die passenden Antworten bewertet werden anhand der Schlüsselwortgewichtungen, die durch ihr Alter bestimmt werden. Wenn keine Übereinstimmungen gefunden werden, wird als einzige Position ein Link zu einer dementsprechenden Antwort auf die Liste L gesetzt.
  • 3. Aktualisieren der Sitzungshistorie des Benutzers.
Nach diesen Verarbeitungsschritten wird in Entscheidungsblock 27 festgestellt, ob sich auf der Liste L mehr als eine Position befindet. Wenn nicht, ist die Antwort A die komplette Antwort, deren Titel oder Link sich in der Liste befinden, und diese wird in Funktionsblock 24 über den Funktionsblock 28 an die Anzeigefunktion ausgegeben. Enthält jedoch die Liste L mehr als eine Position, wird die Liste dem Benutzer als eine Liste angezeigt, aus der in Funktionsblock 29 eine Auswahl getroffen werden kann. Anschließend wartet das System in Funktionsblock 25 auf die nächste Eingabe des Benutzers.
Die Details der Verarbeitungsschritte in Funktionsblock 26 der Fig. 2 sind in Fig. 3 dargestellt. Die Verarbeitung beginnt mit dem Funktionsblock 31 durch Identifizieren aller Schlüsselworte in der neuen Abfrage Q, um eine neue gestaffelte Schlüsselwortliste KL zu erzeugen, in der jedes Schlüsselwort ein Alter von 0 hat. In Funktionsblock 32 wird dann die aktuelle Schlüsselworthistorie KH abgerufen. Hierbei handelt es sich ebenfalls um eine gestaffelte Schlüsselwortliste, die von der Sitzungshistorie des Benutzers abgerufen wird. Die Altersangaben aller Schlüsselworte in der Schlüsselworthistorie KH werden um 1 inkrementiert. Die Schlüsselworthistorie KH wird in Funktionsblock 33 aktualisiert, indem man KH und KL miteinander verkettet. Alle Antworten in der Antwortdatenbank werden in Funktionsblock 34 zweimal bewertet, indem jede Antwort mit KL und KH abgestimmt wird. Die durch das Alter der Schlüsselworte bestimmten Gewichtungen werden verwendet, um den erst vor kurzem verwendeten Schlüsselworten eine höhere Wertigkeit zu geben. In Funktionsblock 35 wird eine Liste L mit Antworttiteln oder Links zu denjenigen Antworten zusammengestellt, deren Bewertungen hoch genug sind. Die Kategoriengruppe, zu der jede Antwort in der Liste L gehört, erhält man aus einer Datenbank oder einer Datei. Wenn keine Übereinstimmungen gefunden werden, deren Bewertungen hoch genug sind, wird als einzige Position ein Link zu einer dementsprechenden Antwort auf die Liste L gesetzt. In Funktionsblock 36 werden sowohl die Schlüsselwortliste KL als auch die Schlüsselworthistorie KH in der Sitzungshistorie des Benutzers aufgezeichnet. Außerdem werden in der Sitzungshistorie des Benutzers die Liste L, die Bewertungen der Antworten in der Liste, ob jede Bewertung dadurch entstanden ist, dass eine Abstimmung mit KL oder KH erfolgte, und die Gruppe der Kategorien, zu der jede Antwort in der Liste L gehört, gespeichert.
Die Details des Anzeigeschrittes in Funktionsblock 24 der Fig. 2 sind in Fig. 4 dargestellt. Die ausgewählte vollständige Antwort A wird in Funktionsblock 41 angezeigt. Außerdem wird aus einer Datenbank oder Datei eine Liste C der Kategorien abgerufen, zu der die Antwort A gehört. Wenn die Antwort A aufgrund einer Übereinstimmung mit der Schlüsselwortliste KL in der Liste L war, wird in Funktionsblock 42 die Liste vorgelegt, die nur auf den Schlüsselworten in der letzten Abfrage Q basierte, und wenn keine Kategorie in C eine Kategorie war, in die eine Antwort gehörte, die in Antwort auf die Abfrage vor Q angezeigt wurde, dann hat ein Themenwechsel stattgefunden, so dass die Schlüsselworthistorie KH durch KL zu ersetzen ist und dieses Ersetzen in der Sitzungshistorie festgehalten wird.
Fig. 5 zeigt eine Architekturkomponente des Historie- basierten Suchsystems gemäß der Erfindung. Der Benutzer 51 gibt Fragen ein und trifft eine Auswahl in Form von Eingaben in den Dialogmanager 52, der seinerseits dem Benutzer bestimmte Antworten liefert. Zu dem Dialogmanager gehört ein Benutzerschnittstellenmanager 521, der an den Sitzungsmanager 522 Eingaben liefert beziehungsweise von diesem Ausgaben empfängt. Der Sitzungsmanager ist verantwortlich für die Pflege der Sitzungshistorie 523. Eine Benutzereingabe über den Benutzerschnittstellenmanager 521 wird an den Sitzungsmanager 522 weitergegeben und der Sitzungsmanager 522 gibt diese Eingabe in Form eines Textes an den Textanalysator 524 weiter. Der Textanalysator 524 kennzeichnet den Text mit einem Token und bestimmt anhand der Altersangaben die Gewichtungen für die Schlüsselworte. Der Textanalysator gibt Schlüsselworte und Gewichtungen an den Schlüsselwort-/Antwortbewerter 525 aus, der mit Antwortkennungen (IDs), Kategorien und Bewertungen antwortet. Die Bewertungen werden vom Textanalysator 524 verwendet, um diejenigen Antworten auszufiltern, deren Bewertungen für die Erfüllung einer Schwellenbedingung nicht hoch genug sind. Die zurückgemeldeten Kategorien werden von dem Textanalysator 524 verwendet, um festzustellen, ob ein Themenwechsel stattgefunden hat oder nicht, um wiederum dann zu ermitteln, ob die Merkmalshistorie aktualisiert werden sollte. Die Ergebnisse des Textanalyseprozesses der Daten, die von dem Merkmals-Antwortbewerter 525 bereitgestellt werden, einschließlich einer Antwort-ID oder einer Liste von Antwort-IDs, werden an den Sitzungsmanager 522 zurückgemeldet, der die Sitzungshistorie 523 aktualisiert. Der Sitzungsmanager gibt die Antwort-ID oder die Liste der Antwort-IDs an den Benutzerschnittstellenmanager 521 weiter.
Mit Hilfe dieser Information greift der Benutzerschnittstellenmanager 521 auf eine Antwortdatenbank 526 zu, die Antwortkategorien enthält, um eine Ausgabe an den Benutzer zu erzeugen.
Die Erfindung wurde zwar anhand bevorzugter Ausführungsbeispiele beschrieben, jedoch wird der Fachmann erkennen, dass die Erfindung auch nach einer entsprechenden Modifizierung im Sinne und entsprechend dem Umfang der Ansprüche im Anhang in die Praxis umgesetzt werden kann.

Claims (20)

1. Eine Methode zur Beantwortung von natürlichsprachlichen Abfragen, die von einem Benutzer in ein Computersystem eingegeben werden, durch Bereitstellen von Antworten, die auf gespeicherten Dokumenten basieren, folgende Schritte umfassend:
Empfangen einer neuen Eingabe vom Benutzer, entweder als neue Abfrage Q oder als eine Auswahl aus einer Liste von Antworttiteln oder Links, die dem Benutzer zuvor angezeigt wurden;
Pflege einer Sitzungshistorie mit vorherigen Benutzereingaben;
Herausziehen von Merkmalen aus der Abfrage Q und Auswahl vergangener Merkmale aus vorherigen Benutzereingaben;
Ermitteln von Gewichtungen für diese Merkmale unter Verwendung von Altersangaben, die den Merkmalen zugewiesen werden;
Bewerten möglicher Antworten unter Verwendung der gewichteten Merkmale;
Anzeigen entweder einer einzigen besten Antwort oder einer Liste von Antworttiteln oder Links, aus denen der Benutzer anschließend auswählen kann;
Aktualisieren der Sitzungshistorie; und
wenn die neue Eingabe eine Auswahl eines Antworttitels oder eines Links aus einer Liste ist, Anzeigen einer vollständigen ausgewählten Antwort und Aktualisieren der Sitzungshistorie.
2. Die Methode zur Beantwortung natürlichsprachlicher Abfragen, die von einem Benutzer in ein Computersystem eingegeben werden, nach Anspruch 1, bei der der Schritt des Herausziehens von Merkmalen aus der Abfrage Q den Schritt des Erzeugens einer neuen gestaffelten Merkmalsliste KL umfasst, bei der jedes Merkmal auf der Liste ein Alter von Null hat.
3. Die Methode zur Beantwortung natürlichsprachlicher Abfragen, die von einem Benutzer in ein Computersystem eingegeben werden, nach Anspruch 2, bei der der Schritt des Auswählens vergangener Merkmale den Schritt des Holens einer aktuellen Merkmalshistorie KH, die ebenfalls eine gestaffelte Merkmalsliste ist, aus der Sitzungshistorie umfasst, und der Schritt des Ermittelns von Gewichtungen den Schritt des Hochzählens aller Altersangaben der Merkmale in der Merkmalshistorie KH um eins umfasst.
4. Die Methode zur Beantwortung natürlichsprachlicher Abfragen, die von einem Benutzer in ein Computersystem eingegeben werden, nach Anspruch 3, weiter umfassend den Schritt des Aktualisierens der Merkmalshistorie KH durch Verkettung von KH mit KL.
5. Die Methode zur Beantwortung natürlichsprachlicher Abfragen, die von einem Benutzer in ein Computersystem eingegeben werden, nach Anspruch 3, bei der Schritt des Bewertens möglicher Antworten den Schritt des Abstimmens einer jeden Antwort in einer Antwortdatenbank mit KL und KH umfasst.
6. Die Methode zur Beantwortung natürlichsprachlicher Abfragen, die von einem Benutzer in ein Computersystem eingegeben werden, nach Anspruch 5, weiter umfassend den Schritt des Aufstellens einer Liste L mit Antworttiteln oder Links zu denjenigen Antworten, deren Bewertungen einen vorher festgesetzten Wert überschreiten, und des Gewinnens einer Kategoriengruppe C, zu der jede Antwort in der Liste L gehört, aus einer Datenbank oder einer Datei.
7. Die Methode zur Beantwortung natürlichsprachlicher Abfragen, die von einem Benutzer in ein Computersystem eingegeben werden, nach Anspruch 6, bei der, wenn keine Übereinstimmungen mit Bewertungen vorliegen, die über diesem vorher festgesetzten Wert liegen, als einzige Position in die genannte Liste L ein Link zu einer Antwort eingefügt wird, dass keine Übereinstimmungen vorliegen.
8. Die Methode zur Beantwortung natürlichsprachlicher Abfragen, die von einem Benutzer in ein Computersystem eingegeben werden, nach Anspruch 6, bei der der Schritt des Aktualisierens der Sitzungshistorie den Schritt des Speicherns von KL und KH, der Liste L, der Bewertungen der Antworten in der Liste L, und der Kategoriengruppe umfasst, zu der jede Antwort in der Liste L in der Sitzungshistorie des Benutzers gehört.
9. Die Methode zur Beantwortung natürlichsprachlicher Abfragen, die von einem Benutzer in ein Computersystem eingegeben werden, nach Anspruch 6, bei der, wenn sich aufgrund einer Übereinstimmung mit KL eine Antwort in der Liste L befand, und keine Kategorie in C eine Kategorie war, zu der eine Antwort, die in Reaktion auf eine vor Q liegende Abfrage angezeigt wurde, gehörte, ein Themenwechsel erklärt wird, und KH durch KL ersetzt wird, und dieses Ersetzen in der Sitzungshistorie festgehalten wird.
10. Die Methode zur Beantwortung natürlichsprachlicher Abfragen, die von einem Benutzer in ein Computersystem eingegeben werden, nach Anspruch 1, bei der die aus einer Abfrage Q herausgezogenen Merkmale aus der Gruppe ausgewählt werden, die aus Schlüsselworten besteht, aus Phrasen, die aus mehreren Worten bestehen, und aus Merkmalen, die dem Text auf der Basis einer anderen Verarbeitung zugewiesen wurden.
11. Ein Computersystem zur Beantwortung natürlichsprachlicher Abfragen, die von einem Benutzer eingegeben werden, durch Bereitstellen von Antworten auf der Basis gespeicherter Dokumente, folgendes umfassend:
eine Benutzerschnittstelle, die eine neue Eingabe des Benutzers entgegennimmt, entweder als eine neue Abfrage Q oder eine Auswahl aus einer Liste von Antworttiteln oder Links, die dem Benutzer zuvor angezeigt wurden;
einen Sitzungsmanager, der eine Sitzungshistorie vorheriger Benutzereingaben in einer Sitzungshistorien- Datenbank pflegt;
einen Textanalysator, der Merkmale aus der Abfrage Q herauszieht und vergangene Merkmale aus vorherigen Benutzereingaben auswählt;
einen Merkmals-/Antwortbewerter, der herausgezogene Merkmale von dem Textanalysator erhält und für diese Merkmale, anhand der den Merkmalen zugewiesenen Altersangaben, Gewichtungen festlegt, und der mögliche Antworten anhand der gewichteten Merkmale bewertet, wobei der genannte Merkmals-/Antwortbewerter auf eine Antwortdatenbank zugreift, in der sich Antwortkategorien befinden, und Antwortkennungen, Kategorien und Bewertungen für den Textanalysator bereitstellt;
wobei die genannte Benutzerschnittstelle entweder eine einzelne beste Antwort oder eine Liste von Antworttiteln oder Links bereitstellt, aus denen der Benutzer anschließend auswählen kann, und wobei der genannte Sitzungsmanager die Sitzungshistorie aktualisiert, wenn jedoch die neue Eingabe eine Auswahl eines Antworttitels oder eines Links aus einer Liste ist, die genannte Benutzerschnittstelle eine vollständige ausgewählte Antwort anzeigt und der Sitzungsmanager die Sitzungshistorie aktualisiert.
12. Das Computersystem zur Beantwortung natürlichsprachlicher Abfragen, die von einem Benutzer eingegeben werden, nach Anspruch 11, bei dem der Textextraktor eine neue gestaffelte Merkmalsliste KL erzeugt, in der jedes Merkmal in der Liste ein Alter von Null hat.
13. Das Computersystem zur Beantwortung natürlichsprachlicher Abfragen, die von einem Benutzer eingegeben werden, nach Anspruch 12, wobei der Sitzungsmanager eine aktuelle Merkmalshistorie KH von der Sitzungshistorien-Datenbank erhält, wobei diese Merkmalshistorie KH ebenfalls eine gestaffelte Merkmalsliste ist, und der Sitzungsmanager alle Altersangaben der Merkmale in der Merkmalshistorie KH um eins hochzählt.
14. Das Computersystem zur Beantwortung natürlichsprachlicher Abfragen, die von einem Benutzer eingegeben werden, nach Anspruch 13, bei dem der Sitzungsmanager die Merkmalshistorie KH durch Verkettung von KH mit KL aktualisiert.
15. Das Computersystem zur Beantwortung natürlichsprachlicher Abfragen, die von einem Benutzer eingegeben werden, nach Anspruch 13, weiter umfassend eine Antwortdatenbank mit Antwortkategorien, und bei dem der Merkmals-/Antwortbewerter jede Antwort in der Antwortdatenbank mit KL und KH vergleicht.
16. Das Computersystem zur Beantwortung natürlichsprachlicher Abfragen, die von einem Benutzer eingegeben werden, nach Anspruch 15, bei dem der Merkmals-/Antwortbewerter eine Liste L von Antworttiteln oder Links zu denjenigen Antworten zusammenstellt, deren Bewertungen einen vorher festgelegten Wert übersteigen, und aus der Antwortdatenbank oder der Datei eine Kategoriengruppe C abruft, zu der jede Antwort in der Liste L gehört.
17. Das Computersystem zur Beantwortung natürlichsprachlicher Abfragen, die von einem Benutzer eingegeben werden, nach Anspruch 16, bei dem, wenn keine Übereinstimmungen mit Bewertungen vorliegen, die über dem genannten vorher festgesetzten Wert liegen, der Merkmals-/Antwortbewerter als einzige Position in die genannte Liste L einen Link zu einer Antwort einfügt, dass keine Übereinstimmungen vorliegen.
18. Das Computersystem zur Beantwortung natürlichsprachlicher Abfragen, die von einem Benutzer eingegeben werden, nach Anspruch 16, bei dem der Sitzungsmanager die Sitzungshistorien-Datenbank durch Aufzeichnung von KL und KH, der Liste L, Bewertungen der Antworten in Liste L, und der Kategoriengruppe, zu der jede Antwort in der Liste L in der Sitzungshistorie des Benutzers gehört, aufzeichnet.
19. Das Computersystem zur Beantwortung natürlichsprachlicher Abfragen, die von einem Benutzer eingegeben werden, nach Anspruch 16, bei dem, wenn eine Antwort in der Liste L aufgrund einer Übereinstimmung mit KL vorhanden war, und keine Kategorie in C eine Kategorie war, zu der eine Antwort, die in Antwort auf eine Abfrage angezeigt wurde, die vor Q lag, gehörte, der Textanalysator einen Themenwechsel erklärt und der Sitzungsmanager KH durch KL ersetzt, und dieses Ersetzen in der Sitzungshistorien-Datenbank festhält.
20. Das Computersystem zur Beantwortung natürlichsprachlicher Abfragen, die von einem Benutzer eingegeben werden, nach Anspruch 10, bei dem die von dem Textextraktor aus einer Abfrage Q herausgezogenen Merkmale aus der Gruppe ausgewählt werden, die aus Schlüsselworten, aus mehreren Worten bestehenden Phrasen und Merkmalen ausgewählt werden, die einem Text auf der Basis einer anderen Verarbeitung zugewiesen wurden.
DE10131193A 2000-07-24 2001-06-28 Sitzungshistorien-basierte altersgerichtete natürlichsprachliche Dokumentensuche Ceased DE10131193A1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US09/624,554 US6618722B1 (en) 2000-07-24 2000-07-24 Session-history-based recency-biased natural language document search

Publications (1)

Publication Number Publication Date
DE10131193A1 true DE10131193A1 (de) 2002-02-14

Family

ID=24502427

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10131193A Ceased DE10131193A1 (de) 2000-07-24 2001-06-28 Sitzungshistorien-basierte altersgerichtete natürlichsprachliche Dokumentensuche

Country Status (2)

Country Link
US (1) US6618722B1 (de)
DE (1) DE10131193A1 (de)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6983271B2 (en) * 2001-06-13 2006-01-03 Microsoft Corporation Answer wizard drop-down control
US20030149562A1 (en) * 2002-02-07 2003-08-07 Markus Walther Context-aware linear time tokenizer
US20040088649A1 (en) * 2002-10-31 2004-05-06 International Business Machines Corporation System and method for finding the recency of an information aggregate
WO2004111876A1 (ja) * 2003-06-11 2004-12-23 Fujitsu Limited 検索条件を再利用する検索システムおよび方法
US20040267746A1 (en) * 2003-06-26 2004-12-30 Cezary Marcjan User interface for controlling access to computer objects
US7152782B2 (en) * 2003-07-11 2006-12-26 Visa International Service Association System and method for managing electronic data transfer applications
US20050138049A1 (en) * 2003-12-22 2005-06-23 Greg Linden Method for personalized news
US7606363B1 (en) 2005-07-26 2009-10-20 Rockwell Collins, Inc. System and method for context switching of a cryptographic engine
US7991724B2 (en) 2006-12-21 2011-08-02 Support Machines Ltd. Method and a computer program product for providing a response to a statement of a user
US8959433B2 (en) * 2007-08-19 2015-02-17 Multimodal Technologies, Llc Document editing using anchors
US20090089311A1 (en) * 2007-09-28 2009-04-02 Yahoo! Inc. System and method for inclusion of history in a search results page
EP2622428A4 (de) * 2010-09-28 2017-01-04 International Business Machines Corporation Beantwortung von fragen durch hypothesen-pruning
WO2012151661A1 (en) * 2011-03-23 2012-11-15 Chung Edmon W O System and method for aggregating contextual content
CN102810104B (zh) * 2011-06-03 2015-05-20 阿里巴巴集团控股有限公司 信息调整方法及装置
CN103365899B (zh) * 2012-04-01 2017-10-20 深圳市世纪光速信息技术有限公司 一种问答社区中的问题推荐方法及系统
US9898554B2 (en) * 2013-11-18 2018-02-20 Google Inc. Implicit question query identification
CN105005555A (zh) * 2015-07-28 2015-10-28 陈包容 基于聊天时间的关键词提取方法及装置
US9704483B2 (en) * 2015-07-28 2017-07-11 Google Inc. Collaborative language model biasing
JP7100797B2 (ja) * 2017-12-28 2022-07-14 コニカミノルタ株式会社 文書スコアリング装置、プログラム
US11580170B2 (en) 2018-11-01 2023-02-14 Google Llc Machine learning based automatic audience segment in ad targeting
US11270080B2 (en) 2020-01-15 2022-03-08 International Business Machines Corporation Unintended bias detection in conversational agent platforms with machine learning model

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5694559A (en) * 1995-03-07 1997-12-02 Microsoft Corporation On-line help method and system utilizing free text query
US6418431B1 (en) * 1998-03-30 2002-07-09 Microsoft Corporation Information retrieval and speech recognition based on language models
US6177932B1 (en) * 1998-08-21 2001-01-23 Kana Communications, Inc. Method and apparatus for network based customer service
US6272493B1 (en) * 1999-01-21 2001-08-07 Wired Solutions, Llc System and method for facilitating a windows based content manifestation environment within a WWW browser

Also Published As

Publication number Publication date
US6618722B1 (en) 2003-09-09

Similar Documents

Publication Publication Date Title
DE10131193A1 (de) Sitzungshistorien-basierte altersgerichtete natürlichsprachliche Dokumentensuche
DE69617515T2 (de) Automatisches Verfahren zur Erzeugung von thematischen Zusammenfassungen
DE69623082T2 (de) Automatische Methode zur Extraktionszusammenfassung durch Gebrauch von Merkmal-Wahrscheinlichkeiten
DE69618089T2 (de) Automatische Methode zur Erzeugung von Merkmalwahrscheinlichkeiten für automatische Extraktionszusammenfassung
DE60004687T2 (de) Verfahren zur thematischen klassifikation von dokumenten, modul zur thematischen klassifikation und ein derartiges modul beinhaltende suchmaschine
DE69933187T2 (de) Dokumentensuchverfahren und Dienst
DE112018000334T5 (de) System und Verfahren zur domänenunabhängigen Aspektebenen-Stimmungserkennung
DE10134899A1 (de) Themenbezogenes System und Verfahren zur Klassifizierung von Dokumentationseinheiten
DE112018006345T5 (de) Abrufen von unterstützenden belegen für komplexe antworten
DE102012224488A1 (de) System, Verfahren und Programm zur Entnahme eines themenfremden Teils aus einem Gespräch
EP1926081A1 (de) Verfahren zur Dialoganpassung und Dialogsystem zur Durchführung
DE112007000051T5 (de) Dreiteiliges-Modell-basiertes Verfahren zur Informationsgewinnung und -verarbeitung
DE112020002743T5 (de) Informationsverarbeitungsvorrichtung
DE102019219470A1 (de) System und verfahren für extraktion und abruf von informationen zur unterstützung bei automobilreparaturen
DE102009006857A1 (de) Verfahren zum automatischen Klassifizieren eines Textes durch ein Computersystem
DE29821970U1 (de) Datenstruktur zur rechnergestützten Verwaltung von Entwicklungen
DE102021203300A1 (de) Computerimplementiertes Verfahren für Schlüsselwortsuche in einem Wissensgraphen
DE102016217191A1 (de) Verfahren zum Auswählen und Bewerten von einer Vielzahl von Datensätzen aus zumindest einer Datenquelle
DE10210553B4 (de) Verfahren zum automatischen Klassifizieren eines Textes durch ein Computersystem
EP4537277B1 (de) Computerimplementiertes verfahren und computerprogrammprodukt
DE10160920B4 (de) Verfahren und Vorrichtung zur Erzeugung eines Extrakts von Dokumenten
EP4036909B1 (de) Verfahren und datengenerator zum erzeugen eines basisdatensatzes für einen virtuellen assistenten
DE102022126561A1 (de) Datenbanksystem zur Erfassung von innerhalb einer Organisation vorhandenen Kompetenzen
EP1783631A1 (de) Suchergebnis Ranking mittels Relevance Feedback
DE202022104673U1 (de) System zur Rückverfolgbarkeit von sozialen Netzwerken

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8131 Rejection