[go: up one dir, main page]

DE102014201860A1 - Method for term clarification of dependent reference printout during natural language processing of e.g. treaty document, involves resolving instance such that information about complete printout is present at location of instance - Google Patents

Method for term clarification of dependent reference printout during natural language processing of e.g. treaty document, involves resolving instance such that information about complete printout is present at location of instance Download PDF

Info

Publication number
DE102014201860A1
DE102014201860A1 DE201410201860 DE102014201860A DE102014201860A1 DE 102014201860 A1 DE102014201860 A1 DE 102014201860A1 DE 201410201860 DE201410201860 DE 201410201860 DE 102014201860 A DE102014201860 A DE 102014201860A DE 102014201860 A1 DE102014201860 A1 DE 102014201860A1
Authority
DE
Germany
Prior art keywords
instance
expression
sequence
documents
dependent reference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE201410201860
Other languages
German (de)
Inventor
John P. Bufe
Donna Karen Byron
Alexander Pikovsky
Edward E. Seabolt
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US13/768,136 external-priority patent/US9286291B2/en
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE102014201860A1 publication Critical patent/DE102014201860A1/en
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/131Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

The method involves selecting a portion of a document in a sequence of documents (113), where the portion includes a sequence of instances of dependant reference printout. Instance is identified from the sequence of instances of the reference printout, where the instance is referred with complete printout. The complete printout is identified in a single document from the sequence of documents. The instance is resolved using a processor and a memory (108) based on the complete printout such that information about the complete printout is present at a location of the instance. Independent claims are also included for the following: (1) a computer program product having a set of instructions for executing a method for term clarification of dependent reference printouts (2) a data processing system.

Description

HINTERGRUNDBACKGROUND

1. Technisches Gebiet:1. Technical area:

Die vorliegende Erfindung betrifft allgemein ein Verfahren, ein System und ein Computerprogrammprodukt für die Verarbeitung von natürlicher Sprache von Dokumenten. Insbesondere betrifft die vorliegende Erfindung ein Verfahren, ein System und ein Computerprogrammprodukt zur Begriffsklärung von abhängigen Verweisausdrücken bei der Verarbeitung von natürlicher Sprache.The present invention relates generally to a method, system and computer program product for natural language processing of documents. More particularly, the present invention relates to a method, system, and computer program product for disambiguating dependent reference expressions in natural language processing.

2. Beschreibung der zugrunde liegenden Technik:2. Description of the underlying technique:

Dokumente enthalten Informationen in vielerlei Formen. Zum Beispiel vermitteln Textinformationen, die als Sätze und Absätze angeordnet sind, Informationen in einer erzählenden Form.Documents contain information in many forms. For example, textual information arranged as sentences and paragraphs convey information in a narrative form.

Bestimmte Typen von Informationen werden in einer Verweisform dargeboten. Zum Beispiel kann ein Dokument einen Namen, ein Wort, einen Ausdruck oder ein Textsegment enthalten, das in dem Dokument wiederholt vorkommt. Viele Dokumente bestimmen einen Ersetzungsausdruck oder -text, der stellvertretend für den Namen, das Wort, den Ausdruck oder das Textsegment steht, und verwenden den Ersetzungstext für jedes nachfolgende Vorkommen des Namens, des Wortes und des Ausdrucks oder Textsegments nach diesem ersten Vorkommen.Certain types of information are presented in a reference form. For example, a document may include a name, word, phrase, or text segment that occurs repeatedly in the document. Many documents determine a replacement expression or text representative of the name, word, phrase, or text segment, and use the replacement text for each subsequent occurrence of the name, word, and phrase or text segment after that first occurrence.

Der Name, ein Wort, ein Ausdruck oder Textsegment wird als vollständiger Ausdruck oder Komplettausdruck und die Ersetzungsausdrücke oder -texte werden als abhängige Verweisausdrücke bezeichnet. Der abhängige Verweisausdruck dient dazu, die Bedeutung des Komplettausdrucks zu übermitteln, für den der abhängige Verweisausdruck stellvertretend steht.The name, word, phrase, or text segment is called a full or full expression, and the replacement terms or texts are called dependent reference expressions. The dependent reference expression is used to convey the meaning of the full expression for which the dependent reference expression is representative.

Bei der Verarbeitung von natürlicher Sprache (Natural Language Processing, NLP) handelt es sich um eine Technik, die einen Austausch von Informationen zwischen Personen und Datenverarbeitungssystemen ermöglicht. Ein Zweig der NLP befasst sich zum Beispiel mit der Umformung eines bestimmten Inhalts in einer durch Personen nutzbaren Sprache oder Form in eine durch Computer nutzbare Form. NLP kann zum Beispiel ein Dokument entgegennehmen, dessen Inhalt in einer durch Menschen lesbaren Form abgefasst ist, und ein Dokument erstellen, dessen adäquater Inhalt in einer computerspezifischen Sprache oder Form abgefasst ist.Natural Language Processing (NLP) is a technique that allows information to be exchanged between people and data processing systems. For example, a branch of NLP deals with the transformation of a particular content in a human-readable language or form into a computer-usable form. For example, NLP may receive a document whose contents are in a human-readable form and produce a document whose adequate content is in a computer-specific language or form.

KURZDARSTELLUNGSUMMARY

Die anschaulichen Ausführungsformen stellen ein Verfahren, ein System und ein Computerprogrammprodukt zur Begriffsklärung von abhängigen Verweisausdrücken bei der Verarbeitung von natürlicher Sprache bereit. Bei mindestens einer Ausführungsform wird ein Abschnitt eines Dokuments aus einer Folge von Dokumenten ausgewählt, wobei der Abschnitt eine Folge von Instanzen abhängiger Verweisausdrücke enthält. Die Ausführungsform filtert den Abschnitt, um aus einer Folge von abhängigen Verweisausdrücken eine Instanz zu erkennen, indem eine linguistische Eigenschaft der Instanz verwendet wird und wobei die Instanz des abhängigen Verweisausdrucks auf einen Komplettausdruck verweist, der in der Folge von Dokumenten vorkommt. Die Ausführungsform macht den Komplettausdruck in einem Einzeldokument in der Folge von Dokumenten ausfindig, indem sie ausfindig macht, wo der abhängige Verweisausdruck als Stellvertreter für den Komplettausdruck definiert ist. Die Ausführungsform löst unter Verwendung eines Prozessors und eines Speichers die Instanz unter Verwendung des Komplettausdrucks auf, sodass eine Information über den Komplettausdruck an einer Adresse der Instanz verfügbar ist.The illustrative embodiments provide a method, system, and computer program product for disambiguating dependent reference expressions in natural language processing. In at least one embodiment, a portion of a document is selected from a sequence of documents, the portion including a sequence of instances of dependent reference expressions. The embodiment filters the section to recognize an instance from a sequence of dependent reference expressions by using a linguistic property of the instance and where the instance of the dependent reference expression references a complete expression occurring in the sequence of documents. The embodiment locates the complete expression in a single document in the sequence of documents by locating where the dependent reference expression is defined as a representative of the complete expression. The embodiment, using a processor and a memory, resolves the instance using the full expression so that information about the full expression is available at an address of the instance.

KURZBESCHREIBUNG DER VERSCHIEDENEN ZEICHNUNGSANSICHTENBRIEF DESCRIPTION OF THE VARIOUS DRAWING VIEWS

Die für die Erfindung als neuartig angesehenen Merkmale der Erfindung werden in den beiliegenden Ansprüchen dargelegt. Die Erfindung selbst jedoch sowie ein bevorzugter Anwendungsmodus, weitere ihrer Zielstellungen und Vorteile werden am besten unter Bezugnahme auf die folgende detaillierte Beschreibung einer anschaulichen Ausführungsform verständlich, wenn diese in Verbindung mit den beiliegenden Ansprüchen gelesen wird, wobei:The features of the invention believed to be novel to the invention are set forth in the appended claims. However, the invention itself, and a preferred mode of use, further of its objects and advantages, will best be understood by reference to the following detailed description of an illustrative embodiment when read in conjunction with the appended claims, wherein:

1 eine bildliche Darstellung eines Netzwerks von Datenverarbeitungssystemen zeigt, in dem anschauliche Ausführungsformen umgesetzt werden können; 1 Figure 4 shows a pictorial representation of a network of data processing systems in which illustrative embodiments may be implemented;

2 ein Blockschaltbild eines Datenverarbeitungssystems zeigt, in dem anschauliche Ausführungsformen umgesetzt werden können; 2 shows a block diagram of a data processing system in which illustrative embodiments can be implemented;

3 verschiedene Beispiele von abhängigen Verweisausdrücken zeigt, die gemäß einer anschaulichen Ausführungsform aufgelöst werden können; 3 show various examples of dependent reference expressions that may be resolved according to an illustrative embodiment;

4 ein Funktionsschaubild einer beispielhaften Konfiguration zur Begriffsklärung von abhängigen Verweisausdrücken bei der Verarbeitung von natürlicher Sprache gemäß einer anschaulichen Ausführungsform zeigt; 4 FIG. 10 is a functional diagram of an exemplary configuration for explaining dependent reference expressions in natural language processing according to an illustrative embodiment; FIG.

5 Beispiele der Begriffsklärung von abhängigen Verweisausdrücken bei der Verarbeitung von natürlicher Sprache gemäß einer anschaulichen Ausführungsform zeigt; 5 Examples of conceptual clarification of dependent reference expressions in natural language processing according to an illustrative embodiment;

6 einen Ablaufplan eines beispielhaften Prozesses der Begriffsklärung von abhängigen Verweisausdrücken bei der Verarbeitung von natürlicher Sprache gemäß einer anschaulichen Ausführungsform zeigt; 6 Fig. 12 shows a flowchart of an exemplary process of conceptualization of dependent reference expressions in natural language processing according to an illustrative embodiment;

7 einen Ablaufplan einer beispielhaften Verfahrensweise zum Auflösen einer Instanz von abhängigen Verweisausdrücken gemäß einer anschaulichen Ausführungsform zeigt; und 7 FIG. 12 shows a flowchart of an example method of resolving an instance of dependent reference expressions according to an illustrative embodiment; FIG. and

8 einen Ablaufplan einer beispielhaften Verfahrensweise zum Auflösen einer Instanz von abhängigen Verweisausdrücken gemäß einer anschaulichen Ausführungsform zeigt. 8th FIG. 3 shows a flowchart of an example policy for resolving an instance of dependent reference expressions according to an illustrative embodiment.

DETAILLIERTE BESCHREIBUNGDETAILED DESCRIPTION

Die anschaulichen Ausführungsformen gehen davon aus, dass Dokumente, die einer NLP unterzogen werden, üblicherweise abhängige Verweisausdrücke enthalten, d. h. Text, der stellvertretend für bestimmte Komplettausdrücke steht, die irgendwo in den Dokumenten vorkommen. Zum Beispiel gehen die anschaulichen Ausführungsformen davon aus, dass der Komplettausdruck in bestimmten Fällen eher am Anfang eines Dokuments vorkommen kann, während Instanzen des entsprechenden abhängigen Verweisausdrucks über das Dokument verstreut sind. Bei einem rückweisenden (anaphorischen) Ausdruck handelt es sich um einen Ausdruck, der erneut eine Einheit erwähnt, auf die zuvor durch einen vorhergehenden Ausdruck verwiesen wurde. Sowohl der rückweisende Ausdruck als auch der vorhergehende Ausdruck verweisen auf etwas außerhalb des Dokuments, das als Verweisobjekt dient.The illustrative embodiments assume that documents undergoing NLP typically contain dependent reference expressions, i. H. Text that is representative of certain complete expressions that appear anywhere in the documents. For example, the illustrative embodiments assume that in some cases the full expression may occur at the beginning of a document while instances of the corresponding dependent reference term are scattered throughout the document. A rejecting (anaphoric) expression is an expression that mentions another entity previously referenced by a previous expression. Both the rejecting expression and the previous expression refer to something outside the document that serves as a reference object.

Die anschaulichen Ausführungsformen gehen davon aus, dass in bestimmten anderen Fällen der Komplettausdruck eher am Ende eines Dokuments vorkommen kann, während Instanzen des entsprechenden abhängigen Verweisausdrucks über das Dokument verstreut sind. Bei einem vorausweisenden (cataphoric) Ausdruck handelt es sich um einen Ausdruck, der erneut eine Einheit erwähnt, auf die durch einen nachfolgenden Ausdruck verwiesen wird. Sowohl der vorausweisende Ausdruck als auch der nachfolgende Ausdruck verweisen auf etwas außerhalb des Dokuments, das als Bezugsobjekt dient.The illustrative embodiments assume that in certain other cases the full expression may occur at the end of a document while instances of the corresponding dependent reference term are scattered throughout the document. A cataphoric expression is an expression that mentions again a unit referenced by a subsequent expression. Both the predictive expression and the subsequent expression refer to something outside the document that serves as the reference object.

Die anschaulichen Ausführungsformen gehen auch davon aus, dass der Komplettausdruck und der abhängige Verweisausdruck möglicherweise nicht in ein und demselben Dokument vorkommen. Zum Beispiel kann bei einer Folge von einem oder mehreren Dokumenten wie beispielsweise bei einem Vertragsdokument mit einem oder mehreren Anhangsdokumenten das Vertragsdokument den Komplettausdruck enthalten, und das Vertragsdokument und die Anhangsdokumente können Instanzen des entsprechenden abhängigen Verweisausdrucks enthalten.The illustrative embodiments also assume that the complete expression and the dependent reference expression may not be in the same document. For example, in a sequence of one or more documents, such as a contract document with one or more attachment documents, the contract document may include the complete expression, and the contract document and attachment documents may include instances of the corresponding dependent reference expression.

Die anschaulichen Ausführungsformen gehen davon aus, dass ein beliebiger Umfang an Inhalt in einem bestimmten Dokument (Wortabstand) und eine beliebige Anzahl von Dokumenten in einer bestimmten Folge von Dokumenten (Dokumentenabstand) eine Instanz eines abhängigen Verweisausdrucks von dem entsprechenden Komplettausdruck trennen kann. Die zurzeit verfügbare NLP-Technologie ist beim Auflösen der Bedeutung einer Instanz des abhängigen Verweisausdrucks wirkungsarm oder fehleranfällig, wenn der entsprechende Komplettausdruck nicht in nächster Nähe zu der Instanz des abhängigen Verweisausdrucks vorkommt. Beispielsweise sind einige zurzeit verfügbare NLP-Technologien auf einige wenige Sätze oder Absätze beschränkt, innerhalb derer die Bedeutung des abhängigen Verweisausdrucks aufgelöst werden kann. Wenn der abhängige Verweisausdruck und der Komplettausdruck zum Beispiel durch mehr als sechs Zeilen oder einen Absatz voneinander getrennt sind, wenn sie in einem Dokument beispielsweise mehrere Seiten getrennt voneinander vorkommen, verwenden einige zurzeit verfügbare NLP-Technologien einfach den abhängigen Verweisausdruck, ohne den abhängigen Verweisausdruck zum entsprechenden Komplettausdruck aufzulösen.The illustrative embodiments assume that any amount of content in a particular document (word spacing) and any number of documents in a particular sequence of documents (document distance) can separate an instance of a dependent reference expression from the corresponding complete expression. The currently available NLP technology is weak or prone to error in resolving the meaning of an instance of the dependent reference expression if the corresponding complete expression does not occur in close proximity to the instance of the dependent reference expression. For example, some currently available NLP technologies are limited to a few sentences or paragraphs within which the meaning of the dependent reference expression may be resolved. For example, if the dependent reference expression and the complete expression are separated by more than six rows or a paragraph, for example, if they appear in a document separately from one another, some currently available NLP technologies simply use the dependent reference expression without the dependent reference expression corresponding complete expression dissolve.

Andere zurzeit verfügbare NLP-Technologien versuchen, den abhängigen Verweisausdruck möglicherweise aufzulösen, indem sie eine Instanz eines abhängigen Verweisausdrucks mit einer vorhergehenden Instanz des abhängigen Verweisausdrucks verknüpfen, um auf diese Weise eine koreferenzielle Kette zu bilden. Die anschaulichen Ausführungsformen gehen davon aus, dass selbst wenn einige verfügbare NLP-Techniken abhängige Verweisausdrücke auflösen können, die in größeren Abständen von einer anderen Erwähnung desselben Bezugsobjekts vorkommen, ein solches Auflösen aufgrund ihrer Abhängigkeit von Textsuchen, die zum Vorschlagen der richtigen vorhergehenden Instanz des abhängigen Verweisausdrucks üblicherweise Kombinationen von unzuverlässigen Suchkriterien verwenden, für Fehler oder Funktionsmängel anfällig ist.Other currently available NLP technologies may attempt to resolve the dependent reference expression by associating an instance of a dependent reference expression with a previous instance of the dependent reference expression, thus forming a coreferential chain. The illustrative embodiments assume that even if some available NLP techniques can resolve dependent reference expressions occurring at greater intervals from a different mention of the same reference object, such resolution will be due to their dependency on text searches used to propose the correct preceding instance of the dependent Reference expressions typically use combinations of unreliable search criteria that are prone to errors or malfunctioning.

Die anschaulichen Ausführungsformen gehen davon aus, dass diese sowie weitere gegenwärtige Einschränkungen beim Auflösen abhängiger Verweisausdrücke eine schwierige Verarbeitung von natürlicher Sprache verursachen. Hierfür soll der folgende Beispielsatz in einem Dokument – „The 2009 Series C Bonds will be issued under and subject to the terms and conditions contained in a resolution adopted by the County.” (Die 2009er Anleihen, Serie C, werden gemäß den allgemeinen Geschäftsbedingungen begeben, die in einem vom Bezirk gefassten Beschluss enthalten sind.) betrachtet werden. Der abhängige Verweisausdruck „the 2009 Series C Bonds” (die 2009er Anleihen, Serie C) bezieht sich auf ein bestimmtes festverzinsliches Wertpapier, und der abhängige Verweisausdruck „the County” (der Bezirk) bezieht sich auf einen bestimmten Bezirk (county). Das Subjekt „bond” (Anleihe) und das Subjekt „county” (Bezirk) sind nicht ohne zusätzliche Rückschlüsse kenntlich, beispielsweise durch Ermitteln einer Gleichheitsbeziehung zwischen diesen Ausdrücken und durch andere Informationen, die in einem anderen Abschnitt des Dokuments oder in einem anderen Dokument in einer bestimmten Folge von Dokumenten bereitgestellt werden.The illustrative embodiments assume that these and other current limitations in resolving dependent reference expressions cause difficult natural language processing. For this, the following example sentence in a document - "The 2009 Series C Bonds will be issued under and subject to (The 2009 Series C bonds are issued in accordance with the terms and conditions contained in a resolution adopted by the District.). The dependent reference term "the 2009 Series C Bonds" refers to a particular fixed income security and the dependent reference term "the county" refers to a particular county. The subject "bond" and the subject "county" are not identified without additional inference, for example, by establishing an equality relationship between these terms and other information contained in another section of the document or in another document in a specific sequence of documents.

Es werde angenommen, dass irgendwo in dem Dokument der folgende Satz vorkommt – ”The $60,000,000 General Obligation Public Improvement and School Bonds, 2009 Series B (the ”2009 Series B Bonds”) and the $60,000,000 General Obligation Public Improvement and School Bonds, 2009 Series C (Federally Taxable-Build America Bonds – Direct Payment) (the ”2009 Series C Bonds”) (collectively, the ”Bonds”) of Shelby County, Tennessee (the ”County”)...” ((Die 2009er Kommunalanleihen für öffentliche Aufgaben und Schulen, Serie B, in Höhe von 60.000.000 USD (die „2009er Anleihen, Serie B”) und die 2009er Kommunalanleihen für öffentliche Aufgaben und Schulen, Serie C, in Höhe von 60.000.000 USD (steuerpflichtige Build America Bonds – Direktzahlung) (die „2009er Anleihen, Serie C”) (kurz: die „Anleihen”) des Bezirks Shelby, Tennessee (der „Bezirk”))...”. Um die abhängigen Verweisausdrücke des obigen Satzes innerhalb des Kontextes des Dokuments richtig aufzulösen, muss die Beziehung der abhängigen Verweisausdrücke zu dem Komplettausdruck im letzteren Satz berechnet werden.Suppose that somewhere in the document the following sentence occurs - "The $ 60,000,000 General Obligation Public Improvement and School Bonds, 2009 Series B (the 2009 Series B Bonds") and the $ 60,000,000 General Obligation Public Improvement and School Bonds, 2009 Series C (Federally Taxable-Build America Bonds - Direct Payment) (the "2009 Series C Bonds") of Shelby County, Tennessee (the "County") ... "((The 2009 Municipal Bonds for Public Tasks and Schools, Series B, worth $ 60,000,000 (the "2009 B Series Series Bonds") and the 2009 Municipal Public Service and School C Series Public Bonds, $ 60,000,000 (Build America Bonds taxable - direct payment) (the "2009 Series C Series" bonds) (in short: the "Bonds") of the Shelby, Tennessee district (the "District")). "To add the dependent references to the above sentence within the context of the document right To resolve, the relationship of the dependent reference expressions to the complete expression in the latter sentence must be calculated.

Bei den anschaulichen Ausführungsformen wird davon ausgegangen, dass die zurzeit verfügbaren NLP-Technologien aus einer Kombination von Gründen beim Analysieren abhängiger Verweisausdrücke innerhalb des wahren Kontextes des Dokuments versagen. Einige NLP-Technologien versagen zum Beispiel aufgrund des Wortabstands oder des Dokumentabstands zwischen einer Instanz eines abhängigen Verweisausdrucks und einem entsprechenden Komplettausdruck. Selbst NLP-Technologien, die mit Werkzeugen zur rückweisenden Begriffsklärung ausgestattet sind, stoßen wegen Wort- und Dokumentabständen auf Grenzen.The illustrative embodiments assume that the currently available NLP technologies fail for a combination of reasons when analyzing dependent reference expressions within the true context of the document. For example, some NLP technologies fail between an instance of a dependent reference expression and a corresponding complete expression due to word spacing or document distance. Even NLP technologies, which are equipped with tools for rejecting the term, are limited by word and document spacing.

Einige andere NLP-Technologien versagen sogar beim Erkennen bestimmter Texte als Instanz eines abhängigen Verweisausdrucks. Wenn einige NLP-Technologien zum Beispiel eine linguistische Eigenschaft des abhängigen Verweisausdrucks wie beispielsweise eine Einzahlform zugrunde legen, wird eine Mehrzahlform des abhängigen Verweisausdrucks für die Auflösung nicht erkannt. In einem weiteren Beispiel werden bei einer rückweisenden Begriffsklärung vorausweisende abhängige Verweisausdrücke nicht erkannt, die weniger gebräuchlich sind als rückweisende Verweise. Wiederum andere NLP-Technologien sind möglicherweise von einer Kombination dieser und weiterer Nachteile betroffen, was dazu führen kann, dass bestimmte Instanzen abhängiger Verweisausdrücke aufgelöst werden, andere wiederum nicht.Some other NLP technologies even fail to recognize specific texts as an instance of a dependent reference expression. For example, if some NLP technologies use a linguistic property of the dependent reference expression, such as a singular form, a multiple form of the dependent reference expression is not recognized for the resolution. In another example, in a rejecting term explanation, predictive dependent reference expressions are not recognized that are less common than rejecting references. Still other NLP technologies may be affected by a combination of these and other disadvantages, which may cause certain instances of dependent reference expressions to be resolved, while others may not.

Die zum Beschreiben der Erfindung verwendeten anschaulichen Ausführungsformen behandeln und lösen allgemein die oben beschriebenen Probleme sowie andere mit den Einschränkungen zurzeit verfügbarer NLP-Technologien verbundener Probleme. Die anschaulichen Ausführungsformen stellen ein Verfahren, ein System und ein Computerprogrammprodukt zur Begriffsklärung von abhängigen Verweisausdrücken bei der Verarbeitung von natürlicher Sprache bereit.The illustrative embodiments used to describe the invention generally address and solve the problems described above, as well as other problems associated with the limitations of currently available NLP technologies. The illustrative embodiments provide a method, system, and computer program product for disambiguating dependent reference expressions in natural language processing.

Die anschaulichen Ausführungsformen suchen mittels eines Filterungsprozesses nach den Instanzen von abhängigen Verweisausdrücken in einem Dokument. Die anschaulichen Ausführungsformen machen den entsprechenden Komplettausdruck in einer bestimmten Folge von Dokumenten über einen unbegrenzten Wort- oder Dokumentabstand hinweg ausfindig. Die anschaulichen Ausführungsformen klären unter Verwendung des Komplettausdrucks jede Instanz des abhängigen Verweisausdrucks.The illustrative embodiments use a filtering process to search for the instances of dependent reference expressions in a document. The illustrative embodiments locate the corresponding complete expression in a particular sequence of documents over an unlimited word or document distance. The illustrative embodiments clarify each instance of the dependent reference expression using the full expression.

Eine Ausführungsform klärt eine Instanz des abhängigen Verweisausdrucks, indem sie den abhängigen Verweisausdruck in dem in natürlicher Sprache verarbeiteten Ausgabedokument durch den Komplettausdruck ersetzt. Bei einer anderen Ausführungsform wird eine Instanz des abhängigen Verweisausdrucks durch Ändern des abhängigen Verweisausdrucks in der Weise geklärt, dass der Komplettausdruck vom Standort der Instanz des abhängigen Verweisausdrucks in dem in natürlicher Sprache verarbeiteten Ausgabedokument verfügbar oder zugreifbar wird.One embodiment clarifies an instance of the dependent reference expression by replacing the dependent reference expression in the natural language processed output document with the complete expression. In another embodiment, an instance of the dependent reference expression is clarified by changing the dependent reference expression such that the complete expression becomes available or accessible from the location of the instance of the dependent reference expression in the natural language output document.

Eine Ausführungsform ersetzt zum Beispiel unter Verwendung der oben beschriebenen beispielhaften Sätze alle Instanzen von „the County” in dem Ausgabedokument durch „Shelby County, Tennessee”. Eine andere Ausführungsform veranlasst bestimmte Instanzen von „the County”, in dem Ausgabedokument einen von „Shelby County, Tennessee” abweichenden Text anzuzeigen. Eine weitere Ausführungsform veranlasst bestimmte Instanzen von „the County”, einen Hyperlink auf das Vorkommen des Ausdrucks „Shelby County, Tennessee” in dem Ausgabedokument zu enthalten. Eine weitere Ausführungsform veranlasst bestimmte Instanzen von „the County”, einen Hyperlinkt auf ein anderes Dokument in der vorliegenden Folge von Eingabedokumenten zu enthalten, die auf „Shelby County, Tennessee” in dem Ausgabedokument verweisen.For example, one embodiment replaces all instances of "the County" in the output document by "Shelby County, Tennessee" using the exemplary sentences described above. Another embodiment causes certain instances of "the county" to display a text other than "Shelby County, Tennessee" in the output document. Another embodiment causes certain instances of "the county" to hyperlink to the occurrence of the term "Shelby County, Tennessee" in the output document. Another embodiment causes certain instances of "the county" to include a hyperlink to another document in the present series of input documents that refer to "Shelby County, Tennessee" in the output document.

Diese beispielhaften Verfahrensweisen zum Auflösen eines abhängigen Verweisausdrucks in den entsprechenden Komplettausdruck sind nicht als Beschränkung auf die anschaulichen Ausführungsformen zu verstehen. Eine Ausführungsform kann innerhalb des Schutzumfangs der anschaulichen Ausführungsformen diese oder eine Kombination dieser und anderer Verfahrensweisen zum Auflösen abhängiger Verweisausdrücke umsetzen.These example procedures for resolving a dependent reference expression into the corresponding complete expression are not to be understood as limiting the illustrative embodiments. One embodiment may, within the scope of the illustrative embodiments, implement these or a combination of these and other methods of resolving dependent reference expressions.

Die anschaulichen Ausführungsformen werden nur anhand von Beispielen unter Bezugnahme auf bestimmte Typen von Dokumenten, Komplettausdrücken und abhängigen Verweisausdrücken beschrieben. Solche Typen von Dokumenten, Komplettausdrücken und abhängigen Verweisausdrücken oder deren beispielhafte Attribute sind nicht als Einschränkung der Erfindung zu verstehen.The illustrative embodiments will be described by way of example only with reference to certain types of documents, complete expressions, and dependent reference expressions. Such types of documents, complete expressions and dependent reference expressions or their exemplary attributes are not to be construed as limiting the invention.

Darüber hinaus können die anschaulichen Ausführungsformen in Bezug auf jeden beliebigen Typ von Daten, Datenquellen oder Zugriff auf eine Datenquelle über ein Datennetzwerk realisiert werden. Jeder beliebige Typ von Datenspeichereinheit kann die Daten für eine Ausführungsform der Erfindung innerhalb des Schutzumfangs der Erfindung entweder lokal an einem Datenverarbeitungssystem oder über ein Datennetzwerk bereitstellen.Moreover, the illustrative embodiments may be implemented over any data type, data sources, or access to a data source over a data network. Any type of data storage unit may provide the data for one embodiment of the invention within the scope of the invention either locally to a data processing system or over a data network.

Die anschaulichen Ausführungsformen werden unter Verwendung bestimmter Codes, Entwürfe, Architekturen, Protokolle, Layouts, Schemata und Tools lediglich anhand von Beispielen beschrieben und sollen nicht darauf beschränkt sein. Darüber hinaus werden die anschaulichen Ausführungsformen zur Verdeutlichung der Beschreibung in einigen Fällen unter Verwendung bestimmter Software, Tools und Datenverarbeitungsumgebungen lediglich anhand von Beispielen beschrieben. Die anschaulichen Ausführungsformen können in Verbindung mit anderen vergleichbaren oder ähnlich zweckbestimmten Strukturen, Systemen, Anwendungen oder Architekturen verwendet werden. Eine anschauliche Ausführungsform kann in Form von Hardware, Software oder einer Kombination derselben realisiert werden.The illustrative embodiments are described, and are not intended to be, by way of example only, using particular codes, designs, architectures, protocols, layouts, schemas, and tools. In addition, for clarity of description, the illustrative embodiments will be described in some instances using specific software, tools, and computing environments, by way of example only. The illustrative embodiments may be used in conjunction with other comparable or similar dedicated structures, systems, applications, or architectures. An illustrative embodiment may be implemented in the form of hardware, software, or a combination thereof.

Die Beispiele in dieser Offenbarung dienen nur zur Verdeutlichung der Beschreibung und sind nicht als Einschränkung der anschaulichen Ausführungsformen zu verstehen. Weitere Daten, Operationen, Aktionen, Tasks, Aktivitäten und Manipulationen werden aus dieser Offenbarung denkbar und sollen innerhalb des Schutzumfangs der anschaulichen Ausführungsformen enthalten sein.The examples in this disclosure are only to aid in the description and are not to be construed as limiting the illustrative embodiments. Other data, operations, actions, tasks, activities and manipulations will be conceivable from this disclosure and are intended to be included within the scope of the illustrative embodiments.

Alle hierin aufgeführten Vorteile stellen lediglich Beispiele dar und sind nicht als Beschränkung auf die anschaulichen Ausführungsformen zu verstehen. Weitere oder andere Vorteile können durch spezielle anschauliche Ausführungsformen erlangt werden. Darüber hinaus kann eine bestimmte anschauliche Ausführungsform einige, alle oder keine der oben aufgeführten Vorteile aufweisen.All advantages listed herein are merely examples and should not be construed as limiting the illustrative embodiments. Other or other advantages may be obtained by specific illustrative embodiments. In addition, one particular illustrative embodiment may have some, all, or none of the advantages listed above.

Unter Bezugnahme auf die Figuren und insbesondere unter Bezugnahme auf die 1 und 2 werden beispielhafte Schaubilder von Datenverarbeitungsumgebungen gezeigt, in denen anschauliche Ausführungsformen umgesetzt werden können. Die 1 und 2 stellen lediglich Beispiele dar und sollen keinerlei Beschränkung in Bezug auf die Umgebungen nahelegen oder bedeuten, in denen verschiedene Ausführungsformen umgesetzt werden können. Im Rahmen einer bestimmten Implementierung können an den dargestellten Umgebungen auf der Grundlage der folgenden Beschreibung viele Änderungen vorgenommen werden.With reference to the figures and in particular with reference to the 1 and 2 For example, exemplary graphs of computing environments are shown in which illustrative embodiments may be practiced. The 1 and 2 are merely examples and are not intended to suggest or imply any limitation on the environments in which various embodiments may be practiced. As part of a particular implementation, many changes may be made to the environments presented based on the following description.

1 zeigt eine bildliche Darstellung eines Netzwerks von Datenverarbeitungssystemen, in denen anschauliche Ausführungsformen umgesetzt werden können. Bei einer Datenverarbeitungsumgebung 100 handelt es sich um ein Netzwerk von Computern, in denen die anschaulichen Ausführungsformen umgesetzt werden können. Die Datenverarbeitungsumgebung 100 beinhaltet ein Netzwerk 102. Das Netzwerk 102 dient als Medium zum Bereitstellen von Datenübertragungsverbindungen zwischen verschiedenen Einheiten und Computern, die innerhalb der Datenverarbeitungsumgebung 100 miteinander verbunden sind. Das Netzwerk 102 kann Verbindungen wie beispielsweise Leitungen, drahtlose Datenübertragungsverbindungen oder Lichtwellenleiter beinhalten. Ein Server 104 und ein Server 106 sind zusammen mit einer Speichereinheit 108 mit dem Netzwerk 102 verbunden. Softwareanwendungen können auf einem beliebigen Computer in der Datenverarbeitungsumgebung 100 ausgeführt werden... 1 shows a pictorial representation of a network of data processing systems in which illustrative embodiments can be implemented. In a computing environment 100 It is a network of computers in which the illustrative embodiments can be implemented. The computing environment 100 includes a network 102 , The network 102 serves as a medium for providing data communications links between various devices and computers within the computing environment 100 connected to each other. The network 102 may include connections such as lines, wireless communication links, or optical fibers. A server 104 and a server 106 are together with a storage unit 108 with the network 102 connected. Software applications can run on any computer in the computing environment 100 be executed ...

Außerdem sind auch noch Clients 110, 112 und 114 mit dem Netzwerk 102 verbunden. Ein Datenverarbeitungssystem wie beispielsweise die Server 104 oder 106 oder die Clients 110, 112 oder 114 können Daten enthalten und Softwareanwendungen oder Software-Tools aufweisen, die darauf ausgeführt werden.There are also clients 110 . 112 and 114 with the network 102 connected. A data processing system such as the servers 104 or 106 or the clients 110 . 112 or 114 may contain data and software applications or software tools running on them.

1 zeigt lediglich als Beispiel und ohne eine Beschränkung auf eine solche Architektur nahezulegen, bestimmte Komponenten, die in einer beispielhaften Implementierung einer Ausführungsform verwendbar sind. Zum Beispiel handelt es sich bei einer Anwendung 105 in dem Server 104 um eine Implementierung einer hierin beschriebenen Ausführungsform. Die Anwendung 105 arbeitet mit einer NLP-Steuerkomponente 103 zusammen. Bei der NLP-Steuerkomponente 103 kann es sich zum Beispiel um eine vorhandene Anwendung handeln, die natürliche Sprache in Dokumenten verarbeiten kann und so verändert oder konfiguriert werden kann, dass sie zusammen mit der Anwendung 105 eine Operation gemäß einer hierin beschriebenen Ausführungsform ausführt. Der Client 112 beinhaltet eine Folge von Dokumenten mit abhängigen Verweisausdrücken 113, die gemäß einer Ausführungsform verarbeitet werden. 1 merely by way of example and without limitation to suggest such architecture, illustrates certain components used in an example implementation of an embodiment are usable. For example, it is an application 105 in the server 104 an implementation of an embodiment described herein. The application 105 works with an NLP engine 103 together. For the NLP engine 103 For example, it can be an existing application that can handle natural language in documents and can be modified or configured to work with the application 105 performs an operation according to an embodiment described herein. The client 112 contains a sequence of documents with dependent reference expressions 113 which are processed according to one embodiment.

Die Server 104 und 106, die Speichereinheit 108 und die Clients 110, 112 und 114 können unter Verwendung von Leitungsverbindungen, Protokollen für drahtlose Datenübertragung oder eine andere geeignete Datenkonnektivität mit dem Netzwerk 102 verbunden sein. Bei den Clients 110, 112 und 114 kann es sich zum Beispiel um Personal Computer oder um Netzwerk-Computer handeln.The servers 104 and 106 , the storage unit 108 and the clients 110 . 112 and 114 may be using line connections, wireless data transmission protocols, or other appropriate data connectivity to the network 102 be connected. At the clients 110 . 112 and 114 These can be, for example, personal computers or network computers.

In dem gezeigten Beispiel kann der Server 104 Daten wie beispielsweise Boot-Dateien, Betriebssystem-Abbilder und Anwendungen für Clients 110, 112 und 114 bereitstellen. Bei den Clients 110, 112 und 114 kann es sich in diesem Beispiel um Clients für den Server 104 handeln. Die Clients 110, 112, 114 oder einige ihrer Kombinationen können ihre eigenen Daten, Boot-Dateien, Betriebssystem-Abbilder und Anwendungen enthalten. Die Datenverarbeitungsumgebung 100 kann weitere Server, Clients und andere nicht gezeigte Einheiten enthalten.In the example shown, the server can 104 Data such as boot files, operating system images, and applications for clients 110 . 112 and 114 provide. At the clients 110 . 112 and 114 this example may be clients for the server 104 act. The clients 110 . 112 . 114 or some of their combinations may contain their own data, boot files, operating system images, and applications. The computing environment 100 may include other servers, clients, and other devices not shown.

In dem gezeigten Beispiel kann es sich bei der Datenverarbeitungsumgebung 100 um das Internet handeln. Das Netzwerk 102 kann eine Ansammlung von Netzwerken und Gateways darstellen, die zum Austauschen von Daten untereinander das Transmission Control Protocol/Internet Protocol (TCP/IP) und andere Protokolle verwenden. Ein Hauptstrang von Datenübertragungsverbindungen zwischen Hauptknoten oder Host-Computern bildet das Kernstück des Internet, darunter tausende von Unternehmens-, Regierungs-, Universitäts- und anderen Computer-Systemen, die Daten und Nachrichten weiterleiten. Die Datenverarbeitungsumgebung 100 kann natürlich auch als eine Anzahl verschiedener Typen von Netzwerken realisiert werden, beispielsweise als Intranet, als lokales Netzwerk (LAN) oder als Weitverkehrsnetzwerk (WAN). 1 soll nur als Beispiel dienen und ist nicht als architektonische Einschränkung für die verschiedenen anschaulichen Ausführungsformen anzusehen.In the example shown, the computing environment may be 100 to trade the Internet. The network 102 may represent a collection of networks and gateways that use the Transmission Control Protocol / Internet Protocol (TCP / IP) and other protocols to exchange data with each other. A major strand of data communications links between major nodes or host computers is at the heart of the Internet, including thousands of enterprise, government, university, and other computer systems that route data and messages. The computing environment 100 Of course, it can also be implemented as a number of different types of networks, such as intranet, local area network (LAN) or wide area network (WAN). 1 is intended to serve only as an example and is not to be considered as architectural limitation to the various illustrative embodiments.

Die Datenverarbeitungsumgebung 100 kann unter anderem zum implementieren einer Client-Server-Umgebung verwendet werden, in der die anschaulichen Ausführungsformen umgesetzt werden können. Eine Client-Server-Umgebung ermöglicht es, Softwareanwendungen und Daten über ein Netzwerk zu verteilen, sodass eine Anwendung durch das Zusammenwirken zwischen einem Client-Datenverarbeitungssystem und einem Server-Datenverarbeitungssystem funktioniert. Die Datenverarbeitungsumgebung 100 kann auch eine serviceorientierte Architektur verwenden, in der funktionell aufeinander abgestimmte Software-Komponenten, die über ein Netzwerk verteilt sind, zu einheitlichen Geschäftsanwendungen gebündelt werden können.The computing environment 100 may be used inter alia to implement a client-server environment in which the illustrative embodiments may be practiced. A client-server environment enables software applications and data to be distributed over a network so that an application functions through interaction between a client computing system and a server computing system. The computing environment 100 can also use a service-oriented architecture in which functionally coordinated software components distributed over a network can be bundled into unified business applications.

2 zeigt ein Blockschaubild eines Datenverarbeitungssystems, in dem anschauliche Ausführungsformen umgesetzt werden können. Als Datenverarbeitungssystem 200 dient zum Beispiel ein Computer wie beispielsweise ein Server 104 oder ein Client 112 in 1 oder ein anderer Typ von Einheiten, in denen sich ein durch Computer verwendbarer Programmcode oder Anweisungen zum Umsetzen der Prozesse für die anschaulichen Ausführungsformen befinden können. 2 shows a block diagram of a data processing system in which illustrative embodiments can be implemented. As a data processing system 200 For example, you can use a computer such as a server 104 or a client 112 in 1 or another type of device in which there may be computer usable program code or instructions for implementing the processes for the illustrative embodiments.

In dem gezeigten Beispiel nutzt das Datenverarbeitungssystem 200 eine Hub-Architektur, die einen NB/MCH (North Bridge and memory controller hub) 202 und einen SB/ICH (South Bridge and input/output (I/O) controller hub) 204 enthält. Eine Verarbeitungseinheit 206, ein Hauptspeicher 208 und ein Grafikprozessor 210 sind mit dem NB/MCH (North Bridge and memory controller hub) 202 verbunden. Die Verarbeitungseinheit 206 kann einen oder mehrere Prozessoren enthalten und so eingerichtet sein, dass sie ein oder mehrere heterogene Prozessorsysteme verwendet. Bei der Verarbeitungseinheit 206 kann es sich um einen Mehrkern-Prozessor handeln. Ein Grafikprozessor 210 kann bei bestimmten Implementierungen durch einen beschleunigten Grafikanschluss (accelerated graphics port, AGP) mit dem NB/MCH 202 verbunden sein.In the example shown, the data processing system uses 200 a hub architecture that uses an NB / MCH (North Bridge and Memory Controller Hub) 202 and a SB / ICH (South Bridge and input / output (I / O) controller hub) 204 contains. A processing unit 206 , a main memory 208 and a graphics processor 210 are with the NB / MCH (North Bridge and memory controller hub) 202 connected. The processing unit 206 may include one or more processors and be configured to use one or more heterogeneous processor systems. At the processing unit 206 it can be a multi-core processor. A graphics processor 210 may in certain implementations by an accelerated graphics port (AGP) with the NB / MCH 202 be connected.

In dem gezeigten Beispiel ist ein lokaler Netzwerk-(LAN-)Adapter 212 mit dem SB/ICH (South Bridge and I/O controller hub) 204 verbunden. Ein Audioadapter 216, ein Tastatur- und Mausadapter 220, ein Modem 222, ein Nur-Lese-Speicher (ROM) 224, ein universeller serieller Bus (USB) und andere Anschlüsse 232 sowie PCI/PCIe-Einheiten 234 sind durch einen Bus 238 mit dem SB/ICH (South Bridge and I/O controller hub) 204 verbunden. Ein Festplattenlaufwerk (HDD) 226 und ein CD-ROM 230 sind durch einen Bus 240 mit dem SB/ICH (South Bridge and I/O controller hub) 204 verbunden. Als PCI/PCIe-Einheiten 234 können zum Beispiel Ethernet-Adapter, Steckkarten und PC-Karten für Notebook-Computer infrage kommen. PCI verwendet eine Karten-Bussteuereinheit, PCIe hingegen nicht. Bei dem ROM 224 kann es sich zum Beispiel um ein binäres Flash-Eingabe/Ausgabesystem (BIOS) handeln. Das Festplattenlaufwerk 226 und das CD-ROM 230 können zum Beispiel eine integrierte Einheitenelektronik (IDE) oder eine SATA-(serieller Zusatz für fortgeschrittene Technologie)Schnittstelle nutzen. Eine Super-E/A-(SIO-)Einheit 236 kann durch den Bus 238 mit dem SB/ICH (South Bridge and I/O controller hub) 204 verbunden sein.In the example shown is a local area network (LAN) adapter 212 with the SB / ICH (South Bridge and I / O controller hub) 204 connected. An audio adapter 216 , a keyboard and mouse adapter 220 , a modem 222 , a read-only memory (ROM) 224 , a universal serial bus (USB) and other connections 232 as well as PCI / PCIe units 234 are by a bus 238 with the SB / ICH (South Bridge and I / O controller hub) 204 connected. A hard disk drive (HDD) 226 and a CD-ROM 230 are by a bus 240 with the SB / ICH (South Bridge and I / O controller hub) 204 connected. As PCI / PCIe units 234 For example, Ethernet adapters, plug-in cards, and PC cards may be suitable for notebook computers. PCI uses a card bus controller, but PCIe does not. In the ROM 224 For example, it can be a binary flash input / output system (BIOS) act. The hard disk drive 226 and the CD-ROM 230 For example, you can use integrated device electronics (IDE) or SATA (advanced technology advanced) interface. A super I / O (SIO) unit 236 can by the bus 238 with the SB / ICH (South Bridge and I / O controller hub) 204 be connected.

Speicher wie beispielsweise der Hauptspeicher 208, der ROM 224 oder der (nicht gezeigte) Flash-Speicher stellen nur einige Beispiele für durch Computer verwendbare Speichereinheiten dar. Das Festplattenlaufwerk 226, der CD-ROM 230 sowie weitere ähnlich verwendbare Einheiten stellen einige Beispiele von durch Computer verwendbaren Speichereinheiten dar, die ein durch Computer verwendbares Speichermedium beinhalten.Memory such as the main memory 208 , the ROM 224 or the flash memory (not shown) are but a few examples of computer-usable storage units. The hard disk drive 226 , the CD-ROM 230 and other similar usable devices are some examples of computer-usable storage devices that include a computer-usable storage medium.

Ein Betriebssystem wird auf der Verarbeitungseinheit 206 ausgeführt. Das Betriebssystem koordiniert und steuert verschiedene Komponenten innerhalb des Datenverarbeitungssystems 200 in 2. Bei dem Betriebssystem kann es sich um ein handelsübliches Betriebssystem wie beispielsweise AIX® (AIX ist ein Warenzeichen von International Business Machines Corporation in den Vereinigten Staaten von Amerika und anderen Ländern), Microsoft® Windows® (Microsoft und Windows sind Warenzeichen von Microsoft Corporation in den Vereinigten Staaten von Amerika und anderen Ländern) oder Linux® (Linux ist ein Warenzeichen von Linus Torvalds in den Vereinigten Staaten von Amerika und anderen Ländern) handeln. Ein objektorientiertes Programmiersystem wie beispielsweise das Programmiersystem JavaTM kann in Verbindung mit dem Betriebssystem ausgeführt werden und stellt Aufrufe von JavaTM-Programmen oder -Anwendungen (Java und alle auf Java bezogenen Warenzeichen und Logos sind Warenzeichen oder eingetragene Warenzeichen von Oracle Corporation und/oder deren Tochterunternehmen), die auf dem Datenverarbeitungssystem 200 ausgeführt werden, an das Betriebssystem bereit...An operating system is on the processing unit 206 executed. The operating system coordinates and controls various components within the data processing system 200 in 2 , The operating system may be a commercially available operating system such as AIX ® (AIX is a trademark of International Business Machines Corporation in the United States and other countries), Microsoft ® Windows ® (Microsoft and Windows are trademarks of Microsoft Corporation in the United States of America and other countries) or Linux® (Linux is a trademark of Linus Torvalds in the United States and other countries). An object-oriented programming system, such as the Java programming system, may be executed in conjunction with the operating system and makes calls to Java programs or applications (Java and all Java-related trademarks and logos are trademarks or registered trademarks of Oracle Corporation and / or the like Subsidiaries) operating on the data processing system 200 be running, ready for the operating system ...

Anweisungen für das Betriebssystem, das objektorientierte Programmiersystem und Anwendungen oder Programme wie beispielsweise die Anwendung 105 in 1 befinden sich auf mindestens einer der einen oder mehreren Speichereinheiten, beispielsweise auf dem Festplattenlaufwerk 226, und können in mindestens einen der einen oder mehreren Speicher wie beispielsweise den Hauptspeicher 208 geladen werden, um durch die Verarbeitungseinheit 206 ausgeführt zu werden. Die Prozesse der anschaulichen Ausführungsformen können durch die Verarbeitungseinheit 206 unter Verwendung computergestützter Anweisungen ausgeführt werden, die sich in einem Speicher wie beispielsweise dem Hauptspeicher 208, dem Nur-Lese-Speicher 224 oder in einer oder mehreren Peripherieeinheiten befinden können.Instructions for the operating system, the object-oriented programming system and applications or programs such as the application 105 in 1 are located on at least one of the one or more storage devices, such as the hard disk drive 226 , and may be stored in at least one of the one or more memories, such as main memory 208 be loaded to pass through the processing unit 206 to be executed. The processes of the illustrative embodiments may be performed by the processing unit 206 be executed using computer-based instructions residing in a memory such as main memory 208 , the read-only memory 224 or in one or more peripheral units.

Die Hardware in den 1 bis 2 kann je nach Implementierung variieren. Zusätzlich oder anstelle der in den 1 bis 2 gezeigten Hardware können weitere interne Hardware- oder Peripherieeinheiten wie beispielsweise ein Flash-Speicher, ein gleichartiger nichtflüchtiger Speicher oder optische Plattenlaufwerke und dergleichen verwendet werden. Außerdem können Prozesse der anschaulichen Ausführungsformen auf ein Multiprozessor-Datenverarbeitungssystem übertragen werden.The hardware in the 1 to 2 may vary depending on the implementation. In addition or instead of in the 1 to 2 As shown, other internal hardware or peripherals such as flash memory, similar non-volatile memory or optical disk drives, and the like may be used. Additionally, processes of the illustrative embodiments may be applied to a multiprocessor data processing system.

Gemäß einigen anschaulichen Beispielen kann es sich bei dem Datenverarbeitungssystem 200 um einen persönlichen digitalen Assistenten (PDA) handeln, der im Allgemeinen mit einem Flash-Speicher konfiguriert ist, um einen nichtflüchtigen Speicher zum Speichern von Betriebssystemdateien und/oder vom Benutzer erzeugten Daten bereitzustellen. Ein Bussystem kann einen oder mehrere Busse wie beispielsweise einen Systembus, einen E/A-Bus und einen PCI-Bus aufweisen. Das Bussystem kann natürlich unter Verwendung eines beliebigen Typs von Datenübertragungsstruktur oder -architektur realisiert werden, die eine Übertragung von Daten zwischen verschiedenen Komponenten oder Einheiten ermöglicht, die mit der Struktur oder Architektur verbunden sind.According to some illustrative examples, the data processing system may be 200 is a personal digital assistant (PDA) that is generally configured with a flash memory to provide non-volatile memory for storing operating system files and / or user generated data. A bus system may include one or more buses, such as a system bus, an I / O bus, and a PCI bus. Of course, the bus system may be implemented using any type of data transmission structure or architecture that allows for transmission of data between various components or units connected to the structure or architecture.

Eine Datenübertragungseinheit kann eine oder mehrere Einheiten beinhalten, die zum Senden und Empfangen von Daten verwendet werden, beispielsweise einen Modem oder einen Netzwerkadapter. Bei einem Speicher kann es sich zum Beispiel um den Hauptspeicher 208 oder um einen Cachespeicher handeln, beispielsweise den Cachespeicher in dem NB/MCH (North Bridge and memory controller hub) 202. Eine Verarbeitungseinheit kann einen oder mehrere Prozessoren oder CPUs beinhalten.A communication unit may include one or more units used to send and receive data, such as a modem or network adapter. For example, a memory may be the main memory 208 or a cache, such as the cache in the NB / MCH (North Bridge and Memory Controller Hub). 202 , A processing unit may include one or more processors or CPUs.

Die gezeigten Beispiele in den 1 bis 2 und die oben beschriebenen Beispiele sind nicht als architektonische Einschränkungen zu verstehen. Zum Beispiel kann es sich bei dem Datenverarbeitungssystem 200 nicht nur um einen PDA, sondern auch um einen Tablet-Computer, einen Laptop-Computer oder eine Telefoneinheit handeln.The examples shown in the 1 to 2 and the examples described above should not be construed as architectural limitations. For example, the data processing system may be 200 not just a PDA, but also a tablet computer, a laptop computer or a telephone unit.

3 zeigt mehrere Beispiele von abhängigen Verweisausdrücken, die gemäß einer anschaulichen Ausführungsform aufgelöst werden können. Bei dem Dokument 302 handelt es sich um ein beispielhaftes Einzeldokument, in dem ein Komplettausdruck 304 vor Instanzen 306 und 308 eines abhängigen Verweisausdrucks vorkommt. Bei dem Dokument 302 handelt es sich um ein beispielhaftes Dokument, das alle oder einen Teil der Folge von Dokumenten 113 in 1 ausmachen kann. 3 FIG. 12 shows several examples of dependent reference expressions that may be resolved according to an illustrative embodiment. At the document 302 it is an exemplary single document in which a complete printout 304 before instances 306 and 308 a dependent reference expression. At the document 302 it is an exemplary document, all or part of the sequence of documents 113 in 1 can make out.

Zurzeit verfügbare NLP-Technologien wie beispielsweise die NLP-Steuerkomponente 103 in 1 sind nur dann in der Lage, Instanzen eines abhängigen Verweisausdrucks aufzulösen, wenn die Instanz des abhängigen Verweisausdrucks in nächster Nähe zu dem entsprechenden Komplettausdruck vorkommt. Zum Beispiel würde eine zurzeit verfügbare NLP-Steuerkomponente innerhalb des Bereichs 310 des abhängigen Verweisausdrucks 306 suchen, um zu ermitteln, ob der abhängige Verweisausdruck 306 aufgelöst werden kann. Wenn der Komplettausdruck 304 innerhalb des Bereichs 310 vorkäme (nicht gezeigt), könnte eine zurzeit verfügbare NLP-Steuerkomponente den abhängigen Verweisausdruck 306 unter Einhaltung anderer Bedingungen und Beschränkungen auflösen. In dem gezeigten Beispiel des Dokuments 302 würde eine zurzeit verfügbare NLP-Steuerkomponente den abhängigen Verweisausdruck 306 unter Verwendung des Komplettausdrucks 304 nicht auflösen. Currently available NLP technologies such as the NLP engine 103 in 1 are only able to resolve instances of a dependent reference expression if the instance of the dependent reference expression occurs in close proximity to the corresponding full expression. For example, a currently available NLP engine would be within the range 310 the dependent reference expression 306 search to determine if the dependent reference expression 306 can be resolved. If the complete expression 304 within the range 310 If present (not shown), a currently available NLP engine could print the dependent reference expression 306 dissolve in compliance with other conditions and restrictions. In the example of the document shown 302 For example, a currently available NLP engine would print the dependent reference expression 306 using the complete expression 304 do not dissolve.

Bei dem Dokument 312 handelt es sich um ein weiteres beispielhaftes Einzeldokument, in dem ein Komplettausdruck 314 nach den Instanzen 316 und 318 eines abhängigen Verweisausdrucks vorkommt. Aufgrund einer Kombination oben beschriebener Beschränkungen könnte eine zurzeit verfügbare NLP-Steuerkomponente den abhängigen Verweisausdruck 306 nicht auflösen.At the document 312 this is another example of an individual document in which a complete printout 314 after the instances 316 and 318 a dependent reference expression. Due to a combination of limitations described above, a currently available NLP engine could make the dependent reference expression 306 do not dissolve.

Bei den Dokumenten 322 und 323 handelt es sich um beispielhafte Dokumente in einer Folge von Dokumenten wie beispielsweise in der Folge von Dokumenten mit einem abhängigen Verweisausdruck 113 in 1. Das Dokument 322 enthält einen Komplettausdruck 324 und einen abhängigen Verweisausdruck 326. Das Dokument 323 enthält abhängige Verweisausdrücke 328 und 330, die unter Verwendung des Komplettausdrucks 324 im Dokument 322 aufgelöst werden können. Eine zurzeit verfügbare NLP-Steuerkomponenten könnte aufgrund einer Kombination oben beschriebener Beschränkungen den abhängigen Verweisausdruck 306 nicht auflösen. Verschiedene hierin beschriebene Ausführungsformen sind zum Auflösen der abhängigen Verweisausdrücke 306 und 308 zu dem Komplettausdruck 304, der abhängigen Verweisausdrücke 316 und 318 zu dem Komplettausdruck 314 und der abhängigen Verweisausdrücke 326, 328 und 330 zu dem Komplettausdruck 324 verwendbar.At the documents 322 and 323 These are exemplary documents in a sequence of documents, such as documents with a dependent reference expression 113 in 1 , The document 322 contains a complete expression 324 and a dependent reference expression 326 , The document 323 Contains dependent reference expressions 328 and 330 using the complete expression 324 in the document 322 can be resolved. A currently available NLP engine might become the dependent reference expression due to a combination of the constraints described above 306 do not dissolve. Various embodiments described herein are for resolving the dependent reference terms 306 and 308 to the complete expression 304 , the dependent reference expressions 316 and 318 to the complete expression 314 and the dependent reference expressions 326 . 328 and 330 to the complete expression 324 usable.

4 zeigt ein Funktionsschaubild einer beispielhaften Konfiguration zur Begriffsklärung von abhängigen Verweisausdrücken bei der Verarbeitung von natürlicher Sprache gemäß einer anschaulichen Ausführungsform. Bei der Anwendung 402 handelt es sich um eine beispielhafte Ausführungsform der Anwendung 105 in 1. Eines der Dokumente 302 oder 304 oder der Dokumente 322 und 323 in 3 kann als Folge von Dokumenten 404 verwendet werden, die eine Folge eines oder mehrerer Komplettausdrücke und eine Folge eines oder mehrerer abhängiger Verweisausdrücke enthalten, die jedem Komplettausdruck in der Folge entsprechen. 4 FIG. 12 is a functional diagram of an exemplary configuration for explaining dependent reference expressions in natural language processing according to an illustrative embodiment. FIG. In the application 402 it is an exemplary embodiment of the application 105 in 1 , One of the documents 302 or 304 or the documents 322 and 323 in 3 can as a result of documents 404 which contain a sequence of one or more complete expressions and a sequence of one or more dependent reference expressions corresponding to each complete expression in the sequence.

Die Anwendung 402 empfängt eine Folge von Dokumenten 404 als Eingabe für die Verarbeitung von natürlicher Sprache. Die Komponente 406 wählt einen Abschnitt der Dokumente 404 aus. Die Komponente 406 filtert den Abschnitt, um eine Instanz eines abhängigen Verweisausdrucks zu erkennen. Zum Beispiel erkennt die Komponente 406 gemäß einer Ausführungsform eine Instanz eines abhängigen Verweisausdrucks anhand bestimmter linguistischer Eigenschaften der Wörter, Ausdrücke oder Textsegmente. Zum Beispiel filtert die Komponente 406 gemäß einer Ausführungsform den ausgewählten Abschnitt eines Dokuments nach Wörtern in Großschreibung und erkennt ein großgeschriebenes Wort als eine Instanz eines abhängigen Verweisausdrucks. Gemäß einer anderen Ausführungsform filtert die Komponente 406 nach bestimmten Zeichenfolgen und erkennt diese als abhängige Verweisausdrücke.The application 402 receives a sequence of documents 404 as input for the processing of natural language. The component 406 selects a section of the documents 404 out. The component 406 Filters the section to detect an instance of a dependent reference expression. For example, the component detects 406 According to one embodiment, an instance of a dependent reference expression based on particular linguistic properties of the words, phrases or text segments. For example, the component filters 406 according to one embodiment, capitalizing the selected portion of a document for words and recognizing a capitalized word as an instance of a dependent reference expression. In another embodiment, the component filters 406 for specific strings and recognize them as dependent reference expressions.

Gemäß einer anderen Ausführungsform filtert die Komponente 406 den ausgewählten Abschnitt weiter nach anderen Formen des erkannten abhängigen Verweisausdrucks wie beispielsweise einer Einzahl- oder Mehrzahlform, verschiedenen Genusformen, verschiedenen Zeitformen, Possessiv-, Adjektiv-, Adverb- oder anderen grammatischen Formen des erkannten abhängigen Verweisausdrucks. Wenn die Komponente 406 zum Beispiel „County” aufgrund der Großschreibung als eine Instanz eines abhängigen Verweisausdrucks erkennt, erkennt die Komponente 406 auch „County's” als eine weitere Instanz desselben abhängigen Verweisausdrucks.In another embodiment, the component filters 406 the selected portion further searches for other forms of the recognized dependent reference expression, such as a singular or plural form, various genus forms, different tenses, possessive, adjective, adverb or other grammatical forms of the recognized dependent reference expression. If the component 406 For example, recognizing "County" as an instance of a dependent reference expression due to capitalization recognizes the component 406 also "county's" as another instance of the same dependent reference expression.

Die Komponente 408 macht im Gesamtbereich der Folge von Dokumenten 404 eine Instanz des Komplettausdrucks ausfindig, der einem erkannten abhängigen Verweisausdruck entspricht. Wenn die Komponente 408 zum Beispiel das großgeschriebene Wort „County” als eine Instanz eines abhängigen Verweisausdrucks erkannt hat, macht die Komponente einen Komplettausdruck ausfindig, wobei das großgeschriebene Wort „County” stellvertretend für den Komplettausdruck stehen soll.The component 408 makes in the total area the sequence of documents 404 Locate an instance of the full expression that corresponds to a detected dependent reference expression. If the component 408 For example, if the uppercase word "County" has been recognized as an instance of a dependent reference expression, the component locates a complete expression, with the uppercase word "County" being representative of the complete expression.

Die Komponente 410 klärt oder löst eine Instanz eines abhängigen Verweisausdrucks unter Verwendung des entsprechenden durch die Komponente 408 ausfindig gemachten Komplettausdrucks auf. Gemäß einer Ausführungsform ersetzt die Komponente 410 zum Beispiel eine Instanz eines abhängigen Verweisausdrucks durch den entsprechenden Komplettausdruck.The component 410 Clears or resolves an instance of a dependent reference expression using the corresponding component 408 located complete expression on. In one embodiment, the component replaces 410 For example, an instance of a dependent reference expression by the corresponding full expression.

Gemäß einer anderen beispielhaften Ausführungsform verändert die Komponente 410 die Instanz des abhängigen Verweisausdrucks so, dass der Komplettausdruck oder gleichwertige Klärungsinformationen am oder vom Standort der Instanz des abhängigen Verweisausdrucks verfügbar ist. Gemäß einer anderen beispielhaften Ausführungsform verändert die Komponente 410 die Instanz des abhängigen Verweisausdrucks durch Hinzufügen zusätzlicher Formatierungen in das Dokument, z. B. HTML-Kennungen, um von dem Standort der Instanz des abhängigen Verweisausdrucks visuelle Hinweise auf den Komplettausdruck zu geben und/oder eine Navigation dorthin zu ermöglichen. Ohne eine Beschränkung auf diese Ausführungsform nahezulegen, werden an anderer Stelle in dieser Offenbarung einige weitere beispielhafte Verfahrensweisen zur Begriffsklärung einer Instanz eines abhängigen Verweisausdrucks beschrieben. According to another exemplary embodiment, the component changes 410 the instance of the dependent reference expression so that the full expression or equivalent clarification information is available at or from the location of the instance of the dependent reference expression. According to another exemplary embodiment, the component changes 410 the instance of the dependent reference expression by adding additional formatting to the document, e.g. B. HTML identifiers to give visual indication of the complete expression from the location of the instance of the dependent reference expression and / or to allow navigation there. Without intending to be limited to this embodiment, elsewhere in this disclosure, some other exemplary methods of clarifying an instance of a dependent reference expression will be described.

Die Anwendung 402 erzeugt eine Folge von Dokumenten 412, die aufgelöste abhängige Verweisausdrücke 314 enthalten. Eine aufgelöste Instanz in aufgelösten abhängigen Verweisausdrücken 314 kann eine beliebige der verschiedenen hierin beschriebenen beispielhaften Formen und jede andere ähnlich geeignete Form annehmen, die dem Fachmann aus dieser Offenbarung offensichtlich werden und innerhalb des Schutzumfangs der anschaulichen Ausführungsformen liegen sollen.The application 402 generates a sequence of documents 412 , the resolved dependent reference expressions 314 contain. A resolved instance in resolved dependent reference expressions 314 may take any of the various exemplary forms described herein and any other similarly suitable form that those skilled in the art will appreciate from this disclosure and are intended to be within the scope of the illustrative embodiments.

5 zeigt Beispiele für die Begriffsklärung von abhängigen Verweisausdrücken bei der Verarbeitung von natürlicher Sprache gemäß einer anschaulichen Ausführungsform. Bei dem Dokument 502 handelt es sich um ein Beispiel eines Dokuments in den Dokumenten 412 in 4. 5 FIG. 4 illustrates examples of the conceptualization of dependent reference expressions in natural language processing, according to one illustrative embodiment. At the document 502 it is an example of a document in the documents 412 in 4 ,

Bei dem Komplettausdruck 504 handelt es sich um das erstmalige Vorkommen eines Komplettausdrucks in dem Dokument 502. Bei den abhängigen Verweisausdrücken 506 und 508 handelt es sich um aufgelöste Instanzen eines abhängigen Verweisausdrucks, der in einer (nicht gezeigten) Originalversion des Dokuments 502 vorkamen, beispielsweise in einem Dokument in den Dokumenten 404 in 4.In the complete expression 504 This is the first occurrence of a complete expression in the document 502 , For the dependent reference expressions 506 and 508 These are resolved instances of a dependent reference expression that is contained in an original version of the document (not shown) 502 occurred, for example in a document in the documents 404 in 4 ,

Gemäß einer Ausführungsform löst eine Anwendung wie beispielsweise die Anwendung 402 unter Verwendung der Komponente 410 in 4 Instanzen der abhängigen Verweisausdrücke 506 und 508 auf, indem die Instanzen 506 und 508 durch Kopien des Komplettausdrucks 504 ersetzt werden. Das Ersetzungsverfahren zum Auflösen von Instanzen des abhängigen Verweisausdrucks ist durch die ähnliche Schattierung der Blöcke dargestellt, welche den Komplettausdruck 504 und die abhängigen Verweisausdrücke 506 und 508 darstellen.In one embodiment, an application such as the application triggers 402 using the component 410 in 4 Instances of dependent reference expressions 506 and 508 on by the instances 506 and 508 through copies of the complete printout 504 be replaced. The replacement method for resolving instances of the dependent reference expression is represented by the similar shading of the blocks that make up the complete expression 504 and the dependent reference expressions 506 and 508 represent.

Bei dem Dokument 512 handelt es sich um weiteres Beispiel eines Dokuments in den Dokumenten 412 in 4.At the document 512 this is another example of a document in the documents 412 in 4 ,

Bei dem Komplettausdruck 514 handelt es sich um das erstmalige Vorkommen eines Komplettausdrucks im Dokument 512. Bei den abhängigen Verweisausdrücken 516 und 518 handelt es sich um aufgelöste Instanzen von abhängigen Verweisausdrücken, die in einer (nicht gezeigten) Originalversion des Dokuments 512 vorkamen, beispielsweise in einem Dokument der Dokumente 404 in 4.In the complete expression 514 This is the first occurrence of a complete expression in the document 512 , For the dependent reference expressions 516 and 518 These are resolved instances of dependent reference expressions stored in an original version of the document (not shown) 512 occurred, for example in a document of the documents 404 in 4 ,

Gemäß einer Ausführungsform löst eine Anwendung, beispielsweise die Anwendung 402, unter Verwendung der Komponente 410 in 4 Instanzen der abhängigen Verweisausdrücke 516 und 518 durch Verändern der Instanzen 516 und 518 derart auf, dass Informationen über den Komplettausdruck 514 von Standorten der Instanzen 516 und 518 verfügbar oder zugreifbar werden. Das Ersetzungsverfahren zum Auflösen von Instanzen des abhängigen Verweisausdrucks wird durch die unterschiedliche Schattierung der Blöcke angezeigt, die den Komplettausdruck 514 und die abhängigen Verweisausdrücke 516 und 518 darstellen.In one embodiment, an application, such as the application, triggers 402 , using the component 410 in 4 Instances of dependent reference expressions 516 and 518 by changing the instances 516 and 518 such that information about the complete expression 514 from locations of the instances 516 and 518 become available or accessible. The replacement method for resolving instances of the dependent reference expression is indicated by the different shading of the blocks that make up the complete expression 514 and the dependent reference expressions 516 and 518 represent.

Eine solche Ausführungsform erzeugt oder verändert einen Abschnitt 520 des Dokuments 512 wie beispielsweise einen Metadaten-Abschnitt. Die Ausführungsform fügt in den Abschnitt 520 einen Eintrag 522 ein. Der Eintrag 522 enthält eine Zuordnung einer Kopie 524 des Komplettausdrucks 512 zu einer Kopie 526 des abhängigen Verweisausdrucks, beispielsweise der Instanz 516 oder 518. Wenn zum Beispiel die Instanzen 516 und 518 einander ähnlich sind, ist irgendeine dieser Instanzen an dem Eintrag 520 beteiligt. Wenn die Instanzen 516 und 518 voneinander verschieden sind, sind beide Instanzen an dem Eintrag 520 beteiligt (nicht gezeigt).Such an embodiment creates or modifies a section 520 of the document 512 such as a metadata section. The embodiment inserts into the section 520 An entry 522 one. The entry 522 contains an assignment of a copy 524 of the complete expression 512 to a copy 526 the dependent reference expression, such as the instance 516 or 518 , For example, if the instances 516 and 518 are similar to each other, is any of these instances at the entry 520 involved. If the instances 516 and 518 are different from each other, both instances are at the entry 520 involved (not shown).

Gemäß einer Ausführungsform sind die Instanzen 516 und 518 in dem Dokument 512 so mit dem Eintrag 520 verbunden, dass ein Eingriff wie beispielsweise ein Anklicken oder Zeigen mit einer Zeigereinheit auf den Standort einer Instanz 516 oder 518 einem Benutzer die Information von dem Eintrag 520 anzeigt. Gemäß einer anderen Ausführungsform kann das Verbinden zwischen einer Instanz 516 oder 518 und dem Eintrag 520 eine andere Anwendung wie beispielsweise die NLP-Steuerkomponente 103 in 1 befähigen, in einer späteren Verarbeitungsstufe die Instanzen durch den entsprechenden Komplettausdruck zu ersetzen.According to one embodiment, the instances are 516 and 518 in the document 512 so with the entry 520 connected to an intervention such as clicking or pointing with a pointing device to the location of an instance 516 or 518 a user the information from the entry 520 displays. According to another embodiment, the connection between an instance 516 or 518 and the entry 520 another application, such as the NLP engine 103 in 1 enable the instances to be replaced by the corresponding full expression at a later stage of processing.

6 zeigt einen Ablaufplan eines beispielhaften Prozesses zur Begriffsklärung von abhängigen Verweisausdrücken bei der Verarbeitung von natürlicher Sprache gemäß einer anschaulichen Ausführungsform. Der Prozess 600 kann in einer Anwendung 402 in 4 umgesetzt werden. 6 FIG. 12 is a flowchart of an exemplary natural language processing process for disambiguating dependent reference expressions in accordance with an illustrative one Embodiment. The process 600 can in an application 402 in 4 be implemented.

Der Prozess 600 beginnt mit dem Empfangen einer Folge von Dokumenten, die einen abhängigen Verweisausdruck enthalten (Schritt 602). Durch den Prozess 600 wird ein Abschnitt eines Dokuments in der empfangenen Folge ausgewählt (Schritt 604).The process 600 begins by receiving a sequence of documents containing a dependent reference expression (step 602 ). Through the process 600 a section of a document in the received sequence is selected (step 604 ).

Der Prozess 600 filtert den Abschnitt, um eine Instanz eines abhängigen Verweisausdrucks zu finden (Schritt 606). Der Prozess 600 macht einen Komplettausdruck innerhalb der Folge von Dokumenten ausfindig, in denen die identifizierte Instanz eines abhängigen Verweisausdrucks auf den Komplettausdruck verweist (Schritt 608). Durch den Prozess 600 wird der abhängige Verweisausdruck unter Verwendung des Komplettausdrucks aufgelöst (Schritt 610).The process 600 filters the section to find an instance of a dependent reference expression (step 606 ). The process 600 finds a complete expression within the sequence of documents in which the identified instance of a dependent reference expression references the complete expression (step 608 ). Through the process 600 the dependent reference expression is resolved using the full expression (step 610 ).

Durch den Prozess 600 wird ermittelt, ob es in dem ausgewählten Abschnitt mehrere Instanzen des abhängigen Verweisausdrucks gibt (Schritt 612). Wenn es mehrere Instanzen desselben oder anderer abhängiger Verweisausdrücke gibt („Ja”-Zweig von Schritt 612, kehrt der Prozess 600 zurück zu Schritt 606 und sucht nach einer weiteren Instanz. Wenn es in dem Abschnitt keine weiteren Instanzen von abhängigen Verweisausdrücken gibt („Nein”-Zweig von Schritt 612), ermittelt der Prozess 600, ob noch weitere Abschnitte oder Dokumente auf ähnliche Weise geklärt werden sollen (Schritt 614).Through the process 600 determines whether there are multiple instances of the dependent reference expression in the selected section (step 612 ). If there are multiple instances of the same or different dependent reference expressions ("yes" branch of step) 612 , the process returns 600 back to step 606 and looks for another instance. If there are no more instances of dependent reference expressions in the section ("no" branch of step) 612 ), the process determines 600 whether further sections or documents should be clarified in a similar way (step 614 ).

Wenn noch weitere Abschnitte oder Dokumente geklärt werden sollen („Ja”-Zweig von Schritt 614), kehrt der Prozess 600 zurück zu Schritt 604 und wählt einen weiteren Abschnitt in demselben oder einem anderen Dokument in der empfangenen Folge aus. Wenn keine weiteren Abschnitte oder Dokument mehr geklärt werden sollen („Nein”-Zweig von Schritt 614), gibt der Prozess 600 eine Folge von Dokumenten aus, die Instanzen des abhängigen Verweisausdrucks enthalten (Schritt 616). Danach ist der Prozess 600 abgeschlossen.If more sections or documents are to be clarified ("yes" branch of step) 614 ), the process returns 600 back to step 604 and selects another section in the same or another document in the received sequence. If no further sections or document are to be clarified ("no" branch of step 614 ), gives the process 600 a sequence of documents containing instances of the dependent reference expression (step 616 ). After that is the process 600 completed.

7 zeigt einen Ablaufplan einer beispielhaften Verfahrensweise zum Auflösen einer Instanz eines abhängigen Verweisausdrucks gemäß einer anschaulichen Ausführungsform. Der Prozess 700 kann als Schritt 610 des Prozesses 600 in 6 umgesetzt werden. 7 FIG. 12 is a flowchart of an example method of resolving an instance of a dependent reference expression according to an illustrative embodiment. The process 700 can as a step 610 of the process 600 in 6 be implemented.

Der Prozess 700 beginnt mit dem Ersetzen einer Instanz eines abhängigen Verweisausdrucks durch den entsprechenden Komplettausdruck (Schritt 702). Danach ist der Prozess 700 abgeschlossen.The process 700 begins by replacing an instance of a dependent reference expression with the corresponding full expression (step 702 ). After that is the process 700 completed.

8 zeigt einen Ablaufplan einer beispielhaften Verfahrensweise zum Auflösen einer Instanz eines abhängigen Verweisausdrucks gemäß einer anschaulichen Ausführungsform. Der Prozess 800 kann als Schritt 610 des Prozesses 600 in 6 umgesetzt werden. 8th FIG. 12 is a flowchart of an example method of resolving an instance of a dependent reference expression according to an illustrative embodiment. The process 800 can as a step 610 of the process 600 in 6 be implemented.

Der Prozess 800 beginnt mit dem Ändern einer Instanz eines abhängigen Verweisausdrucks derart, dass Informationen über den entsprechenden Komplettausdruck von dem Standort der Instanz des abhängigen Verweisausdrucks in dem Dokument verfügbar oder zugreifbar sind (Schritt 802). Danach ist der Prozess 800 abgeschlossen.The process 800 begins by changing an instance of a dependent reference expression such that information about the corresponding complete expression is available or accessible from the location of the instance of the dependent reference expression in the document (step 802 ). After that is the process 800 completed.

Die Ablaufpläne und die Blockschaubilder in den Figuren veranschaulichen die Architektur, die Funktionalität und die Arbeitsweise möglicher Implementierungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung. Demgemäß kann jeder Block in den Ablaufplänen oder in den Blockschaubildern ein Modul, ein Segment oder einen Abschnitt eines Codes darstellen, der eine oder mehrere ausführbare Anweisungen zum Umsetzen der angegebenen Logikfunktion(en) aufweist. Zu beachten ist, dass bei einigen alternativen Implementierungen die in dem Block angegebenen Funktionen in einer von den Figuren abweichenden Reihenfolge vorkommen können. Zum Beispiel können zwei nacheinander gezeigte Blöcke je nach vorgesehener Funktionalität in Wirklichkeit im Wesentlichen gleichzeitig ausgeführt werden, oder die Blöcke können mitunter in der umgekehrten Reihenfolge ausgeführt werden. Ferner ist zu beachten, dass jeder Block in den Blockschaubildern und/oder in den Ablaufplänen und Kombinationen von Blöcken in den Blockschaubildern und/oder in den Ablaufplänen durch spezielle Hardware-Systeme oder Kombinationen von Spezial-Hardware und Computer-Anweisungen umgesetzt werden können, die die angegebenen Funktionen oder Aktionen ausführen.The flowcharts and block diagrams in the figures illustrate the architecture, functionality, and operation of possible implementations of systems, methods, and computer program products according to various embodiments of the present invention. Accordingly, each block in the flowcharts or block diagrams may represent a module, segment or portion of code having one or more executable instructions for implementing the specified logic function (s). It should be noted that in some alternative implementations, the functions specified in the block may occur in a different order from the figures. For example, two blocks shown one after the other may in fact be executed substantially simultaneously, depending on the intended functionality, or the blocks may sometimes be executed in the reverse order. It should also be noted that each block in the block diagrams and / or schedules and combinations of blocks in the block diagrams and / or schedules may be implemented by special hardware systems or combinations of specialized hardware and computer instructions perform the specified functions or actions.

Somit werden in den anschaulichen Ausführungsformen ein computergestütztes Verfahren, System und Computerprogrammprodukt zur Begriffsklärung von abhängigen Verweisausdrücken bei der Verarbeitung von natürlicher Sprache bereitgestellt. Eine Ausführungsform löst Instanzen eines abhängigen Verweisausdrucks in ihren entsprechenden Komplettausdruck derart auf, dass jede Instanz des abhängigen Verweisausdrucks in einem Ausgabedokument einer Ausführungsform so verändert wird, dass sie den Komplettausdruck anzeigt, auf den sie sich in einem Eingabedokument bezieht. Eine Ausführungsform kann Instanzen eines abhängigen Verweisausdrucks über eine Folge einer beliebigen Anzahl von Dokumenten hinweg klären, wenn die Bearbeitung von natürlicher Sprache des gesamten Inhalts der Folge von Dokumenten durchgeführt werden soll, nachdem eine Ausführungsform auf die Folge von Dokumenten eingewirkt hat. Nicht enthalten in der als Eingabe für eine Ausführungsform dienenden Folge von Dokumenten sind ein Lexikon, eine Ontologie, eine Wissensdatenbank oder eine Datenablage, die im Allgemeinen zum Übersetzen von Dokumenten dienen.Thus, in the illustrative embodiments, a computer-aided method, system, and computer program product are provided for disambiguating dependent reference expressions in natural language processing. One embodiment resolves instances of a dependent reference expression to its corresponding full expression such that each instance of the dependent reference expression in an output document of an embodiment is changed to display the complete expression to which it refers in an input document. An embodiment may resolve instances of a dependent reference expression over a sequence of any number of documents if natural language editing of the entire content of the sequence of documents is to be performed after one embodiment has acted on the sequence of documents. Not included in the input for one embodiment A consequence of documents is a lexicon, an ontology, a knowledge database or a data store, which are generally used for translating documents.

Durch Begriffsklärung von abhängigen Verweisausdrücken unter Verwendung einer Ausführungsform kann eine nachgeschaltete Komponente zur Verarbeitung von Dokumenten wie beispielsweise eine NLP-Steuerkomponente den Komplettausdruck verwenden, ohne davon Kenntnis haben zu müssen, wie Instanzen des abhängigen Verweisausdrucks verwendet oder aufgelöst werden müssen. Eine Ausführungsform verbessert die Brauchbarkeit des geklärten Dokuments für verschiedene Tasks zur Verarbeitung des Dokuments. Zum Beispiel beruhen viele Tasks zum Abrufen und Zusammenfassen von Informationen auf Worthäufigkeitszahlen. Eine Ausführungsform erzeugt ein Dokument, in dem die Anzahl der Erwähnungen des Komplettausdrucks, z. B. Shelby County, Tennessee, zunimmt, was quantitativ den Eindruck unterstreicht, dass es in dem Dokument „um” den Bezirk Shelby County im Staat Tennessee „geht”, wodurch die Genauigkeit von Anwendungen erhöht wird, die auf Worthäufigkeiten beruhen. Zum Beispiel führt die Berechnung des Ausgabedokuments einer Ausführungsform dazu, dass es auf eine Abfrage, die den Begriff „Shelby County” enthält, mit höherer Wahrscheinlichkeit zutrifft als das Eingabedokument für eine Ausführungsform, das mit dem Ausdruck „the County” (der Bezirk) auf den Begriff „Shelby County” verweist.By conceptualizing dependent reference expressions using one embodiment, a downstream document processing component such as an NLP engine can use the full expression without having to know how to use or resolve instances of the dependent reference expression. One embodiment improves the usefulness of the clarified document for various tasks for processing the document. For example, many tasks for retrieving and summarizing information are based on word frequency numbers. One embodiment creates a document in which the number of mentions of the complete expression, e.g. Shelby County, Tennessee, for example, quantitatively underlines the impression that the "um" document is "going" to Shelby County, Tennessee, thereby increasing the accuracy of applications based on word frequencies. For example, computing the output document of an embodiment makes it more likely that a query including the term "Shelby County" would be more accurate than the input document for an embodiment labeled "the county" The term "Shelby County" refers.

Beispielsweise wird bei vielen Tasks zur Sprachverarbeitung zwischen Alltagswörtern und Fachbegriffen unterschieden, die stärker zur Unterscheidung von Dokumenten untereinander beitragen. Eine Ausführungsform zur Begriffsklärung kann typische Begriffe, z. B. „The Bonds” (die Anleihen) durch entsprechende weniger typische und aussagekräftigere Begriffe ersetzen, wodurch die Fähigkeit eines Systems verbessert wird, den semantischen Inhalt des Ausgabedokuments besser als den des Eingabedokuments zu kennzeichnen.For example, many speech-processing tasks distinguish between everyday words and technical terms that are more conducive to distinguishing documents from one another. An embodiment of the term clarification may include typical terms, e.g. For example, replace "The Bonds" with corresponding less typical and more meaningful terms, thereby improving the ability of a system to better characterize the semantic content of the output document than that of the input document.

Ein weiteres Beispiel besagt, dass Tasks der Sprachverarbeitung, beispielsweise zum Abrufen von Absätzen, Text eines Dokuments mit der Abfrage eines Benutzers vergleichen und dann dem Benutzer ein Fenster fest vorgegebener Größe mit Wörtern aus dem Dokument anzeigen, sodass der Benutzer entscheiden kann, ob das Dokument tatsächlich die gewünschten Informationen enthält. Wenn, wie bei einem beispielhaften Ausgabedokument einer Ausführungsform, ein genauerer Text als der mehrdeutige Text „the County”, z. B. „Shelby County, Tennessee”, in einem Eingabedokument einer Ausführungsform angezeigt wird, legt das Textfenster den Inhalt des Dokuments besser offen und ist daher für den Benutzer von größerem Nutzen.As another example, speech-processing tasks, such as retrieving paragraphs, compare text of a document to a user's query, and then display the user with a fixed-size window of words from the document, so that the user can decide whether to have the document actually contains the desired information. If, as in an exemplary output document of an embodiment, a more accurate text than the ambiguous text "the County", e.g. "Shelby County, Tennessee" is displayed in an input document of an embodiment, the text window better exposes the contents of the document and is therefore more useful to the user.

Dem Fachmann ist einsichtig, dass Aspekte der vorliegenden Erfindung als System, Verfahren oder Computerprogrammprodukt umgesetzt werden können. Demgemäß können Aspekte der vorliegenden Erfindung die Form einer kompletten Hardware-Umgebung, einer kompletten Software-Umgebung (darunter Firmware, residente Software, Mikrocode usw.) oder einer Ausführungsform annehmen, die Software- und Hardware-Aspekte in sich vereint, die hierin sämtlich allgemein als „Schaltung”, „Modul” oder „System” bezeichnet werden können. Darüber hinaus können Aspekte der vorliegenden Erfindung die Form eines Computerprogrammprodukts annehmen, das in einer oder mehreren computerlesbaren Speichereinheiten oder einem computerlesbaren Medium mit einem darauf gespeicherten computerlesbaren Programmcode verkörpert ist.It will be understood by those skilled in the art that aspects of the present invention may be implemented as a system, method, or computer program product. Accordingly, aspects of the present invention may take the form of a complete hardware environment, a complete software environment (including firmware, resident software, microcode, etc.), or an embodiment that incorporates software and hardware aspects, all of which are generic herein can be referred to as a "circuit", "module" or "system". In addition, aspects of the present invention may take the form of a computer program product embodied in one or more computer readable storage devices or a computer readable medium having computer readable program code stored thereon.

Es kann eine beliebige Komponente von einer oder mehreren computerlesbaren Speichereinheiten verwendet werden. Bei dem computerlesbaren Medium kann es sich um ein computerlesbares Signalmedium oder um ein computerlesbares Speichermedium handeln. Bei einer computerlesbaren Speichereinheit kann es sich zum Beispiel, ohne darauf beschränkt zu sein, um ein elektronisches, magnetisches, optisches, elektromagnetisches, Infrarot- oder Halbleitersystem, eine entsprechende Vorrichtung oder Einheit oder um eine beliebige geeignete Kombination derselben handeln. Zu konkreteren Beispielen (eine nicht erschöpfende Aufzählung) der computerlesbaren Speichereinheit können folgende gehören: eine elektrische Verbindung mit einer oder mehreren Leitungen, eine tragbare Computer-Diskette, eine Festplatte, ein Direktzugriffsspeicher (RAM), ein Nur-Lese-Speicher (ROM), ein löschbarer programmierbarer Nur-Lese-Speicher (EPROM oder Flash-Speicher), ein Lichtwellenleiter, ein tragbarer Compact Disc-Nur-Lese-Speicher (CD-ROM), eine optische Speichereinheit, eine magnetische Speichereinheit oder eine beliebige geeignete Kombination derselben. In Verbindung mit diesem Dokument kann es sich bei einer computerlesbaren Speichereinheit um eine beliebige materielle Einheit oder ein Medium handeln, das ein Programm zur Verwendung durch oder in Verbindung mit einem System, einer Vorrichtung oder Einheit zum Ausführen von Anweisungen enthalten oder speichern kann.Any component of one or more computer-readable storage devices may be used. The computer readable medium may be a computer readable signal medium or a computer readable storage medium. For example, a computer-readable storage device may be, but is not limited to, an electronic, magnetic, optical, electromagnetic, infrared, or semiconductor system, device, or device, or any suitable combination thereof. More concrete examples (non-exhaustive list) of the computer-readable storage device may include: an electrical connection to one or more lines, a portable computer disk, a hard disk, random access memory (RAM), read-only memory (ROM), an erasable programmable read only memory (EPROM or flash memory), an optical fiber, a portable compact disc read only memory (CD-ROM), an optical storage unit, a magnetic storage unit, or any suitable combination thereof. In connection with this document, a computer-readable storage device may be any physical entity or medium that may contain or store a program for use by or in connection with a system, device, or device for executing instructions.

Ein auf einer computerlesbaren Speichereinheit oder einem computerlesbaren Medium verkörperter Programmcode kann unter Verwendung eines beliebigen geeigneten Mediums, darunter, ohne darauf beschränkt zu sein, drahtlos, leitungsgebunden, Lichtwellenleiter, HF usw. oder eine beliebige geeignete Kombination derselben, übertragen werden.A program code embodied on a computer readable storage device or computer readable medium may be transmitted using any suitable medium including, but not limited to, wireless, wireline, fiber optic, RF, etc., or any suitable combination thereof.

Ein Programmcode zum Ausführen von Operationen für Aspekte der vorliegenden Erfindung kann in einer beliebigen Kombination von einer oder mehreren Programmiersprachen geschrieben sein, darunter eine objektorientierte Programmiersprache wie beispielsweise Java, Smalltalk, C++ oder dergleichen und herkömmliche prozedurale Programmiersprachen wie beispielsweise die Programmiersprache „C” oder ähnliche Programmiersprachen. Der Programmcode kann komplett auf dem Computer eines Benutzers, teilweise auf dem Computer des Benutzers, als eigenständiges Softwarepaket, teilweise auf dem Computer des Benutzers und teilweise auf einem fernen Computer oder komplett auf dem fernen Computer oder Server ausgeführt werden. In dem letzteren Szenario kann der ferne Computer mit dem Computer des Benutzers durch einen beliebigen Typ von Netzwerk verbunden sein, darunter ein lokales Netzwerk (LAN) oder ein Weitverkehrsnetzwerk (WAN), oder die Verbindung kann (zum Beispiel durch das Internet unter Verwendung eines Internet-Dienstanbieters) zu einem externen Computer hergestellt werden.Program code for performing operations for aspects of the present invention may be in any combination of one or more several programming languages, including an object-oriented programming language such as Java, Smalltalk, C ++ or the like, and conventional procedural programming languages such as the "C" programming language or similar programming languages. The program code may be executed entirely on a user's computer, partly on the user's computer, as a standalone software package, partly on the user's computer and partly on a remote computer or entirely on the remote computer or server. In the latter scenario, the remote computer may be connected to the user's computer through any type of network, including a local area network (LAN) or wide area network (WAN), or the connection may be (for example, through the Internet using an Internet Service provider) to an external computer.

Aspekte der vorliegenden Erfindung werden hierin unter Bezugnahme auf Ablaufpläne und/oder Blockschaubilder von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Es ist klar, dass jeder Block in den Ablaufplänen und/oder Blockschaubildern und Kombinationen von Blöcken in den Ablaufplänen und/oder Blockschaubildern durch Computer-Programmanweisungen umgesetzt werden können. Diese Computer-Programmanweisungen können einem oder mehreren Prozessoren eines oder mehrerer Universalcomputer, Spezialcomputer oder anderer programmierbarer Datenverarbeitungsvorrichtungen zugeführt werden, um eine Maschine derart zu erzeugen, dass die durch den einen oder die mehreren Prozessoren der Computer oder der anderen programmierbaren Datenverarbeitungsvorrichtungen ausgeführten Anweisungen ein Mittel zum Umsetzen der in dem Block oder den Blöcken der Ablaufpläne und/oder Blockschaubilder angegebenen Funktionen/Aktionen erzeugen.Aspects of the present invention are described herein with reference to flowcharts and / or block diagrams of methods, apparatus (systems) and computer program products according to embodiments of the invention. It is understood that each block in the flowcharts and / or block diagrams, and combinations of blocks in the flowcharts and / or block diagrams, can be implemented by computer program instructions. These computer program instructions may be supplied to one or more processors of one or more general purpose computers, special purpose computers, or other programmable data processing devices to generate a machine such that the instructions executed by the one or more processors of the computer or other programmable data processing devices comprise means for Generate the functions / actions specified in the block or blocks of the flowcharts and / or block diagrams.

Diese Computer-Programmanweisungen können auch in einer oder mehreren computerlesbaren Speichereinheiten oder computerlesbaren Medien gespeichert sein, die einen oder mehrere Computer, eine oder mehrere programmierbare Datenverarbeitungsvorrichtungen oder eine oder mehrere andere Einheiten veranlassen können, in einer bestimmten Weise so zu funktionieren, dass die in der einen oder den mehreren computerlesbaren Speichereinheiten oder in dem computerlesbaren Medium gespeicherten Anweisungen einen Herstellungsgegenstand erzeugen, der Anweisungen enthält, die die in dem Block oder in den Blöcken in den Ablaufplänen und/oder Blockschaubildern angegebenen Funktionen/Aktionen umsetzen.These computer program instructions may also be stored in one or more computer-readable storage devices or computer-readable media that may cause one or more computers, one or more programmable computing devices, or one or more other devices to function in a particular manner such that those described in U.S. Pat generating an article of manufacture containing instructions implementing the functions / actions specified in the block or blocks in the flowcharts and / or block diagrams, one or more computer readable storage units or instructions stored in the computer readable medium.

Die Computer-Programmanweisungen können auch auf einen oder mehrere Computer, eine oder mehrere andere programmierbare Datenverarbeitungsvorrichtungen oder eine oder mehrere andere Einheiten geladen werden, um eine Folge von Arbeitsschritten zu veranlassen, die auf dem einen oder den mehreren Computern, der einen oder den mehreren programmierbaren Datenverarbeitungsvorrichtungen oder einer oder mehreren anderen Einheiten ausgeführt werden sollen, um einen computergestützten Prozess derart zu erzeugen, dass die auf dem einen oder den mehreren Computern, der einen oder den mehreren anderen programmierbaren Datenverarbeitungsvorrichtungen oder einer oder mehreren anderen Einheiten ausgeführten Anweisungen Prozesse zum Umsetzen der in dem Block oder in den Blöcken in den Ablaufplänen und/oder Blockschaubildern angegebenen Funktionen/Aktionen bereitstellen.The computer program instructions may also be loaded on one or more computers, one or more other programmable data processing devices, or one or more other devices to effect a sequence of operations performed on the one or more computers having one or more programmable ones Data processing devices or one or more other units are to be executed in order to generate a computer-aided process such that the instructions executed on the one or more computers, one or more other programmable data processing devices or one or more other devices include processes for translating the data into provide functions / actions specified in the block or in the blocks in the flowcharts and / or block diagrams.

Die hierin gebrauchten Begriffe dienen nur zur Beschreibung einzelner Ausführungsformen und sind nicht als Einschränkung der Erfindung zu verstehen. Die hierin gebrauchten Einzahlformen „ein”, „eine” und „der, die, das” sollten gleichermaßen die Mehrzahlformen beinhalten, sofern aus dem Zusammenhang nichts anderes hervorgeht. Ferner ist klar, dass die Begriffe „weist auf” und/oder „aufweisend” bei Verwendung in dieser Beschreibung das Vorhandensein angegebener Merkmale, Ganzzahlen, Schritte, Operationen, Elemente und/oder Komponenten bezeichnen, jedoch nicht das Vorhandensein oder Hinzukommen eines oder mehrerer weiterer Merkmale, Ganzzahlen, Schritte, Operationen, Elemente, Komponenten und/oder deren Gruppen ausschließen.The terms used herein are for the purpose of describing particular embodiments only and are not intended to limit the invention. As used herein, the singular forms "a," "an," and "the" should equally include the plural forms unless the context dictates otherwise. Further, it is understood that the terms "pointing to" and / or "having" as used in this specification refer to the presence of specified features, integers, steps, operations, elements, and / or components, but not the presence or addition of one or more others Exclude features, integers, steps, operations, elements, components, and / or their groups.

Die entsprechenden Strukturen, Materialien, Aktionen und Entsprechungen aller Mittel zuzüglich Funktionselemente in den folgenden Ansprüchen sollen alle Strukturen, Materialien oder Aktionen zum Ausführen der Funktion in Kombination mit anderen ausdrücklich beanspruchten Elementen beinhalten. Die Beschreibung der vorliegenden Erfindung ist zur Veranschaulichung und Beschreibung vorgelegt worden, erhebt jedoch nicht den Anspruch der Vollständigkeit oder der Beschränkung auf die Erfindung in der offenbarten Form. Dem Fachmann sind viele Modifikationen und Varianten offenkundig, ohne vom Schutzumfang und vom Wesensgehalt der Erfindung abzuweichen. Die Ausführungsformen wurden gewählt und beschrieben, um die Grundgedanken der Erfindung und der praktischen Anwendung bestmöglich zu erläutern und anderen Fachleuten das Verständnis für verschiedene Ausführungsformen mit verschiedenen Modifikationen zu ermöglichen, die für die jeweils vorgesehene Verwendung geeignet sind.The corresponding structures, materials, acts and equivalents of all means plus functional elements in the following claims are intended to include any structures, materials or acts for performing the function in combination with other elements expressly claimed. The description of the present invention has been presented for purposes of illustration and description, but does not claim to be exhaustive or limited to the invention in the form disclosed. Many modifications and variations will be apparent to those skilled in the art without departing from the scope and spirit of the invention. The embodiments have been chosen and described in order to best explain the principles of the invention and the practical application and to enable others skilled in the art to appreciate various embodiments with various modifications suitable for the particular use contemplated.

Claims (11)

Verfahren zur Begriffsklärung von abhängigen Verweisausdrücken bei der Verarbeitung von natürlicher Sprache, wobei das Verfahren aufweist: Auswählen eines Abschnitts eines Dokuments in einer Folge von Dokumenten, wobei der Abschnitt eine Folge von Instanzen eines abhängigen Verweisausdrucks enthält; Filtern des Abschnitts, um eine Instanz aus einer Folge von Instanzen eines abhängigen Verweisausdrucks unter Verwendung einer linguistischen Eigenschaft der Instanz zu finden, wobei die Instanz des abhängigen Verweisausdrucks auf einen Komplettausdruck verweist, der in der Folge von Dokumenten vorkommt; Ausfindigmachen des Komplettausdrucks in einem Einzeldokument in der Folge von Dokumenten durch Ausfindigmachen, wo definiert ist, dass der abhängige Verweisausdruck stellvertretend für den Komplettausdruck stehen soll; und Auflösen der Instanz unter Verwendung eines Prozessors und eines Speichers unter Verwendung des Komplettausdrucks derart, dass an einem Standort der Instanz Informationen über den Komplettausdruck verfügbar sind.A method of clarifying dependent reference terms in natural language processing, the method comprising: Selecting a portion of a document in a sequence of documents, the portion including a sequence of instances of a dependent reference expression; Filtering the section to find an instance from a sequence of instances of a dependent reference expression using a linguistic property of the instance, the instance of the dependent reference expression referring to a complete expression occurring in the sequence of documents; Locating the complete expression in a single document in the sequence of documents by locating, where it is defined that the dependent reference expression should be representative of the complete expression; and Resolving the instance using a processor and a memory using the full expression such that information about the full expression is available at a location of the instance. Verfahren nach Anspruch 1, das ferner aufweist; Ausgeben einer zweiten Folge von Dokumenten, die der Folge von Dokumenten entsprechen, wobei ein Dokument in der zweiten Folge von Dokumenten dem Dokument in der Folge von Dokumenten entspricht und wobei das Dokument in der zweiten Folge von Dokumenten als Reaktion auf das Auflösen eine veränderte Form der Instanz enthält.The method of claim 1, further comprising; Outputting a second sequence of documents corresponding to the sequence of documents, wherein a document in the second sequence of documents corresponds to the document in the sequence of documents, and wherein the document in the second sequence of documents in response to the dissolution of an altered form of the Instance contains. Verfahren nach Anspruch 1, wobei das Auflösen aufweist: Ersetzen der Instanz durch eine Kopie des Komplettausdrucks.The method of claim 1, wherein the dissolving comprises: Replace the instance with a copy of the full expression. Verfahren nach Anspruch 1, wobei das Auflösen aufweist: Verändern der Instanz durch Hinzufügen von Daten an einem Standort der Instanz derart, dass die Daten die Informationen über den Komplettausdruck von dem Standort der Instanz zugreifbar machen.The method of claim 1, wherein the dissolving comprises: Modifying the instance by adding data to a location of the instance such that the data makes the information about the complete expression accessible from the location of the instance. Verfahren nach Anspruch 4, das ferner aufweist: Verändern des Dokuments, um ein zweites Dokument zu erzeugen, wobei das zweite Dokument eine Zuordnung zwischen der Instanz und dem Komplettausdruck enthält; und Verbinden der Instanz mit der Zuordnung unter Verwendung eines Links, wobei der Link verwendbar ist, um die Informationen über den Komplettausdruck von dem Standort der Instanz zugreifbar zu machen.The method of claim 4, further comprising: Modifying the document to produce a second document, the second document including an association between the instance and the complete expression; and Associating the instance with the association using a link, wherein the link is usable to make the information about the complete expression accessible from the location of the entity. Verfahren nach Anspruch 1, wobei die Instanz und der Komplettausdruck in demselben Dokument in der Folge von Dokumenten vorkommen.The method of claim 1, wherein the instance and the complete expression occur in the same document in the sequence of documents. Verfahren nach Anspruch 1, wobei es sich bei keinem der Dokumente in der Folge von Dokumenten um eine universell ausgerichtete Ablage handelt, die zum Übersetzen eines in der Folge von Dokumenten nicht enthaltenen Dokuments verwendbar ist.The method of claim 1, wherein none of the documents in the sequence of documents is a universally-oriented repository usable for translating a document not contained in the sequence of documents. Verfahren nach Anspruch 1, wobei die Folge von Dokumenten für die Verarbeitung von natürlicher Sprache vom Gesamtinhalt der Folge von Dokumenten konfiguriert ist.The method of claim 1, wherein the sequence of documents for natural language processing is configured from the overall content of the sequence of documents. Verfahren nach Anspruch 1, das ferner aufweist: Empfangen der Folge von Dokumenten, wobei das Empfangen erfolgt, bevor die Folge von Dokumenten einer Verarbeitung von natürlicher Sprache unterzogen wird.The method of claim 1, further comprising: Receiving the sequence of documents, wherein the receiving occurs before the sequence of documents is subjected to natural language processing. Durch Computer verwendbares Programmprodukt, das eine durch Computer verwendbare Speichereinheit aufweist, die einen durch Computer verwendbaren Code zur Begriffsklärung von abhängigen Verweisausdrücken bei der Verarbeitung von natürlicher Sprache enthält, wobei der durch Computer verwendbare Code aufweist: einen durch Computer verwendbaren Code zum Auswählen eines Abschnitts eines Dokuments in einer Folge von Dokumenten, wobei der Abschnitt eine Folge von Instanzen abhängiger Verweisausdrücke enthält; einen durch Computer verwendbaren Code zum Filtern des Abschnitts zum Erkennen einer Instanz aus einer Folge von Instanzen unabhängiger Verweisausdrücke unter Verwendung einer linguistischen Eigenschaft der Instanz, wobei die Instanz eines abhängigen Verweisausdrucks auf einen Komplettausdruck verweist, der in der Folge von Dokumenten vorkommt; einen durch Computer verwendbaren Code zum Ausfindigmachen des Komplettausdrucks in einem Einzeldokument in der Folge von Dokumenten durch Ausfindigmachen, wo definiert ist, dass der abhängige Verweisausdruck stellvertretend für den Komplettausdruck stehen soll; und einen durch Computer verwendbaren Code zum Auflösen der Instanz unter Verwendung eines Prozessors und eines Speichers unter Verwendung des Komplettausdrucks derart, dass an einem Standort der Instanz Informationen über den Komplettausdruck verfügbar sind.A computer-usable program product having a computer-usable storage unit containing computer-usable code for explaining dependent reference terms in natural language processing, the computer-usable code comprising: computer usable code for selecting a portion of a document in a sequence of documents, the portion including a sequence of instances of dependent reference expressions; computer usable code for filtering the instance recognizing portion of a sequence of independent reference expression instances using a linguistic property of the instance, the instance of a dependent reference expression referring to a complete expression occurring in the sequence of documents; a computer usable code for locating the complete expression in a single document in the sequence of documents by locating where it is defined that the dependent reference expression is representative of the complete expression; and computer usable code for resolving the instance using a processor and a memory using the complete expression such that information about the complete expression is available at a location of the instance. Datenverarbeitungssystem zur Begriffsklärung von abhängigen Verweisausdrücken bei der Verarbeitung von natürlicher Sprache, wobei das Datenverarbeitungssystem aufweist: eine Speichereinheit, die ein Speichermedium enthält, wobei in der Speichereinheit ein durch Computer verwendbarer Programmcode gespeichert ist; und einen Prozessor, wobei der Prozessor den durch Computer verwendbaren Programmcode ausführt und wobei der durch Computer verwendbare Programmcode aufweist: einen durch Computer verwendbaren Code zum Auswählen eines Abschnitts eines Dokuments in einer Folge von Dokumenten, wobei der Abschnitt eine Folge von Instanzen eines abhängigen Verweisausdrucks enthält; einen durch Computer verwendbaren Code zum Filtern des Abschnitts, um eine Instanz aus der Folge von Instanzen eines abhängigen Verweisausdrucks unter Verwendung einer linguistischen Eigenschaft der Instanz zu finden, wobei die Instanz des abhängigen Verweisausdrucks auf einen Komplettausdruck verweist, der in der Folge von Dokumenten vorkommt; einen durch Computer verwendbaren Code zum Ausfindigmachen des Komplettausdrucks in einem Einzeldokument in der Folge von Dokumenten durch Ausfindigmachen, wo definiert ist, dass der abhängige Verweisausdruck stellvertretend für den Komplettausdruck stehen soll; und einen durch Computer verwendbaren Code zum Auflösen der Instanz unter Verwendung eines Prozessors und eines Speichers unter Verwendung des Komplettausdrucks derart, dass an einem Standort der Instanz Informationen über den Komplettausdruck verfügbar sind.A data processing system for disambiguating dependent reference expressions in natural language processing, the data processing system comprising: a storage unit containing a storage medium, wherein computer-usable program code is stored in the storage unit; and a processor, wherein the processor executes the computer usable program code, and wherein the computer usable program code comprises: computer usable code for selecting a portion of a document in a sequence of documents, the section including a sequence of instances of a dependent reference expression ; computer-usable code for filtering the section to find an instance from the sequence of instances of a dependent reference expression using a linguistic property of the instance, the instance of the dependent reference expression referring to a complete expression occurring in the sequence of documents; a computer usable code for locating the complete expression in a single document in the sequence of documents by locating where it is defined that the dependent reference expression is representative of the complete expression; and computer usable code for resolving the instance using a processor and memory using the complete expression such that information about the full expression is available at a location of the instance.
DE201410201860 2013-02-15 2014-02-03 Method for term clarification of dependent reference printout during natural language processing of e.g. treaty document, involves resolving instance such that information about complete printout is present at location of instance Ceased DE102014201860A1 (en)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US13/768,136 US9286291B2 (en) 2013-02-15 2013-02-15 Disambiguation of dependent referring expression in natural language processing
US13/768,136 2013-02-15
US14/090,152 US20140237355A1 (en) 2013-02-15 2013-11-26 Disambiguation of dependent referring expression in natural language processing
US14/090,152 2013-11-26

Publications (1)

Publication Number Publication Date
DE102014201860A1 true DE102014201860A1 (en) 2014-08-21

Family

ID=51264086

Family Applications (1)

Application Number Title Priority Date Filing Date
DE201410201860 Ceased DE102014201860A1 (en) 2013-02-15 2014-02-03 Method for term clarification of dependent reference printout during natural language processing of e.g. treaty document, involves resolving instance such that information about complete printout is present at location of instance

Country Status (1)

Country Link
DE (1) DE102014201860A1 (en)

Similar Documents

Publication Publication Date Title
DE112020005268T5 (en) AUTOMATICALLY GENERATE SCHEMA ANNOTATION FILES TO CONVERT NATURAL LANGUAGE QUERIES TO STRUCTURED QUERY LANGUAGE
DE112012005037B4 (en) Manage redundant immutable files using deduplications in storage clouds
DE112019001533T5 (en) EXTENSION OF TRAINING DATA FOR THE CLASSIFICATION OF NATURAL LANGUAGE
DE112016003626T5 (en) Natural language interface to databases
DE202012013462U1 (en) Data processing in a Mapreduce framework
DE102019000294A1 (en) Create company-specific knowledge graphs
DE112018006345T5 (en) GET SUPPORTING EVIDENCE FOR COMPLEX ANSWERS
DE112017005638T5 (en) Systems and methods for determining the relationship between data elements
DE102014108191A1 (en) Error correction in tables using detected functional dependencies
EP3100174A1 (en) Method for automatically detecting meaning and measuring the clearness of text
DE112012001750T5 (en) Automated self-service user support based on ontology analysis
DE112018006131T5 (en) SEMANTIC NORMALIZATION WHEN DIGITIZING DOCUMENTS
DE102018007165A1 (en) FORECASTING STYLES WITHIN A TEXT CONTENT
DE102013205737A1 (en) Method for automatically extracting and organizing information from data sources in e.g. web pages, involves producing combined representation of the equivalence classes in which the order for displayable representation is displayed
DE112018005418T5 (en) COGNITIVE DOCUMENT IMAGE DIGITALIZATION
DE102021004157A1 (en) Machine learning modeling to protect against online disclosure of sensitive data
DE102014103281A1 (en) ASSOCIATING DIFFERENT TYPE-WING COMPONENTS TO ASSESS A LATENT TYPE
DE112016005443T5 (en) System and method for automatic validation
DE112012005177T5 (en) Generating a natural language processing model for an information area
DE102014116369A1 (en) MANAGEMENT OF LANGUAGE MARKERS IN INTERNATIONAL DATA STORAGE
DE112018005272T5 (en) SEARCHING MULTI-LANGUAGE DOCUMENTS BASED ON AN EXTRACTION OF THE DOCUMENT STRUCTURE
JP2017514257A (en) Ontology browser and grouping method and apparatus
RU2544739C1 (en) Method to transform structured data array
DE102015121509A1 (en) Methodology and device for consistency check by comparison of ontology models
DE102018007024A1 (en) DOCUMENT BROKEN BY GRAMMATIC UNITS

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R002 Refusal decision in examination/registration proceedings
R003 Refusal decision now final