[go: up one dir, main page]

DE10213468A1 - Multilingual document search method in which each document is allocated a keyword index in a base language and then search requests are input and processed in the same base language - Google Patents

Multilingual document search method in which each document is allocated a keyword index in a base language and then search requests are input and processed in the same base language

Info

Publication number
DE10213468A1
DE10213468A1 DE10213468A DE10213468A DE10213468A1 DE 10213468 A1 DE10213468 A1 DE 10213468A1 DE 10213468 A DE10213468 A DE 10213468A DE 10213468 A DE10213468 A DE 10213468A DE 10213468 A1 DE10213468 A1 DE 10213468A1
Authority
DE
Germany
Prior art keywords
documents
search
dxn
language
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE10213468A
Other languages
German (de)
Inventor
Harsh Karandikar
Srinivas Nidamarthi
Juergen Heger
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ABB Research Ltd Switzerland
Original Assignee
ABB Research Ltd Switzerland
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ABB Research Ltd Switzerland filed Critical ABB Research Ltd Switzerland
Priority to DE10213468A priority Critical patent/DE10213468A1/en
Publication of DE10213468A1 publication Critical patent/DE10213468A1/en
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

Die Erfindung bezieht sich auf ein Verfahren und ein System zur computerunterstützten Suche von Dokumenten (D1 bis Dx) in einer multilingualen Dokumentensammlung (20), wobei die Dokumentensammlung (20) in unterschiedlichen Sprachen (L1 bis Ln) verfaßte Dokumente (D1 bis Dx) enthält, die in einer Datenverarbeitungseinrichtung (1) gespeichert sind. DOLLAR A Zu allen Dokumenten (D1 bis Dx) wird jeweils ein Schlüsselwortindex (31) gespeichert, der in einer vorbestimmten einheitlichen Basissprache (Lx) den Inhalt des jeweiligen Dokumentes wiedergebende Fachbegriffe enthält, und wobei nach Eingabe einer Suchanfrage (11), die in der Basissprache (Lx verfaßt ist. DOLLAR A Mittels eines Suchmoduls (40) wird eine Suche nach den Fachbegriffen der Suchanfrage (11) in den Schlüsselwortindizes (31) unabhängig von der Sprache der jeweiligen Dokumente (D1 bis Dx) durchgeführt. Im Fall der Übereinstimmung wenigstens eines Fachbegriffes werden die zu den jeweiligen Schlüsselwortindizes (31) korrespondierenden Dokumente (D1n bis Dxn) zur weiteren Verarbeitung oder Ausgabe bereitgestellt.The invention relates to a method and a system for computer-assisted search for documents (D1 to Dx) in a multilingual document collection (20), the document collection (20) containing documents (D1 to Dx) written in different languages (L1 to Ln) , which are stored in a data processing device (1). DOLLAR A A keyword index (31) is stored for all documents (D1 to Dx), which contains technical terms reflecting the content of the respective document in a predetermined uniform basic language (Lx), and after entering a search query (11), which in the Basic language (Lx is written. DOLLAR A A search module (40) is used to search for the technical terms of the search query (11) in the keyword indexes (31) regardless of the language of the respective documents (D1 to Dx). In the case of a match, at least In a technical term, the documents (D1n to Dxn) corresponding to the respective keyword indexes (31) are made available for further processing or output.

Description

Die Erfindung betrifft ein Verfahren und ein System zur Informationssuche von Dokumenten in multilingualen, d. h. mehrsprachigen Wissensdatenbanken, welche beispielsweise Informationen über ein bestimmtes Arbeits- oder Fachgebiet bzw. über ein bestimmtes Wissensgebiet enthalten, aus einer Gesamtmenge von Dokumenten über dieses Wissensgebiet, wobei diese Dokumente in verschiedenen Sprachen vorliegen, mit anschließender Übersetzung der aufgefundenen Dokumente in eine vorbestimmte Sprache. The invention relates to a method and a system for searching information from Documents in multilingual, d. H. multilingual knowledge databases, which For example, information about a specific field of work or subject contain a certain area of knowledge from a total of documents about this area of knowledge, these documents in different languages are available, with subsequent translation of the documents found into a predetermined language.

Die heute verwendeten Informationssysteme stellen aufgrund ihrer mehrsprachigen Konzeption besondere Ansprüche an die Informationsanalyse, Informationsaufbereitung und Informationsverarbeitung. The information systems used today represent due to their multilingual Conception special demands on the information analysis, Information processing and information processing.

Das in den Datenbanken enthaltene Wissen über spezifische Wissensgebiete ist üblicherweise in Form von Textdokumenten vorhanden, die in elektronischer Form in Datenverarbeitungseinrichtungen, beispielsweise auf einem Benutzungsrechner oder in Computernetzwerken, insbesondere in Web- Archiven gespeichert vorliegen. Dokumente, welche nicht in elektronischer Form, also in Papierform vorliegen, können durch die bekannten Verfahren zur Erkennung und Identifizierung wie beispielsweise der optischen Zeichen- bzw. Texterkennung (Optical Character Recognition) in ein durch den Computer lesbares Format gebracht werden. The knowledge contained in the databases about specific fields of knowledge is Usually available in the form of text documents, which are in electronic form in Data processing devices, for example on a user computer or in computer networks, especially stored in web archives. Documents that are not available in electronic form, i.e. in paper form through the known methods of recognition and identification such as Optical Character Recognition in one brought by the computer readable format.

Diese Dokumente werden in verschiedenen im Folgenden als Wissensdatenbanken bezeichneten organisatorischen Strukturen, wie beispielsweise in Dokumentendatenbanken, Textsystemen und Versionsverwaltungen gespeichert, wobei diese Wissensdatenbanken spezifische Informationen zu einem Wissensgebiet, zu einem bestimmten Teilgebiet oder Antworten auf bestimmte das Wissensgebiet betreffende Fragen enthalten. These documents are referred to in various below as knowledge bases designated organizational structures, such as in Document databases, text systems and version control stores, these Knowledge databases specific information on a field of knowledge, on a certain sub-area or answers to certain knowledge related Questions included.

Das Auffinden von Dokumenten in solchen Wissensdatenbanken, die bestimmte Bedingungen, also Suchkriterien erfüllen, wird üblicherweise durch eine Suche mit Hilfe von Suchalgorithmen realisiert, wobei das gesuchte Wissen nach vorgegebenen Stichwörtern bzw. Suchbegriffen oder durch eine geeignete Kombination von Begriffen, Schlüsselwörtern, Termen und zusammengesetzten Begriffen spezifiziert wird. Finding documents in such knowledge bases that certain Conditions, i.e. fulfilling search criteria, are usually met by a search with the help realized by search algorithms, the knowledge sought according to predetermined Keywords or search terms or by a suitable combination of Terms, keywords, terms and compound terms.

Die Gesamtheit der Begriffe, die ein Wissensgebiet charakterisieren und die zur Suche in diesem Wissensgebiet geeignet sind, wird als wissensgebietsspezifisches Vokabular bezeichnet. Aus diesem Vokabular wird ein sogenannter Schlüsselwortindex zur Indizierung der Dokumente gebildet. The entirety of the terms that characterize a field of knowledge and those related to Searching in this area of knowledge is considered to be specific to the area of knowledge Vocabulary called. This vocabulary becomes a keyword index formed for indexing the documents.

Um die Suche in multilingualen Wissensdatenbanken, d. h. Wissensdatenbanken, die Dokumente enthalten, die in verschiedenen Sprachen abgefaßt sind, durchzuführen, ist es erforderlich die Suchanfragen in den verschiedenen Sprachen zu formulieren, die für die Erstellung der Dokumenten benutzt wurden. In order to search in multilingual knowledge databases, d. H. Knowledge bases that Contain documents written in different languages, it is necessary to formulate the search queries in the different languages, that were used to create the documents.

Zur Beurteilung des Ergebnisses der Suche, das den Inhalt und die Aussagekraft im Sinne der Suchanfragen betrifft, müssen die identifizierten Dokumente beurteilt werden. Dazu ist es im allgemeinen notwendig, die aufgefundenen Dokumente teilweise oder ganz zu übersetzen. Bei nicht zufriedenstellendem Suchergebnis wird die Suche (oft auch mehrfach) wiederholt, indem eine neue Suchanfrage aufgrund des Ergebnisses der vorhergehenden Suche formuliert wird oder die erste Suchanfrage modifiziert wird. To assess the result of the search, the content and significance of the In terms of search queries, the identified documents must be assessed become. For this it is generally necessary to partially find the documents found or translate entirely. If the search result is not satisfactory, the Search (often several times) repeated by a new search query based on the The result of the previous search is formulated or the first search query is modified.

Die Formulierung der Suchanfragen in verschiedenen Sprachen erfordert die Übersetzung der Fachbegriffe bzw. Schlüsselwörter des jeweiligen Wissensgebietes. Für die korrekte Übersetzung dieser Fachbegriffe und Schlüsselwörter in die verschiedenen Sprachen benötigt der Ersteller der Suchanfragen beispielsweise wissensgebietspezifische Wörterbücher, da er nur selten über entsprechendes Wissen verfügt. Nach Vorliegen des Suchergebnisses ist zur Beurteilung zusätzlich eine schnelle Übersetzung der gefundenen Dokumente erforderlich. Formulating search queries in different languages requires Translation of the technical terms or keywords of the respective area of knowledge. For the correct translation of these technical terms and keywords into the The search query creator needs different languages, for example knowledge-specific dictionaries, since he rarely has the relevant knowledge features. After the search result is available, there is an additional one for assessment Fast translation of the documents found is required.

Bei der Einschätzung des Aufwandes der Informationssuche in multilingualen Wissensdatenbanken ist weiterhin zu berücksichtigen, daß im allgemeinen die Suche mehrfach mit einer veränderter Formulierung der Suchanfrage solange durchgeführt wird, bis die gesuchte Information gefunden ist. When estimating the effort of the information search in multilingual Knowledge bases should also take into account that in general the search repeated several times with a changed wording of the search query until the information you are looking for is found.

Insgesamt führen die geschilderten Probleme einerseits dazu, daß die Informationssuche in multilinguale Wissensdatenbanken oft nur in einer Sprache durchgeführt wird und somit das Suchergebnis nur einen begrenzten Bereich erfaßt. Andererseits ist die Suche durch die Formulierung der Suchanfrage in mehreren Sprachen mit einem sehr hohen Arbeits- und Zeitaufwand verbunden. Overall, the problems described lead on the one hand to the fact that the Information searches in multilingual knowledge databases are often only carried out in one language and thus the search result only covers a limited area. on the other hand is the search by formulating the search query in multiple languages a very high amount of work and time.

Ausgehend von dem beschriebenen hohen Aufwand der Formulierung der Suchanfragen in verschiedenen Sprachen, liegt der Erfindung die Aufgabe zugrunde, ein Verfahren und ein System zur schnellen und zielgerichteten Suche von Informationen in multilingualen Wissensdatenbanken mit einer automatischer Übersetzung der Suchergebnisse anzugeben. Based on the described high effort of formulating the Search queries in different languages, the invention is based on the object Process and system for the fast and targeted search of Information in multilingual knowledge databases with an automatic translation of the Specify search results.

Diese Aufgabe wird durch ein Verfahren zur computerunterstützten Suche von Dokumenten in einer multilingualen Wissensdatenbank mit den im Anspruch 1 angegebenen Merkmalen gelöst. Ein System zur Durchführung dieses Verfahrens und vorteilhafte Ausgestaltungen sind in weiteren Ansprüchen angegeben. This task is accomplished through a computer-assisted search process for Documents in a multilingual knowledge database with the in claim 1 specified features solved. A system for performing this procedure and advantageous configurations are specified in further claims.

Die Erfindung geht von einem Suchverfahren aus, bei dem Schlüsselwörter zur Suche verwendet werden. Dazu wird eine Suchanfrage in einer vorbestimmten Sprache, die nachstehend als Basissprache bezeichnet wird, formuliert. Zu diesem Zweck werden alle Dokumente, die in der multilingualen Wissensdatenbank gespeichert sind, mit einem Schlüsselwortindex versehen, der alle den Inhalt des jeweiligen Dokuments charakterisierenden Fachbegriffe in der vorbestimmten Basissprache in Form von Wörtern, einer Kombination von Wörtern, zusammengesetzten Begriffe und Termen, enthält. The invention is based on a search method in which keywords for Search can be used. For this purpose, a search query is carried out in a predetermined Language, which is referred to below as the basic language. To this end all documents are stored in the multilingual knowledge base are provided with a keyword index, which all contains the content of the respective Document characterizing technical terms in the predetermined basic language in Form of words, a combination of words, compound terms and terms.

Die anschließende Suche bewertet alle Dokumente in der Wissensdatenbank unabhängig von der Sprache, in der sie geschrieben sind, aufgrund dieser Schlüsselwortindizes. Die als Ergebnis der Suche aufgefundenen Dokumente werden, wenn sie in einer anderen Sprache als der vorbestimmten Basissprache geschrieben sind, automatisch in die Basissprache übersetzt. Diese Übersetzung übernehmen maschinelle Übersetzungsprogramme, die bereits beim heutigen Stand der Technik eine für den schnellen Überblick ausreichende Übersetzungsqualität liefern, oder es wird eine automatische Mitteilung, welche die aufgefundenen nicht in der vorbestimmten Basissprache vorliegenden Dokumente aufweist, an weitere Datenverarbeitungseinrichtungen übermittelt, um daran tätige menschliche Übersetzer mit der Übersetzung der aufgefundenen Dokumente zu beauftragen. The subsequent search evaluates all documents in the knowledge database regardless of the language in which they are written, due to this Keyword indexes. The documents found as a result of the search are, if are written in a language other than the predetermined basic language, automatically translated into the base language. Apply this translation machine translation programs that are already one for the current state of the art provide a quick overview of adequate translation quality, or it becomes a automatic notification that the found are not in the predetermined Documents available in the basic language, to others Data processing equipment transmitted to human translators working on it with the translation of the documents found.

Die Vorteile der Erfindung sind darin zu sehen, daß das Ergebnis der Suchanfrage sehr schnell zu beurteilen ist, insbesondere bei der Nutzung automatischer Übersetzungsprogramme. Da im allgemeinen eine Suchanfrage mehrfach mit veränderter Formulierung der Suchbedingung erfolgen muß, bis das gewünschte Ergebnis zur Verfügung steht, ergibt sich durch das erfindungsgemäße Verfahren eine wesentliche Verkürzung der Suchzeiten. The advantages of the invention can be seen in the fact that the result of the search query can be assessed very quickly, especially when using automatic Translation programs. Since in general a search request is changed several times Formulation of the search condition must take place until the desired result for Is available, the method according to the invention results in a substantial reduction in search times.

Eine weitere Beschreibung der Erfindung erfolgt nachstehend anhand eines Ausführungsbeispieles, das in den Zeichnungsfiguren näher erläutert ist. A further description of the invention is given below using a Embodiment that is explained in more detail in the drawing figures.

Es zeigen: Show it:

Fig. 1 die Komponenten eines Systems zur Informationssuche in einer multilingualen Wissensdatenbank, und Fig. 1 shows the components of a system for information search in a multilingual knowledge database, and

Fig. 2 eine Darstellung des Verfahrensablaufs zur Informationssuche in einer multilingualen Wissensdatenbank. Fig. 2 is a representation of the process sequence to search for information in a multilingual knowledge database.

Fig. 1 zeigt die erfindungsgemäßen Komponenten einer Datenverarbeitungseinrichtung 1 zur computerunterstützten Suche von in unterschiedlichen Sprachen L1 bis Ln verfaßten Dokumenten D1 bis Dx in einer multilingualen Wissensdatenbank 20, wobei die Datenverarbeitungseinrichtung 1 eine Eingabeeinrichtung 10, eine Dokumentensammlung 20, eine Verarbeitungseinrichtung zur Indexerstellung und Übersetzung 30, ein Suchmodul 40, ein Sortiermodul 50 sowie eine Übersetzungseinrichtung 70 und eine Prüf- und Ausgabeeinrichtung 90 aufweist. Fig. 1 components of the present invention shows a data processing device 1 for the computer-assisted searches of up Ln written in different languages L1 documents D1 to Dx in a multilingual knowledge database 20, wherein the data processing device 1, an input device 10, a document collection 20, processing means for indexing and translation 30 , a search module 40 , a sorting module 50 and a translation device 70 and a testing and output device 90 .

Die Eingabeeinrichtung 10 ist dafür eingerichtet, eine Suchanfrage 11, die in einer vorbestimmten Basissprache Lx verfaßt ist, dem Suchmodul 40 zuzuführen. The input device 10 is set up to feed a search query 11 , which is written in a predetermined basic language Lx, to the search module 40 .

In der Verarbeitungseinrichtung 30 wird mittels des Modul zur Indexerstellung zu allen Dokumenten D1 bis Dx der multilingualen Wissensdatenbank 20, die nachstehend als Dokumentensammlung bezeichnet wird, ein im Übersetzungsmodul 32 automatisch in die vorbestimmte Basissprache Lx übersetzter Schlüsselwortindex 31 gespeichert und dem Suchmodul 40 bereitgestellt, wobei die Dokumentensammlung 20 eine Datenbank, ein Textsystem oder eine Versionsverwaltung ist, welche beispielsweise auf einem Dokumenten- oder Web- Server gespeichert ist. In the processing device 30 , a keyword index 31 automatically translated into the predetermined basic language Lx in the translation module 32 is stored and made available to the search module 40 by means of the module for creating the index for all documents D1 to Dx of the multilingual knowledge database 20 , which is referred to below as the document collection Document collection 20 is a database, a text system or version management, which is stored, for example, on a document or web server.

Das Suchmodul 40 ist dafür eingerichtet, die mittels der Suchanfrage 11 angeforderten Dokumente D1n bis Dxn aus der Dokumentensammlung 20 gezielt nach den in der vorbestimmten Basissprache Lx vorliegenden Begriffen des Schlüsselwortindex 31 unabhängig von der Sprache des jeweiligen Dokuments D1n bis Dxn aufzufinden und zur weiteren Verarbeitung oder Ausgabe bereitzustellen. The search module 40 is set up to find the documents D1n to Dxn requested from the document collection 20 by means of the search query 11 according to the terms of the keyword index 31 present in the predetermined basic language Lx, regardless of the language of the respective document D1n to Dxn, and for further processing or To provide output.

Die zur weiteren Verarbeitung vom Suchmodul 40 bereitgestellten Dokumente D1 n bis Dxn werden dem Sortiermodul 50 zugeführt, das die aufgefundenen Dokumente D1n bis Dxn nach ihrer Sprache L1 bis Ln sortiert und die nicht in der vorbestimmten Basissprache Lx vorliegenden Dokumente D1n bis Dxn der Übersetzungseinrichtung 70 bereitstellt, welche die Dokumente D1n bis Dxn in die vorbestimmte Basissprache Lx übersetzt. The documents D1n to Dxn provided for further processing by the search module 40 are fed to the sorting module 50 , which sorts the documents D1n to Dxn found according to their language L1 to Ln and makes the documents D1n to Dxn not available in the predetermined basic language Lx available to the translation device 70 which translates the documents D1n to Dxn into the predetermined basic language Lx.

Danach werden die aufgefundenen und gegebenenfalls in die Basissprache Lx übersetzten Dokumente D1n bis Dxn der Prüf- und Ausgabeeinrichtung 90 zugeführt. The documents D1n to Dxn found and possibly translated into the basic language Lx are then fed to the testing and output device 90 .

In der Prüf- und Ausgabeeinrichtung 90 werden die Suchergebnisse, also die Dokumente D1n bis Dxn nach dem Grad der Erfüllung der Suchanfrage 11 mit Methoden, wie sie beispielsweise in heute genutzten Web- Suchmaschinen eingesetzt werden, automatisch sortiert. Der Grad der Erfüllung der Suchanfrage 11 wird beispielsweise durch die Bewertung der Zahl der gefundenen Begriffe, ihrem Bezug zueinander und ihr Vorkommen im Titel oder in der Zusammenfassung des entsprechenden Dokuments bestimmt. Zur Beurteilung der Suchergebnisse werden die aufgefundenen Dokumente D1n bis Dxn entweder ausgegeben oder am Bildschirm angezeigt. Danach wird der Eingabeeinrichtung 10 eine modifizierte Suchanfrage 11 mit einer veränderten Formulierung der Suchbedingungen zu Verfügung gestellt, falls das Suchergebnis nicht zufriedenstellend war. In the test and output device 90 , the search results, that is to say the documents D1n to Dxn, are automatically sorted according to the degree to which the search query 11 has been fulfilled using methods such as are used, for example, in web search engines used today. The degree to which search query 11 is fulfilled is determined, for example, by evaluating the number of terms found, their relationship to one another and their occurrence in the title or in the summary of the corresponding document. In order to evaluate the search results, the documents D1n to Dxn found are either output or displayed on the screen. The input device 10 is then provided with a modified search query 11 with a changed wording of the search conditions if the search result was unsatisfactory.

Fig. 2 zeigt den Verfahrensablauf zur computerunterstützten Suche von Dokumenten aus einer multilingualen Wissensdatenbank anhand der Verfahrensschritte 100 bis 900. Fig. 2 shows the procedure for computer-assisted search of documents from a multilingual knowledge database with reference to the process steps 100 to 900.

In einem ersten vorbereitenden Schritt 200 wird zu allen Dokumenten D1 bis Dx der Dokumentensammlung 20 in der Verarbeitungseinrichtung 30 jeweils ein Schlüsselwortindex 31 gespeichert, der den Inhalt des jeweiligen Dokuments wiedergebenden Fachbegriffe enthält. Dieser Schlüsselwortindex wird in einem Schritt 300 in die vorbestimmte Basissprache Lx übersetzt. In a first preparatory step 200 , a keyword index 31 is stored in the processing device 30 for all documents D1 to Dx of the document collection 20 , which contains the technical terms reflecting the content of the respective document. This keyword index is translated into the predetermined basic language Lx in a step 300 .

Nach der Eingabe der in die Basissprache Lx übersetzten Suchanfrage 11 in die Eingabeeinrichtung 10 in einem Schritt 100, wird in einem anschließendem Schritt 400 die Suche nach den Fachbegriffen der Suchanfrage 11 in den Schlüsselwortindizes 31 unabhängig von der Sprache der jeweiligen Dokumente D1 bis Dx im Suchmodul 40 durchgeführt. Dokumente D1n bis Dxn, welche die Suchanfrage 11 erfüllen, werden zur weiteren Verarbeitung dem Sortiermodul 50 bereitgestellt. After entering the translated into the base language Lx requirements 11 in the input means 10 in a step 100, in a subsequent step 400, the search for technical terms of the requirements 11 in the key word indexes 31 regardless of the language of the documents D1 to Dx in the search module 40 performed. Documents D1n to Dxn which fulfill the search query 11 are provided to the sorting module 50 for further processing.

Im Schritt S00 stellt das Sortiermodul 50 die ermittelten Dokumente D1n bis Dxn nach den Sprachen L1 bis Ln sortiert, bereit. Dazu werden die folgenden zwei Fälle für die aufgefundenen Dokumente D1n bis Dxn unterschieden:

  • a) Die ermittelten und bereitgestellten Dokumente D1n bis Dxn liegen nicht in der vorbestimmten Basissprache Lx vor (620) und werden demzufolge im Schritt 700 automatisch mittels eines Übersetzungsprogramms in die Basissprache Lx übersetzt und der Prüf- und Ausgabeeinrichtung 90 zugeführt, welche die Ausgabe bzw. Anzeige der ermittelten und übersetzten Dokumente D1n bis Dxn mittels der Ausgabeeinrichtung 90 im Schritt 900 realisiert.
  • b) Die ermittelten und bereitgestellten Dokumente D1n bis Dxn wiesen die vorbestimmte Basissprache Lx auf (610) und werden sofort der Prüf- und Ausgabeeinrichtung 90 übergeben, welche die Ausgabe bzw. Anzeige der ermittelten Dokumente D1n bis Dxn mittels der Ausgabeeinrichtung 90 im Schritt 900 realisiert.
In step S00 represents the sorting module 50, the determined documents D 1 n to xn of the languages L1 to Ln sorted, ready. A distinction is made between the following two cases for the documents D1n to Dxn found:
  • a) The ascertained and provided documents D1n to Dxn are not in the predetermined basic language Lx ( 620 ) and are therefore automatically translated into the basic language Lx in step 700 by means of a translation program and fed to the test and output device 90 which provides the output or The determined and translated documents D1n to Dxn are displayed in step 900 using the output device 90 .
  • b) The determined and provided documents D1n to Dxn had the predetermined basic language Lx ( 610 ) and are immediately transferred to the checking and output device 90 , which realizes the output or display of the determined documents D1n to Dxn by means of the output device 90 in step 900 ,

Nach einer Beurteilung des Suchergebnisses durch den Benutzer in Schritt 810 kann eine neue Suchanfrage 11 mit einer veränderter Formulierung der Suchbedingungen der Eingabeeinrichtung 10 zugeführt werden und der Verfahrensablauf erneut durchlaufen werden. After the user has assessed the search result in step 810 , a new search query 11 with a changed wording of the search conditions can be fed to the input device 10 and the process sequence can be run through again.

Claims (14)

1. Verfahren zur computerunterstützten Suche von Dokumenten (D1 bis Dx) in einer multilingualen Dokumentensammlung (20), wobei
die Dokumentensammlung (20) in unterschiedlichen Sprachen (L1 bis Ln) verfaßte Dokumente (D1 bis Dx) enthält, die in einer Datenverarbeitungseinrichtung (1) gespeichert sind,
zu allen Dokumenten (D1 bis Dx) außerdem jeweils ein Schlüsselwortindex (31) gespeichert ist, der in einer vorbestimmten einheitlichen Basissprache (Lx) den Inhalt des jeweiligen Dokuments wiedergebende Fachbegriffe enthält, und wobei nach Eingabe einer Suchanfrage (11), die in der Basissprache (Lx) verfaßt ist, a) mittels eines Suchmoduls (40) eine Suche nach den Fachbegriffen der Suchanfrage (11) in den Schlüsselwortindizes (31) unabhängig von der Sprache der jeweiligen Dokumente (D1 bis Dx) erfolgt, und b) im Fall der Übereinstimmung wenigstens eines Fachbegriffes die zu den jeweiligen Schlüsselwortindizes (31) korrespondierenden Dokumente (D1n bis Dxn) zur weiteren Verarbeitung oder Ausgabe bereitgestellt werden.
1. Method for computer-assisted search of documents (D1 to Dx) in a multilingual document collection ( 20 ), whereby
the document collection ( 20 ) contains documents (D1 to Dx) written in different languages (L1 to Ln) and stored in a data processing device ( 1 ),
For all documents (D1 to Dx), a keyword index ( 31 ) is also stored, which contains technical terms reflecting the content of the respective document in a predetermined uniform basic language (Lx), and after entering a search query ( 11 ) that is in the basic language (Lx) is written, a) by means of a search module ( 40 ) a search for the technical terms of the search query ( 11 ) in the keyword indexes ( 31 ) is carried out independently of the language of the respective documents (D1 to Dx), and b) if at least one technical term matches, the documents (D1n to Dxn) corresponding to the respective keyword indexes ( 31 ) are made available for further processing or output.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß mittels eines Sortiermoduls (50) die ermittelten Dokumente (D1n bis Dxn) nach Sprachen (L1 bis Ln) sowie nach dem Grad der Erfüllung der Suchanfrage (11) automatisch sortiert und bereitgestellt werden. 2. The method according to claim 1, characterized in that by means of a sorting module ( 50 ) the documents determined (D1n to Dxn) according to languages (L1 to Ln) and according to the degree of fulfillment of the search query ( 11 ) are automatically sorted and provided. 3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß eine automatisierte Übersetzung der ermittelten und bereitgestellten Dokumente (D1n bis Dxn) in die Basissprache (Lx) jeweils mittels eines Übersetzungsprogramms erfolgt, soweit die Dokumente (D1n bis Dxn) nicht bereits in der Basissprache (Lx) vorliegen, und eine Ausgabe oder Anzeige der ermittelten und gegebenenfalls übersetzten Dokumente (D1n bis Dxn) erfolgt. 3. The method according to claim 1 or 2, characterized in that a automated translation of the identified and provided documents (D1n to Dxn) into the base language (Lx) using a translation program, if the documents (D1n to Dxn) are not already in the base language (Lx) are available, and an output or display of the determined and if necessary translated documents (D1n to Dxn). 4. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, daß nach einer Beurteilung des Suchergebnisses eine neue Suchanfrage (11) mit veränderter Formulierung der Suchbedingungen einer Eingabeeinrichtung (10) zugeführt wird und der Verfahrensablauf erneut durchlaufen wird. 4. The method according to any one of the preceding claims, characterized in that after an assessment of the search result, a new search query ( 11 ) with changed wording of the search conditions is fed to an input device ( 10 ) and the process sequence is run through again. 5. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, das für die Übersetzung der aufgefundenen Dokumente (D1n bis Dxn) eine automatische Mitteilung, welche die aufgefundenen nicht in der vorbestimmten Sprache vorliegenden Dokumente (D1n bis Dxn) aufweist, an eine weitere Datenverarbeitungseinrichtung übermittelt wird, um daran tätige menschliche Übersetzer mit der Übersetzung der aufgefundenen Dokumente (D1 n bis Dxn) zu beauftragen. 5. The method according to any one of the preceding claims, characterized in that for the translation of the found documents (D1n to Dxn) one automatic notification which the found not in the predetermined language existing documents (D1n to Dxn), to another Data processing device is transmitted to human translators working on it with the Commission translation of the documents found (D1 n to Dxn). 6. System zur computerunterstützten Suche von in unterschiedlichen Sprachen (L1 bis Ln) verfaßten Dokumenten (D1 bis Dx) in einer multilingualen Dokumentensammlung (20) einer Datenverarbeitungseinrichtung (1), wobei die Datenverarbeitungseinrichtung (1) a) eine Eingabeeinrichtung (10) aufweist, die dafür eingerichtet ist, eine Suchanfrage (11), die in einer vorbestimmten Basissprache (Lx) verfaßt ist, einem Suchmodul (40) zuzuführen, b) eine Verarbeitungseinrichtung (30) aufweist, die dafür eingerichtet ist, zu allen Dokumenten (D1 bis Dx) der Dokumentensammlung (20) jeweils in einem Modul zur Indexerstellung einen Schlüsselwortindex (31) zu speichern, in einem Übersetzungsmodul (32) den Schlüsselwortindex (31) in die vorbestimmten Basissprache (Lx) zu übersetzen und dem Suchmodul (40) bereitzustellen, und c) das Suchmodul (40) dafür eingerichtet ist, die mittels der Suchanfrage (11) angeforderten Dokumente (D1n bis Dxn) aus der Dokumentensammlung (20) gezielt nach den in der vorbestimmten Basissprache (Lx) vorliegenden Begriffen des Schlüsselwortindex (31) unabhängig von der Sprache des jeweiligen Dokuments (D1 bis Dx) aufzufinden und zur weiteren Verarbeitung oder Ausgabe bereitzustellen. 6. System for computer-assisted search of documents (D1 to Dx) written in different languages (L1 to Ln) in a multilingual document collection ( 20 ) of a data processing device ( 1 ), the data processing device ( 1 ) a) has an input device ( 10 ) which is set up to supply a search module ( 40 ) with a search query ( 11 ) written in a predetermined basic language (Lx), b) has a processing device ( 30 ) which is set up to store a keyword index ( 31 ) for all documents (D1 to Dx) of the document collection ( 20 ) in a module for index creation, and the keyword index in a translation module ( 32 ) 31 ) to be translated into the predetermined basic language (Lx) and made available to the search module ( 40 ), and c) the search module ( 40 ) is set up to selectively retrieve the documents (D1n to Dxn) requested from the document collection ( 20 ) by means of the search query ( 11 ) according to the terms of the keyword index ( 31 ) available in the predetermined basic language (Lx) independently of find the language of the respective document (D1 to Dx) and make it available for further processing or output. 7. System nach Anspruch 6, dadurch gekennzeichnet, daß die vom Suchmodul (40) aufgefundenen Dokumente (D1n bis Dxn) einem Sortiermodul (50) zugeführt werden, und das dafür eingerichtet ist, die aufgefundenen Dokumente (D1n bis Dxn) nach ihrer Sprache (L1 bis Ln) zu sortieren und bereitzustellen. 7. System according to claim 6, characterized in that the documents (D1n to Dxn) found by the search module ( 40 ) are fed to a sorting module ( 50 ) and which is set up to find the documents (D1n to Dxn) according to their language ( L1 to Ln) to sort and provide. 8. System nach Anspruch 7, dadurch gekennzeichnet, daß die mittels dem Sortiermodul (50) aufgefundenen Dokumente (D1n bis Dxn), welche nicht in der vorbestimmten Basissprache (Lx) vorliegen, einer Übersetzungseinrichtung (70) zugeführt werden, die dafür eingerichtet ist, die Dokumente (D1n bis Dxn) in die vorbestimmte Basissprache (Lx) zu übersetzen und einer Prüf- und Ausgabeeinrichtung (90) zuzuführen. 8. System according to claim 7, characterized in that the documents (D1n to Dxn) found by means of the sorting module ( 50 ) which are not in the predetermined basic language (Lx) are fed to a translation device ( 70 ) which is set up for this purpose, translate the documents (D1n to Dxn) into the predetermined basic language (Lx) and send them to a test and output device ( 90 ). 9. System nach Anspruch 7, dadurch gekennzeichnet, daß die vom Sortiermodul (50) in der vorbestimmten Basissprache (Lx) aufgefundenen Dokumente (D1n bis Dxn) einer Prüf- und Ausgabeeinrichtung (90) zugeführt werden, die dafür eingerichtet ist, die Dokumente (D1n bis Dxn) auszugeben oder auf einem Bildschirm anzuzeigen. 9. System according to claim 7, characterized in that the documents (D1n to Dxn) found by the sorting module ( 50 ) in the predetermined basic language (Lx) are fed to a test and output device ( 90 ) which is set up to read the documents ( D1n to Dxn) to output or display on a screen. 10. System nach einem der Ansprüche 6 bis 9, dadurch gekennzeichnet, daß die Prüf- und Ausgabeeinrichtung (90) dafür eingerichtet ist, die Suchergebnisse nach dem Grad der Erfüllung der Suchanfrage 11 automatisch zu sortieren. 10. System according to one of claims 6 to 9, characterized in that the testing and output device ( 90 ) is set up to automatically sort the search results according to the degree of fulfillment of the search query 11 . 11. System nach einem der Ansprüche 6 bis 10, dadurch gekennzeichnet, daß die Eingabeeinrichtung (10) für die Eingabe einer neue Suchanfrage (11) aufgrund des Ergebnisses der vorhergehenden Suche eingerichtet ist. 11. System according to one of claims 6 to 10, characterized in that the input device ( 10 ) for entering a new search query ( 11 ) is set up on the basis of the result of the previous search. 12. System nach einem der Ansprüchen 6 bis 11, dadurch gekennzeichnet, daß der Schlüsselwortindex (31) Wörter, eine Kombination von Wörtern, zusammengesetzte Begriffe und Terme aufweist, die den Inhalt des jeweiligen Dokuments charakterisierende Fachbegriffe enthalten. 12. System according to one of claims 6 to 11, characterized in that the keyword index ( 31 ) words, a combination of words, compound terms and terms that contain technical terms characterizing the content of the respective document. 13. System nach einem der Ansprüchen 6 bis 12, dadurch gekennzeichnet, daß die Dokumentensammlung (20) eine Datenbank, ein Textsystem oder eine Versionsverwaltung ist, welche auf einem Dokumenten- oder Web- Server gespeichert ist. 13. System according to one of claims 6 to 12, characterized in that the document collection ( 20 ) is a database, a text system or a version management, which is stored on a document or web server. 14. System nach einem der Ansprüchen 6 bis 13, dadurch gekennzeichnet, daß die Dokumentensammlung (20) eine Wissensdatenbank ist. 14. System according to one of claims 6 to 13, characterized in that the document collection ( 20 ) is a knowledge database.
DE10213468A 2002-03-26 2002-03-26 Multilingual document search method in which each document is allocated a keyword index in a base language and then search requests are input and processed in the same base language Withdrawn DE10213468A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE10213468A DE10213468A1 (en) 2002-03-26 2002-03-26 Multilingual document search method in which each document is allocated a keyword index in a base language and then search requests are input and processed in the same base language

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE10213468A DE10213468A1 (en) 2002-03-26 2002-03-26 Multilingual document search method in which each document is allocated a keyword index in a base language and then search requests are input and processed in the same base language

Publications (1)

Publication Number Publication Date
DE10213468A1 true DE10213468A1 (en) 2003-10-09

Family

ID=27815954

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10213468A Withdrawn DE10213468A1 (en) 2002-03-26 2002-03-26 Multilingual document search method in which each document is allocated a keyword index in a base language and then search requests are input and processed in the same base language

Country Status (1)

Country Link
DE (1) DE10213468A1 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5418951A (en) * 1992-08-20 1995-05-23 The United States Of America As Represented By The Director Of National Security Agency Method of retrieving documents that concern the same topic
WO1997008604A2 (en) * 1995-08-16 1997-03-06 Syracuse University Multilingual document retrieval system and method using semantic vector matching
DE69229204T2 (en) * 1991-08-16 1999-11-04 Xerox Corp., Rochester Iterative process for searching for parts of a sentence and information retrieval system which uses it
US20020007384A1 (en) * 1998-02-03 2002-01-17 Akira Ushioda Apparatus and method for retrieving data from a document database

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69229204T2 (en) * 1991-08-16 1999-11-04 Xerox Corp., Rochester Iterative process for searching for parts of a sentence and information retrieval system which uses it
US5418951A (en) * 1992-08-20 1995-05-23 The United States Of America As Represented By The Director Of National Security Agency Method of retrieving documents that concern the same topic
WO1997008604A2 (en) * 1995-08-16 1997-03-06 Syracuse University Multilingual document retrieval system and method using semantic vector matching
US20020007384A1 (en) * 1998-02-03 2002-01-17 Akira Ushioda Apparatus and method for retrieving data from a document database

Similar Documents

Publication Publication Date Title
DE69330633T2 (en) Method and apparatus for comparing semantic patterns for retrieving texts
DE69930690T2 (en) Method and device for producing an index, use of an index and a storage medium
DE68928231T2 (en) Method and device for machine translation
DE3750135T2 (en) Word processing system and method for checking the correct and consistent use of units and chemical formulas in a word processing system.
DE69911842T2 (en) Method and device for retrieving information and corresponding storage medium
DE3750492T2 (en) Database system for parallel processor.
DE10029644B4 (en) Method for relevance evaluation in the indexing of hypertext documents by means of a search engine
EP2095238A2 (en) Method for testing a computer programme
DE112018005272T5 (en) SEARCHING MULTI-LANGUAGE DOCUMENTS BASED ON AN EXTRACTION OF THE DOCUMENT STRUCTURE
CH712988A1 (en) A method of searching data to prevent data loss.
DE10348920A1 (en) Computer system and method for multilingual associative search
DE10213348A1 (en) Multilingual knowledge database search method in which a multilingual specialist glossary is created so that a search request can be translated into other languages and a single search of all documents implemented
DE10213468A1 (en) Multilingual document search method in which each document is allocated a keyword index in a base language and then search requests are input and processed in the same base language
DE10057634C2 (en) Process for processing text in a computer unit and computer unit
DE102004060193A1 (en) Multi-language system and method for quickly selecting the font file corresponding to a character from the font database
DE102022128157A1 (en) Computer-implemented method for standardizing part names
DE102016114265A1 (en) Method for at least partially machine transferring a word sequence written in a source language into a word sequence of a target language
DE112014002696T5 (en) Method and system for efficient sorting in a relational database
WO2021043956A1 (en) Method for data-matching a webpage
DE69830524T2 (en) Method and system for eliminating ambiguity in syntactic phrases
DE10248837A1 (en) System and method for processing electronic documents
EP3561665B1 (en) Method and device for the computer-assisted configuring of a technical system
DE102009016588A1 (en) Method for determination of text information from portable document format documents, involves reading portable document format document, and analyzing structure of portable document format document
DE102023205209A1 (en) Control unit for assigning at least one element of a plurality of documents and methods therefor
DE19726569C1 (en) Data processing system for entry of input sequence of data words with defined number of bit locations

Legal Events

Date Code Title Description
OM8 Search report available as to paragraph 43 lit. 1 sentence 1 patent law
8139 Disposal/non-payment of the annual fee