DE102024207184A1

DE102024207184A1 - Device, data structure and computer-implemented method for structuring digital data

Info

Publication number: DE102024207184A1
Application number: DE102024207184.6A
Authority: DE
Inventors: Lukas Lange
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2024-07-30
Filing date: 2024-07-30
Publication date: 2026-02-05

Abstract

Vorrichtung, Datenstruktur und computerimplementiertes Verfahren zur Strukturierung von digitalen Daten, wobei die digitalen Daten bereitgestellt werden (202), wobei die digitalen Daten einen bildlich darstellbaren Inhalt repräsentieren, wobei eine Beschreibung einer Anordnung von die digitalen Daten repräsentierenden Pixeln im bildlich dargestellten Inhalt bereitgestellt wird (204), wobei abhängig von den digitalen Daten und der Beschreibung der Anordnung der Pixel den Inhalt repräsentierende strukturierte digitale Daten, insbesondere die Struktur strukturierte digitale Daten und der Inhalt mit dem die Struktur befüllt ist, geschätzt werden. Device, data structure and computer-implemented method for structuring digital data, wherein the digital data are provided (202), wherein the digital data represent pictorially representable content, wherein a description of an arrangement of pixels representing the digital data in the pictorially represented content is provided (204), wherein, depending on the digital data and the description of the arrangement of the pixels, structured digital data representing the content, in particular the structure of structured digital data and the content with which the structure is filled, are estimated.

Description

Stand der TechnikState of the art

Die Erfindung betrifft eine Vorrichtung, eine Datenstruktur und ein computerimplementiertes Verfahren zur Strukturierung von digitalen Daten.The invention relates to a device, a data structure and a computer-implemented method for structuring digital data.

Um Fragen über einen Inhalt von digitalen Daten maschinell beantworten zu können, ist es vorteilhaft, wenn die digitalen Daten strukturiert vorliegen.In order to be able to answer questions about the content of digital data automatically, it is advantageous if the digital data is structured.

Offenbarung der ErfindungDisclosure of the invention

Das computerimplementierte Verfahren zur Strukturierung von digitalen Daten gemäß dem Anspruch 1 sieht vor, dass die digitalen Daten bereitgestellt werden, wobei die digitalen Daten einen bildlich darstellbaren Inhalt repräsentieren, wobei eine Beschreibung einer Anordnung von die digitalen Daten repräsentierenden Pixeln im bildlich dargestellten Inhalt bereitgestellt wird, wobei abhängig von den digitalen Daten und der Beschreibung der Anordnung der Pixel den Inhalt repräsentierende strukturierte digitale Daten, insbesondere die Struktur, strukturierte digitale Daten und der Inhalt mit dem die Struktur befüllt ist, geschätzt werden. Das bedeutet, die geschätzten digitalen Daten sind abhängig von der Beschreibung strukturiert. Dies ist für eine maschinelle Beantwortung von Fragen über den Inhalt vorteilhaft.The computer-implemented method for structuring digital data according to claim 1 provides that the digital data are provided, wherein the digital data represent pictorially representable content, and wherein a description of an arrangement of pixels representing the digital data in the pictorially represented content is provided. Depending on the digital data and the description of the pixel arrangement, structured digital data representing the content, in particular the structure, the structured digital data, and the content with which the structure is filled, are estimated. This means that the estimated digital data are structured depending on the description. This is advantageous for machine-based answering of questions about the content.

Beispielsweise wird eine Datei bereitgestellt, die die digitalen Daten umfasst, wobei ein Parser bereitgestellt wird, der ausgebildet ist, die digitalen Daten aus der Datei auszulesen, und wobei die digitalen Daten mit dem Parser aus der Datei ausgelesen werden. Diese Vorverarbeitung ermöglicht die Verarbeitung unterschiedlicher Dateitypen mit einem entsprechenden Parser.For example, a file containing the digital data is provided, along with a parser trained to read the digital data from the file, and the digital data is then read from the file using the parser. This preprocessing enables the processing of different file types with a suitable parser.

Beispielsweise werden die die digitalen Daten repräsentierenden Pixel bereitgestellt, wobei eine optische Zeichenerkennung bereitgestellt wird, die ausgebildet ist, die digitalen Daten abhängig von den Pixeln zu erkennen, und wobei die digitalen Daten mit der optischen Zeichenerkennung abhängig von den Pixeln erkannt werden. Das bedeutet, ein digitales Bild, das den Inhalt umfasst, wird zur Vorverarbeitung bereitgestellt. Diese Vorverarbeitung ermöglicht die Verarbeitung unterschiedlicher Dateitypen auf Bildebene.For example, the pixels representing the digital data are provided, along with an optical character recognition (OCR) system trained to recognize the digital data based on the pixels. This means a digital image containing the content is provided for preprocessing. This preprocessing enables the processing of different file types at the image level.

Es kann vorgesehen sein, dass ein Teil der bereitgestellten digitalen Daten einen Teil des Inhalts repräsentiert, wobei ein Teil der strukturierten digitalen Daten den Teil des Inhalts repräsentiert, wobei die strukturierten digitalen Daten wiederholt geschätzt werden, wenn erkannt wird, dass die Teile der Daten voneinander abweichen. Das bedeutet geschätzte strukturierte digitale Daten, die inhaltlich von den ursprünglichen digitalen Daten abweichen, werden durch andere geschätzte strukturierte digitale Daten ersetzt. Dadurch werden Halluzinationen in den geschätzten strukturierten digitalen Daten durch erneut geschätzte strukturierte digitale Daten ersetzt.It can be provided that a portion of the supplied digital data represents a portion of the content, with a portion of the structured digital data representing that portion of the content. The structured digital data is repeatedly estimated when it is detected that the data portions differ from one another. This means that estimated structured digital data that differs in content from the original digital data is replaced by other estimated structured digital data. In this way, inconsistencies in the estimated structured digital data are replaced by newly estimated structured digital data.

Es kann vorgesehen sein, dass ein Teil der bereitgestellten digitalen Daten Text repräsentiert, wobei ein Teil der strukturierten digitalen Daten Text repräsentiert, und wobei der Text in den strukturierten digitalen Daten mit einem Sprachmodell abhängig vom Text aus den bereitgestellten digitalen Daten und abhängig von der Beschreibung geschätzt wird. Das bedeutet, der Teil der bereitgestellten digitalen Daten wird zur Verbesserung der maschinellen Beantwortung von Fragen zum Text strukturiert.It can be provided that a portion of the supplied digital data represents text, and a portion of the structured digital data also represents text. The text within the structured digital data is then estimated using a language model, depending on the text in the supplied digital data and the description. This means that the portion of the supplied digital data is structured to improve machine-based answering of text-related questions.

Beispielsweise wird das Sprachmodell dazu trainiert oder mit einer Anforderung aufgefordert, den Text aus den bereitgestellten digitalen Daten gemäß der Anforderung abhängig von der Beschreibung zu filtern, zu sortieren, und/oder aufzubereiten.For example, the language model is trained or prompted with a requirement to filter, sort, and/or process the text from the provided digital data according to the requirement, depending on the description.

Es kann vorgesehen sein, dass ein Basismodell bereitgestellt wird, das ausgebildet ist, die Beschreibung der Anordnung der Pixel, abhängig von den Pixeln zu bestimmen, wobei die Beschreibung der Anordnung mit dem Basismodell abhängig von den Pixeln, bestimmt wird. Das bedeutet, das Basismodell liefert die Beschreibung, mit der die Daten strukturiert werden.It may be provided that a base model is configured to determine the description of the pixel arrangement based on the pixels, whereby the description of the arrangement is determined by the base model depending on the pixels. This means that the base model provides the description with which the data is structured.

Eine Datenstruktur zur Strukturierung von digitalen Daten, sieht vor, dass die Datenstruktur wenigstens ein Datenfeld für digitale Daten umfasst, wobei die digitalen Daten einen bildlich darstellbaren Inhalt repräsentieren, wobei die Datenstruktur wenigstens ein Datenfeld für eine Beschreibung einer Anordnung von die digitalen Daten repräsentierenden Pixeln im bildlich dargestellten Inhalt umfasst, und wobei die Datenstruktur wenigstens ein Datenfeld für abhängig von den digitalen Daten und der Beschreibung der Anordnung der Pixel geschätzten, den Inhalt repräsentierenden strukturierten digitalen Daten umfasst.A data structure for structuring digital data provides that the data structure includes at least one data field for digital data, wherein the digital data represents pictorially representable content, wherein the data structure includes at least one data field for a description of an arrangement of pixels representing the digital data in the pictorially represented content, and wherein the data structure includes at least one data field for structured digital data representing the content, estimated depending on the digital data and the description of the arrangement of the pixels.

Eine Vorrichtung zur Strukturierung von digitalen Daten sieht vor, dass die Vorrichtung wenigstens einen Prozessor und wenigstens einen Speicher umfasst, wobei der wenigstens eine Speicher vom wenigstens einen Prozessor ausführbare Instruktionen umfasst, bei deren Ausführung durch den wenigstens einen Prozessor die Vorrichtung das Verfahren ausführt.A device for structuring digital data provides that the device comprises at least one processor and at least one memory, wherein the at least one memory comprises instructions executable by the at least one processor, the execution of which by the at least one processor causes the device to execute the method.

Ein Computerprogramm zur Strukturierung von digitalen Daten sieht vor, dass das Computerprogramm von einem Computer ausführbare Instruktionen umfasst, bei deren Ausführung durch den Computer der Computer das Verfahren ausführt.A computer program for structuring digital data stipulates that the computer program A gram comprises instructions executable by a computer, the execution of which by the computer causes the computer to carry out the procedure.

Weitere vorteilhafte Ausführungsformen sind der folgenden Beschreibung und der Zeichnung entnehmbar. In der Zeichnung zeigt:

1 eine schematische Darstellung einer Vorrichtung zur Strukturierung von digitalen Daten,
2 ein Flussdiagramm mit Schritten zur Strukturierung von digitalen Daten,
3 eine Datenstruktur zur Strukturierung von digitalen Daten.

Further advantageous embodiments can be found in the following description and the drawing. The drawing shows:

1 a schematic representation of a device for structuring digital data,
2 a flowchart with steps for structuring digital data,
3 A data structure for structuring digital data.

In 1 ist eine Vorrichtung 100 zur Strukturierung von digitalen Daten schematisch Dargestellt.In 1 A device 100 for structuring digital data is shown schematically.

Die Vorrichtung 100 umfasst wenigstens einen Prozessor 102 und wenigstens einen Speicher 104.The device 100 comprises at least one processor 102 and at least one memory 104.

Der wenigstens eine Speicher 104 umfasst vom wenigstens einen Prozessor 102 ausführbare Instruktionen, bei deren Ausführung durch den wenigstens einen Prozessor 102 die Vorrichtung 100 ein Verfahren zur Strukturierung von digitalen Daten ausführt.The at least one memory 104 comprises instructions executable by the at least one processor 102, the execution of which by the at least one processor 102 enables the device 100 to perform a method for structuring digital data.

In 2 ist ein Flussdiagramm mit Schritten des Verfahrens dargestellt.In 2 A flowchart showing the steps of the process is presented.

Das Verfahren umfasst einen Schritt 200.The procedure comprises one step 200.

Im Schritt 200 wird eine Datei bereitgestellt, die digitale Daten umfasst.In step 200, a file containing digital data is provided.

Die digitalen Daten aus der Datei repräsentieren einen bildlich darstellbaren Inhalt. Der bildlich darstellbare Inhalt ist z.B. ein Dokument.The digital data in the file represents content that can be displayed visually. This content can be, for example, a document.

Beispielsweise umfasst das Dokument Text, der bei einer Darstellung des Dokuments auf einem Bildschirm bildlich in einer linken und einer rechten Spalte pro Seite dargestellt ist. Beispielsweise umfasst die linke Spalte Text auf Deutsch. Beispielsweise umfasst die rechte Spalte Text auf Englisch.For example, the document contains text that, when displayed on a screen, is visually represented in a left and a right column on each page. For example, the left column contains text in German. For example, the right column contains text in English.

Beispielsweise ist das Dokument in verschiedene Abschnitte unterteilt, die in Hierarchieebenen gegliedert sind. Ein Beispiel mit drei voneinander getrennten Hierarchieebenen ist:

1 XXX

1.1 XXX
1.1.1 XXX

wobei XXX den Text der jeweiligen Hierarchieebene repräsentiert. Die Hierarchieebenen sind durch Ziffern, die durch einen Punkt voneinander getrennt sind, gekennzeichnet.For example, the document is divided into different sections, which are structured into hierarchical levels. An example with three separate hierarchy levels is:

1 XXX

1.1 XXX
1.1.1 XXX

where XXX represents the text of the respective hierarchy level. The hierarchy levels are identified by numbers separated by a period.

Die Datei umfasst z.B. den Text und die Anweisungen zur bildlichen Darstellung.The file includes, for example, the text and instructions for the visual representation.

Ein Beispiel für die Datei, ist eine zweisprachig abgefasste Norm z.B. der International Organization for Standardization (ISO).An example of such a file is a bilingual standard, e.g., from the International Organization for Standardization (ISO).

Die Datei ist z.B. eine Datei im Portable Document Format (PDF).The file is, for example, a file in Portable Document Format (PDF).

Das Verfahren umfasst einen Schritt 202.The procedure includes step 202.

Im Schritt 202 werden die digitalen Daten bereitgestellt.In step 202, the digital data is provided.

Beispielsweise wird ein Parser bereitgestellt, der ausgebildet ist, die digitalen Daten aus der Datei auszulesen. Beispielsweise werden die digitalen Daten mit dem Parser aus der Datei ausgelesen.For example, a parser is provided that is trained to read the digital data from the file. For example, the digital data is read from the file using the parser.

Der Parser ist z.B. ausgebildet, den Text aus der Datei im PDF Format auszulesen. Die vom Parser ausgelesenen digitalen Daten repräsentieren z.B. eine unsortierte Liste von Sätzen oder Wörtern aus der Datei im PDF Format.The parser is, for example, trained to read the text from the PDF file. The digital data read by the parser represents, for example, an unsorted list of sentences or words from the PDF file.

Die vom Parser bereitgestellten digitalen Daten sind z.B. bei dem Dokument aus folgenden Gründen unstrukturiert.The digital data provided by the parser is unstructured in this document for the following reasons, for example.

Nicht-lineare Speicherung: Der angezeigte Text kann in einer beliebigen Reihenfolge innerhalb der Datei im PDF Format hinterlegt sein. Der angezeigte Text wird erst durch die Verknüpfung mit expliziten Positionsangaben aus der Datei im PDF Format in der richtigen Reihenfolge gerendert. Das lineare Auslesen einzelner Elemente des Texts durch den Parser führt daher zu deutlich von dem durch ein Programm zur Darstellung von Dateien im PDF Format angezeigten Text abweichenden Ergebnissen.Non-linear storage: The displayed text can be stored in any order within the PDF file. The displayed text is only rendered in the correct order by linking it to explicit positional information from the PDF file. Therefore, linearly reading individual text elements by the parser leads to results that differ significantly from the text displayed by a program designed to view PDF files.

Komplexes Layout: Viele Dateien im PDF Format sind nicht einfacher Blocktext, sondern enthalten oftmals mehrere Spalten, Tabellen, Bilder und vereinzelte Textboxen. Diese Vielfalt macht die generelle Verarbeitung mit dem Parser deutlich schwerer.Complex layout: Many PDF files are not simple blocks of text, but often contain multiple columns, tables, images, and individual text boxes. This diversity makes general processing with the parser significantly more difficult.

Inkonsistente Verwendung von Leerzeichen: Innerhalb eines PDFs kann jedes Wort als einzelnes Textelement abgelegt werden. Dadurch kann es vorkommen, dass es keine expliziten Leerzeichen zwischen Wörtern gibt. Dies macht die Verarbeitung mit dem Parser deutlich schwerer.Inconsistent use of spaces: Within a PDF, each word can be stored as a separate text element. This can lead to situations where there are no explicit spaces between words. This makes processing with the parser significantly more difficult.

Beispielsweise wird mit dem Parser eine Textebene der Datei im PDF Format eingelesen. Dabei treten häufig Dreher in der Textreihenfolge und andere Fehlplatzierungen auf. Zusätzlich wird oftmals unnötiger Text übernommen, der nichts mit dem eigentlichen Text zu tun hat, z.B. Copyright-Ansprüche oder Seitenzahlen.For example, the parser reads a text layer of the file in PDF format. This often results in errors in the text order and other misplacements. Additionally, unnecessary text is frequently included that has nothing to do with the actual text, such as copyright notices or page numbers.

Oftmals wird Text in Dateien im PDF Format nicht als Zeichenkette, sondern als Bild hinterlegt. Dies ist z.B. bei einem Scan der Fall, kann aber auch andere Ursachen haben. Das verhindert das Auslesen des hinterlegten Textes.Often, text in PDF files is stored as an image rather than a string. This happens, for example, during scanning, but can also have other causes. This prevents the embedded text from being read.

Für den Fall, dass die Datei oder der Text in der Datei zumindest teilweise als digitales Bild bereitgestellt wird, werden beispielsweise die Pixel des digitalen Bildes bereitgestellt, die die digitalen Daten repräsentieren. Beispielsweise wird abhängig von den digitalen Daten aus der Datei ein digitales Bild bestimmt, das den bildlich darstellbaren Inhalt umfasst.If the file or the text within the file is provided at least partially as a digital image, then, for example, the pixels of the digital image that represent the digital data are provided. For instance, depending on the digital data from the file, a digital image is determined that encompasses the pictorially representable content.

Beispielsweise wird für Text oder andere Zeichen eine optische Zeichenerkennung bereitgestellt, die ausgebildet ist, die digitalen Daten abhängig von den Pixeln zu erkennen. Beispielsweise werden die digitalen Daten mit der optischen Zeichenerkennung abhängig von den Pixeln insbesondere den Pixeln aus dem digitalen Bild erkannt.For example, optical character recognition (OCR) is provided for text or other characters, which is trained to recognize digital data based on the pixels. Specifically, the digital data is recognized by the OCR based on the pixels, particularly those in the digital image.

Das bedeutet, die Datei im PDF Format wird als Bild eingelesen und für das Dokument wird mittels optischer Zeichenerkennung versucht den Text zu erkennen. Fehler in der Erkennung lassen sich nicht ausschließen.This means the PDF file is read as an image, and optical character recognition (OCR) is used to attempt to recognize the text within the document. Errors in the recognition process cannot be ruled out.

Das Verfahren umfasst einen Schritt 204.The procedure includes step 204.

Im Schritt 204 wird eine Beschreibung einer Anordnung von die digitalen Daten repräsentierenden Pixeln im bildlich dargestellten Inhalt bereitgestellt.Step 204 provides a description of the arrangement of pixels representing the digital data in the graphically displayed content.

Eine beispielhafte Beschreibung für das Dokument ist: An example description for the document is:

Das Dokument umfasst Text, der bei einer Darstellung des Dokuments auf einem Bildschirm bildlich in einer linken und einer rechten Spalte pro Seite dargestellt ist. Die linke Spalte umfasst Text auf Deutsch. Die rechte Spalte umfasst Text auf Englisch.The document contains text that, when displayed on a screen, is visually represented in a left and a right column on each page. The left column contains text in German. The right column contains text in English.

Das Dokument ist in verschiedene Abschnitte unterteilt, die in drei Hierarchieebenen gegliedert sind. Die Hierarchieebenen sind durch Ziffern, die durch einen Punkt voneinander getrennt sind, gekennzeichnet.The document is divided into various sections, which are structured into three hierarchical levels. The hierarchical levels are indicated by numbers separated by a period.

Es kann vorgesehen sein, dass die Beschreibung von einem Nutzer vorgegeben wird. Es kann vorgesehen sein, dass die Beschreibung automatisch generiert wird.It may be possible for the description to be provided by a user. It may also be possible for the description to be generated automatically.

Es kann vorgesehen sein, dass ein Basismodell bereitgestellt wird, das ausgebildet ist, die Beschreibung der Anordnung der Pixel, abhängig von den Pixeln zu bestimmen. Beispielsweise wird die Beschreibung der Anordnung mit dem Basismodell abhängig von den Pixeln, bestimmt.It may be provided that a base model is used to determine the description of the pixel arrangement based on the pixels. For example, the description of the arrangement is determined by the base model based on the pixels.

Beispielsweise vom Basismodell die Datei im PDF Format als Bild geladen und in einen Latent Space übertragen. Dabei gehen wesentliche Informationen verloren, da es sich um eine Approximierung des Originaldokumentes handelt. So kann z.B. beim Dokument nicht gewährleistet werden, dass jedes Textelement auch tatsächlich rekonstruiert werden kann. Generell ist es eher unwahrscheinlich, dass das Basismodell den genauen Text wiedergeben kann. Das Basismodell kann jedoch das Layout oder die Sprache beschreiben.For example, the base model loads the PDF file as an image and transfers it to a latent space. This results in the loss of essential information, as it is an approximation of the original document. For instance, it cannot be guaranteed that every text element can actually be reconstructed. Generally, it is rather unlikely that the base model can reproduce the exact text. However, the base model can describe the layout or the language.

Ein Beispiel für ein Basismodell ist in Visual Instruction Tuning (https://doi.org/10.48550/arXiv.2304.08485 ) beschrieben.An example of a basic model is in Visual Instruction Tuning (https://doi.org/10.48550/arXiv.2304.08485 ) described.

Für das Dokument aus der Datei im PDF Format wird z.B. eine Beschreibung des Layouts, der Struktur oder anderer Eigenschaften des PDFs generiert. Beispielsweise wird das Basismodell dazu aufgefordert werden das Layout der Seite des Dokuments aus der Datei im PDF Format zu beschreiben, wodurch vom Basismodell im Beispiel die linken Spalte und die rechten Spalte, d.h. die Eigenschaft „zweispaltig“, erkannt und ausgegeben wird.For the document in PDF format, a description of the layout, structure, or other properties of the PDF is generated. For example, the base model will be prompted to describe the layout of the page in the PDF file, whereby the base model in this example recognizes and outputs the left and right columns, i.e., the "two-column" property.

Dabei kann auf eine Anforderungen des Users eingegangen werden falls nach bestimmten Eigenschaften gefragt wird. Ein Beispiel für die bestimmte Eigenschaft ist die Sprache.This allows the system to respond to user requirements if specific properties are requested. An example of a specific property is the language.

Es kann auch vorgesehen sein, eine vorgegebene Beschreibung durch eine Ausgabe des Basismodells zu ergänzen.It may also be possible to supplement a given description with an output of the base model.

Das Verfahren umfasst einen Schritt 206.The procedure includes step 206.

Im Schritt 206 werden abhängig von den digitalen Daten und der Beschreibung der Anordnung der Pixel den Inhalt repräsentierende strukturierte digitale Daten geschätzt.In step 206, structured digital data representing the content is estimated based on the digital data and the description of the pixel arrangement.

Es kann vorgesehen sein, dass ein Teil der bereitgestellten digitalen Daten Text repräsentiert.It may be intended that part of the provided digital data represents text.

Das bedeutet, ein Teil der strukturierten digitalen Daten repräsentiert Text.This means that part of the structured digital data represents text.

Es kann vorgesehen sein, dass der Text in den strukturierten digitalen Daten mit einem Sprachmodell abhängig vom Text aus den bereitgestellten digitalen Daten und abhängig von der Beschreibung geschätzt wird.It may be provided that the text in the structured digital data is estimated using a language model depending on the text from the provided digital data and depending on the description.

Das Sprachmodell wird z.B. mit einer Anforderung aufgefordert, den Text aus den bereitgestellten digitalen Daten gemäß der Anforderung abhängig von der Beschreibung zu filtern, zu sortieren, und/oder aufzubereiten.The language model is, for example, instructed to filter, sort, and/or process the text from the provided digital data according to the requirement, depending on the description.

Es kann vorgesehen sein, dass das Sprachmodell mit dementsprechend gewählten Trainingsdaten dazu trainiert wird oder dazu trainiert ist, den Text aus den bereitgestellten digitalen Daten gemäß der Anforderung abhängig von der Beschreibung zu filtern, zu sortieren, und/oder aufzubereiten.It may be intended that the language model is trained, or is already trained, with appropriately selected training data to filter, sort, and/or process the text from the provided digital data according to the requirements, depending on the description.

Die konkrete Ausgabe hängt von den Anforderungen ab. Beispielsweise könnten für die ISO Norm zwei sortierte Listen (eine pro Sprache) ausgegeben werden. Ein Beispiel für die Struktur einer Liste 1 für Deutsch und einer Liste 2 für Englisch ist

Liste 1: [1: XXX, 2: XXX, ...].
Liste 2: [1: XXX, 2: XXX, ...].

The specific output depends on the requirements. For example, two sorted lists (one per language) could be output for the ISO standard. An example of the structure of List 1 for German and List 2 for English is:

List 1: [1: XXX, 2: XXX, ...].
List 2: [1: XXX, 2: XXX, ...].

Die sortierte Liste stellt unabhängig vom Inhalt XXX ein Beispiel für die Struktur der strukturierten digitalen Daten, d.h. ein Beispiel für eine Datenstruktur. Im Beispiel umfasst die Struktur eine Hierarchie, wobei eine Position des Inhalts XXX in der Hierarchie im Beispiel durch Ziffern gekennzeichnet ist, die die Position in der Datenstruktur angibt, an der der jeweilige Inhalt XXX in der Datenstruktur auffindbar ist.The sorted list, independent of its content XXX, represents an example of the structure of structured digital data, i.e., an example of a data structure. In this example, the structure comprises a hierarchy, where the position of content XXX within the hierarchy is indicated by numbers that specify the position in the data structure where the respective content XXX can be found.

Das Verfahren erstellt die Struktur der strukturierten digitalen Daten. Das Verfahren befüllt die strukturierten digitalen Daten mit Inhalt. Die strukturierten digitalen Daten werden im Verfahren geschätzt. Das bedeutet, die Struktur und der Inhalt mit dem die Struktur befüllt wird, wird im Verfahren geschätzt.The process creates the structure of the structured digital data. The process populates the structured digital data with content. The structured digital data is estimated within the process. This means that both the structure and the content with which the structure is populated are estimated within the process.

Optional wird ein Schritt 208 ausgeführt.Optionally, step 208 is executed.

Der Schritt 208 sieht vor, dass eine Abweichung des durch die geschätzten strukturierten digitalen Daten repräsentierten Inhalts vom Inhalt, den die bereitgestellten digitalen Daten repräsentieren erkannt wird.Step 208 provides for the detection of any discrepancy between the content represented by the estimated structured digital data and the content represented by the provided digital data.

Dies wird am Beispiel eines Teils der bereitgestellten digitalen Daten, der einen Teil des Inhalts repräsentiert, und eines Teils der strukturierten digitalen Daten, der den Teil des Inhalts repräsentiert, beschrieben.This is described using the example of a portion of the provided digital data that represents part of the content, and a portion of the structured digital data that represents part of the content.

Die strukturierten digitalen Daten werden wiederholt geschätzt, wenn erkannt wird, dass die Teile der Daten voneinander abweichen. Dazu wird der Schritt 206 wiederholt, wenn die Teile der Daten voneinander abweichen. Der Schritt 206 wird z.B. mit einem entsprechenden Hinweis auf eine Halluzination versehen wiederholt. Der Hinweis wird z.B. als Eingabe in das Sprachmodell vorgegeben.The structured digital data is repeatedly estimated when it is detected that the data parts differ from each other. For this purpose, step 206 is repeated when the data parts differ. Step 206 is repeated, for example, with a corresponding indication of a hallucination. This indication is provided, for example, as input into the language model.

Da es bei der Verwendung des Sprachmodells keine Gewährleistung gibt, dass die Ausgabe des Sprachmodells auch den originalen Text widerspiegelt, wird beispielsweise mit Hilfe von Methoden zur Halluzinierungserkennung sichergestellt, dass jeder Satz der Ausgabe des Sprachmodells auch eine Entsprechung im Text des Dokuments, d.h. z.B. im Text, der aus der Datei im PDF Format extrahiert wird, hat. Sollte eine Ausgabe ohne Entsprechung im Text erkannt werden, kann ein entsprechender Hinweis, dass die Ausgabe halluziniert ist, ergehen.Since there is no guarantee that the output of the language model will accurately reflect the original text, hallucination detection methods are used, for example, to ensure that each sentence in the language model's output has a corresponding text in the document, i.e., in the text extracted from the PDF file. If output without a corresponding textual match is detected, a notification can be issued indicating that the output is hallucinatory.

In 3 ist eine Datenstruktur 300 zur Strukturierung von digitalen Daten schematisch dargestellt.In 3 A data structure 300 for structuring digital data is shown schematically.

Die Datenstruktur 300 umfasst wenigstens ein Datenfeld 302 für die bereitgestellten digitalen Daten, die den bildlich darstellbaren Inhalt repräsentieren.The data structure 300 includes at least one data field 302 for the provided digital data that represents the pictorially representable content.

Die Datenstruktur 300 umfasst wenigstens ein Datenfeld 304 für die Beschreibung der Anordnung der Pixel, die die digitalen Daten im bildlich dargestellten Inhalt repräsentieren.The data structure 300 includes at least one data field 304 for describing the arrangement of pixels that represent the digital data in the pictorially represented content.

Die Datenstruktur 300 umfasst wenigstens ein Datenfeld 306 für die abhängig von den digitalen Daten und der Beschreibung der Anordnung der Pixel geschätzten strukturierten digitalen Daten, die den Inhalt repräsentieren.The data structure 300 includes at least one data field 306 for the structured digital data, estimated depending on the digital data and the description of the arrangement of the pixels, which represent the content.

ZITATE ENTHALTEN IN DER BESCHREIBUNGQUOTES INCLUDED IN THE DESCRIPTION

Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of documents cited by the applicant was automatically generated and is included solely for the reader's convenience. The list is not part of the German patent or utility model application. The DPMA accepts no liability for any errors or omissions.

Zitierte Nicht-PatentliteraturCited non-patent literature

Visual Instruction Tuning (https://doi.org/10.48550/arXiv.2304.08485 [0047]

Claims

A computer-implemented method for structuring digital data, characterized in that the digital data are provided (202), wherein the digital data represent a pictorially representable content, wherein a description of an arrangement of pixels representing the digital data in the pictorially represented content is provided (204), wherein, depending on the digital data and the description of the arrangement of the pixels, structured digital data representing the content, in particular the structure of structured digital data and the content with which the structure is filled, are estimated (206).

Procedure according to Claim 1 , characterized in that a file is provided (200) which contains the digital data, wherein a parser is provided which is trained to read the digital data from the file, and wherein the digital data is read from the file using the parser (202).

Procedure according to Claim 1 , characterized in that the pixels representing the digital data are provided, wherein an optical character recognition system is provided which is configured to recognize the digital data depending on the pixels, and wherein the digital data are recognized by the optical character recognition system depending on the pixels (202).

Method according to one of the preceding claims, characterized in that a part of the provided digital data represents a part of the content, wherein a part of the structured digital data represents the part of the content, wherein the structured digital data are repeatedly estimated (206) when it is recognized (208) that the parts of the data differ from each other.

Method according to one of the preceding claims, characterized in that part of the provided digital data represents text, wherein part of the structured digital data represents text, and wherein the text in the structured digital data is estimated using a language model depending on the text from the provided digital data and depending on the description (206).

Procedure according to Claim 5 , characterized in that the language model is trained or requested (206) to filter, sort and/or process the text from the provided digital data according to the requirement depending on the description.

Method according to one of the preceding claims, characterized in that a basic model is provided which is configured to determine the description of the arrangement of the pixels depending on the pixels, wherein the description of the arrangement is determined with the basic model depending on the pixels (204).

Data structure (300) for structuring digital data, characterized in that the data structure (300) comprises at least one data field (302) for digital data, wherein the digital data represent a pictorially representable content, wherein the data structure (300) comprises at least one data field (304) for a description of an arrangement of pixels representing the digital data in the pictorially represented content, and wherein the data structure (300) comprises at least one data field (306) for structured digital data representing the content, estimated depending on the digital data and the description of the arrangement of the pixels.

Device (100) for structuring digital data, characterized in that the device (100) comprises at least one processor (102) and at least one memory (104), wherein the at least one memory (104) comprises instructions executable by the at least one processor (102), the execution of which by the at least one processor (102) enables the device (100) to perform the method according to one of the Claims 1 until 7 executes.

A computer program for structuring digital data, characterized in that the computer program comprises instructions executable by a computer, the execution of which by the computer follows the method according to one of the Claims 1 until 7 executes.