WO2020201249A1

WO2020201249A1 - Machine learning based on trigger definitions

Info

Publication number: WO2020201249A1
Application number: PCT/EP2020/059042
Authority: WO
Inventors: Andreas Wilke; Ilya Komarov; Peter Palm; Manfred Paeschke
Original assignee: Bundesdruckerei GmbH
Current assignee: Bundesdruckerei GmbH
Priority date: 2019-04-04
Filing date: 2020-03-31
Publication date: 2020-10-08
Anticipated expiration: 2021-10-04
Also published as: DE102019108858A1; EP3948578A1

Abstract

The invention relates to a computer-implemented method for machine learning. A pre-trained learning module (120) and a database (104) are provided. The learning module comprises a plurality of predetermined trigger definitions (123), which define triggers (121) for assigning tokens (109) to classes (111) of a group of classes. An additional dataset (108) is received and stored in a first data model (106) of the database, and one or more tokens are generated. Among the generated tokens, triggers are identified and each assigned to the relevant trigger definition. The identified triggers are used to assign further generated tokens to one or more classes in the group of classes. Remaining generated tokens, which have not been assigned to one of the trigger definitions nor assigned to a class due to one of the trigger definitions, are assigned to a fallback class. In a second data model (110), an index (112) is extended using the generated tokens, the class assignments of the generated tokens and a pointer (115) to the stored additional dataset.

Description

Maschinelles Lernen auf Basis von Trigger-Definitionen Machine learning based on trigger definitions

B e s c h r e i b u n g Description

Die Erfindung betrifft ein Verfahren und ein Computersystem zum maschinellen Ler nen. The invention relates to a method and a computer system for machine learning.

Aus dem Stand der Technik sind Verfahren und Systeme zum maschinellen Lernen System bekannt. Solche Systeme lernen anhand von Beispielen und können diese Beispiele nach Beendigung der Lernphase auf bisher unbekannte Daten anwenden. Die zugrundeliegenden Beispiele stellen Muster und Gesetzmäßigkeiten bereit, wel che im Zuge eines Lerntransfers zur Beurteilung bisher unbekannter Daten heran gezogen werden. Bekannte Verfahren und Systeme für maschinelles Lernen arbeiten aufgrund der verwendeten Datenspeicherstrukturen im Allgemeinen nicht auf der gesamten zur Verfügung stehenden Datenmenge. Für das Lernen wird eine Auswahl an Beispie len getroffen, mit welchen das System in der Lernphase trainiert wird. Die aus der beschränkten Auswahl im Zuge des Lernens erfassten Muster und Gesetzmäßigkei ten werden dann sukzessiv auf Teile des restlichen Datenbestands bzw. neuer fasste Daten angewendet. Methods and systems for machine learning systems are known from the prior art. Such systems learn using examples and can apply these examples to previously unknown data after the end of the learning phase. The underlying examples provide patterns and laws that are used in the course of a learning transfer to assess previously unknown data. Known methods and systems for machine learning generally do not work on the entire amount of data available due to the data storage structures used. A selection of examples is made for learning, with which the system is trained in the learning phase. The patterns and laws recorded from the limited selection in the course of learning are then successively applied to parts of the remaining data stock or newly acquired data.

Der Erfindung liegt die Aufgabe zugrunde, ein verbessertes Verfahren zum maschi nellen Lernen zu schaffen. The invention is based on the object of creating an improved method for maschi nellen learning.

Die der Erfindung zugrundeliegende Aufgabe wird jeweils mit den Merkmalen der unabhängigen Patentansprüche gelöst. Ausführungsformen der Erfindung sind in den abhängigen Patentansprüchen angegeben. The object on which the invention is based is achieved in each case with the features of the independent patent claims. Embodiments of the invention are specified in the dependent claims.

Ausführungsformen umfassen ein computerimplementiertes Verfahren zum maschi nellen Lernen, wobei das Verfahren umfasst: Embodiments include a computer-implemented method for machine learning, the method comprising:

• Bereitstellen eines vortrainierten Lernmoduls zum maschinellen Lernen, wobei das vortrainierte Lernmodul eine Mehrzahl von vorbestimmten Trigger-Definiti onen umfasst, welche Trigger für ein Zuordnen von Token zu Klassen einer ersten Gruppe von Klassen definieren, Providing a pre-trained learning module for machine learning, the pre-trained learning module comprising a plurality of predetermined trigger definitions which define triggers for assigning tokens to classes of a first group of classes,

• Bereitstellen einer Datenbank, welche von einem Multi-Modell-Datenbankma- nagementsystem verwaltet wird, wobei die Datenbank eine Mehrzahl von Da tensätze umfasst, welche in einem dokumentenorientierten Datenmodell ge speichert sind, wobei die gespeicherten Datensätze jeweils ein oder mehreren Feldwerte umfassen, wobei die einzelnen Feldwerte der gespeicherten Da tensätze jeweils in einem Feld gespeichert sind, • Providing a database which is managed by a multi-model database management system, the database comprising a plurality of data records which are stored in a document-oriented data model, the stored data records each comprising one or more field values, the individual field values of the stored data records are each stored in a field,

wobei die Datenbank ferner einen durchsuchbaren Index umfasst, welcher in einem weiteren Datenmodell gespeichert ist, wobei der Index eine Mehrzahl von aus den Feldwerten der gespeicherten Datensätze erzeugten Token um fasst, wobei Token in dem Index jeweils mit einem oder mehreren Zeigern auf ein oder mehrere der in dem dokumentenorientierten Datenmodell gespeicher ten Datensätze verknüpft ist, aus deren Feldwerten das entsprechende Token erzeugt wurde, wherein the database further comprises a searchable index which is stored in a further data model, wherein the index comprises a plurality of tokens generated from the field values of the stored data records, wherein tokens in the index each point to one or more pointers one or more of the data records stored in the document-oriented data model are linked, from whose field values the corresponding token was generated,

wobei erste Token in dem Index, welche von einer der Trigger-Definitionen als Trigger umfasst sind, jeweils der entsprechen Trigger-Definition zugeordnet sind, wobei zweite Token in dem Index jeweils ein oder mehreren Klassen der ersten Gruppe von Klassen zugeordnet sind und wobei die verbleibenden To ken in dem Index zum Kennzeichnen der entsprechenden verbleibenden To ken als unbekannte Daten einer Auffangklasse zugeordnet sind, wobei die Zu ordnung zu der Auffangklasse eine Zuordnung zu einer der Trigger-Definitio nen ebenso wie eine Zuordnung zu einer der Klassen der ersten Gruppe von Klassen ausschließt, wherein first tokens in the index, which are included in one of the trigger definitions as triggers, are each assigned to the corresponding trigger definition, with second tokens in the index each being assigned to one or more classes of the first group of classes, and the remaining ones To ken in the index for identifying the corresponding remaining tokens are assigned to a collecting class as unknown data, the assignment to the collecting class excluding an assignment to one of the trigger definitions as well as an assignment to one of the classes of the first group of classes ,

• Empfangen eines zusätzlichen Datensatzes, • Receiving an additional data record,

• Speichern des zusätzlichen Datensatzes, welcher ein oder mehrere zusätzli che Feldwerte umfasst, durch das Multi-Modell-Datenbankmanagementsystem in dem dokumentenorientierten Datenmodell der Datenbank, • Saving the additional data record, which includes one or more additional field values, by the multi-model database management system in the document-oriented data model of the database,

• Erzeugen von ein oder mehreren zusätzlichen Token aus den zusätzlichen Feldwerten, • Generation of one or more additional tokens from the additional field values,

• falls eines oder mehrere erste zusätzliche Token von einer der Trigger-Definiti onen als Trigger umfasst sind, Identifizieren des entsprechenden Tokens als Trigger durch das Lernmodul, • if one or more first additional tokens are included in one of the trigger definitions as a trigger, the learning module identifies the corresponding token as a trigger,

• Verwenden der identifizierten Trigger zum Zuordnen von ein oder mehreren zweiten zusätzlichen Token zu ein oder mehreren Klassen der ersten Gruppe von Klassen durch das Lernmodul, falls die entsprechenden zweiten zusätzli chen Token von dem zusätzliche Datensatz in einer Kombination mit ein oder mehreren der identifizierten Trigger gemäß einer der Trigger-Definitionen um fasst sind, wobei die entsprechenden Trigger gemäß der entsprechenden Trig ger-Definition eine entsprechende Klassenzuordnung triggern, Using the identified triggers for assigning one or more second additional tokens to one or more classes of the first group of classes by the learning module, if the corresponding second additional tokens from the additional data set in a combination with one or more of the identified triggers according to one of the trigger definitions are included, the corresponding triggers triggering a corresponding class assignment according to the corresponding trigger definition,

• Zuordnen der verbleibenden zusätzlichen Token, für welche keine Zuordnung zu einer der Trigger-Definitionen und keine Klassenzuordnung aufgrund einer der Trigger-Definitionen erfolgt ist, zu der Auffangklasse, • Ergänzen des Index durch das Multi-Modell-Datenbankmanagementsystem unter Verwendung der zusätzlichen Token, der Klassenzuordnungen der zu sätzlichen Token und eines Zeigers auf den zusätzlichen in dem dokumenten- orientierten Datenmodell gespeicherten Datensatz. • Assignment of the remaining additional tokens, for which no assignment to one of the trigger definitions and no class assignment has been made based on one of the trigger definitions, to the collection class, • Supplementing the index through the multi-model database management system using the additional tokens, the class assignments of the additional tokens and a pointer to the additional data set stored in the document-oriented data model.

Ausführungsformen können den Vorteil haben, dass es sich bei dem Lernmodul um ein vortrainiertes Lernmodul handelt. Das vortrainierte Lernmodul umfasst eine Mehrzahl inertial zur Verfügung gestellt bzw. festgelegt Trigger-Definitionen. Das Lernmodul ist dazu konfiguriert unter Verwendung dieser inertial festgelegten Trig ger-Definitionen alle von der Datenbank bzw. dem Index umfassten Token zu klassi fizieren. Ausführungsformen können den Vorteil haben, dass kein Zufall in den ent- scheidungs- bzw. Klassifizierungsprozess eingeht. Vielmehr beruht das Klassifizie ren von Token auf den vorbestimmten Trigger-Definitionen und ist somit jederzeit nachvollziehbar. Auch wenn das Lernmodule beispielsweise auf Basis der Klassifi zierung fortschreitet und weitere Muster und Gesetzmäßigkeiten anhand der dieser im Zuge eines Lerntransfers weitere Muster und Gesetzmäßigkeiten erlernt, so ge hen die zugrundeliegenden Klassifizierung zurück auf die vorbestimmten Trigger- Definitionen. Embodiments can have the advantage that the learning module is a pre-trained learning module. The pre-trained learning module comprises a plurality of inertially provided or defined trigger definitions. The learning module is configured to use these inertially defined trigger definitions to classify all tokens included in the database or the index. Embodiments can have the advantage that no coincidence enters the decision-making or classification process. Rather, the classification of tokens is based on the predetermined trigger definitions and can therefore be traced at any time. Even if the learning module advances, for example on the basis of the classification, and further patterns and regularities on the basis of which it learns additional patterns and regularities in the course of a learning transfer, the underlying classification goes back to the predetermined trigger definitions.

Nach Ausführungsformen werden in Form der Klassifizierung Meta- und/oder Kon textinformationen zu den klassifizierten Token bereitgestellt. Diese Meta- und/oder Kontextinformationen werden anhand der Trigger gemäß den Trigger-Definitionen identifiziert und den entsprechenden Token in Form der Klassenzuordnung zuge ordnet. Nach Ausführungsformen kann das Lernmodul dazu konfiguriert sein, unter Verwendung dieser Meta- und/oder Kontextinformationen weitere Muster und Ge setzmäßigkeiten zu erlernen. According to embodiments, meta and / or context information on the classified tokens is provided in the form of the classification. This meta and / or context information is identified on the basis of the trigger according to the trigger definitions and assigned to the corresponding token in the form of the class assignment. According to embodiments, the learning module can be configured to learn further patterns and laws using this meta and / or context information.

Ausführungsformen können den Vorteil haben, dass die von der Datenbank emp fangenen Datensätze alle in ihrer ursprünglichen Form in dem dokumentenorientier- ten Datenmodell abgespeichert werden. Hierdurch kann sichergestellt werden, dass der volle Informationsgehalt dieser Datensätze erhalten bleibt. Zusätzlich werden die von den in dem dokumentenorientierten Datenmodell abgespeicherten Datensätzen umfassten Daten in Form des Indexes bereitgestellt. Dieser Index um fasst die entsprechenden Daten des dokumentenorientierten Datenmodells in Form von Token. Nach Ausführungsformen umfasst der Index alle von dem dokumenten orientierten Datenmodell umfassten elementaren Datenelemente in Form von ele mentaren Token. Nach weiteren Ausführungsformen umfasst der Index zusätzlich von dem dokumentenorientierten Datenmodell umfasste Kombination der elementa ren Datenelemente in Form von Token-Kombinationen. Diese Token-Kombinationen umfassen jeweils eine Kombination einer Mehrzahl von elementaren Token. Nach weiteren Ausführungsformen umfasst der Index Token-Kombinationen bis zu einer vorbestimmten Komplexität. Die Komplexität einer Token-Kombination ist beispiels weise definiert durch die Anzahl und/oder Art der von dieser umfassten elementaren Token. Nach weiteren Ausführungsformen umfasst der Index alle von dem doku mentenorientierten Datenmodell umfassten Kombinationen elementarer Datenele mente in Form entsprechender Token-Kombinationen. Embodiments can have the advantage that the data records received from the database are all stored in their original form in the document-oriented data model. This ensures that the full information content of these data records is retained. In addition, those of the are stored in the document-oriented data model Data sets comprised data provided in the form of an index. This index includes the corresponding data of the document-oriented data model in the form of tokens. According to embodiments, the index comprises all of the elementary data elements included in the document-oriented data model in the form of elementary tokens. According to further embodiments, the index additionally comprises a combination of the elementary data elements in the form of token combinations comprised by the document-oriented data model. These token combinations each include a combination of a plurality of elementary tokens. According to further embodiments, the index comprises token combinations up to a predetermined complexity. The complexity of a token combination is defined, for example, by the number and / or type of elementary tokens it encompasses. According to further embodiments, the index comprises all combinations of elementary data elements included in the document-oriented data model in the form of corresponding token combinations.

Bei den von dem Index umfassten Token kann es sich beispielsweise um Trigger gemäß den vorbestimmten Trigger-Definitionen handeln. Ein entsprechendes Token wird, wenn es erstmals beispielsweise im Zuge der Verarbeitung eines zusätzlichen Datensatzes erzeugt wird, anhand einer der Trigger-Definitionen als Trigger identifi ziert, dem Index hinzugefügt und der entsprechenden Trigger-Definition zugeordnet. Erkennt das Lernmodul dasselbe Token, welchen der Index als Trigger definiert, in nerhalb eines weiteren Datensatzes wieder, so greift das Lernmodul auf die dem Triggern in dem Index zugeordnete Trigger-Definition zurück und ordnet der ent sprechenden Trigger-Definition folgenden ein oder mehrere Token aus einem Kon textumfeld des als Trigger gespeicherten Tokens in dem weiteren Datensatz ein o- der mehreren Klassen der ersten Gruppe von Klassen zu. The tokens included in the index can be triggers according to the predetermined trigger definitions, for example. If a corresponding token is generated for the first time, for example in the course of processing an additional data record, it is identified as a trigger using one of the trigger definitions, added to the index and assigned to the corresponding trigger definition. If the learning module recognizes the same token, which the index defines as a trigger, within a further data set, the learning module accesses the trigger definition assigned to triggering in the index and assigns one or more tokens following the corresponding trigger definition to a context of the token stored as a trigger in the further data record one or more classes of the first group of classes.

Ferner umfasst der Index eine Mehrzahl von Token, welche jeweils ein oder mehre ren Klassen der ersten Gruppe von Klassen zugeordnet sind. Nach Ausführungsfor men werden durch die Zuordnung zu den Klassen Meta- und/oder Kontextinformati onen zu den entsprechenden Token bereitgestellt. Die entsprechenden Meta- und/oder Kontextinformationen können beispielsweise für eine Verarbeitung der entsprechenden Token und/oder der die entsprechenden Token umfassenden Da tensätze in dem dokumentenorientierten Datenmodell verwendet werden. Beispiels weise werden die entsprechenden Meta- und/oder Kontextinformationen im Zuge ei ner Suchanfrage zur Identifikation relevanter Token und/oder Datensätze verwendet oder im Zuge eines den Index verwendenden weiteren Verfahrens zum maschinel len Lernen. So können unter Verwendung der entsprechenden Meta- und/oder Kon textinformationen im Zuge eines weiteren Lerntransfers zusätzliche Muster und Ge setzmäßigkeiten erlernt werden. Dieses weitere Verfahren zum maschinellen Ler nen wird beispielsweise durch das die Trigger-Definitionen verwendende Lernmodul oder ein weitere Lernmodul ausgeführt. Beispielsweise handelt es sich bei dem wei teren Verfahren zum maschinellen Lernen um ein Kl-Verfahren, welches von einem Kl-Modul ausgeführt wird. The index further comprises a plurality of tokens which are each assigned to one or more classes of the first group of classes. According to embodiments, the assignment to the classes provides meta and / or context information for the corresponding tokens. The corresponding meta and / or context information can be used, for example, for processing the corresponding tokens and / or the data records comprising the corresponding tokens are used in the document-oriented data model. For example, the corresponding meta and / or context information is used in the course of a search query to identify relevant tokens and / or data records or in the course of a further method for machine learning that uses the index. Using the corresponding meta and / or context information, additional patterns and laws can be learned in the course of a further learning transfer. This further method for machine learning is carried out, for example, by the learning module using the trigger definitions or by a further learning module. For example, the further method for machine learning is a KI method that is executed by a KI module.

Schließlich umfasst der Index Token, welche unter keine der vorbestimmten Trig ger-Definitionen fallen. Bei diesen Token handelt es sich weder um Trigger, noch lassen sie sich anhand der von den Trigger-Definitionen definierten Trigger Klassen zuordnen. Vielmehr handelt es sich bei diesen Token um unbekannte Daten, welche nicht zuordenbar sind und für welche damit Meta- bzw. Kontextinformationen fehlen. Diese Token werden als unbekannte Daten einer Auffangklasse zugeordnet. Dabei schließt eine Zuordnung zu der Auffangklasse eine Zuordnung zu einer der Trigger- Definitionen ebenso wie eine Zuordnung zu einer der Klassen der ersten Gruppen von Klassen aus. Finally, the index includes tokens that do not fall under any of the predetermined trigger definitions. These tokens are neither triggers nor can they be assigned to the trigger classes defined by the trigger definitions. Rather, these tokens are unknown data that cannot be assigned and for which meta or context information is missing. These tokens are assigned to a trap class as unknown data. An assignment to the collection class excludes an assignment to one of the trigger definitions as well as an assignment to one of the classes of the first groups of classes.

Ausführungsformen können den Vorteil haben, dass anhand der Token-Zuordnun gen in einfacher Form erkannt werden kann, bei welchen Token es sich um unbe kannte Daten handelt und bei welchen Token es sich um bekannte Daten, d.h. Trig ger oder klassifizierbare Daten, handelt. Somit können beispielsweise Suchabfragen derart definiert werden, dass sie ausschließlich bekannte Daten berücksichtigen. Zusätzliche Lernalgorithmen können beispielsweise derart konfiguriert werden, dass sie ausschließlich auf bekannten Daten arbeiten. Mithin kann beispielsweise eine Verwendung von Zufall in einem Entscheidungs- bzw. Klassifizierungsprozess ver wendet, selbst wenn zusätzliche Lernalgorithmen zum Einsatz kommen. Grundlage für alle Lernprozesse und/oder Kl-Prozesse bieten in diesem Fall die initial festge legten Trigger, anhand derer die von der Datenbank empfangenen Daten klassifi ziert werden. Nach Ausführungsformen bieten die vorbestimmenden Trigger-Defini tionen eine Grundlage für ein überwachtes Lernen. Durch die Verwendung der vor bestimmenden Trigger-Definitionen lassen sich Fehlentwicklungen in selbstkleben den Systemen und/oder bei der Verarbeitung von Suchanfragen vermeiden, welche die in der Datenbank gespeicherten Daten verwenden. Embodiments can have the advantage that the token assignments can be used to identify which tokens are unknown data and which tokens are known data, ie trigger or classifiable data. Thus, for example, search queries can be defined in such a way that they only take into account known data. Additional learning algorithms can be configured, for example, in such a way that they work exclusively on known data. Thus, for example, the use of chance in a decision-making or classification process can be used, even if additional learning algorithms are used. basis In this case, the initially defined triggers are available for all learning processes and / or KI processes, which are used to classify the data received from the database. According to embodiments, the predetermined trigger definitions provide a basis for supervised learning. By using the pre-determining trigger definitions, undesirable developments in self-adhesive systems and / or in the processing of search queries that use the data stored in the database can be avoided.

Ausführungsformen können ferner den Vorteil haben, dass zusätzliche Datensätze, welche der Datenbank hinzugefügt werden, jeweils dahingehend analysiert werden, welche der von ihnen umfassten Daten bekannte Daten sind und welche Daten un bekannte Daten sind. In diesem Kontext werden unter bekannten Daten solche Da ten verstanden, welche als Trigger bekannt sind, für welche Meta- bzw. Kontextin formationen vorliegen und/oder für welche Meta- bzw. Kontextinformationen unter Verwendung der Trigger-Definitionen aus dem Kontext der Datensätze abgeleitet werden können. Daten, bei welchen es sich weder um Trigger handelt noch um Da ten, welche anhand der Trigger-Definitionen klassifizierbar sind, sind unbekannte Daten. Unbekannte Daten werden der Auffangklasse zugeordnet. Embodiments can furthermore have the advantage that additional data records that are added to the database are each analyzed to determine which of the data they comprise is known data and which data is unknown data. In this context, known data is understood to mean those data which are known as triggers, for which meta or context information is available and / or for which meta or context information is derived from the context of the data records using the trigger definitions can. Data that are neither triggers nor data that can be classified using the trigger definitions are unknown data. Unknown data is assigned to the trap class.

Ausführungsformen können den Vorteil haben, dass ein für das maschinelle Lernen optimiertes Datenbanksystem verwendet wird. Das entsprechende Datenbanksys tem umfasst alle dem maschinellen Lernen zu Grunde liegenden Daten, d.h. sowohl zum Klassifizieren von Daten verwendete Trigger-Definitionen, als auch die Daten, welche unter Verwendung der Trigger-Definitionen verarbeitet werden. Somit wird ein kontinuierliches Lernen durch das Lernmodul unter Berücksichtigung aller von dem System bzw. dem Lernmodul gesehenen Daten ermöglicht. Embodiments can have the advantage that a database system optimized for machine learning is used. The corresponding database system includes all the data on which machine learning is based, i.e. both trigger definitions used to classify data and the data that are processed using the trigger definitions. This enables continuous learning by the learning module, taking into account all of the data seen by the system or the learning module.

Die Datenbank speichert alle empfangenen Datensätze in einem dokumentenorien- tierten Datenmodell. Ein dokumentenorientiertes Datenmodell bedeutet, dass das Datenmodell keine strukturellen Vorgaben an die zu speichernden Daten stellt. Viel mehr werden die Daten in Dokumenten bzw. Datencontainern in der Form gespei chert, in der empfangen werden. In diesem Sinne handelt es sich bei den in dem dokumentenorientierten Datenmodell gespeicherten Daten um Rohdaten. Rohdaten bedeutet, dass die Daten in der Form abgespeichert werden, in der sie empfangen werden, ohne eine zusätzliche Datenverarbeitung durch das Datenbankmanage mentsystem, insbesondere keine Umstrukturierung der Daten. Ausführungsformen können den Vorteil haben, dass somit der gesamte Informationsgehalt der empfan genen Daten (nahezu) vollständig beibehalten werden kann, ohne dass Vorannah men des Datenbankmanagementsystems einfließen. Das Datenbankmanagement system ebenso wie das Lernmodul können jederzeit auf die ursprünglichen Daten bestände zurückgreifen und diese in bei der weiteren Verarbeitung berücksichtigen. The database saves all data records received in a document-oriented data model. A document-oriented data model means that the data model does not impose any structural requirements on the data to be saved. Rather, the data is stored in documents or data containers in the form in which it is received. In this sense it concerns with the document-oriented data model, stored data to raw data. Raw data means that the data are stored in the form in which they are received, without additional data processing by the database management system, in particular no restructuring of the data. Embodiments can have the advantage that the entire information content of the received data can thus be (almost) completely retained without the assumptions of the database management system being included. Both the database management system and the learning module can access the original data at any time and take them into account in further processing.

Basierend auf diesem Datenpool an Rohdaten, welchen das dokumentenbasierte Datenmodell bereitstellt, wird ein Index erzeugt. Erst auf dieser Ebene werden aus den Datensätze strukturelle Information bzw. Sinnzusammenhänge extrahiert. Diese strukturellen Informationen bzw. Sinnzusammenhängen werden in Form von Klas senzuordnungen der indexierten Daten berücksichtigt. An index is generated based on this data pool of raw data provided by the document-based data model. Structural information or contexts of meaning are only extracted from the data sets at this level. This structural information or context is taken into account in the form of class assignments of the indexed data.

Hierzu werden die Datensätze durch eine Tokenisierung auf ein elementares Ni veau heruntergebrochen, welches die elementaren Bestandteile der Datensätze in Form der Token berücksichtigt. Die Token werden durch das Lernmodul als Trigger einer der Trigger-Definitionen zugeordnet oder als unter Verwendung der Trigger- Definitionen klassifiziert. Alle Token, welche weder als Trigger identifiziert werden, noch sich unter Verwendung einer der Trigger-Definitionen klassifiziert lassen, wer den als unbekannte Daten der Auffangklasse zugeordnet. Beispielsweise umfasst das Lernmodul einen Klassifizierer und ist zur Klassifizierung der Token unter Ver wendung der vorbestimmten Trigger-Definitionen konfiguriert. Die entsprechende Klassifikation kann beispielsweise Teil einer Mustererkennung sein, bei welcher eine Merkmalsgewinnung durch die Tokenisierung implementiert wird. Basierend auf diese Merkmalsgewinnung erfolgt jedoch keine Merkmalsreduktion im klassi schen Sinne, da der vollständige Datenbestand indexiert wird und somit jedes To ken als Trigger erkannt oder einer Klasse, zumindest der Auffangklasse, zugeordnet wird. Zudem ist jedes Token in dem Index mit einem oder mehreren Zeigern verknüpft, welche anzeigen, in welchen Datensätzen das entsprechende Token vorkommt. So mit kann jederzeit auf die für einen Token relevanten Rohdaten zugegriffen werden und diese Rohdaten können zur Auswertung in Hinblick auf diesen Token herange zogen werden. For this purpose, the data records are broken down to an elementary level using tokenization, which takes into account the elementary components of the data records in the form of tokens. The tokens are assigned by the learning module as a trigger to one of the trigger definitions or classified as using the trigger definitions. All tokens that are neither identified as triggers nor can be classified using one of the trigger definitions are assigned to the trap class as unknown data. For example, the learning module comprises a classifier and is configured to classify the tokens using the predetermined trigger definitions. The corresponding classification can, for example, be part of a pattern recognition in which a feature extraction is implemented by the tokenization. However, based on this extraction of features, there is no feature reduction in the classic sense, since the complete database is indexed and thus each token is recognized as a trigger or assigned to a class, at least the collection class. In addition, each token in the index is linked to one or more pointers that indicate in which data records the corresponding token occurs. This means that the raw data relevant to a token can be accessed at any time and this raw data can be used for evaluation with regard to this token.

Hierdurch werden die Token-Zuordnungen nach bekannten Daten, welche gesicher ten Fakten darstellen, und unbekannte Daten differenziert. Ausführungsformen kön nen den Vorteil haben, dass die Verwendung der von dem Lernmodul bestimmten Strukturen und Gesetzmäßigkeiten in den Datensätzen, welche sich in den Token- Zuordnungen niederschlagen, auf den einer Verwendung der vorbestimmten Trigger Definitionen beruht. Unbekannt Daten werden demgegenüber als solche erfasst und solange außen vorgelassen werden, bis diese ebenfalls klassifiziert und mithin als gesicherte Fakten angesehen werden können. Eine solche zusätzliche Klassifika tion kann beispielsweise durch zusätzliche Trigger-Definitionen implementiert wer den. Insbesondere können gezielt zusätzliche Trigger-Definitionen zur Reduktion des von der Auffangklasse umfassten Token-Menge ergänzt werden. Das Verfahren ermöglicht somit ein Lernen und/oder Klassifizieren unter Vorbehalt. In this way, the token assignments are differentiated according to known data, which represent secured facts, and unknown data. Embodiments can have the advantage that the use of the structures and regularities determined by the learning module in the data records, which are reflected in the token assignments, is based on the use of the predetermined trigger definitions. Unknown data, on the other hand, are recorded as such and left out until they can also be classified and thus viewed as reliable facts. Such an additional classification can be implemented, for example, by additional trigger definitions. In particular, additional trigger definitions can be added to reduce the amount of tokens included in the collection class. The method thus enables learning and / or classification with reservations.

Ausführungsformen können daher den Vorteil haben, dass sie dem Lernmodul er lauben auf dem gesamten zur Verfügung stehenden Datenbestand zu arbeiten. Ins besondere können sie den Vorteil haben, ein kontinuierliches Lernen zu ermögli chen, welches sowohl zusätzliche Datensätze als auch bereits gespeicherte Da tensätze berücksichtigt. Ausführungsformen können daher den Vorteil haben, dass sie nicht darauf beschränkt sind, dass aus einer zur Verfügung stehenden Gesamt datenmenge eine willkürliche Untermenge herausgegriffen wird, um auf dieser zu trainieren. Vielmehr werden alle von der Datenbank umfassten Daten unter Verwen dung der Trigger-Definitionen verarbeitet. Durch Ergänzungen der Trigger-Definitio nen kann nach Ausführungsformen zudem erreicht werden, dass alle Token entwe der als Trigger identifiziert oder unter Verwendung der (ergänzten) Trigger-Definitio nen klassifiziert werden. Werden unbekannte Daten von Suchanfragen und/oder weiteren Lernprozessen ausgeschlossen, so erfolgt dieser Ausschluss nicht willkür lich, sondern basierend auf den bereitgestellten Trigger-Definitionen. Embodiments can therefore have the advantage that they allow the learning module to work on the entire available database. In particular, they can have the advantage of enabling continuous learning that takes into account both additional data sets and data sets that have already been saved. Embodiments can therefore have the advantage that they are not restricted to an arbitrary subset being picked out of an available total amount of data in order to train on it. Rather, all of the data contained in the database are processed using the trigger definitions. By adding to the trigger definitions, it can also be achieved, according to embodiments, that all tokens are either identified as triggers or classified using the (added) trigger definitions. Are unknown data from searches and / or Excluded from further learning processes, this exclusion is not arbitrary, but based on the trigger definitions provided.

Ausführungsformen können den Vorteil haben, dass keine zufällige Initialisierung er forderlich ist, wie etwa bei bekannten selbstlernenden Systemen, z.B. neuronalen Netzwerken. Die Initialisierung beruht vielmehr auf den vorbestimmten Trigger-Defi nitionen. Durch das aus dieser zufälligen Initialisierung resultierende Zufallsmoment werden die Entscheidungen/Klassifizierungen eines entsprechenden neuronalen Netzes nicht transparent und nicht nachvollziehbar. Demgegenüber können Ausfüh rungsformen den Vorteil haben, vollständig deterministisch zu sein. Embodiments can have the advantage that no random initialization is required, as is the case with known self-learning systems, e.g. neural networks. Rather, the initialization is based on the predetermined trigger definitions. Because of the random moment resulting from this random initialization, the decisions / classifications of a corresponding neural network are not transparent and cannot be traced. In contrast, embodiments can have the advantage of being completely deterministic.

Ausführungsformen können den Vorteil haben, dass ein bereits trainiertes System, d.h. das vortrainierte Lernmodul nachtrainiert bzw. weiter trainiert wird. So können Trigger-Definitionen ergänzt, entfernt oder geändert werden. Dadurch lassen sich beispielsweise auch die bei der Klassifizierung verwendeten Klassen ergänzen, ent fernen oder ändern. Werden Trigger-Definitionen ergänzt, entfernt oder geändert, so sind alle auf diesen basierenden Zuordnungen von Token zu den entsprechenden Trigger-Definitionen oder zu einer der Klassen entsprechend anzupassen. Durch ein Ergänzen von Trigger-Definitionen können beispielsweise neue Strukturen erfasst werden, welche sich bisher noch nicht gezeigt haben. Dadurch kann insbesondere das Faktenwissen nachträglich erweitert werden, d.h. der Auffangklasse zugeordne ten Token können andere Klassen zugeordnet werden. Embodiments can have the advantage that an already trained system, e.g. the pre-trained learning module is retrained or trained further. Trigger definitions can be added, removed or changed. In this way, for example, the classes used in the classification can also be added, removed or changed. If trigger definitions are added, removed or changed, then all assignments of tokens based on these to the corresponding trigger definitions or to one of the classes must be adapted accordingly. By adding trigger definitions, for example, new structures can be recorded that have not yet been shown. In this way, the factual knowledge in particular can be expanded subsequently, i.e. Tokens assigned to the trap class can be assigned to other classes.

Nach Ausführungsformen implementiert das Lernmodul einen Algorithmus zum ma schinellen Lernen, wobei das Verfahren nicht beschränkt ist auf einen bestimmten Algorithmus. Nach Ausführungsformen umfasst der Algorithmus zum maschinellen Lernen zumindest einen Klassifizierungsalgorithmus zum Klassifizieren von Token. Bei dem maschinellen Lernen kann es sich um ein überwachtes oder ein unüber- wachtes Lernen handeln. Das maschinelle Lernen kann eine Klassifizierung und/o der eine Regressionsanalyse umfassen. Ein Lernalgorithmus versucht, eine Hypo these bzw. eine Abbildung zu finden, welche jedem Eingabewert den (vermuteten) Ausgabewert zuordnet. Liegen die zuzuordnenden Ausgabewerte in einer kontinuierlichen Verteilung vor, deren Ergebnisse beliebige quantitative Werte eines vorgegebenen Wertebereiches annehmen kann, wird im Allgemeinen von einem Regressionsproblem gesprochen. Liegen die zuzuordnenden Ausgabewerte hinge gen in diskreter Form vor bzw. sind die Werte qualitativ, wird im Allgemeinen von ei nem Klassifikationsproblem gesprochen. Nach Ausführungsformen stützt sich das maschinelle Lernen auf die Klassifikation der indizierten Token. Gemäß Ausfüh rungsformen der Erfindung umfasst das Lernmodul einen speziell für das maschi nelle Lernen entwickelten Algorithmus, wie zum Beispiel, ohne darauf beschränkt zu sein, eine dichtenbasierte multidimensionale Ausreißererkennung (engl „local out- lier detection“), ein Random-Forrest-Algorithmus, ein Neuronales Netz, eine Sup- port-Vektor-Maschine, ein Naive-Bayes-Klassifikator oder eine Rückkopplung ähn lich der Rückkopplung eines linearen oder nichtlinearen Reglers. According to embodiments, the learning module implements an algorithm for machine learning, the method not being restricted to a specific algorithm. According to embodiments, the machine learning algorithm comprises at least one classification algorithm for classifying tokens. Machine learning can be monitored or unsupervised learning. The machine learning can include a classification and / or a regression analysis. A learning algorithm tries to find a hypothesis or a mapping which assigns the (presumed) output value to each input value. Are the output values to be assigned in a continuous distribution, the results of which can assume any quantitative values within a given range of values, is generally referred to as a regression problem. If, on the other hand, the output values to be assigned are available in discrete form or if the values are qualitative, this is generally referred to as a classification problem. According to embodiments, the machine learning relies on the classification of the indexed tokens. According to embodiments of the invention, the learning module comprises an algorithm specially developed for machine learning, such as, for example, but not limited to, a density-based multidimensional outlier detection (“local outlier detection”), a Random Forrest algorithm, a neural network, a support vector machine, a naive Bayes classifier or a feedback similar to the feedback of a linear or nonlinear controller.

Unter einer Multi-Modell-Datenbank wird hier eine Datenbank verstanden, welche dazu konfiguriert ist eine Mehrzahl von unterschiedlichen Datenmodellen zu unter stützen. Eine Multi-Modell-Datenbank ist also dazu konfiguriert Daten in mehr als ei nem Datenmodell zu speichern, zu indexieren und abzufragen. Datenmodelle sind beispielsweise relational, spaltenorientiert, dokumentenorientiert, graphbasiert, Key- Value-basiert etc. Ein Datenbankmodell legt fest, in welcher Struktur Daten in einem Datenbanksystem gespeichert werden, d.h. in welcher Form die Daten organisiert, gespeichert und bearbeitet werden. A multi-model database is understood here to be a database which is configured to support a plurality of different data models. A multi-model database is therefore configured to store, index and query data in more than one data model. Data models are, for example, relational, column-oriented, document-oriented, graph-based, key-value-based etc. A database model defines the structure in which data is stored in a database system, i.e. the form in which the data is organized, stored and processed.

Unter einer Datenbank wird im Folgenden eine (typischerweise große) Menge von Daten verstanden, die in einem Computersystem von einem Datenbankmanage mentsystem (DBMS) nach bestimmten Kriterien verwaltet wird. Die Daten sind da bei in einer Vielzahl von Datensätzen organisiert. Unter einem Datenbankmanage mentsystem oder DBMS wird im Folgenden ein elektronisches System zur Speiche rung und Wiedergewinnung von Daten verstanden. Vorzugsweise werden die Daten in dem DBMS widerspruchsfrei und dauerhaft gespeichert und verschieden Anwen dungsprogrammen und Nutzern in bedarfsgerechter Form effizient zur Verfügung gestellt. Ein DBMS kann typischerweise ein oder mehrere Datenbanken beinhalten und die darin enthaltenen Datensätze verwalten. Bei dem DBMS kann es sich vorzugsweise um ein feldorientiertes DBMS handeln, also um ein DBMS, das dazu konfiguriert ist, Teile einzelner Datensätze, sogenannte Feldwerte, in mehreren un terschiedlichen Feldern zu speichern. In the following, a database is understood to be a (typically large) amount of data that is managed in a computer system by a database management system (DBMS) according to certain criteria. The data is organized in a large number of data sets. A database management system or DBMS is understood below to mean an electronic system for storing and retrieving data. The data are preferably stored consistently and permanently in the DBMS and are efficiently made available to various application programs and users in a needs-based form. A DBMS can typically contain one or more databases and manage the data records contained therein. With the DBMS it can be preferably be a field-oriented DBMS, that is to say a DBMS that is configured to store parts of individual data records, so-called field values, in several different fields.

Unter einem Datensatz wird im Folgenden eine dem Datenbanksystem bereitge stellte zusammenhängende Menge von Daten verstanden, welche von dem Daten bankmanagementsystem als zusammenhängende Menge von Daten verwaltet wird. Ein Datensatz umfasst beispielsweise eine Menge inhaltlich zusammenhängender Daten. Nach Ausführungsformen werden Datensätze jeweils als zusammenhän gende Datenmengen in dem dokumentenorientierten Datenmodell gespeichert. Bei spielsweise kann ein einzelner Datensatz ein bestimmtes physisches Objekt, z.B. eine natürliche Person oder eine Vorrichtung, repräsentieren. Bei der Person kann es sich z.B. um einen Angestellten, einen Patienten, einen Kunden, etc. handeln.In the following, a data record is understood to mean a coherent set of data made available to the database system, which is managed by the database management system as a coherent set of data. A data record comprises, for example, a set of content-related data. According to embodiments, data sets are stored in the document-oriented data model as coherent data sets. For example, a single data set may refer to a particular physical object, e.g. a natural person or a device. The person can e.g. be an employee, a patient, a customer, etc.

Bei der Vorrichtung kann es sich beispielsweise um eine Produktionsvorrichtung, eine Computervorrichtung, ein Computer- oder Netzwerkelement oder eine Trans portvorrichtung handeln. Der entsprechende Datensatz kann eine vordefinierte Menge von Attributwerten dieser Person oder Vorrichtung beinhalten (z.B. Name o- der Pseudonym, Alter, Größe, Gewicht, Geburtsdatum, Ausweisnummern, Sicher heitszertifikate, Authentifizierungscodes, biometrische Daten, Identifikator, Fierstel lungsdatum, Inbetriebnahmedatum, Konfigurationsdaten, und andere). Beispiels weise kann ein Datensatz eine Gruppe von inhaltlich zusammenhängenden (zu ei nem Objekt gehörenden) Datenfeldern repräsentieren, z. B. Artikelnummer, Artikel größe, Artikelfarbe, Artikelname oder ähnliches. Die Klassen ,Name‘, .Adresse' und .Geburtsdatum' könnten z.B. die logische Struktur eines Datensatzes zum Objekttyp „Person“ bilden. In der Datenverarbeitung werden Daten in Form von Datensätzen in Datenbanken gespeichert, wobei sie sind Gegenstand der Verarbeitung von Computerprogrammen und werden von diesen erzeugt, gelesen, verändert und ge löscht. The device can be, for example, a production device, a computer device, a computer or network element or a transport device. The corresponding data record can contain a predefined set of attribute values of this person or device (e.g. name or pseudonym, age, height, weight, date of birth, ID numbers, security certificates, authentication codes, biometric data, identifier, date of entry, date of commissioning, configuration data, and so on other). For example, a data record can represent a group of content-related data fields (belonging to an object), e.g. B. Item number, item size, item color, item name or the like. The classes' Name ‘, 'Address' and' Date of Birth 'could e.g. form the logical structure of a data record for the "person" object type. In data processing, data is stored in the form of data records in databases, whereby they are the subject of the processing of computer programs and are generated, read, changed and deleted by these.

Ein„NoSQL“ (englisch für Not only SQL) DBMS ist ein DBMS, welches einem nicht relationalen Ansatz der Datenspeicherung folgt und keine festgelegten Tabellen schemata benötigt. Zu den NoSQL DBMSs gehören insbesondere dokumentenorientierte DBMSs wie Apache Jackrabbit, BaseX, CouchDB, IBM No tes, MongoDB, Graphdatenbanken wie Neo4j, OrientDB, InfoGrid, HyperGraphDB, Core Data, DEX, AllegroGraph, und 4store, verteilte ACID-DBMSs wie MySQL Cluster, Key-Value-Datenbanken wie Chordless, Google BigTable, GT.M, InterSys- tems Cache, Membase, Redis, sortierte Key-Value-Speicher, Multivalue-Datenban- ken, Obektdatenbanken wie Db4o, ZODB, spaltenorientierte Datenbanken und tem porale Datenbanken wie Codex DB. A "NoSQL" (English for Not only SQL) DBMS is a DBMS that follows a non-relational approach to data storage and does not require any fixed table schemes. The NoSQL DBMSs include in particular document-oriented DBMSs such as Apache Jackrabbit, BaseX, CouchDB, IBM No tes, MongoDB, graph databases such as Neo4j, OrientDB, InfoGrid, HyperGraphDB, Core Data, DEX, AllegroGraph, and 4store, distributed ACID DBMSs such as MySQL Cluster, key value databases such as Chordless, Google BigTable, GT.M, InterSystems Cache, Membase, Redis, sorted key-value memories, multivalue databases, object databases such as Db4o, ZODB, column-oriented databases and temporary databases such as Codex DB.

Ein Index ist eine Datenstruktur, welche eine Suche nach bestimmten Datenwerten durch ein Datenbankmanagementsystem beschleunigt. Ein Index besteht aus einer Ansammlung von Zeigern (Verweisen), die eine Ordnungsrelation auf mehrere (in dem Index gespeicherte)„indizierte“ Datenwerte definieren. Beispielsweise werden hierfür B+-Bäume verwendet. Jeder indizierte Datenwert ist mit weiteren Zeigern verknüpft, die auf Datensätze verweisen, in welchen der gefundene indizierte Da tenwert enthalten ist und welche die Datenbasis für die Erstellung des Index dar stellten. Datenbankmanagementsysteme verwenden Indizes um als Antwort auf eine Suchanfrage die gewünschten Datensätze schnell zu identifizieren, indem zu nächst der Index entlang der Zeiger nach einem Datenwert durchsucht wird, wel cher identisch zu einem in der Suchanfrage enthaltenen Referenzwert ist. Ohne In dex müssten die von dem DBMS verwalteten Datenwerte eines Feldes sequenziell durchsucht werden, während eine Suche mit Hilfe des Index, z.B. eines B+-Baums, oft nur logarithmische Komplexität hat. An index is a data structure which accelerates a search for certain data values by a database management system. An index consists of a collection of pointers (references) that define an order relation to several “indexed” data values (stored in the index). For example, B + trees are used for this. Each indexed data value is linked to further pointers which refer to data records in which the indexed data value found is contained and which represented the database for creating the index. Database management systems use indices to quickly identify the desired data records in response to a search query, in that the index is first searched along the pointer for a data value which is identical to a reference value contained in the search query. Without an index, the data values of a field managed by the DBMS would have to be searched sequentially, while a search using the index, e.g. of a B + tree, often only has logarithmic complexity.

Ferner ordnet der Index die indizierten Daten, d.h. Token, Klassen zu, wodurch die entsprechenden Daten mit Meta- bzw. Kontextinformationen verknüpft werden.The index also orders the indexed data, i. Token, classes, whereby the corresponding data is linked with meta or context information.

Diese Meta- bzw. Kontextinformationen können bei einer Suche und/oder bei einem maschinellen Lernprozess auf den Daten der Datenbank verwendet werden. This meta or context information can be used in a search and / or in a machine learning process on the data in the database.

Unter einem Feld wird im Folgenden ein Bereich auf einem logischen oder physikali schen Datenträger bezeichnet, der von einem DBMS verwaltet wird, der einem vor definierten Feldtyp zugeordnet ist und der zur Speicherung eines Feldwertes eines Datensatzes angelegt und bestimmt ist. Ein Feld ist also ein Element zur Speicherung eines Feldwertes eines Datensatzes gemäß obiger Definition. Felder eines Datensatzes werden von einem DBMS gemeinsam verwaltet. In the following, a field is an area on a logical or physical data carrier that is managed by a DBMS that is assigned to a previously defined field type and that is created and intended for storing a field value of a data record. So a field is an element for Storage of a field value of a data record according to the above definition. Fields of a data record are managed jointly by a DBMS.

Ein Feldwert ist ein Datenwert, der Bestandteil eines Datensatzes ist und in einem Feld des Datensatzes gespeichert ist. Ein Feldwert kann aus einem einzigen Wort, einer einzigen Zahl, oder einer Kombination aus mehreren Wörtern und/oder Zahlen und/oder anderen Datenformaten bestehen, wobei verschiedene Ausführungsfor men der Erfindung verschiedene Grade an Flexibilität im Hinblick auf die Art und Kombinierbarkeit von Datentypen innerhalb des gleichen Feldwertes umfassen. A field value is a data value that is part of a data record and is stored in a field of the data record. A field value can consist of a single word, a single number, or a combination of several words and / or numbers and / or other data formats, with different embodiments of the invention varying degrees of flexibility with regard to the type and combinability of data types within the the same field value.

Ein„Tokenisierer“ ist eine Programlogik, die Daten, zum Beispiel einen Feldwert, als Input erhält, die Daten analysiert, z.B. um Delimiter oder andere Zerlegungskriterien und Muster zu erkennen, und die Daten dann in ein oder mehrere Token als Ergeb nis der Analyse zerlegt und die Token zurückgibt. Es ist auch möglich, dass nicht alle Daten als Token zurückgegeben werden. Beispielsweise kann ein Volltextindi- zierer semantisch unbedeutende Stoppwörter erkennen und herausfiltern, sodass diese nicht indiziert werden. Alternativ werden alle Daten als zurückgegeben. Einen Datenwert zu„tokenisieren“ bedeutet also, den Datenwert nach einem bestimmten Schema in mehrere Bestandteile zu zerteilen. Die Bestandteile stellen die Token dar. So können z.B. natürlichsprachige Texte an vordefinierten Trennzeichen, z.B. Leerzeichen, Punkten oder Kommata, aufgeteilt werden, die so generierten Be standteile (Wörter) werden als Token verwendet. Nach Ausführungsformen werden alle Token für die Indizierung verwendet. Es ist auch möglich, dass manche Token nicht für die Indizierung verwendet werden (z.B. Stopwörter) oder die Token vor der Indizierung zusätzlich verarbeitet werden (z.B. Reduzierung von Wörtern auf den Wortstamm). In diesem Fall erfolgt für eine Verarbeitung von Suchanfragen eines Client-Computersystems an ein Server-Computersystem vorzugsweise eine gleich artige Verarbeitung des Suchwerts durch das Client-Computersystem oder das Ser ver-Computersystem um sicherzustellen, dass die Suchwerte der Suchanfragen den in dem Index enthaltenen Token entsprechen. Ein Klasse definiert beispielsweise eine Kategorie bzw. ein Typ, dem ein Token an gehört. Die Klasse ordnet dem Token mithin Meta- bzw. Kontextinformationen, etwa in Form einer Eigenschaft zu. Beispielsweise kann eine Klasse ein bestimmtes Attri but eines physischen Objekts in Form eines Token repräsentieren. Beispielsweise können zu speichernde Datensätzen, die Attribute von Angestellten enthalten, wel che Klassen wie„Name“,„Pseudonym“,„Ausweisnummer“;„Zugriffszertifikat für Raum R“,„Zugriffszertifikat für Gerät G“,„Zugriffszertifikat für Gebäude GB“,„Alter“ repräsentieren. Jedes Token kann ein oder mehreren Klassen zugeordnet sein. Fer ner können Kombinationen von Token als eigenständige Token wiederum ein oder mehreren weiteren Klassen zugeordnet sein. A "tokenizer" is a program logic that receives data, for example a field value, as input, analyzes the data, e.g. to identify delimiters or other decomposition criteria and patterns, and then breaks the data down into one or more tokens as the result of the analysis and returns the tokens. It is also possible that not all data will be returned as tokens. For example, a full-text indexer can recognize and filter out semantically insignificant stop words so that they are not indexed. Alternatively, all data is returned as. To “tokenize” a data value means breaking the data value into several components according to a certain scheme. The components represent the tokens. For example, natural-language texts can be divided up using predefined separators, e.g. spaces, periods or commas, and the components (words) generated in this way are used as tokens. According to embodiments, all tokens are used for indexing. It is also possible that some tokens are not used for indexing (e.g. stop words) or that the tokens are additionally processed prior to indexing (e.g. reducing words to the stem). In this case, for processing search queries from a client computer system to a server computer system, the search value is preferably processed in the same way by the client computer system or the server computer system to ensure that the search values of the search queries match the tokens contained in the index correspond. For example, a class defines a category or a type to which a token belongs. The class therefore assigns meta or context information to the token, for example in the form of a property. For example, a class can represent a certain attribute of a physical object in the form of a token. For example, data records to be saved that contain employee attributes, which classes such as "Name", "Pseudonym", "ID number", "Access certificate for room R", "Access certificate for device G", "Access certificate for building GB", " Age "represent. Each token can be assigned to one or more classes. Furthermore, combinations of tokens can in turn be assigned to one or more further classes as independent tokens.

Die empfangenen Datensätze werden unter Verwendung eines dokumentorientier ten Datenmodell abgespeichert. Beispielsweise werden alle Feldwerte der abge speicherten Datensätze als Token in einen mehrdimensionalen Schlüssel/Wert- Speicher (KeyA/alue-Store) bzw. Key-Value-Datenbanken übertragen. Dabei wer den die Token Tokentypen zugeordnet und in einer Form gespeichert, welche die sechste Normalform erfüllt. The data records received are stored using a document-oriented data model. For example, all field values of the stored data records are transferred as tokens to a multi-dimensional key / value memory (KeyA / alue store) or key value databases. Here who the token assigned token types and stored in a form that meets the sixth normal form.

Nach Ausführungsformen werden zusätzlich Transaktionszeit und Gültigkeitszeit der Datensätze bitemporal gespeichert. Die Transaktionszeit gibt den Zeitpunkt an, zu dem eine Änderung eines Datenobjekt in der Datenbank erfolgt. Die Gültigkeitszeit gibt einen Zeitpunkt oder Zeitraum an, in dem ein Datenobjekt im modellierten Ab bild der realen Welt den beschriebenen Zustand aufweist. Sind sowohl Gültigkeits ais auch Transaktionszeit relevant, spricht man von bitemporal. According to embodiments, the transaction time and the validity time of the data records are also stored bit-temporally. The transaction time indicates the point in time at which a change to a data object in the database occurs. The validity time indicates a point in time or period in which a data object in the modeled image of the real world has the state described. If both validity and transaction time are relevant, one speaks of bitemporal.

Ein Schlüssel-Werte-Datenmodell ermöglicht ein Speichern, Abrufen und Verwalten von assoziativen Datenfeldern. Dabei werden Werte (Value) über einen Schlüssel (Key) eindeutig identifiziert. A key-value data model enables storage, retrieval and management of associative data fields. Values are uniquely identified using a key.

In einem dokumentenorientierte Datenmodell, auch bekannt als Dokumentenspei- cher (Document Store), bilden Dokumente bzw. Datencontainer die Grundeinheit zur Speicherung der Daten bilden. Ein dokumentenorientiertes Datenmodell ermöglicht es dokumentenorientierten Informationen, auch bekannt als halbstruktu rierte Daten, zu speichern, abzurufen und zu verwalten. Auf einem dokumentenori entierten Datenmodell beruhende Datenbanken gehören zu den NoSQL-Datenban- ken und bilden eine Unterklasse der Schlüssel-Wert-Speicher (Key-value Stores). In einem Schlüssel-Wert-Speicher werden die Daten als für die Datenbank inhärent undurchsichtig angesehen, während eine dokumentenorientierte Datenbank auf in terne Strukturen in den gespeicherten Dokumenten angewiesen ist, um Metadaten zu extrahieren. Das semistrukturierte Datenmodell ist ein Datenbankmodell, bei dem keine Trennung zwischen den Daten und dem Schema besteht und der Umfang der verwendeten Struktur vom Verwendungszweck der Datenbank abhängt. Jedes Do kument innerhalb des Datenmodells wird über einen eindeutigen Identifikator ange sprochen. In a document-oriented data model, also known as a document store, documents or data containers form the basic unit for storing the data. A document-oriented data model enables document-oriented information, also known as semi-structured data, to be stored, accessed and managed. Databases based on a document-oriented data model belong to the NoSQL databases and form a subclass of key-value stores. In a key-value store, the data is considered to be inherently opaque to the database, while a document-oriented database relies on internal structures in the stored documents to extract metadata. The semi-structured data model is a database model in which there is no separation between the data and the schema and the scope of the structure used depends on the purpose of the database. Each document within the data model is addressed using a unique identifier.

Eine Kombination der verschiedenen Datenbankkonzepten ermöglicht es Daten sätze als Dokumente bzw. Container zu speichern (document störe) und zusätzlich in Form eines Index, z.B. eines Schlüssel-Wert-Speichers, in die 6. Normalform zu überführen. Dieser Schlüssel-Wert-Speicher repräsentiert den gesamten Datenum fang in dem Dokumentenspeicher, während die Originaldatensätze erhalten bleiben. A combination of the different database concepts enables data records to be saved as documents or containers (document disturbance) and additionally in the form of an index, e.g. of a key-value memory to be converted into the 6th normal form. This key-value memory represents the entire amount of data in the document memory, while the original data records are retained.

Nach Ausführungsformen werden Selektionen ausschließlich in dem Schlüssel- Wert-Speicher in der redundanzfreien sechsten Normalform durchgeführt. Erst das Ergebnis wird aus den Containern des Dokumentenspeicher gelesen. Nach Ausfüh rungsformen wird neben Lese- und Schreibrechten in den Datensätzen zusätzlich ein Selektionsrecht auf dem Schlüssel-Wert-Speicher implementiert. Somit kann auch auf dem Index alleine gearbeitet werden, ohne die zugrundeliegenden Daten auslesen zu müssen. According to embodiments, selections are carried out exclusively in the key-value memory in the redundancy-free sixth normal form. Only the result is read from the document storage container. According to embodiments, in addition to reading and writing rights in the data records, a selection right is also implemented on the key-value memory. This means that you can work on the index alone without having to read out the underlying data.

Die vorgeschlagene Multi-Modell-Datenbank stellt somit neben einer schemalosen Datenablage auf Basis eines Dokumentenspeichers eine vollständige Normalisie rung des gesamten Datenumfangs in der sechsten Normalform bereit. Ausführungs formen können den Vorteil haben, dass der Index Datenelemente der Datensätze, d.h. Token, als Schlüssel umfasst und jedem dieser Schlüssel jeweils ein oder mehrere Zeiger als Werte zugeordnet sind, welche anzeigen, in welchen Datensät zen und/oder Feldern der Datensätze der entsprechende Schlüssel, d.h. Token/Da tenwert, als Feldwert gespeichert ist. The proposed multi-model database thus provides a complete normalization of the entire scope of data in the sixth normal form in addition to a schematic data storage based on a document memory. Execution forms can have the advantage that the index includes data elements of the data records, ie tokens, as keys and each of these keys has one or several pointers are assigned as values which indicate in which data sets and / or fields of the data sets the corresponding key, ie token / data value, is stored as a field value.

Dieser Index bildet daher über alle Felder der Datensätze und deren Inhalte, d.h. die Feldwerte, die gesamte Datenbank mit allen von ihr umfassten Datensätze ab, so dass alle Abfragen in dem Index behandelt und die schemalos gespeicherten Daten des dokumentenorientierten Datenmodells nur zur Ausgabe der Suchergebnisse verwendet werden. Die geringe Größe des Index im Vergleich zu den schemalosen Daten ermöglicht schnelle Abfragen in beliebigen Abfragekombinationen. This index therefore forms all fields of the data records and their contents, i.e. the field values from the entire database with all of the data records it encompasses, so that all queries are handled in the index and the data of the document-oriented data model stored without a schema are only used to output the search results. The small size of the index compared to the schema-less data enables quick queries in any query combination.

Unter einem Computer bzw. Computersystem wird hier ein Gerät verstanden, wel ches mittels programmierbarer Rechenvorschriften Daten verarbeitet. Unter einem Programm bzw. Programminstruktionen wird hier ohne Einschränkung jede Art von Computerprogramm verstanden, welches maschinenlesbare Instruktionen zur Steu erung einer Funktionalität eines Computers umfasst. Ein Computer bzw. Computer system kann eine Kommunikationsschnittstelle zur Verbindung mit dem Netzwerk umfassen, wobei es sich bei dem Netzwerk um ein privates oder öffentliches Netz werk handeln kann, insbesondere das Internet oder ein anderes Kommunikations netz. Je nach Ausführungsform kann diese Verbindung auch über ein Mobilfunknetz hergestellt werden. A computer or computer system is understood here to mean a device which processes data by means of programmable arithmetic rules. A program or program instructions is understood here, without restriction, to be any type of computer program which includes machine-readable instructions for controlling a functionality of a computer. A computer or computer system can comprise a communication interface for connection to the network, wherein the network can be a private or public network, in particular the Internet or another communication network. Depending on the embodiment, this connection can also be established via a cellular network.

Bei einem Computersystem kann es sich um ein stationäres Computersystem, wie beispielsweise einen Personalcomputer (PC) oder einen in einer Client-Server-Um- gebung eingebundenen Client bzw. Server handeln. Ferner kann es sich bei einem Computersystem beispielsweise um ein mobiles Telekommunikationsgerät, insbe sondere ein Smartphone, einen tragbaren Computer, wie zum Beispiel einen Laptop PC oder Palmtop-PC, ein Tablet PC, einen Personal Digital Assistant oder derglei chen handeln. A computer system can be a stationary computer system, such as a personal computer (PC) or a client or server integrated in a client-server environment. Furthermore, a computer system can be, for example, a mobile telecommunications device, in particular a smartphone, a portable computer such as a laptop PC or palmtop PC, a tablet PC, a personal digital assistant or the like.

Unter einem Speicher werden hier sowohl flüchtige als auch nicht flüchtige elektro nische Speicher bzw. digitale Speichermedien verstanden. Unter einem nichtflüchtigen Speicher wird hier ein elektronischer Speicher zur dau erhaften Speicherung von Daten verstanden. Ein nichtflüchtiger Speicher kann als nichtänderbarer Speicher konfiguriert sein, der auch als Read-Only Memory (ROM) bezeichnet wird, oder als änderbarer Speicher, der auch als Non-Volatile Memory (NVM) bezeichnet wird. Insbesondere kann es sich hierbei um ein EEPROM, bei spielsweise ein Flash-EEPROM, kurz als Flash bezeichnet, handeln. Ein nichtflüch tiger Speicher zeichnet sich dadurch aus, dass die darauf gespeicherten Daten auch nach Abschalten der Energieversorgung erhalten bleiben. A memory is understood here to mean both volatile and non-volatile electronic memories or digital storage media. A non-volatile memory is understood here as an electronic memory for the permanent storage of data. A non-volatile memory can be configured as a non-changeable memory, which is also referred to as read-only memory (ROM), or as a changeable memory, which is also referred to as non-volatile memory (NVM). In particular, it can be an EEPROM, for example a Flash EEPROM, referred to as Flash for short. A non-volatile memory is characterized by the fact that the data stored on it is retained even after the power supply has been switched off.

Unter einem flüchtigen elektronischen Speicher wird hier ein Speicher zur vorüber gehenden Speicherung von Daten, welcher dadurch gekennzeichnet ist, dass alle Daten nach dem Abschalten der Energieversorgung verloren gehe. Insbesondere kann es sich hierbei um einen flüchtigen Direktzugriffsspeicher, der auch als Ran- dom-Access Memory (RAM) bezeichnet wird, oder einen flüchtigen Arbeitsspeicher des Prozessors handeln. A volatile electronic memory is a memory for the temporary storage of data, which is characterized in that all data is lost after the power supply is switched off. In particular, this can be a volatile random access memory, which is also referred to as a random access memory (RAM), or a volatile main memory of the processor.

Unter einem Prozessor wird hier und im Folgenden eine Logikschaltung verstanden, die zur Ausführung von Programminstruktionen dient. Die Logikschaltung kann auf einem oder mehreren diskreten Bauelementen implementiert sein, insbesondere auf einem Chip. Insbesondere wird unter einem Prozessor ein Mikroprozessor oder ein Mikroprozessorsystem aus mehreren Prozessorkernen und/oder mehreren Mikro prozessoren verstanden. A processor is understood here and in the following to be a logic circuit that is used to execute program instructions. The logic circuit can be implemented on one or more discrete components, in particular on a chip. In particular, a processor is understood to mean a microprocessor or a microprocessor system made up of a plurality of processor cores and / or a plurality of microprocessors.

Nach Ausführungsformen umfasst das Ergänzen des Index: According to embodiments, supplementing the index includes:

• Abgleichen der zusätzlichen Token mit dem Index, • Matching the additional tokens with the index,

• falls eines der zusätzlichen Token nicht von dem Index umfasst ist, Ergänzen des entsprechenden zusätzlichen Tokens unter seinen Klassenzuordnungen in dem Index und Verknüpfen des entsprechenden zusätzlichen Tokens in dem Index mit dem Zeiger auf den zusätzlichen in dem dokumentenorientierten Da tenmodell gespeicherten Datensatz, • falls eine der Klassenzuordnungen eines von dem Index umfassten zusätzli chen Tokens von dem Index nicht umfasst ist, Ergänzen der entsprechenden Klassenzuordnung mit dem entsprechenden zusätzlichen Token in dem Index und Verknüpfen des entsprechenden zusätzlichen Tokens in dem Index mit dem Zeiger auf den zusätzlichen in dem dokumentenorientierten Datenmodell gespeicherten Datensatz, • if one of the additional tokens is not included in the index, adding the corresponding additional token under its class assignments in the index and linking the corresponding additional token in the index with the pointer to the additional data record stored in the document-oriented data model, • if one of the class assignments of an additional token included in the index is not included in the index, supplementing the corresponding class assignment with the corresponding additional token in the index and linking the corresponding additional token in the index with the pointer to the additional token in the document-oriented one Data model stored data set,

• falls eines der zusätzlichen Token mit allen seinen Klassenzuordnungen von dem Index umfasst ist, Verknüpfen des entsprechenden zusätzlichen Tokens in dem Index mit dem Zeiger auf den zusätzlichen in dem dokumentenorien tierten Datenmodell gespeicherten Datensatz. If one of the additional tokens with all of its class assignments is included in the index, linking the corresponding additional token in the index with the pointer to the additional data set stored in the document-oriented data model.

Ausführungsformen können den Vorteil haben, dass Daten aus zusätzlichen Da tensätze effizient in die bestehende Datenbank und insbesondere in den Index ein gefügt werden können. Die unter Verwendung des zusätzlichen Datensatzes er zeugten Token werden mit dem Index abgeglichen. Alle Token, welche der Index (noch) nicht umfasst, werden in dem Index als zusätzliche Token inklusive ihrer Klassenzuordnungen ergänzt. Ferner werden die zusätzlichen Token jeweils mit dem Zeiger auf den zusätzlichen Datensatz verknüpft. Embodiments can have the advantage that data from additional data records can be efficiently inserted into the existing database and, in particular, into the index. The tokens generated using the additional data set are compared with the index. All tokens that the index does not (yet) include are added to the index as additional tokens including their class assignments. Furthermore, the additional tokens are each linked to the pointer to the additional data record.

Für solche Token des zusätzlichen Datensatzes, welche der Index bereits umfasst, für welche aber ein oder mehrere unter Verwendung des zusätzlichen Datensatzes ermittelte Klassenzuordnungen von dem Index noch nicht berücksichtigt werden, werden die entsprechenden Klassenzuordnungen ergänzt. Zusätzlich wird in dem Index für diese Token jeweils der Zeiger auf den zusätzlichen Datensatz ergänzt. For those tokens of the additional data set which the index already includes, but for which one or more class assignments determined using the additional data set are not yet taken into account by the index, the corresponding class assignments are added. In addition, the pointer to the additional data record is added to the index for these tokens.

Schließlich wird für solche Token des zusätzlichen Datensatzes, welche der Index bereits mit all ihren für den zusätzlichen Datensatz ermittelten Klassenzuordnungen umfasst, lediglich der Zeiger auf den zusätzlichen Datensatz ergänzt. Finally, only the pointer to the additional data record is added for those tokens of the additional data record which the index already includes with all their class assignments determined for the additional data record.

Ausführungsformen können den Vorteil haben, dass stets sichergestellt werden kann, dass der Index alle von den Datensätzen der Datenbank umfassten Token aufweist. Zudem umfasst der Index für alle entsprechenden Token alle aufgefundenen Klassenzuordnungen. Zudem ist jeder der Token des Index mit Zei ger auf alle Datensätze der Datenbank verknüpft, welche das entsprechende Token umfassen. Embodiments can have the advantage that it can always be ensured that the index has all tokens comprised by the data records in the database. In addition, the index for all corresponding tokens includes all found class assignments. In addition, each of the tokens in the index is linked to a pointer to all data records in the database that contain the corresponding token.

Beispielsweise wird im Zuge des Vortrainierens des Lernmodus eine initiale Menge von vorbestimmten Trigger-Definitionen festgelegt. Im Zuge eines Erfassens von Daten, werden Datensätze empfangen und in dem dokumentenbasierten Datenmo dell gespeichert. Die gespeicherten Datensätze werden tokenisiert und für die resul tierenden Token werden Klassen-Zuordnungen unter Verwendung der initial festge legten Trigger-Definitionen ermittelt und ein initialer Index für die resultierenden To ken erzeugt. Nach Ausführungsformen umfasst der initiale Index alle von den Trig ger-Definitionen umfassten Trigger als Token. Nach alternativen Ausführungsfor men werden durch die Trigger-Definitionen als Trigger festgelegte Token in dem In dex nur unter der Voraussetzung ergänzt, dass sie von einem der Datensätze um fasst sind. For example, in the course of pre-training the learning mode, an initial set of predetermined trigger definitions is established. In the course of collecting data, data records are received and stored in the document-based data model. The stored data records are tokenized and class assignments are determined for the resulting tokens using the initially set trigger definitions and an initial index is generated for the resulting tokens. According to embodiments, the initial index includes all triggers included in the trigger definitions as tokens. According to alternative embodiments, tokens specified as triggers by the trigger definitions are only added to the index on the condition that they are included in one of the data records.

Eine Zuordnung eines Token zu einer Klasse unter Verwendung einer vorbestimm ten Trigger-Funktion stellt ein durch die entsprechende vorbestimmten Trigger- Funktion gesichertes Faktum dar. Für Token, bei welchen es sich um keinen Trigger handelt und welche von keiner der Trigger-Definitionen erfasst werden, fehlt es an einem solchen Faktenwissen. Die entsprechenden Token werden vielmehr als un bekannte Daten der Auffangklasse zugeordnet. Ausführungsformen können somit den Vorteil haben, dass unter Verwendung von initial festgelegten Trigger-Definitio nen neue Daten in bekannte Daten, d.h. Trigger oder unter Verwendung von Trig ger-Definitionen klassifizierter Token, und unbekannte Daten eingeteilt werden kön nen, d.h. der Auffangklasse zugeordnete Token. An assignment of a token to a class using a predetermined trigger function represents a fact secured by the corresponding predetermined trigger function. For tokens which are not triggers and which are not covered by any of the trigger definitions, there is a lack of such factual knowledge. Instead, the corresponding tokens are assigned to the trap class as unknown data. Embodiments can thus have the advantage that, using initially established trigger definitions, new data can be converted into known data, i.e. Triggers or tokens classified using trigger definitions, and unknown data can be classified, i.e. Token assigned to the trap class.

Nach Ausführungsformen werden die Kombinationen aus zweiten zusätzlichen To ken mit ein oder mehreren der identifizierten Trigger, welche eine Klassenzuord nung gemäß einer der Trigger-Definitionen getriggert haben, in dem Index als klas sifizierte Kombinationen gekennzeichnet und Klassenzuordnungen werden nur für Kombinationen aus zweiten zusätzlichen Token und ein oder mehreren identifizierten Triggern ausgeführt, welche nicht als klassifizierte Kombinationen ge kennzeichnet sind. According to embodiments, the combinations of second additional tokens with one or more of the identified triggers that have triggered a class assignment according to one of the trigger definitions are identified in the index as classified combinations and class assignments are only made for combinations of second additional tokens and one or more identified triggers that are not marked as classified combinations.

Ausführungsformen können den Vorteil haben, dass für alle Token-Kombinationen, für welche bereits bei einer Klassenzuordnung berücksichtigt wurden bzw. für wel che bereits eine Klassenzuordnung ausgeführt wurde, in dem Index jeweils als be reits klassifiziert gekennzeichnet werden. Somit lässt sich vermeiden, dass für To ken-Kombinationen, welche das Lernmodul bereits zuvor gesehen und im Zuge der Klassifizierungen vollständig berücksichtigt hat, dieselben Klassifizierungen erneut ausgeführt. Somit kann das System deutlich effizienter ausgestaltet werden. Bei spielsweise umfasst der Index neben elementaren Token alle Token-Kombinatio nen, für welche bereits eine Klassifizierung erfolgt ist, d.h. alle Token-Kombinatio nen, welche als klassifiziert zu kennzeichnen sind. Nach Ausführungsformen sind die entsprechenden Token-Kombinationen in dem Index jeweils mit einem Flag ver sehen, welches anzeigt, ob es sich bei der entsprechenden Token-Kombinationen um klassifizierte Token-Kombinationen handelt. Embodiments can have the advantage that for all token combinations for which a class assignment has already been taken into account or for which a class assignment has already been carried out, are each identified in the index as already classified. It can thus be avoided that the same classifications are carried out again for token combinations which the learning module has already seen and fully taken into account in the course of the classifications. The system can thus be designed to be significantly more efficient. For example, in addition to elementary tokens, the index includes all token combinations for which a classification has already been made, i.e. all token combinations which are to be marked as classified. According to embodiments, the corresponding token combinations in the index are each provided with a flag which indicates whether the corresponding token combinations are classified token combinations.

Nach Ausführungsformen erfolgt auf eine Tokenisierung eines zusätzlichen Daten satzes hin zunächst ein Abgleich mit allen als bereits klassifiziert gekennzeichneten Token-Kombinationen. Für diese Token-Kombinationen wird die Klassifizierung nicht wiederholt, vielmehr erfolgt lediglich eine Verknüpfung mit dem Zeiger auf den zusätzlichen Datensatz. Nach Ausführungsformen wird der entsprechende Zeiger auch mit allen von der Token-Kombination umfassten Token in dem Index ver knüpft. Nach Ausführungsformen erfolgt der Abgleich zunächst mit den größten, d.h. umfangreichsten, Token-Kombinationen des Index. Für alle bereits als klassifiziert erkannten Token-Kombinationen des zusätzlichen Datensatzes wird lediglich der Zeiger auf den entsprechenden Datensatz in der Datenbank abgespeichert. Nach Ausführungsformen wird der entsprechende Zeiger auch mit allen von der Token- Kombination umfassten Token in dem Index verknüpft. Somit kann das Einarbeiten der Daten des zusätzlichen Datensatzes in den Index deutlich beschleunigt werden. Nach Ausführungsformen erfolgt sukzessive ein Abgleich mit weiteren Token-Kom bination, wobei die Größe bzw. der Umfang der verwendeten weiteren Token- Kombinationen sukzessive abnimmt. Nach Ausführungsformen werden nur solche weiteren Token-Kombinationen mit geringerer Größe bzw. Umfang berücksichtigt, welche nicht als Teil einer größeren bzw. umfangreichem Token-Kombinationen eine Übereinstimmung im Zuge des Abgleichs festgestellt wurde. Ausführungsfor men können den Vorteil haben, dass für umfangreiche Token-Kombinationen, wel che als bereits klassifiziert erkannt werden, kein zusätzlicher Abgleich für von der entsprechenden Token-Kombination umfasste Unterkombinationen erfolgt. Vielmehr erfolgt ein entsprechender Abgleich lediglich, wenn die entsprechende Unterkombi nation in dem zusätzlichen Datensatz unabhängige von der entsprechenden um fangreicheren Token-Kombination als eigenständige Token-Kombination umfasst ist. According to embodiments, following a tokenization of an additional data record, a comparison is first carried out with all token combinations marked as already classified. The classification is not repeated for these token combinations; rather, there is only a link with the pointer to the additional data record. According to embodiments, the corresponding pointer is also linked to all of the tokens included in the token combination in the index. According to embodiments, the comparison first takes place with the largest, ie most extensive, token combinations of the index. For all token combinations of the additional data record already recognized as classified, only the pointer to the corresponding data record is stored in the database. According to embodiments, the corresponding pointer is also linked to all of the tokens included in the token combination in the index. In this way, the incorporation of the data of the additional data record into the index can be significantly accelerated. According to embodiments, a comparison with further token combinations takes place successively, whereby the size or scope of the further tokens used Combinations successively decreases. According to embodiments, only those further token combinations with a smaller size or scope are taken into account which, as part of a larger or extensive token combination, a match was not found in the course of the comparison. Embodiments can have the advantage that for extensive token combinations which are recognized as already classified, no additional comparison is made for sub-combinations comprised by the corresponding token combination. Rather, a corresponding comparison only takes place if the corresponding sub-combination is included in the additional data record as an independent token combination independent of the corresponding more extensive token combination.

Nach Ausführungsformen umfasst das Verfahren ferner: According to embodiments, the method further comprises:

• Identifizieren von ein oder mehreren Trigger-Kombinationen, welche jeweils von zumindest einem der Datensätzen umfasst sind und ein Kombinationskri terium erfüllen, • Identification of one or more trigger combinations, which are each included in at least one of the data sets and meet a combination criterion,

• für jede der identifizierten Trigger-Kombinationen Kombinieren der Trigger-De finitionen der Trigger der entsprechenden Trigger-Kombinationen zu ein oder mehreren zusätzlichen kombinierten Trigger-Definitionen, • for each of the identified trigger combinations combining the trigger definitions of the triggers of the corresponding trigger combinations into one or more additional combined trigger definitions,

• Ergänzen der Mehrzahl von vorbestimmten Trigger-Definitionen des Lernmo duls durch die ein oder mehreren zusätzlichen kombinierten Trigger-Definitio nen. • Supplementing the plurality of predetermined trigger definitions of the learning module with the one or more additional combined trigger definitions.

Ausführungsformen können den Vorteil haben, dass basierend auf den von den initi alen Trigger-Definitionen identifizierten Triggern zusätzliche Trigger in Form von Trigger-Kombinationen identifiziert werden können. Basierend auf diesen identifi zierten Trigger-Kombinationen können aus den initialen Trigger-Definitionen kombi nierte Trigger-Definitionen bestimmt werden, mit denen die Mehrzahl der vorbe stimmten Trigger-Definitionen erweitert werden kann. Embodiments can have the advantage that, based on the triggers identified by the initial trigger definitions, additional triggers can be identified in the form of trigger combinations. Based on these identified trigger combinations, combined trigger definitions can be determined from the initial trigger definitions, with which the majority of the predetermined trigger definitions can be expanded.

Nach Ausführungsformen werden mehrere Token-Kombinationen, welche von dem selben Datensatz umfasst werden und unter die kombinierte Trigger-Definition fallen, miteinander kombiniert und die resultierende Kombination in dem Index als eine klassifizierte Kombination gekennzeichnet. Ausführungsformen können den Vorteil haben, dass auch auf Basis kombinierte Trigger-Definitionen Token-Kombi nationen im Index als klassifizierte Kombinationen gekennzeichnet und dadurch un nötige Wiederholungen von Klassifizierungen bereits klassifizierter Token-Kombina tionen vermieden werden können. According to embodiments, multiple token combinations that are included in the same data set and are subject to the combined trigger definition fall, combined with each other and the resulting combination marked in the index as a classified combination. Embodiments can have the advantage that on the basis of combined trigger definitions token combinations can be identified in the index as classified combinations, thereby avoiding unnecessary repetitions of classifications of already classified token combinations.

Nach Ausführungsformen umfasst das Kombinationskriterium eine Mindesthäufig keit für ein Auftreten der entsprechenden Trigger-Kombination in den Datensätzen. Ausführungsformen können den Vorteil haben, dass entsprechende Trigger-Kombi nationen nur dann herangezogen werden zum Bilden einer kombinierten Trigger- Definition, wenn die entsprechende Trigger-Kombination in den Datensätzen mit ei ner Mindesthäufigkeit auftreten. Somit kann verhindert werden, dass zusätzliche kombinierte Trigger-Definition gebildet werden aufgrund eines zufälligen Auftretens von Triggern unterschiedlicher Trigger-Definitionen in ein und demselben Daten satz. Ein solches zufälliges Auftreten ist ab einer bestimmten Größe und/oder Kom plexität der Datensätze zu erwarten, ohne dass daraus Rückschlüsse auf einen zu grundeliegenden Zusammenhang zwischen den Triggern geschlossen werden könnte. Treten die entsprechenden Trigger-Kombinationen jedoch häufiger auf, so kann daraus auf einen Zusammenhang geschlossen werden. According to embodiments, the combination criterion includes a minimum frequency for the corresponding trigger combination to occur in the data records. Embodiments can have the advantage that corresponding trigger combinations are only used to form a combined trigger definition when the corresponding trigger combination occurs in the data records with a minimum frequency. This prevents additional combined trigger definitions from being formed due to the accidental occurrence of triggers with different trigger definitions in one and the same data set. Such a random occurrence is to be expected from a certain size and / or complexity of the data records, without it being possible to draw conclusions about an underlying relationship between the triggers. However, if the corresponding trigger combinations occur more frequently, a connection can be concluded from them.

Nach Ausführungsformen legt die Mindesthäufigkeit einen absoluten Häufigkeits wert des Auftretens in den Datensätzen fest. Bei der entsprechenden Mindesthäu figkeit kann es sich um einen Mindestwert für das Auftreten der entsprechenden Trigger-Kombination in allen Datensätzen handeln. Das Auftreten der entsprechen den Trigger-Kombination wird über alle Datensätze aufsummiert. Ist die resultie rende Summe größer oder gleich dem Mindestwert, so ist dieser erfüllt. Ferner kann es sich dabei der Mindesthäufigkeit um eine Mindestwert für das Auftreten in einem der Datensätze handeln. Das Auftreten der entsprechenden Trigger-Kombination wird für die einzelnen Datensätze jeweils individuell aufsummiert. Erfüllt ein der re sultierenden Summen den Mindestwert, so liegt die Mindesthäufigkeit vor. Nach al ternativen Ausführungsformen muss der Mindestwert von einer vorbestimmten Anzahl von Datensätzen oder einem vorbestimmten Prozentsatz der Datensätze er füllt werden. Bei dem entsprechenden vorbestimmten Prozentsatz handelt es sich entweder um einen Prozentsatz aller Datensätze der Datenbank oder aller Datens ätze, welche die entsprechende Trigger-Kombination umfassen. Nach alternativen Ausführungsformen muss der Mindestwert von allen Datensätzen erfüllt werden und/oder von allen Datensätzen, welche die entsprechende Trigger-Kombination umfassen. Ferner kann sich bei der entsprechenden Mindesthäufigkeit um einen Mindestwert für eine Durchschnittshäufigkeit des Auftretens der entsprechenden Trigger-Kombination in allen Datensätzen der Datenbank oder allen Datensätzen, welche die entsprechende Trigger-Kombination umfassen, handeln. According to embodiments, the minimum frequency defines an absolute frequency value of the occurrence in the data records. The corresponding minimum frequency can be a minimum value for the occurrence of the corresponding trigger combination in all data records. The occurrence of the corresponding trigger combination is added up across all data records. If the resulting sum is greater than or equal to the minimum value, this is fulfilled. Furthermore, the minimum frequency can be a minimum value for the occurrence in one of the data records. The occurrence of the corresponding trigger combination is summed up individually for the individual data records. If one of the resulting sums meets the minimum value, the minimum frequency is present. According to alternative embodiments, the minimum value must be a predetermined value Number of records or a predetermined percentage of the records to be filled. The corresponding predetermined percentage is either a percentage of all data records in the database or all data records which comprise the corresponding trigger combination. According to alternative embodiments, the minimum value must be fulfilled by all data records and / or by all data records which comprise the corresponding trigger combination. Furthermore, the corresponding minimum frequency can be a minimum value for an average frequency of occurrence of the corresponding trigger combination in all data records of the database or all data records which comprise the corresponding trigger combination.

Nach Ausführungsformen legt die Mindesthäufigkeit einen relativen Häufigkeitswert des Auftretens in den Datensätzen fest. Nach Ausführungsformen ist die entspre chenden Mindesthäufigkeit abhängig von der Anzahl der Datensätze und/oder der Anzahl der Token und/oder der Größe der von den Datensätzen umfassten Daten. Beispielsweise wächst der von der Mindesthäufigkeit festgelegte Häufigkeitswert mit der Anzahl der Datensätze und/oder der Anzahl der Token und/oder der Größe der von den Datensätzen umfassten Daten. According to embodiments, the minimum frequency defines a relative frequency value of the occurrence in the data records. According to embodiments, the corresponding minimum frequency is dependent on the number of data records and / or the number of tokens and / or the size of the data comprised by the data records. For example, the frequency value determined by the minimum frequency increases with the number of data records and / or the number of tokens and / or the size of the data comprised by the data records.

Nach Ausführungsformen legt die Mindesthäufigkeit einen relativen Häufigkeitswert des Auftretens in den Datensätzen fest relativ zu Häufigkeiten des Auftretens von ein oder mehreren der von der entsprechenden Trigger-Kombination umfassten Triggern in den Datensätzen. Beispielsweise ist der relative Häufigkeitswert von dem Auftreten des Triggers mit der höchsten Häufigkeit eines Auftretens, des Trig ger mit der geringsten Häufigkeit eines Auftretens und/oder einem Durchschnitts wert des Auftretens aller Trigger der entsprechenden Trigger-Kombination abhän gig. Ausführungsformen können den Vorteil haben, dass bei einer Berücksichtigung eines relativen Häufigkeitswerts die Häufigkeit des Auftretens von ein oder mehre ren der von der entsprechenden Trigger-Kombination umfassten Triggern in den Entscheidungsprozess, ob auf Basis der entsprechenden Trigger-Kombination eine zusätzliche kombinierte Trigger-Definition zu ergänzen ist, mit einfließt. Die Häufig keit des Auftretens der entsprechenden Trigger kann sich wie zuvor im Fall des absoluten Häufigkeitswerts auf ein Auftreten der entsprechenden Trigger in allen Datensätzen, auf ein durchschnittliches Auftreten in allen Datensätzen, auf ein häu figstes Auftreten in einem der Datensätze und/oder auf ein minimales Auftreten in einem der Datensätze beziehen. According to embodiments, the minimum frequency stipulates a relative frequency value of the occurrence in the data records relative to the frequencies of occurrence of one or more of the triggers comprised by the corresponding trigger combination in the data records. For example, the relative frequency value is dependent on the occurrence of the trigger with the highest frequency of occurrence, the trigger with the lowest frequency of occurrence and / or an average value of the occurrence of all triggers of the corresponding trigger combination. Embodiments can have the advantage that, when a relative frequency value is taken into account, the frequency of occurrence of one or more of the triggers comprised by the corresponding trigger combination is included in the decision-making process as to whether an additional combined trigger definition based on the corresponding trigger combination is complementary, with flowing in. The frequency of occurrence of the corresponding triggers can vary as before in the case of the absolute frequency value to an occurrence of the corresponding trigger in all data records, to an average occurrence in all data records, to a most frequent occurrence in one of the data records and / or to a minimum occurrence in one of the data records.

Ausführungsformen können den Vorteil haben, dass der relative Häufigkeitswert umso höher gewählt wird, umso höher die Häufigkeiten des Auftretens des ein oder der mehreren entsprechenden von der Trigger-Kombination umfassten Trigger ist. Somit kann vermieden werden, dass eine Trigger-Definition auf der Basis einer Trig ger-Kombination erzeugt wird, deren Auftreten zufällig ist, d.h. deren Trigger zufällig von demselben Datensatz umfasst sind, ohne dass dies einen Zusammenhang der entsprechenden Trigger anzeigt. Embodiments can have the advantage that the relative frequency value is selected to be higher, the higher the frequencies of occurrence of the one or more corresponding triggers comprised by the trigger combination. It can thus be avoided that a trigger definition is generated on the basis of a trigger combination, the occurrence of which is random, i.e. whose triggers happen to be included in the same data set, without this indicating a connection between the corresponding triggers.

Nach Ausführungsformen umfasst das Kombinationskriterium ein oder mehrere Be dingungen an relative Positionen der Trigger der entsprechenden Trigger-Kombina tion zueinander innerhalb eines der Datensätze. Ausführungsformen können den Vorteil haben, dass für das Kombinationskriterium eine relative Position der Trigger der entsprechenden Trigger-Kombination innerhalb des Datensatzes berücksichtigt wird. Eine entsprechende relative Position von Daten innerhalb von Datensätzen re sultiert aus bzw. ist abhängig von Kontextzusammenhängen. Mithin lassen sich ent sprechende Kontextzusammenhänge aus der relativen Position ablesen. Abhängig von der Art der von den Datensätzen umfassten Daten kann es sich bei der relati ven Position um eine relative Position in einer eindimensionalen, d.h. sequenziellen, Datenstruktur, wie beispielsweise einer Text- oder Sprachdatei, einer zweidimensio nalen Datenstruktur, wie beispielsweise einer Bilddatei, oder einer höher dimensio nalen, beispielsweise dreidimensionalen oder n-dimensionalen, Datenstruktur han deln. According to embodiments, the combination criterion comprises one or more conditions at relative positions of the triggers of the corresponding trigger combination to one another within one of the data sets. Embodiments can have the advantage that a relative position of the triggers of the corresponding trigger combination within the data set is taken into account for the combination criterion. A corresponding relative position of data within data records results from or is dependent on contextual relationships. Corresponding contextual relationships can therefore be read from the relative position. Depending on the type of data comprised by the data sets, the relative position can be a relative position in a one-dimensional, i.e. sequential data structure, such as a text or voice file, a two-dimensional data structure, such as an image file, or a higher-dimensional, for example three-dimensional or n-dimensional, data structure.

Nach Ausführungsformen umfassen die Trigger-Definitionen jeweils eine Definition einer Trigger-Struktur, welche für ein oder mehrere von der entsprechenden Trig ger-Definition umfasste Trigger und ein oder mehrere gemäß der entsprechenden Trigger-Definition einer der Klassen zuzuordnende Token relative Positionen zuei nander festlegt. According to embodiments, the trigger definitions each include a definition of a trigger structure which is used for one or more triggers included in the corresponding trigger definition and one or more triggers in accordance with the corresponding Trigger definition of one of the tokens to be assigned to the classes defines relative positions to each other.

Ausführungsformen können den Vorteil haben, dass eine entsprechende Trigger- Definition anhand ein oder mehrerer Trigger definiert, wie ein oder mehrere Token zu klassifizieren sind in Abhängigkeit von einer relativen Position der entsprechen den Token zu den entsprechenden Triggern. Je nach Art der von den Datensätzen umfassten Datenstrukturen kann es sich bei der entsprechenden relativen Position um eine relative Position in einem eindimensionalen, zweidimensionalen oder höher dimensionalen, beispielsweise dreidimensionalen oder n-dimensionalen, Datenraum handeln. Embodiments can have the advantage that a corresponding trigger definition uses one or more triggers to define how one or more tokens are to be classified as a function of a relative position of the corresponding tokens to the corresponding triggers. Depending on the type of data structures comprised by the data records, the corresponding relative position can be a relative position in a one-dimensional, two-dimensional or higher-dimensional, for example three-dimensional or n-dimensional, data space.

Nach Ausführungsformen umfassen die Festlegungen der relativen Positionen zu mindest eine der folgenden Festlegungen: die ein oder mehreren zuzuordnenden Token sind nach einem von der entsprechenden Trigger-Definition umfassten Trig ger angeordnet, die ein oder mehreren zuzuordnenden Token sind vor einem von der entsprechenden Trigger-Definition umfassten Trigger angeordnet, die ein oder mehreren zuzuordnenden Token sind jeweils zwischen von der entsprechenden Trigger-Definition umfassten Triggern angeordnet. According to embodiments, the definitions of the relative positions include at least one of the following definitions: the one or more tokens to be assigned are arranged according to a trigger included by the corresponding trigger definition, the one or more tokens to be assigned are before one of the corresponding trigger definition arranged triggers included, the one or more tokens to be assigned are each arranged between triggers included in the corresponding trigger definition.

Ein Trigger kann beispielsweise eine Klassifikation vorangehendender Daten trig gern, z.B.„[davorl ] [Triggerl ]“. In diesem Fall triggert das Auftreten des Triggers „Triggerl“ eine Klassifikation der vorangehenden Daten„davorl“. Nach Ausfüh rungsformen ist der Trigger selbst Bestandteil der Klassifikation, d.h. klassifiziert wird die Kombination„[davorl ] [Triggerl ]“. Nach Ausführungsformen wird der Trig ger„Triggerl“, wenn er erkannt wird, als Trigger der entsprechenden Trigger-Defini tion zugeordnet. A trigger can, for example, trigger a classification of preceding data, e.g. "[before] [trigger]". In this case the occurrence of the trigger “Triggerl” triggers a classification of the preceding data “before”. According to the embodiments, the trigger itself is part of the classification, i.e. the combination "[before] [trigger]" is classified. According to embodiments, the trigger “Triggerl”, if it is recognized, is assigned as a trigger to the corresponding trigger definition.

Ein Trigger kann beispielsweise eine Klassifikation nachfolgender Daten triggern, z.B. ,,[Trigger2] [danachl ]“. In diesem Fall triggert das Auftreten des Triggers„Trig- ger2“ eine Klassifikation der nachfolgenden Daten„danachl“. Nach Ausführungsfor men ist der Trigger selbst Bestandteil der Klassifikation, d.h. klassifiziert wird die Kombination ,,[Trigger2] [danachl ]“. Nach Ausführungsformen wird der Trigger„Trig- ger2“, wenn er erkannt wird, als Trigger der entsprechenden Trigger-Definition zu geordnet. A trigger can, for example, trigger a classification of subsequent data, eg "[Trigger2] [afterl]". In this case the occurrence of the trigger “Trigger2” triggers a classification of the subsequent data “after”. According to the embodiments, the trigger itself is part of the classification, ie it is classified Combination “[Trigger2] [after]”. According to embodiments, the trigger “Trigger2”, if it is recognized, is assigned to the corresponding trigger definition as a trigger.

Ein Trigger kann beispielsweise eine Klassifikation vorangehender und nachfolgen der Daten triggern, z.B. ,,[davor2] [Trigger3] [danach2]“. In diesem Fall triggert das Auftreten des Triggers„Trigger3“ eine Klassifikation der vorangehendenden Daten „davor2“ sowie der nachfolgenden Daten„danach2“. Nach Ausführungsformen ist der Trigger selbst Bestandteil der Klassifikation, d.h. klassifiziert wird die Kombina tion ,,[davor2] [Trigger3] [danach2]“. Nach Ausführungsformen wird der Trigger„Trig gers“, wenn er erkannt wird, als Trigger der entsprechenden Trigger-Definition zu geordnet. A trigger can, for example, trigger a classification of preceding and succeeding data, e.g. "[before2] [trigger3] [after2]". In this case, the occurrence of the “Trigger3” trigger triggers a classification of the preceding data “before2” and the following data “after2”. According to embodiments, the trigger itself is part of the classification, i.e. the combination “[before2] [trigger3] [after2]” is classified. According to embodiments, the “Trig gers” trigger, if it is recognized, is assigned to the corresponding trigger definition as a trigger.

Eine Kombination aus zwei oder mehr Trigger kann beispielsweise eine Klassifika tion vorangehender, nachfolgender sowie zwischen den Triggern angeordneter Da ten triggern, z.B. ,,[davor3] [Trigger4] [dazwischenl ] [Trigger5] [danach3]“. In diesem Fall triggert das Auftreten der Kombination aus den Triggern„Trigger4“ und„Trig- ger5“ eine Klassifikation der vorangehendenden Daten„davor3“, der nachfolgenden Daten„danach3“ sowie der dazwischenstehenden Daten„dazwischen 1“. Nach Ausführungsformen sind die Trigger selbst Bestandteil der Klassifikation, d.h. klassi fiziert wird die gesamte Kombination ,,[davor3] [Trigger4] [dazwischenl ] [Trigger5] [danach3]“. Nach Ausführungsformen werden die Trigger„Trigger4“ und„Trigger5“, wenn er erkannt wird, als Trigger der entsprechenden Trigger-Definition zugeordnet. A combination of two or more triggers can, for example, trigger a classification of preceding, following and data arranged between the triggers, e.g. "[before3] [trigger4] [in between] [trigger5] [after3]". In this case, the occurrence of the combination of the triggers “Trigger4” and “Trigger5” triggers a classification of the preceding data “before3”, the following data “after3” and the data in between “between 1”. According to embodiments, the triggers themselves are part of the classification, i.e. The entire combination “[before3] [trigger4] [in between] [trigger5] [after3]” is classified. According to embodiments, the triggers “Trigger4” and “Trigger5” are assigned as triggers to the corresponding trigger definition when it is recognized.

Nach Ausführungsformen kann eine Trigger-Kombination eine beliebige Anzahl an Triggern umfassen, z.B. ,,[davor4] [Trigger6] [dazwischen2] [Trigger7] [...] [Trig- ger6+N] [dazwischen2+N] [Trigger6+(N+1 )] [danach4]“. In diesem Fall triggert das Auftreten der Kombination aus den Triggern„Trigger6“ bis„Trigger6+(N+1 )‘‘ eine Klassifikation der vorangehendenden Daten„davor4“, der nachfolgenden Daten„da- nach4“ sowie der dazwischenstehenden Daten„dazwischen2“ bis„dazwi- schen2+N“. Nach Ausführungsformen sind die Trigger selbst Bestandteil der Klassi fikation, d.h. klassifiziert wird die gesamte Kombination ,,[davor4] [Trigger6] [dazwischen2] [Trigger7] [...] [Trigger6+N] [dazwischen2+N] [Trigger6+(N+1 )] [da- nach4]“. Nach Ausführungsformen werden die Trigger„Trigger6“ bis„Trig- ger6+(N+1 )“, wenn er erkannt wird, als Trigger der entsprechenden Trigger-Defini tion zugeordnet. According to embodiments, a trigger combination can comprise any number of triggers, for example ,, [before4] [trigger6] [between2] [trigger7] [...] [trigger6 + N] [between2 + N] [trigger6 + (N +1)] [after4] ". In this case, the occurrence of the combination of the triggers “Trigger6” to “Trigger6 + (N + 1)” triggers a classification of the preceding data “before4”, the following data “after4” and the data in between “between2” to “ in between 2 + N “. According to embodiments, the triggers themselves are part of the classification, ie the entire combination is classified, [before4] [trigger6] [between2] [Trigger7] [...] [Trigger6 + N] [between2 + N] [Trigger6 + (N + 1)] [after4] “. According to embodiments, the triggers “Trigger6” to “Trigger6 + (N + 1)”, if it is recognized, are assigned as a trigger to the corresponding trigger definition.

Im Falle einer Textdatei kann eine beispielhafte Trigger-Definition wie folgt ausse- hen:„[Identität] [Triggerl = darf über] [Identität] [Trigger2 = und] [Identität]". Bei der Formulierung„darf über" handelt es sich um einen ersten Trigger [Triggerl ] und bei der Formulierung„und" um einen zweiten Trigger [Trigger2] Die Struktur entspricht also einer Struktur der Form [davor] [Triggerl ] [dazwischen] [Trigger2] [danach]. In diesem Fall werden vorangehenden Daten [davor] als eine Identität klassifiziert, ebenso werden dazwischenstehende Daten [dazwischen] sowie nachfolgende Da ten [danach] jeweils als Identitäten klassifiziert. In the case of a text file, an exemplary trigger definition can look like this: "[Identity] [Triggerl = may over] [Identity] [Trigger2 = and] [Identity]". The formulation "May over" is a first trigger [Triggerl] and with the formulation "and" around a second trigger [Trigger2] The structure thus corresponds to a structure of the form [before] [Triggerl] [between] [Trigger2] [after]. In this case, previous data [before] classified as an identity, and intermediate data [in between] and subsequent data [after] are each classified as identities.

Ein weiteres Beispiel ist:„[Trigger = Der Kunde trägt den Schaden,] [Bedingung]".Another example is: "[Trigger = the customer bears the damage,] [condition]".

Bei der Formulierung„Der Kunde trägt den Schaden," handelt es sich um einen Trigger [Trigger] Die Struktur entspricht mithin der Struktur [Trigger] [danach]. In diesem Fall werden die nachfolgenden Daten [danach] als eine Bedingung klassifi ziert. The formulation "The customer bears the damage" is a trigger [trigger]. The structure therefore corresponds to the structure [trigger] [after]. In this case, the following data [after] is classified as a condition.

Ein weiteres Beispiel ist:„[Triggerl = zwischen] [Identität] [Trigger2 = und] [Identi tät]". Bei der Formulierung„zwischen" handelt es sich um einen ersten Trigger [Trig gerl ] und bei der Formulierung„und" um einen zweiten Trigger [Trigger2] Die Struktur entspricht mithin der Form [Triggerl ] [dazwischen] [Trigger2] [danach]. Um fasst ein Datensatz beispielsweise die Formulierung:„Die Geschäftsbeziehung zwi schen dem Kunden und der Bank [...]", so werden die Token„zwischen“ und„und“ als Trigger identifiziert. Anhand dieser Trigger-Kombination werden die dazwischen stehenden Token„dem Kunden“ als Identität klassifiziert, ebenso wie die nachfol genden Token„der Bank“. Für die vorangehenden Token„Die Geschäftsbeziehung“ wird durch die Trigger keine Klassifikation getriggert. Mithin werden die vorangehen den Token als unbekannte Daten der Auffangklasse klassifiziert. Nach Ausführungsformen kann eine Trigger-Definition festlegen, dass ein Token, welches sich innerhalb eines Radius um einen bestimmten Trigger in einem n-di- mensionalen Datenraum befindet, einer bestimmten Klasse zuzuordnen ist. Nach Ausführungsformen kann neben dem Abstand des Tokens von dem Trigger zudem maßgeblich für die Klassenzuordnung sein, in welcher Raumrichtung der Token von dem Trigger entsprechend beanstandet ist. Dies kann beispielsweise durch einen Vektor definiert werden, welche die relative Position des Tokens zu dem Trigger de finiert. Nach Ausführungsformen kann eine Trigger-Definition festlegen, dass ein To ken, welches innerhalb einer Mehrzahl von Radien um jeweils einen Trigger einer Mehrzahl von Trigger angeordnet ist, einer bestimmten Klasse zuzuordnen ist. Hier bei überschneiden sich die von den einzelnen Radien begrenzten n-dimensionalen Bereiche und begrenzen einen n-dimensionalen oder niedriger dimensionalen Schnittbereich in dem n-dimensionalen Datenraum. Ein Token, welches Bestandteil dieses n-dimensionalen oder niedriger dimensionalen Schnittbereich ist, wird bei spielsweise einer bestimmten Klasse zugeordnet. Another example is: "[Triggerl = between] [Identity] [Trigger2 = and] [Identi ity]". The phrase "between" is a first trigger [Trig gerl] and the phrase "and" is a second trigger [Trigger2] The structure therefore corresponds to the form [Trigger1] [between] [Trigger2] [after]. For example, if a data record includes the formulation: "The business relationship between the customer and the bank [...]", so the tokens “between” and “and” are identified as triggers. Using this trigger combination, the tokens in between are classified as “the customer” as an identity, as are the subsequent tokens “of the bank”. The triggers do not trigger any classification for the preceding tokens "The business relationship". The preceding tokens are therefore classified as unknown data of the trap class. According to embodiments, a trigger definition can stipulate that a token which is located within a radius around a specific trigger in an n-dimensional data space is to be assigned to a specific class. According to embodiments, in addition to the distance between the token and the trigger, it can also be decisive for the class assignment in which spatial direction the token is correspondingly rejected by the trigger. This can for example be defined by a vector which defines the relative position of the token to the trigger. According to embodiments, a trigger definition can stipulate that a token which is arranged within a plurality of radii around one trigger of a plurality of triggers is to be assigned to a specific class. Here, the n-dimensional areas delimited by the individual radii overlap and delimit an n-dimensional or lower-dimensional intersection area in the n-dimensional data space. A token, which is part of this n-dimensional or lower-dimensional intersection area, is assigned to a certain class, for example.

Nach Ausführungsformen ist für die Trigger gemäß den Trigger-Definitionen jeweils ein maximaler Trigger-Abstand festgelegt, welcher einen maximalen Abstand relativ zu dem entsprechenden Trigger definiert, auf welche eine Trigger-Wirkung des Trig gers beschränkt ist. According to embodiments, a maximum trigger distance is defined for the triggers in accordance with the trigger definitions, which defines a maximum distance relative to the corresponding trigger to which a trigger effect of the trigger is limited.

Ausführungsformen können den Vorteil haben, dass es sich bei dem entsprechen den maximalen Abstand um einen Radius um den entsprechenden Trigger in einem n-dimensionalen Datenraum handelt. Im Falle eines eindimensionalen Datenraums beschränkt sich die Trigger-Wirkung auf den entsprechenden maximalen Trigger- Abstand vor und hinter dem entsprechenden Trigger. Im Fall eines zweidimensiona len Datenraums beschränkt sich die Trigger-Wirkung auf eine zweidimensionale Kreisfläche um den entsprechenden Trigger herum. Im Falle eines dreidimensiona len Datenraums beschränkt sich die Trigger-Wirkung auf ein Kugelvolumen um den entsprechenden Trigger herum. Im Falle eines n-dimensionalen Datenraums be schränkt sich die Trigger-Wirkung auf ein Volumen einer n-dimensionalen Kugel um den entsprechenden Trigger herum. Nach Ausführungsformen kann der maximale Abstand von der Raumrichtung ab- hängen und in unterschiedlichen Raumrichtungen unterschiedlich groß festgelegt sein. Embodiments can have the advantage that the corresponding maximum distance is a radius around the corresponding trigger in an n-dimensional data space. In the case of a one-dimensional data space, the trigger effect is limited to the corresponding maximum trigger distance in front of and behind the corresponding trigger. In the case of a two-dimensional data space, the trigger effect is limited to a two-dimensional circular area around the corresponding trigger. In the case of a three-dimensional data space, the trigger effect is limited to a spherical volume around the corresponding trigger. In the case of an n-dimensional data space, the trigger effect is limited to a volume of an n-dimensional sphere around the corresponding trigger. According to embodiments, the maximum distance can depend on the spatial direction and be set to be of different sizes in different spatial directions.

Nach Ausführungsformen ist der maximale Trigger-Abstand für alle Trigger iden tisch. Nach Ausführungsformen ist der maximale Trigger-Abstand für eine Teil menge der Trigger identisch. Nach Ausführungsformen ist der maximale Trigger-Ab stand für jeden Trigger jeweils individuell bestimmt. Bei dem entsprechenden maxi malen Trigger-Abstand kann es sich je nach Art der Daten um einen Abstand in ei ner bestimmten Einheit handeln. Beispielsweise handelt es sich bei einer zeitlichen sequenziellen Abfolge um einen zeitlichen Abstand gemessen in einer zeitlichen Einheit, wie etwa Millisekunden, Sekunden oder Minuten. Beispielsweise handelt es sich bei einem eindimensionalen, zweidimensionalen oder dreidimensionalen räum lichen Datenstruktur um einen räumlichen Abstand in einer räumlichen Einheit, wie etwa Millimeter, Zentimeter, Dezimeter oder Meter. Im Falle von Bild- oder Videoda ten kann der Abstand beispielsweise auf Pixel oder Voxel beruhen. Somit kann es sich bei einem entsprechenden Abstand beispielsweise um eine Pixelzahl oder eine Voxelzahl handeln. According to embodiments, the maximum trigger spacing is identical for all triggers. According to embodiments, the maximum trigger spacing is identical for a subset of the triggers. According to embodiments, the maximum trigger distance is determined individually for each trigger. The corresponding maximum trigger distance can be a distance in a specific unit, depending on the type of data. For example, a sequential sequence in time is a time interval measured in a time unit, such as milliseconds, seconds or minutes. For example, a one-dimensional, two-dimensional or three-dimensional spatial data structure is a spatial distance in a spatial unit, such as millimeters, centimeters, decimeters or meters. In the case of image or video data, the distance can be based on pixels or voxels, for example. A corresponding distance can thus be, for example, a number of pixels or a number of voxels.

Nach Ausführungsformen handelt es sich bei dem Abstand um einen logischen Ab stand. Dieser kann beispielsweise auf elementaren Datenelementen beruhen, wie beispielsweise Elementarzeichen. Somit kann es sich bei einem entsprechenden Abstand beispielsweise um eine Zeichenzahl handeln. Ferner kann es sich bei dem entsprechenden Abstand um eine Anzahl aus elementaren Datenelementen um zu sammengesetzte Elemente handeln, wie beispielsweise einer Wortanzahl. Bei spielsweise ist die Anzahl auf eine bestimmte Wortart beschränkt. Ferner kann der Abstand durch logische Elemente in der Datenstruktur begrenzt werden, wie bei spielsweise ein Interpunktionszeichen und/oder einen Trigger. According to embodiments, the distance is a logical distance. This can for example be based on elementary data elements, such as elementary characters. Thus, a corresponding distance can be a number of characters, for example. Furthermore, the corresponding spacing can be a number of elementary data elements composed of elements, such as, for example, a number of words. For example, the number is limited to a certain part of speech. Furthermore, the distance can be limited by logical elements in the data structure, such as a punctuation mark and / or a trigger.

Nach Ausführungsformen umfasst das Verfahren ferner: • Ergänzen des vortrainierten Lernmoduls um ein oder mehrere zusätzliche Trig ger-Definitionen, welche zusätzliche Trigger für ein Ersetzen von Zuordnungen von Token in dem Index zu der Auffangklasse durch Zuordnungen zu ein oder mehreren Klassen einer zweiten Gruppe von Klassen im Zuge eines Reklassi- fizierens definieren, According to embodiments, the method further comprises: • Supplement the pre-trained learning module with one or more additional trigger definitions which define additional triggers for replacing assignments of tokens in the index to the receiving class with assignments to one or more classes of a second group of classes in the course of reclassification ,

• Reklassifizieren von ein oder mehreren der Auffangklasse zugeordneten To ken in dem Index, welche die zusätzlichen Trigger-Definitionen als zusätzliche Trigger definierten, wobei das Reklassifizieren durch das Lernmodul ein Erset zen der Zuordnung zu der Auffangklasse durch eine Zuordnung zu der ent sprechen zusätzlichen Trigger-Definition umfasst, welche das entsprechende Token als zusätzlichen Trigger umfasst, • Reclassification of one or more tokens assigned to the collection class in the index, which defined the additional trigger definitions as additional triggers, with the reclassification by the learning module replacing the assignment to the collection class with an assignment to the corresponding additional trigger Definition, which includes the corresponding token as an additional trigger,

• Verwenden der zusätzlichen Trigger zum Reklassifizieren von ein oder mehre ren der Auffangklasse zugeordneten Token in dem Index zu ein oder mehre ren Klassen der zweiten Gruppe von Klassen durch das Lernmodul, falls die entsprechenden der Auffangklasse zugeordneten Token von einem der Da tensätze in einer Kombination mit ein oder mehreren der zusätzlichen Triggern umfasst sind und die entsprechenden zusätzlichen Trigger gemäß der entspre chenden zusätzlichen Trigger-Definition eine entsprechende Zuordnung zu den ein oder mehreren Klassen der zweiten Gruppe von Klassen triggern. Use of the additional triggers to reclassify one or more tokens assigned to the trap class in the index to one or more classes of the second group of classes by the learning module if the corresponding tokens assigned to the trap class are from one of the data records in a combination with one or more of the additional triggers are included and the corresponding additional triggers trigger a corresponding assignment to the one or more classes of the second group of classes in accordance with the corresponding additional trigger definition.

Ausführungsformen können den Vorteil haben, dass durch das Ergänzen des Lern moduls um zusätzliche Trigger-Definitionen die Anzahl der Token, welche der Auf fangklasse zugeordnet sind, reduziert werden kann. Zusätzliche Trigger-Definitionen können gezielt ergänzt werden, um solche Token zu reklassifizieren, welche der Auffangklasse zugeordnet sind. Mithin kann das Ergänzen zusätzlicher Trigger-Defi nitionen in Abhängigkeit von den Datensätzen, welche die Datenbank umfasst, und den von diesen umfassten unbekannten Daten erfolgen. Embodiments can have the advantage that by adding additional trigger definitions to the learning module, the number of tokens that are assigned to the interception class can be reduced. Additional trigger definitions can be supplemented in a targeted manner in order to reclassify those tokens that are assigned to the trap class. Additional trigger definitions can therefore be supplemented as a function of the data records which the database comprises and the unknown data which they comprise.

Beispielsweise werden zusätzliche Trigger-Definitionen ergänzt, bis alle Token der Auffangklasse reklassifiziert sind. Nach Ausführungsformen werden entsprechende zusätzliche Trigger-Definitionen nach vordefinierten Intervallen ergänzt. Entspre chende vordefinierte Intervalle sind beispielsweise zeitlich definiert, basierend auf der Anzahl der von der Auffangklasse umfassten Token, der in der Datenbank ge speicherten Datenmenge und/oder der zu der Datenbank seit der letzten Ergänzung hinzugefügten Datenmenge. For example, additional trigger definitions are added until all tokens of the trap class are reclassified. According to embodiments, corresponding additional trigger definitions are added according to predefined intervals. Corresponding predefined intervals are, for example, defined in time, based on the number of tokens included in the collection class, the amount of data stored in the database and / or the amount of data added to the database since the last addition.

Nach Ausführungsformen umfasst die zweite Gruppe von den Klassen der ersten Gruppe verschiedene Klassen. Ausführungsformen können den Vorteil haben, dass zusätzliche Klassen definiert werden, sodass solche die Token der Auffangklasse klassifiziert werden können, für welche die Meta- bzw. Kontextinformationen ent sprechend den Klassen der ersten Gruppe nicht anwendbar sind. Vielmehr können durch die Klassen der zweiten Gruppe zusätzliche Meta- bzw. Kontextinformationen definiert und verwendet werden. According to embodiments, the second group comprises classes different from the classes in the first group. Embodiments can have the advantage that additional classes are defined so that those tokens of the capture class can be classified for which the meta or context information corresponding to the classes of the first group cannot be used. Rather, additional meta or context information can be defined and used by the classes of the second group.

Nach Ausführungsformen sind ein oder mehrere Klassen der zweiten Gruppe je weils identisch mit einer der Klassen der ersten Gruppe. Ausführungsformen kön nen den Vorteil haben, dass durch die zusätzlichen Trigger-Definitionen Trigger be reitgestellt werden, welche eine Zuordnung der Token der Auffangklasse zu Klassen der ersten Gruppe von Klassen ermöglichen. According to embodiments, one or more classes of the second group are each identical to one of the classes of the first group. Embodiments can have the advantage that the additional trigger definitions provide triggers which enable the tokens of the collection class to be assigned to classes of the first group of classes.

Nach Ausführungsformen sind die zu ergänzenden Trigger-Definitionen als Ergän zungen jeweils von einer von dem Lernmodul bereits umfassten Trigger-Definition abhängig. Ausführungsformen können den Vorteil haben, dass ein oder mehrere der ergänzenden Trigger-Definitionen in Form von Ergänzungen zu den bereits um fassten Trigger-Definitionen des Lernmoduls definiert werden. Die entsprechenden ergänzenden Trigger-Definitionen erweitern beispielsweise die Trigger-Wirkung be reits bestehender Trigger-Definitionen. Nach Ausführungsformen bilden die ergän zenden Trigger-Definitionen mit den bereits bestehender Trigger-Definitionen kom binierte Trigger-Definitionen. According to embodiments, the trigger definitions to be supplemented are in each case dependent on a trigger definition already included in the learning module. Embodiments can have the advantage that one or more of the supplementary trigger definitions are defined in the form of additions to the trigger definitions already included in the learning module. The corresponding supplementary trigger definitions extend, for example, the trigger effect of already existing trigger definitions. According to embodiments, the supplementary trigger definitions form combined trigger definitions with the already existing trigger definitions.

Nach Ausführungsformen werden die Ergänzungen einem rekursiven Schema fol gend wiederholt ausgeführt, wobei die zu ergänzenden Trigger-Definitionen jeder Rekursionsstufe jeweils Ergänzungen einer Trigger-Definition einer vorangehenden Rekursionsstufe umfassen, sodass die rekursiven Ergänzungen Baumstrukturen bilden, welche jeweils eine der vorbestimmten Trigger-Definition als Wurzelknoten umfassen. According to embodiments, the additions are carried out repeatedly following a recursive scheme, the trigger definitions to be added to each recursion level each comprising additions to a trigger definition of a preceding recursion level so that the recursive additions are tree structures which each include one of the predetermined trigger definition as a root node.

Ausführungsformen können den Vorteil haben, dass die Trigger-Wirkung der beste henden Trigger-Definitionen sukzessive durch ein fortschreitendes Rekursions schema erweitert werden, bis alle Token der Auffangklasse reklassifiziert sind. Das Ergebnis der entsprechenden Ergänzungen der bereits bestehenden Trigger-Funkti onen können beispielsweise Baumstrukturen sein, denen folgend eine Klassifikation von Token implementiert werden kann. Embodiments can have the advantage that the trigger effect of the existing trigger definitions is successively expanded by a progressive recursion scheme until all tokens of the collection class have been reclassified. The result of the corresponding additions to the already existing trigger functions can be tree structures, for example, which can be followed by a classification of tokens.

Nach Ausführungsformen werden die zu ergänzenden zusätzlichen Trigger-Definiti onen von dem Lernmodul empfangen. Ausführungsformen können den Vorteil ha ben, dass die entsprechenden Trigger-Definitionen beispielsweise von außen, etwa durch einen Administrator, bereitgestellt werden können. Mithin hat der entspre chende Administrator stets die Möglichkeit, die Klassifikation zu steuern, zu korrigie ren und zu ergänzen. According to embodiments, the additional trigger definitions to be supplemented are received by the learning module. Embodiments can have the advantage that the corresponding trigger definitions can, for example, be provided externally, for example by an administrator. This means that the relevant administrator always has the option of controlling, correcting and adding to the classification.

Nach Ausführungsformen kann erfolgt optional oder fakultativ ein externes Feinjus tieren, beispielsweise durch einen Administrator, erfolgen. Hierbei werden nach Ausführungsformen unter Verwendung zusätzliche Trigger-Definitionen aus der Klasse der unbekannten Daten, d.h. der Auffangklasse, Token extrahiert und beste henden Klassen zugeordnet und/oder es werden neue Klassen generiert, denen extrahierte Token zugordnet werden. Ein Administrator stellt beispielsweise für die in der Auffangklasse als unbekannte Daten klassifizierten Token anlog zu den initia len bereitgestellten Trigger-Definitionen zusätzliche Trigger-Definitionen bereit, wel che auf die Auffangklasse angewandt werden. Nach Ausführungsformen werden die zusätzlichen Trigger gemäß den zusätzlichen Trigger-Definitionen ausschließlich auf die Auffangklasse angewendet sowie auf zukünftig empfangene Daten. Nach Ausführungsformen kann die Anwendung eines zusätzlichen Triggers als IF- Bedingung realisiert werden. Wurde beispielsweise auf einen Datensatz bereits ein anderer Trigger erfolgreich angewendet, z.B. ein Triggerl , und der Datensatz umfasst zudem als unbekannt klassifizierte Daten, wo wird ein zusätzlicher Trigger, z.B. ein Trigger2, gemäß einer der zusätzlichen Trigger-Definitionen angewendete. According to embodiments, an external fine adjustment can optionally or optionally take place, for example by an administrator. Here, according to embodiments, additional trigger definitions are extracted from the class of the unknown data, ie the catch class, tokens and assigned to existing classes and / or new classes are generated to which extracted tokens are assigned. For example, for the tokens classified as unknown data in the collection class, an administrator provides additional trigger definitions analogous to the trigger definitions provided, which are applied to the collection class. According to embodiments, the additional triggers are applied exclusively to the collection class and to data received in the future in accordance with the additional trigger definitions. According to embodiments, the use of an additional trigger can be implemented as an IF condition. For example, if another trigger has already been successfully applied to a data record, e.g. a trigger, and the data record also includes data classified as unknown, where an additional trigger, eg a Trigger2, is applied according to one of the additional trigger definitions.

Dieses Feinjustieren kann als eine Rekursion mehrmals wiederholt werden. Bei spielsweise wird die Rekursion solange fortgesetzt, bis Die Auffangklasse keine To ken mehr umfasst, d.h. keine unbekannten Daten mehr existieren, oder die von der Auffangklasse umfasste Token-Anzahl einen vordefinierten Schwellenwert erreicht und/oder unterschreitet, d.h. eine vordefinierte Maximalzahl. Bei dem entsprechen den Schwellenwert kann es sich um einen absoluten Wert handeln, welcher von der Anzahl der von dem Index umfassten Token und der von der Datenbank umfassten Datenmenge unabhängig ist. Alternativ kann es sich bei dem entsprechenden Schwellenwert um einen relativen Wert handeln, welcher von der Anzahl der von dem Index umfassten Token und/oder der von der Datenbank umfassten Daten menge abhängig ist This fine adjustment can be repeated several times as a recursion. For example, the recursion continues until the trap class no longer contains tokens, i.e. no more unknown data exist, or the number of tokens included in the collection class reaches and / or falls below a predefined threshold value, i.e. a predefined maximum number. The corresponding threshold value can be an absolute value which is independent of the number of tokens comprised by the index and the amount of data comprised by the database. Alternatively, the corresponding threshold value can be a relative value which is dependent on the number of tokens comprised by the index and / or the amount of data comprised by the database

Auf diese Weise können Trigger-Bäume bzw. Entscheidungsbäume hinter den initial definierten Trigger bzw. Trigger-Definitionen entstehen, wobei die Anzahl der Ebe nen von der Anzahl der Rekursionen N abhängt, z.B. ist die Anzahl der Ebenen gleich N+1. Beispielsweise bildet jeder initiale Trigger bzw. jede initiale Trigger-Defi nitionen einen Wurzelpunkt eines entsprechenden Trigger-Baums bzw. Entschei dungsbaum. Unter einem Entscheidungsbäumen werden hier geordnete, gerichtete Bäume verstanden, die der Darstellung von Entscheidungsregeln dienen. Umfasst ein Datensatz einen initialen Trigger, wodurch ein Teil der Token des Datensatzes klassifiziert werden kann, ohne dass dadurch zugleich alle Token des Datensatzes klassifiziert werden können, so wird geprüft, ob der Datensatz zudem einen Trigger der ersten Rekursion umfasst. Falls der Datensatz einen Trigger der ersten Re kursion umfasst, wodurch ein weiterer Teil der Token des Datensatzes klassifiziert werden kann, ohne dass dadurch zugleich alle Daten des Datensatzes klassifiziert werden können, so wird geprüft, ob der Datensatz zudem einen Trigger der zweiten Rekursion umfasst und so fort. Nach Ausführungsformen werden die zu ergänzenden zusätzlichen Trigger-Definiti onen von dem Lernmodul erstellt, welches ein statistisches Modell umfasst, wobei das statistische Modell zu einer statistischen Analyse der von der Auffangklassen umfassten Token und deren Vorkommen in den Datensätze verwendet wird, wobei das Ergebnis der statistischen Analyse zum Erstellen der zu ergänzenden zusätzli chen Trigger-Definitionen verwendet wird. In this way, trigger trees or decision trees can arise behind the initially defined triggers or trigger definitions, the number of levels depending on the number of recursions N, for example the number of levels is equal to N + 1. For example, each initial trigger or each initial trigger definition forms a root point of a corresponding trigger tree or decision tree. A decision tree is understood here to mean ordered, directed trees that serve to represent decision rules. If a data record includes an initial trigger, which means that part of the tokens in the data record can be classified without all tokens in the data record being able to be classified at the same time, it is checked whether the data record also includes a trigger of the first recursion. If the data record includes a trigger of the first recursion, whereby a further part of the tokens of the data record can be classified without all data of the data record being able to be classified at the same time, it is checked whether the data record also includes a trigger of the second recursion and immediately. According to embodiments, the additional trigger definitions to be supplemented are created by the learning module, which comprises a statistical model, the statistical model being used for a statistical analysis of the tokens included in the collection classes and their occurrence in the data records, the result of the statistical Analysis is used to create the additional trigger definitions to be supplemented.

Ausführungsformen können den Vorteil haben, dass das Lernmodul selbstständig ergänzende zusätzliche Trigger-Definitionen erstellen kann. Beispielsweise erfolgt das zuvor beschriebene optionale oder fakultative Feinjustieren unter Verwendung des statistischen Modells. Durch ein Verwenden eines statistischen Modells kann die zuvor beschriebene menschliche Handlung eines Administrators ersetzt und/o der verbessert werden. Nach Ausführungsformen identifiziert das statistische Mo dell, z.B. durch Häufigkeitsanalysen und Korrelationsanalysen, Trigger innerhalb der unbekannten Daten, welche dann analog zu dem zuvor beschriebenen Vorgehen auf die als unbekannt klassifizierten Token angewendet werden. Nach Ausführungs formen kann zudem ein rekursives Vorgehen unter Verwendung des statistischen Modells erfolgen. Embodiments can have the advantage that the learning module can independently create supplementary additional trigger definitions. For example, the optional or facultative fine adjustment described above takes place using the statistical model. By using a statistical model, the human action of an administrator described above can be replaced and / or improved. In embodiments, the statistical model identifies, e.g. by frequency analyzes and correlation analyzes, triggers within the unknown data, which are then applied to the tokens classified as unknown in analogy to the procedure described above. According to execution forms, a recursive procedure using the statistical model can also take place.

• Empfang einer korrigierten Trigger-Definition zum Ersetzen einer der gespei cherten Trigger-Definitionen des Lernmoduls, • Receipt of a corrected trigger definition to replace one of the saved trigger definitions of the learning module,

• Ersetzen der entsprechenden gespeicherten Trigger-Definition durch die korri gierte Trigger-Definition, • Replacement of the corresponding stored trigger definition with the corrected trigger definition,

• Reklassifizieren der unter Verwendung der entsprechenden gespeicherten Trigger-Definition klassifizierten Token, wobei das Reklassifizieren unter Ver wendung der korrigierten Trigger-Definition erfolgt. • Reclassifying the tokens classified using the corresponding stored trigger definition, the reclassifying taking place using the corrected trigger definition.

Nach Ausführungsformen kann beispielweise ein Administrator Fehler in klassifizier ten Klassen erkennen und gegebenenfalls korrigieren, etwa indem er eine korrigier ten Trigger-Definition, anhand derer ein Reklassifizieren von Token erfolgt. Ausfüh rungsformen können den Vorteil haben, dass eine Korrektur von Trigger- Definitionen zu jedem Zeitpunkt des Verfahrens ermöglicht wird. Beispielsweise kann eine Überprüfung der Trigger-Definitionen nach dem Training des Lernmoduls erfolgen. Werden Korrektur-Trigger-Definitionen identifiziert, so werden entspre chend korrigierte Trigger-Definitionen bereitgestellt. According to embodiments, for example, an administrator can recognize errors in classified classes and correct them if necessary, for example by providing a corrected trigger definition, on the basis of which tokens are reclassified. Embodiments can have the advantage that a correction of trigger Definitions at any point in the process is made possible. For example, the trigger definitions can be checked after training the learning module. If correction trigger definitions are identified, correspondingly corrected trigger definitions are provided.

Ausführungsformen können den Vorteil haben, dass korrigierte Trigger-Definitionen auch zu einem späteren Zeitpunkt bereitgestellt werden können, wenn Fehlklassifi kationen erkannt werden. Ein administratives Eingreifen in den Lern- und Klassifizie rungsprozess ist somit zu jedem Zeitpunkt möglich. Dadurch können Fehler des ler nenden Systems behoben werden, ohne dass das komplette Modell umgebaut wer den muss. Embodiments can have the advantage that corrected trigger definitions can also be provided at a later point in time when incorrect classifications are recognized. Administrative intervention in the learning and classification process is therefore possible at any time. This allows errors in the learning system to be corrected without having to convert the entire model.

Nach Ausführungsformen verweisen die Zeiger, mit denen die Token in dem Index verknüpft gespeichert sind, jeweils auf ein oder mehrere der Feldwerte in den ge speicherten Datensätze. According to embodiments, the pointers with which the tokens are stored linked in the index each point to one or more of the field values in the stored data records.

Ausführungsformen können den Vorteil haben, dass eine feinere Granularität bei der Bestimmung des Ursprungs von Token in den Datensätzen erzielt werden kann. Eine solche feinere Granularität ermöglicht es zudem relative Beziehungen der To ken innerhalb der Datensätze aufzuschlüsseln und bei einer Analyse oder sonstigen Verwendung des Index zu berücksichtigen. Embodiments can have the advantage that a finer granularity can be achieved when determining the origin of tokens in the data records. Such a finer granularity also enables the relative relationships of the tokens within the data records to be broken down and taken into account in an analysis or other use of the index.

Nach Ausführungsformen umfassen die Feldwerte des zusätzlichen Datensatzes Textdaten, Bilddaten, Audiodaten und/oder Videodaten. Nach Ausführungsformen ist das Verfahren beispielsweise anwendbar zur Signalverarbeitung, wie etwa 1 D- Audioerkennung, 2D- und 3D-Bildverarbeitung, oder ND-Dateninput von N Senso ren etc. Ferner ist das Verfahren beispielsweise anwendbar bei einer Analyse von Stream-Daten (Bitstream bzw. Bitstrom). Ein Bitstream, auch als Bitstrom bekannt, bezeichnet hier eine Folge von Bits, die einen Informationsfluss repräsentieren, d.h. ein serielles bzw. sequentielles Signal. Ein Bitstrom ist somit eine Sequenz von Bits von unbestimmter Länge in zeitlicher Abfolge. Ein Bitstrom stellt beispielsweise ei nen in logische Strukturen gegliedert Datenstromes dar, der sich in grundlegendere Kleinstrukturen wie Symbole fester Größe, d.h. Bits und Bytes, und weiter in Blöcke und Datenpakete unterschiedlicher Protokolle und Formate gliedern kann. According to embodiments, the field values of the additional data record include text data, image data, audio data and / or video data. According to embodiments, the method can be used, for example, for signal processing, such as 1 D audio recognition, 2D and 3D image processing, or ND data input from N sensors, etc. Furthermore, the method can be used, for example, for an analysis of stream data (bitstream or . Bitstream). A bit stream, also known as a bit stream, designates a sequence of bits that represent a flow of information, ie a serial or sequential signal. A bit stream is thus a sequence of bits of indefinite length in chronological order. A bit stream, for example, represents a data stream divided into logical structures, which is divided into more fundamental Small structures such as symbols of a fixed size, ie bits and bytes, and can be further divided into blocks and data packets of different protocols and formats.

Nach Ausführungsformen umfasst das Erzeugen der Token ein Anwenden einer To- kenisierungslogik auf die Feldwerte des zusätzlichen Datensatzes, welche einen Volltextindizierer umfasst, der dazu konfiguriert ist, Texte in Wörter zu zerlegen und die Wörter als Token auszugeben. Ausführungsformen können den Vorteil haben, dass eine effektive Tokenisierung von Texten bzw. Textdateien implementiert wer den kann. Bei entsprechenden Textdateien kann es sich um beliebige Texte han delnden. Beispielsweise kann es sich bei entsprechenden Textdateien um Mess wertdateien oder Algorithmen zum Steuern von Computern und/oder technischen Anlagen handeln. Nach Ausführungsformen umfassen die Feldwerte des zusätzli chen Datensatzes Volltexte, wobei die Volltexte aus Buchstaben eines oder mehre rer Alphabete gebildete Wörter und/oder ein oder mehrere Zahlen umfassen. According to embodiments, generating the tokens includes applying tokenization logic to the field values of the additional data record, which logic includes a full-text indexer that is configured to break down texts into words and to output the words as tokens. Embodiments can have the advantage that effective tokenization of texts or text files can be implemented. The corresponding text files can be any text. For example, the corresponding text files can be measured value files or algorithms for controlling computers and / or technical systems. According to embodiments, the field values of the additional data record include full texts, the full texts including words and / or one or more numbers formed from letters of one or more alphabets.

Eine Volltextindizierung beinhaltet eine Zerlegung von Texten in einzelne Wörter, wobei dann die einzelnen Wörter eines Textfeldes in einem diesem Feld zugeordne ten Index gespeichert werden. Volltextindexierung wird nur unterstützt, wenn das entsprechende Feld zur selektiven Speicherung eines bestimmten Datentyps, z.B. CFIAR, VARCFIAR oder TEXT, konfiguriert ist. Beispielsweise kann in einem Feld natürlichsprachlicher Text im JSON Format gespeichert sein. Full-text indexing involves breaking down texts into individual words, with the individual words of a text field then being stored in an index assigned to this field. Full text indexing is only supported if the corresponding field is used to selectively store a certain data type, e.g. CFIAR, VARCFIAR or TEXT, is configured. For example, natural language text in JSON format can be stored in a field.

Nach Ausführungsformen umfasst das Erzeugen der Token ein Anwenden einer To- kenisierungslogik auf die Feldwerte des zusätzlichen Datensatzes, welche einen ge nerischen Tokenisierer umfasst, der dazu konfiguriert ist, in den Feldwerten Daten unterschiedlichen Datentyps zu erkennen und aus diesen Token in unterschiedli chen Datentypen zu erzeugen. Ausführungsformen können den Vorteil haben, dass eine effektive Tokenisierung für unterschiedliche Datentypen implementiert werden kann, wie etwa Textdaten, Bilddaten, Audiodaten und/oder Videodaten. According to embodiments, generating the tokens includes applying tokenization logic to the field values of the additional data record, which logic includes a generic tokenizer that is configured to recognize data of different data types in the field values and to generate from these tokens in different data types . Embodiments can have the advantage that effective tokenization can be implemented for different types of data, such as text data, image data, audio data and / or video data.

Nach Ausführungsformen umfasst das Verfahren ferner: • Empfangen einer Suchanfrage, wobei die Suchanfrage einen Suchwert bein haltet, According to embodiments, the method further comprises: • Receiving a search query, the search query containing a search value,

• Durchsuchen des Index nach dem Suchwert, • Searching the index for the search value,

• Identifizieren eines Tokens innerhalb des Index, welcher identisch ist mit dem Suchwert, • Identifying a token within the index that is identical to the search value,

• Analysieren von Zeigern, mit denen das identifizierte Token verknüpft ist, um ein oder mehrere der Datensätze zu bestimmen, welche ein oder mehrere Feldwerte beinhalten, aus welchen das indizierte Token erzeugt wurde, • Analyze pointers with which the identified token is linked in order to determine one or more of the data records which contain one or more field values from which the indexed token was generated,

• Zurückgeben der bestimmten Datensätze oder von ein oder mehreren Refe renzen auf die bestimmten Datensätze als Antwort auf die Suchanfrage. • Returning the specific records or one or more references to the specific records in response to the search query.

Ausführungsformen können den Vorteil haben, dass der Index für effektive Suchen in den Datensätzen verwendet werden kann, obwohl diese in ihrer ursprünglichen Form gespeichert sind. So kann beispielsweise das Lernmodul unter Verwendung entsprechender Suchanfragen Muster und/oder Gesetzmäßigkeiten innerhalb der Datensätze suchen. Embodiments can have the advantage that the index can be used for effective searches in the data records even though they are stored in their original form. For example, the learning module can search for patterns and / or regularities within the data sets using appropriate search queries.

Nach Ausführungsformen speichert der Index sämtliche aus den Feldwerten der Da tensätze einer Datenbank erzeugte Token so, dass der Index jedes Token nur ein mal enthält. Jedes Token beinhaltet Zeiger auf ein oder mehrere der Datensätze, aus deren Feldwerten es erzeugt wurde. Wenn ein erfindungsgemäß erzeugter In dex also nach einem bestimmten Suchwert durchsucht wird und als Ergebnis der Suche ein in dem Index gespeichertes Token identifiziert wird, welches identisch ist mit dem Suchwert, so verweist dieses Token mittels Zeigern auf sämtliche Datens ätze, die dieses Token zumindest einmal in zumindest einem ihrer Feldwerte enthal ten und die bei der Erstellung des Index herangezogen wurden. Die Datensätze, die also einen„Treffer“ im Hinblick auf den Suchwert darstellen, können anhand der Verweise sehr schnell identifiziert und zurückgegeben werden, ohne dass ein se quenzieller Suchlauf über sämtliche Datensätze notwendig wäre. According to embodiments, the index stores all tokens generated from the field values of the data records of a database in such a way that the index contains each token only once. Each token contains pointers to one or more of the data records from whose field values it was generated. If an index generated according to the invention is searched for a specific search value and a token stored in the index is identified as the result of the search, which is identical to the search value, this token uses pointers to refer to all data records that contain this token at least once contained in at least one of their field values and which were used to create the index. The data records, which represent a “hit” with regard to the search value, can be identified and returned very quickly using the references, without the need for a sequential search across all data records.

Nach Ausführungsformen umfasst der Suchwert ferner eine Klassenzuordnung und das Identifizieren des Tokens innerhalb des Index erfordert ferner, dass das identifizierte Token dieselbe Klassenzuordnung aufweist. Ausführungsformen könne den Vorteil haben, dass Klassenzuordnungen und dadurch mit den Klassenzuord nungen indizierte Meta- bzw. Kontextinformationen in den Suchanfragen berück sichtigt werden können. According to embodiments, the search value further comprises a class assignment and the identification of the token within the index further requires that the identified token has the same class assignment. Embodiments can have the advantage that class assignments and thus meta or context information indexed with the class assignments can be taken into account in the search queries.

Nach Ausführungsformen sind Trigger in dem Index mit einem Flag gekennzeichnet. Nach Ausführungsformen umfasst der Suchwert ferner eine Zuordnung zu einer Trigger-Definition und/oder ein einen Trigger kennzeichnendes Flag und das Identi fizieren des Tokens innerhalb des Index erfordert ferner, dass das identifizierte To ken derselben Trigger-Definition zugeordnet ist und/oder dasselbe Flag aufweist. According to embodiments, triggers are identified in the index with a flag. According to embodiments, the search value furthermore includes an assignment to a trigger definition and / or a flag identifying a trigger, and the identification of the token within the index further requires that the identified token is assigned to the same trigger definition and / or has the same flag .

Nach Ausführungsformen werden Token, welche der Auffangklasse zugeordnet sind, von der Suche ausgeschlossen. Ausführungsformen können den Vorteil ha ben, dass die resultierenden Suchergebnisse ein hohes Maß an Zuverlässigkeit auf weisen, da unbekannte Daten von der Suche ausgeschlossen sind. According to embodiments, tokens which are assigned to the trap class are excluded from the search. Embodiments can have the advantage that the resulting search results have a high degree of reliability, since unknown data are excluded from the search.

Nach Ausführungsformen umfasst das Verfahren ferner das Vortrainieren des Lern moduls. Das Vortrainieren umfasst: According to embodiments, the method further comprises pre-training the learning module. The pre-training includes:

• Empfangen der Mehrzahl von vorbestimmten Trigger-Definitionen durch das Lernmodul, welche die Trigger für das Zuordnen von Token zu den Klassen der ersten Gruppe von Klassen definieren, • Receipt by the learning module of the plurality of predetermined trigger definitions which define the triggers for assigning tokens to the classes of the first group of classes,

• Speichern der empfangenen Mehrzahl von vorbestimmten Trigger-Definitionen durch das Lernmodul. • Storage of the received plurality of predetermined trigger definitions by the learning module.

Nach Ausführungsformen werden durch die vorbestimmten Trigger-Definitionen ini tial Trigger definiert, die dazu verwendet werden empfangene Daten zu strukturieren bzw. klassifizieren. Nach Ausführungsformen werden, bevor Daten in die Datenbank geladen werden, die initialen Trigger konkret definiert, d.h. vorbestimmten Trigger- Definitionen vorgegeben. Werden Daten geladen, so ermöglichen diese initialen Trigger eine erste Klassifizierung nach bekannten Klassen sowie unbekannten Da ten, welche der Auffangklasse zugeordnet werden. Nach Ausführungsformen umfasst das Vortrainieren ferner: According to embodiments, the predetermined trigger definitions define initial triggers that are used to structure or classify received data. According to embodiments, before data is loaded into the database, the initial triggers are specifically defined, ie predetermined trigger definitions are given. If data is loaded, these initial triggers enable an initial classification according to known classes as well as unknown data which are assigned to the collection class. According to embodiments, the pre-training further comprises:

• Extrahieren der Trigger aus der gespeicherten Mehrzahl von vorbestimmten Trigger-Definitionen durch das Lernmodul, • Extraction of the triggers from the stored plurality of predetermined trigger definitions by the learning module,

• Zuordnen der initialen Token durch das Lernmodul jeweils zu der Trigger-Defi nition, welche das entsprechende initiale Token als Trigger umfasst, • Assignment of the initial tokens by the learning module to the trigger definition that includes the corresponding initial token as a trigger,

• Erzeugen des durchsuchbaren Index unter Verwendung der Mehrzahl von initi alen Token durch das Multi-Modell-Datenbankmanagementsystem in dem wei teren Datenmodell, wobei der erzeugte Index die initialen Token umfasst, wo bei jedes der initialen Token in dem Index jeweils eine Zuordnung aufweist zu der Trigger-Definition, welche das entsprechende initiale Token als Trigger umfasst. • Generation of the searchable index using the plurality of initial tokens by the multi-model database management system in the further data model, the generated index comprising the initial tokens, where each of the initial tokens in the index has an assignment to the Trigger definition that includes the corresponding initial token as a trigger.

Nach der Definition der Trigger, werden Daten, z.B. Textdaten, Audiodaten, Bildda ten, Videodaten oder N-Dimensionale Daten von N Sensoren, in die Datenbank ge laden und die Trigger angewandt, um die Daten automatisch zu klassifizieren. After defining the trigger, data, e.g. Text data, audio data, image data, video data or N-dimensional data from N sensors are loaded into the database and the triggers are used to automatically classify the data.

Dadurch entsteht eine Fragmentierung der Daten in Trigger, bekannte Klassen, d.h. durch die Trigger-Definitionen definieret Klassen, und in unbekannte Daten. This results in a fragmentation of the data into triggers, known classes, i.e. classes defined by the trigger definitions, and in unknown data.

Ausführungsformen können den Vorteil haben, dass das Lernmodul auf diese Weise effektiv vortrainiert werden kann auf Basis der vorbestimmten Trigger-Defini tionen. Embodiments can have the advantage that the learning module can be effectively pretrained in this way on the basis of the predetermined trigger definitions.

Dieses vorbestimmten Trigger-Definitionen können als Grundlage für ein Erlangen weiterer Trigger-Definitionen dienen, etwa durch ein Kombinieren von Trigger-Defi nitionen. Es erfolgt beispielsweise eine automatische Lernphase des Datenbanksys tems bzw. des Lernmoduls, welche ein Kombinieren von der initialen Triggern um fasst. Somit können die initial geladenen Trigger wie zuvor beschrieben basierend auf den von den Datensätzen umfassten Daten kombiniert und damit die Anzahl an zur Verfügung stehenden Trigger-Definitionen erhöht werden. Zudem kann ein Kennzeichnen von bereits klassifizierten Token-Kombination erfolgen. Dies dient dem Zweck, dass identische Daten die später in die Datenbank geladen werden, nicht erneut klassifiziert werden müssen, sondern in dem System bereits als„be kannt" markiert sind. These predetermined trigger definitions can serve as a basis for obtaining further trigger definitions, for example by combining trigger definitions. For example, there is an automatic learning phase of the database system or the learning module, which includes a combination of the initial triggers. In this way, the initially loaded triggers can be combined, as described above, based on the data comprised by the data records, and thus the number of trigger definitions available can be increased. In addition, token combinations that have already been classified can be identified. The purpose of this is to ensure that identical data that is later loaded into the database do not have to be reclassified, but are already marked as "known" in the system.

Nach Ausführungsformen umfasst das Erzeugen eines der zusätzlichen Token ein Verwenden eines der Feldwerte des zusätzlichen Datensatzes in seiner Gesamtheit als das entsprechende zusätzliche Token. Es ist durchaus möglich, dass der Index auch Token aus Feldern beinhaltet, auf die keine Tokenisierung angewandt wird bzw. deren Inhalt sich schlichtweg nicht in einzelne Token aufteilen lässt. Nach Aus führungsformen umfasst das Erzeugen eines der zusätzlichen Token ein Aufteilen eines der zusätzlichen Feldwerte des zusätzlichen Datensatzes in eine Mehrzahl von Teilfeldwerten und eine Verwenden eines der Teilfeldwerte als das entspre chende zusätzliche Token. Ausführungsformen können den Vorteil haben, dass die Granularität der verwendeten Daten bzw. der Tokenisierung unabhängig von der Granularität der Felder angepasst werden kann. According to embodiments, generating one of the additional tokens comprises using one of the field values of the additional data set in its entirety as the corresponding additional token. It is entirely possible that the index also contains tokens from fields to which no tokenization is applied or whose content simply cannot be divided into individual tokens. According to embodiments, generating one of the additional tokens comprises dividing one of the additional field values of the additional data record into a plurality of subfield values and using one of the subfield values as the corresponding additional token. Embodiments can have the advantage that the granularity of the data used or the tokenization can be adapted independently of the granularity of the fields.

Nach Ausführungsformen speichert der Index sämtliche aus den Feldwerten der ge speicherten Datensätze erzeugten Token so, dass der Index jedes Token für jede der Token-Zuordnungen des entsprechenden Tokens genau einmal enthält. According to embodiments, the index stores all tokens generated from the field values of the stored data records in such a way that the index contains each token exactly once for each of the token assignments of the corresponding token.

Nach Ausführungsformen ist das weitere Datenmodell so strukturiert, dass die in dem weiteren Datenmodell gespeicherten Token und Token-Zuordnungen des In dex die fünfte und/oder sechste Normalform erfüllen. Ausführungsformen können den Vorteil haben, dass Redundanzen vermieden werden können. According to embodiments, the further data model is structured in such a way that the tokens and token assignments of the index stored in the further data model meet the fifth and / or sixth normal form. Embodiments can have the advantage that redundancies can be avoided.

Nach Ausführungsformen können die Token, die Klassen-Zuordnungen und die Zu ordnung zu den Trigger-Definitionen in Form von Relationen oder äquivalenten Strukturen gespeichert sein. Unter einer Relation wird hier im Sinn der relationalen Datenbanktheorie eine Menge von Tupel. Ein Tupel ist eine Menge von Attributwer ten. Ein Attribut bezeichnet einen Datentyp bzw. eine ein oder mehreren Daten zu geordnete Eigenschaft. Dabei bestimmt die Anzahl der Attribute den Grad, die An zahl der Tupel die Kardinalität einer Relation. Unter einer Normalisierung, insbesondere unter einer Normalisierung eines relatio nales Datenmodells, wird eine Aufteilung von Attributen in eine Mehrzahl von Relati onen gemäß einer Normalisierungsregeln verstanden, sodass Redundanzen redu ziert bzw. minimiert werden. Ein relationales Datenmodell lässt sich beispielsweise in tabellenartigen Datenstrukturen implementieren, in denen die Relationen in Form von Tabellen, die Attribute in Form von Tabellenspalten und die Tupel in Form von Tabellenzeilen realisiert sind. According to embodiments, the tokens, the class assignments and the assignment to the trigger definitions can be stored in the form of relations or equivalent structures. In the sense of relational database theory, a relation is a set of tuples. A tuple is a set of attribute values. An attribute designates a data type or a property that is assigned to one or more data. The number of attributes determines the degree, the number of tuples the cardinality of a relation. Normalization, in particular normalization of a relational data model, is understood to mean a division of attributes into a plurality of relationships according to a normalization rule, so that redundancies are reduced or minimized. A relational data model can be implemented, for example, in table-like data structures in which the relations are implemented in the form of tables, the attributes in the form of table columns and the tuples in the form of table rows.

Datenredundanzen haben die Gefahr, dass es bei Änderungen von Daten, welche mehrfach umfasst sind, zu Inkonsistenzen kommen kann und Anomalien auftreten. Ferner steigt durch Redundanzen unnötiger Weise der Speicherplatzbedarf. Durch eine Normalisierung können solche Redundanzen verringert bzw. minimiert werden. Ein relationales Datenmodell kann beispielsweise in eine Normalform gebracht wer den, indem die Relationen des Datenschemas fortschreitend anhand der für die ent sprechende Normalform geltenden funktionalen Abhängigkeiten in einfachere Rela tionen zerlegt. Data redundancies run the risk of inconsistencies and anomalies occurring when data is changed that is multiple times. Furthermore, redundancies unnecessarily increase the storage space requirement. Such redundancies can be reduced or minimized by normalization. A relational data model can be brought into a normal form, for example, in that the relations of the data schema are progressively broken down into simpler relations based on the functional dependencies applicable to the corresponding normal form.

Es können beispielsweise folgende Normalformen unterschieden werden: 1 . Nor malform (1 NF), 2. Normalform (2NF), 3. Normalform (3NF), Boyce-Codd-Normal- form (BCNF), 4. Normalform (4NF), 5. Normalform (5NF), 6. Normalform (6NF).For example, the following normal forms can be distinguished: 1. Normal form (1 NF), 2nd normal form (2NF), 3rd normal form (3NF), Boyce-Codd normal form (BCNF), 4th normal form (4NF), 5th normal form (5NF), 6th normal form ( 6NF).

Die Normalisierungskriterien nehmen dabei von Normalform zu Normalform zu und umfassen jeweils die Normalisierungskriterien der vorhergehenden Normalformen, d.h. 1 NF c 2NF <= 3NF <= BCNF <= 4NF <= 5NF <= 6NF. The normalization criteria increase from normal form to normal form and each include the normalization criteria of the previous normal forms, i.e. 1 NF c 2NF <= 3NF <= BCNF <= 4NF <= 5NF <= 6NF.

Eine Relation ist in der ersten Normalform, falls jedes Attribut der Relation einen atomaren Wertebereich besitzt und die Relation frei von Wiederholungsgruppen ist. Unter atomar wird hier ein Ausschluss von zusammengesetzten, mengenwertigen oder geschachtelten Wertebereichen für die Attribute, d.h. relationenwertigen Attri butwertebereichen, verstanden. Eine Freiheit von Wiederholungsgruppen erfordert es, dass Attribute, die gleiche bzw. gleichartige Information enthalten, in unter schiedliche Relationen ausgelagert werden. Eine Relation ist in der zweiten Normalform, wenn sie die Anforderungen der ersten Normalform erfüllt und kein Nichtprimärattribut funktional von einer echten Teil menge eines Schlüsselkandidaten abhängt. Ein Nichtprimärattribut ist ein Attribut, welches nicht Teil eines Schlüsselkandidaten ist. Das bedeutet, dass jedes Nichtpri märattribut jeweils von allen ganzen Schlüsseln abhängig und nicht nur von einem Teil eines Schlüssels. Relationen in der ersten Normalform, deren Schlüsselkandi daten nicht zusammengesetzt sind, sondern aus jeweils einem einzelnen Attribut bestehen, erfüllen mithin automatisch die zweite Normalform. Unter einem Schlüs selkandidaten wird hierbei eine minimale Menge von Attributen verstanden, welche die Tupel einer Relation eindeutig identifiziert. A relation is in the first normal form if each attribute of the relation has an atomic range of values and the relation is free of repeating groups. Here, atomic is understood to mean an exclusion of composite, quantity-valued or nested value ranges for the attributes, ie relation-valued attribute value ranges. Freedom from repeating groups requires that attributes that contain the same or similar information are relocated to different relations. A relation is in the second normal form if it meets the requirements of the first normal form and no non-primary attribute is functionally dependent on a real subset of a key candidate. A non-primary attribute is an attribute that is not part of a key candidate. This means that each non-primary attribute is dependent on all whole keys and not just on part of a key. Relations in the first normal form, the key candidate data of which is not composed but consist of a single attribute, therefore automatically satisfy the second normal form. A key candidate is understood here to be a minimal set of attributes which uniquely identify the tuples of a relation.

Eine Relation ist in der dritten Normalform, wenn sie die Anforderungen der zweiten Normalform erfüllt und kein Nichtschlüsselattribut von einem Schlüsselkandidaten transitiv abhängt. Ein Attribut ist von einem Schlüsselkandidaten transitiv abhängig, wenn das entsprechende Attribut von dem entsprechenden Schlüsselkandidaten über ein weiteres Attribut abhängig ist. A relation is in the third normal form if it fulfills the requirements of the second normal form and no non-key attribute depends transitively on a key candidate. An attribute is transitively dependent on a key candidate if the corresponding attribute is dependent on the corresponding key candidate via a further attribute.

Eine Relation ist in der Boyce-Codd-Normalform, wenn sie die Anforderungen der dritten Normalform erfüllt und jede Determinante ein Superschlüssel ist. Unter einer Determinante wird hier eine Attributmenge verstanden, von welcher andere Attribute funktional abhängen sind. Eine Determinante beschreibt somit die Abhängigkeit zwi schen Attributen einer Relation und legt fest, welche Attributmengen den Wert der übrigen Attribute bestimmen. Ein Superschlüssel ist eine Menge von Attributen in ei ner Relation, welche die Tupel in dieser Relation eindeutig identifizieren. Mithin um fassen die Attribute dieser Menge bei paarweise ausgewählten Tupeln immer unter schiedliche Werte. Schlüsselkandidat ist mithin eine minimale Teilmenge der Attri bute eines Superschlüssels, welche die Identifizierung der Tupel ermöglicht. A relation is in Boyce-Codd normal form if it meets the requirements of the third normal form and every determinant is a super key. A determinant is understood here to be a set of attributes on which other attributes are functionally dependent. A determinant thus describes the dependency between the attributes of a relation and defines which attribute sets determine the value of the other attributes. A super key is a set of attributes in a relation which uniquely identify the tuples in this relation. The attributes of this set therefore always include different values for tuples selected in pairs. The key candidate is therefore a minimal subset of the attributes of a super key, which enables the tuple to be identified.

Eine Relation ist in der vierten Normalform, wenn sie die Anforderungen der Boyce- Codd-Normalform erfüllt und keine nichttrivialen mehrwertigen Abhängigkeiten um fasst. Eine Relation ist in der fünften Normalform, wenn sie die Anforderungen der vierten Normalform erfüllt und keine mehrwertigen Abhängigkeiten umfasst, die voneinan der abhängig sind. Die fünfte Normalform liegt somit vor, falls jeder nichttriviale Ver bund-Abhängigkeit durch die Schlüsselkandidaten impliziert ist. Eine Verbund-Ab hängigkeit ist durch die Schlüsselkandidaten der Ausgangsrelation impliziert, wenn jede Relation der Menge von Relationen ein Superschlüssel der Ausgangsrelation ist. A relation is in the fourth normal form if it fulfills the requirements of the Boyce-Codd normal form and does not include any nontrivial multivalued dependencies. A relation is in the fifth normal form if it fulfills the requirements of the fourth normal form and does not include any multi-valued dependencies that are dependent on one another. The fifth normal form is thus present if every nontrivial composite dependency is implied by the key candidates. A link dependency is implied by the key candidates of the output relation if each relation of the set of relations is a super key of the output relation.

Eine Relation ist in der sechsten Normalform, wenn sie die Anforderungen der fünf ten Normalform erfüllt und keine nichttrivialen Verbund-Abhängigkeiten umfasst. Eine Relation genügt einer Verbund-Abhängigkeit (join dependency) von einer Mehrzahl von Relationen, falls sich die Relation als Ausgangsrelation verlustlos in die entsprechende Menge von Relationen zerlegen lässt. Die Verbund-Abhängigkeit ist trivial, falls eine der Relationen der Menge von Relationen alle Attribute der Aus gangsrelation aufweist. A relation is in the sixth normal form if it fulfills the requirements of the fifth normal form and does not include any nontrivial join dependencies. A relation is sufficient for a join dependency of a plurality of relations if the relation as the starting relation can be broken down into the corresponding set of relations without loss. The compound dependency is trivial if one of the relations of the set of relations has all the attributes of the starting relation.

Nach Ausführungsformen handelt es sich zumindest bei dem von dem Multi-Modell- Datenbankmanagementsystem zum Speichern der Datensätze verwendeten doku- mentenbasierten Datenmodellen um ein NoSQL-Datenmodellen. Nach Ausfüh rungsformen handelt es sich bei dem DBMS um ein NoSQL-DBMS. Dies kann vor teilhaft sein, dass da sich herausgestellt hat, dass insbesondere NoSQL-DBMS, die oftmals eine flexiblere Struktur aufweisen als klassische SQL-basierte DBMSs. Auf grund der Flexibilität ihrer Struktur eignen in sich NoSQL-DBMSs also ganz beson ders für die Verwaltung und Speicherung von Datensätzen, aus welchen ein Index gemäß Ausführungsformen der Erfindung erstellt werden kann. According to embodiments, at least the document-based data model used by the multi-model database management system to store the data sets is a NoSQL data model. According to embodiments, the DBMS is a NoSQL DBMS. This can be advantageous because it has been found that NoSQL DBMS in particular, which often have a more flexible structure than classic SQL-based DBMSs. Due to the flexibility of their structure, NoSQL DBMSs are therefore particularly suitable for the management and storage of data records from which an index can be created according to embodiments of the invention.

Nach Ausführungsformen weist der Index die Struktur eines Baums auf, insbeson dere eines B⁺-Baums. Ausführungsformen können den Vorteil haben, dass eine Baumstruktur insbesondere die Struktur eines B⁺-Baums, eine besonders effiziente und schnelle Suche nach den in dem Index gespeicherten Token ermöglicht. Unter einem B⁺-Baum wird eine Daten- und/oder Indexstruktur, welche eine Erweiterung eines B-Baumes darstellt. Bei einem B⁺-Baum werden die eigentlichen Datenelemente nur in den Blattknoten gespeichert, während die inneren Knoten le diglich Schlüssel enthalten. According to embodiments, the index has the structure of a tree, in particular a B ⁺ tree. Embodiments can have the advantage that a tree structure, in particular the structure of a B ⁺ tree, enables a particularly efficient and fast search for the tokens stored in the index. A B ⁺ tree is a data and / or index structure that is an extension of a B-tree. With a B ⁺ tree, the actual Data elements are only stored in the leaf nodes, while the inner nodes only contain keys.

Nach Ausführungsformen umfassen mehrerer der in einem dokumentenorientierten Datenmodell gespeicherten Datensätze jeweils eine unterschiedliche Anzahl an Fel der. Ausführungsformen können den Vorteil haben, dass Datensätze unterschiedli cher Größen und Strukturierung bzw. Granularität verarbeitet werden können. According to embodiments, several of the data records stored in a document-oriented data model each comprise a different number of fields. Embodiments can have the advantage that data sets of different sizes and structures or granularity can be processed.

Nach Ausführungsformen weisen die Felder jeweils ein gemeinsames, generisches Datenformat auf. Ausführungsformen können den Vorteil haben, dass, da in einem bestimmten Feld eine große Anzahl an unterschiedlichen Datentypen gespeichert werden können. Ein Nutzer bzw. ein Applikationsprogramm, welches Datensätze in der Datenbank speichern will, muss sich also nicht um die Konsistenz und Passung von Datentypen kümmern. Mithin wird kann ein hoher Grad an Flexibilität bezüglich der Struktur und des Umfangs der Datensätze, die von dem Multi-Modell-Daten- bankmanagementsystem verwaltet und gespeichert werden können, geboten wer den. According to embodiments, the fields each have a common, generic data format. Embodiments can have the advantage that since a large number of different data types can be stored in a specific field. A user or an application program who wants to save data records in the database does not have to worry about the consistency and fit of data types. A high degree of flexibility with regard to the structure and the scope of the data records that can be managed and stored by the multi-model database management system is therefore offered.

Nach Ausführungsformen ist das Lernmodul bzw. das von diesem implementierte maschinelle Lernen konfiguriert für eine Datenextraktion, Konsistenzprüfung, Bilder kennung, Spracherkennung, Sprachsteuerung, Vorrichtungsüberwachung und/oder autonome Vorrichtungssteuerung. Dies kann beispielsweise bereits in der Klassifi zierung der Token bestehen, wobei der Auffangklasse als unbekannte Daten zuge ordnete Token beispielsweise als ein Hinweis etwa auf eine potentielle Fehlfunktion betrachtet werden. Beispielsweise kann dies auf dem Index mit den Token und de ren Meta- bzw. Kontextinformationen beruhen, welche als Grundlage für einen da rauf angewandten zusätzlichen Algorithmus zum maschinellen Lernen dienen. Nach Ausführungsformen wird hierzu die Auffangklasse durch ein Ergänzen zusätzlicher Trigger-Definitionen geleert, sodass zu allen Token des Datenbanksystems Meta- bzw. Kontextinformationen bereitgestellt werden. Eine Datenextraktion kann beispielsweise ein Erkennen und Extrahieren eines Mus ters in einer Text-, Bild-, Audio- oder Videodatei umfassen. Dieses Muster kann bei spielsweise durch eine Trigger-Definition definiert sein oder in den klassifizierten Daten erfasst werden. Ein entsprechendes Muster kann beispielsweise ein vorbe stimmtes in Form von Sensorwerten erfasstes Ereignis sein, etwa eine Person in ei nem Wirkbereich einer Vorrichtung. According to embodiments, the learning module or the machine learning implemented by it is configured for data extraction, consistency checking, image recognition, speech recognition, voice control, device monitoring and / or autonomous device control. This can, for example, already consist in the classification of the tokens, with tokens assigned to the collection class as unknown data being viewed, for example, as an indication of a potential malfunction. For example, this can be based on the index with the tokens and their meta or context information, which serve as the basis for an additional algorithm for machine learning applied thereon. According to embodiments, for this purpose, the collection class is emptied by adding additional trigger definitions, so that meta or context information is provided for all tokens of the database system. Data extraction can include, for example, recognizing and extracting a pattern in a text, image, audio or video file. This pattern can, for example, be defined by a trigger definition or it can be recorded in the classified data. A corresponding pattern can be, for example, a predetermined event recorded in the form of sensor values, for example a person in an effective range of a device.

Eine Konsistenzprüfung kann beispielsweise eine Konsistenzprüfung in einer Text-, Bild-, Audio- oder Videodatei umfassen. Hierbei wird beispielsweise geprüft, ob die entsprechenden Daten unbekannte und damit inkonsistente Daten umfassen, von den restlichen Daten stark abweichende Daten oder als inkonsistent explizit vordefi nierte Daten umfassen. Eine entsprechende Konsistenzprüfung kann beispielsweise zur Fehlerprüfung von Steuerungsalgorithmen von Vorrichtungen dienen, zur Fehl funktionserkennung unter Verwendung von Messdaten einer Funktion einer Vorrich tung oder zum Erkennen von Fehlern in Textdateien, etwa in Form einer Recht schreibprüfung. A consistency check can include, for example, a consistency check in a text, image, audio or video file. In this case, it is checked, for example, whether the corresponding data include unknown and thus inconsistent data, include data that deviate significantly from the remaining data or include data that is explicitly predefined as inconsistent. A corresponding consistency check can be used, for example, to check for errors in control algorithms of devices, to detect malfunctions using measurement data from a function of a device, or to detect errors in text files, for example in the form of a spell check.

Eine Bilderkennung kann einem Erkennen von Gegenständen, Ereignissen oder Merkmalen in Bild- oder Videodateien dienen. Beispielsweise werden Kontextinfor mationen zu dem visuell Dargestellten erfasst und/oder dargestellt. Dies kann bei spielsweise eine visuelle Darstellung von Informationen, also die Ergänzung von Bil dern oder Videos mit computergenerierten Zusatzinformationen oder virtuellen Ob jekten mittels Einblendung/Überlagerung, umfassen. Ein solches Verfahren wird all gemeine als erweiterter Realität oder Augmented Reality bezeichnet. Ferner kann eine Bilderkennung auf annotierten Bild- oder Videodateien basieren. Image recognition can be used to recognize objects, events or features in image or video files. For example, context information on what is visually represented is recorded and / or displayed. This can include, for example, a visual display of information, that is, the addition of images or videos with computer-generated additional information or virtual objects by means of fading in / overlaying. Such a method is generally referred to as augmented reality. Furthermore, image recognition can be based on annotated image or video files.

Eine Spracherkennung kann einem Erkennen von Sprache in Audiodateien oder Vi deodateien, etwa zur Sprachsteuerung oder zum Überführen von Sprache in Text form, dienen. Speech recognition can be used to recognize speech in audio files or video files, for example for voice control or for converting speech into text.

Eine Mustererkennung in Text-, Bild-, Audio- oder Videodatei kann einer Vorrich tungsüberwachung dienen. Insbesondere können so auftretende oder drohende Fehlfunktionen erkannt werden. Dies kann der Sicherheit dienen und ermöglicht eine vorausschauende Wartung (Predictiv Maintenance) der entsprechenden Vor richtung, da potentielle Probleme frühzeitig erkannt werden können. Bei einer ent sprechenden Textdatei handelt es sich beispielswiese um einen Datensatz mit Sen sormesswerten. Basierend auf einer Vorrichtungsüberwachung kann zudem eine autonome Vorrichtungssteuerung implementiert werden, etwa eine autonome Steu erung von Fahrzeugen, Robotern oder Industrieanlagen. Pattern recognition in text, image, audio or video files can be used for device monitoring. In particular, it can be occurring or threatening Malfunctions are detected. This can be used for safety and enables predictive maintenance of the corresponding device, since potential problems can be identified early on. A corresponding text file is, for example, a data record with sensor measured values. Based on a device monitoring, an autonomous device control can also be implemented, for example an autonomous control of vehicles, robots or industrial plants.

Unter einer„Vorrichtung“ wird hier allgemein eine technische Vorrichtung verstan den mit Sensoren zur Erfassung von Zustandsdaten der Vorrichtung und einem Vor richtungscomputersystem zum Protokollieren der erfassten Zustandsdaten. Die Vor richtung kann auch in dem entsprechenden Computersystem mit Sensorik beste hen. Beispielsweise handelt es sich bei den empfangenen Datensätzen um von ei ner Vorrichtungscomputersystem unter Verwendung der Sensoren erfasste Daten sätze. Computersystem zum maschinellen Lernen Eine Vorrichtung umfasst bei spielsweise ein Fahrzeug, eine Anlage, wie etwa eine Produktionsanlage, eine Ver arbeitungsanlage, eine Förderanlage, eine Energiegewinnungsanlage, eine Wärme gewinnungsanlage, eine Steuerungsanlage, eine Überwachungsanlage, etc. sein. A “device” is generally understood here to mean a technical device with sensors for capturing status data of the device and a device computer system for logging the captured status data. The device can also exist in the corresponding computer system with sensors. For example, the received data sets are data sets acquired by a device computer system using the sensors. Computer system for machine learning A device comprises, for example, a vehicle, a system such as a production system, a processing system, a conveyor system, an energy generation system, a heat generation system, a control system, a monitoring system, etc.

Unter einem„Fahrzeug“ wird hier ein mobiles Verkehrsmittel verstanden. Ein sol ches Verkehrsmittel kann beispielsweise dem Transport von Gütern (Güterverkehr), von Werkzeugen (Maschinen oder Hilfsmittel) oder Personen (Personenverkehr) dienen. Fahrzeuge umfassen insbesondere auch motorisierte Verkehrsmittel. Bei ei nem Fahrzeug kann es sich beispielsweise um ein Landfahrzeug, ein Wasserfahr zeug und/oder ein Luftfahrzeug handeln. Ein Landfahrzeug kann beispielsweise sein: ein Automobil, wie etwa ein Personenkraftwagen, Omnibus oder ein Lastkraft wagen, ein motorbetriebenes Zweirad, wie etwa ein Motorrad, Kleinkraftrad, Motor roller oder Motorfahrrad, ein landwirtschaftlicher Traktor, Gabelstapler, Golfmobil, Autokran. Darüber hinaus kann es sich bei einem Landfahrzeug auch um ein Schie nen gebundenes Fahrzeug handeln. Wasserfahrzeug kann beispielsweise sein: ein Schiff oder Boot. Ferner kann ein Luftfahrzeug beispielsweise sein: ein Flugzeug oder Hubschrauber. Unter einem Fahrzeug wird insbesondere auch ein Kraftfahr zeug verstanden. A “vehicle” is understood here to mean a mobile means of transport. Such a means of transport can be used, for example, to transport goods (goods traffic), tools (machines or auxiliary equipment) or people (passenger traffic). Vehicles in particular also include motorized means of transport. A vehicle can, for example, be a land vehicle, a water vehicle and / or an aircraft. A land vehicle can be, for example: an automobile such as a passenger car, bus or truck, a motor-driven two-wheeler such as a motorcycle, moped, motor scooter or motorcycle, an agricultural tractor, forklift, golf cart, truck crane. In addition, a land vehicle can also be a rail-bound vehicle. For example, watercraft can be: a ship or boat. Furthermore, an aircraft can be, for example: an airplane or helicopter. A vehicle is also understood to mean, in particular, a motor vehicle.

Nach Ausführungsformen umfasst die Vorrichtung zumindest einen Sensor zum Er fassen von Zustandsdaten der Vorrichtung. Die Zustandsdaten der Vorrichtung wer den durch das Vorrichtungscomputersystem von dem zumindest einen Sensor emp fangen. Nach Ausführungsformen umfasst die Vorrichtung eine Mehrzahl von Sen soren zum Erfassen von Zustandsdaten der Vorrichtung. Ausführungsformen kön nen den Vorteil haben, dass die vorrichtungseigene Sensorik genutzt werden kann, um den Zustand der Vorrichtung zu erfassen. Der Zustand der Vorrichtung kann beispielsweise beschrieben werden durch Angaben zu Kenngrößen des aktuellen Leistungsvermögens der Vorrichtung, wie etwa Kilometerstand bei einem Fahrzeug, Verbrauchswerte, Leistungswerte, Fehlermeldungen, Ergebnisse vordefinierter Prüf protokolle und/oder Kennungen von Komponenten der Vorrichtung. According to embodiments, the device comprises at least one sensor for detecting status data of the device. The status data of the device are received by the device computer system from the at least one sensor. According to embodiments, the device comprises a plurality of sensors for acquiring status data of the device. Embodiments can have the advantage that the device's own sensor system can be used to detect the state of the device. The state of the device can, for example, be described by information on parameters of the current performance of the device, such as the mileage of a vehicle, consumption values, performance values, error messages, results of predefined test protocols and / or identifiers of components of the device.

Kenngrößen des aktuellen Leistungsvermögens eines Fahrzeugs können zum Bei spiel Drehzahl, Geschwindigkeit, Kraftstoffverbrauch, Abgaswerte, Getriebegang sein. Parameters of the current performance of a vehicle can be, for example, engine speed, speed, fuel consumption, exhaust gas values, and transmission gear.

Unter einem„Sensor“ wird hier ein Element zum Erfassen von Messdaten verstan den. Messdaten sind Daten, welche physikalische oder chemische Eigenschaften eines Messobjekts, wie beispielsweise Wärmemenge, Temperatur, Feuchtigkeit, Druck, Durchflussmenge, Schallfeldgrößen, Helligkeit, Beschleunigung, pH-Wert, lo- nenstärke, elektrochemisches Potential, und/oder dessen stoffliche Beschaffenheit qualitativ oder quantitativ wiedergeben. Messdaten werden mittels physikalischer o- der chemischer Effekte erfasst und in ein elektronisch weiterverarbeitbares elektri sches Signal umgeformt. Ferner können Messdaten Zustände und/oder Zustands änderung von elektronischen Geräten durch Außeneinflüsse und/oder in Folge einer Benutzung durch einen Nutzer wiedergeben. A “sensor” is understood here to mean an element for recording measurement data. Measurement data are data which physical or chemical properties of a measurement object, such as amount of heat, temperature, humidity, pressure, flow rate, sound field sizes, brightness, acceleration, pH value, ion strength, electrochemical potential, and / or its material properties qualitatively or quantitatively reproduce. Measurement data are recorded using physical or chemical effects and converted into an electronic signal that can be further processed electronically. Furthermore, measurement data can reflect states and / or changes in state of electronic devices due to external influences and / or as a result of use by a user.

Sensoren zum Erfassen von Zustandsdaten in einem Fahrzeug können beispiels weise umfassen: Kurbelwellensensor, Nockenwellensensor, Luftmassenmesser, Lufttemperatursensor, Kühlwassertemperatursensor, Drosselklappensensor, Klopfsensor, Getriebesensor, Wegstreckensensor, Getriebesensor, Niveausensor, Bremsverschleißsensor, Achslastsensor, Lenkwinkelsensor. Diese Sensoren erfas sen und überwachen das Fahrverhalten des Fahrzeugs. Aus Abweichungen von Sollwerten und/oder einem Auftreten von bestimmten Mustern lassen sich Fehlfunk tionen erkennen und identifizieren. Teils lassen sich auch konkrete Fehlerursachen, wie ausgefallene Komponenten des Fahrzeugs, identifizieren. Sensoren können zu dem auch Kennungen elektronischer Komponenten, die in das Fahrzeug eingebaut sind abfragen, um deren Identität zu prüfen. Sensors for capturing status data in a vehicle can include, for example: crankshaft sensors, camshaft sensors, air mass sensors, Air temperature sensor, cooling water temperature sensor, throttle valve sensor, knock sensor, transmission sensor, distance sensor, transmission sensor, level sensor, brake wear sensor, axle load sensor, steering angle sensor. These sensors record and monitor the driving behavior of the vehicle. Malfunctions can be recognized and identified from deviations from target values and / or the occurrence of certain patterns. In some cases, specific causes of errors, such as failed vehicle components, can also be identified. Sensors can also query the identifiers of electronic components that are installed in the vehicle in order to check their identity.

Ausführungsformen umfassen ein Computersystem zum maschinellen Lernen, wo bei das Computersystem ein oder mehrere Prozessoren, eine Datenbank, welche von ein oder mehrere Datenspeichermedien bereitgestellt wird, ein Multi-Modell-Da- tenbankmanagementsystem, welches die Datenbank verwaltet und dazu konfigu riert ist, eine Mehrzahl von Datensätze in einem dokumentenorientierten Datenmo dell in den Datenspeichermedien zu speichern, wobei die gespeicherten Datensätze jeweils ein oder mehreren Feldwerte umfassen, wobei die einzelnen Feldwerte der gespeicherten Datensätze jeweils in einem Feld gespeichert werden, wobei die Feldwerte der gespeicherten Datensätze jeweils ein oder mehreren Feldtypen einer Mehrzahl unterschiedlicher Feldtypen zugeordnet sind, ein vortrainiertes Lernmodul zum maschinellen Lernen und eine Programmlogik umfasst. Embodiments include a computer system for machine learning, where the computer system has one or more processors, a database provided by one or more data storage media, a multi-model database management system which manages the database and is configured to do so of data records in a document-oriented data model in the data storage media, the stored data records each comprising one or more field values, the individual field values of the stored data records being stored in a field, the field values of the stored data records each having one or more field types A plurality of different field types are assigned, a pre-trained learning module for machine learning and a program logic comprises.

Die Datenbank umfasst ferner einen durchsuchbaren Index, welcher in einem weite ren Datenmodell gespeichert ist, wobei der Index eine Mehrzahl von aus den Feld werten der gespeicherten Datensätze erzeugten Token umfasst, wobei Token in dem Index jeweils mit einem oder mehreren Zeigern auf ein oder mehrere der in dem dokumentenorientierten Datenmodell gespeicherten Datensätze verknüpft ist, aus deren Feldwerten das entsprechende Token erzeugt wurde. The database further comprises a searchable index which is stored in a further data model, the index comprising a plurality of tokens generated from the field values of the stored data records, with tokens in the index each having one or more pointers to one or more of the data records stored in the document-oriented data model are linked, from whose field values the corresponding token was generated.

Erste Token in dem Index, welche von einer der Trigger-Definitionen als Trigger um fasst sind, sind jeweils der entsprechen Trigger-Definition zugeordnet, wobei zweite Token in dem Index jeweils ein oder mehreren Klassen der ersten Gruppe von Klassen zugeordnet sind und wobei die verbleibenden Token in dem Index zum Kennzeichnen der entsprechenden verbleibenden Token als unbekannte Daten ei ner Auffangklasse zugeordnet sind, wobei die Zuordnung zu der Auffangklasse eine Zuordnung zu einer der Trigger-Definitionen ebenso wie eine Zuordnung zu einer der Klassen der ersten Gruppe von Klassen ausschließt. First tokens in the index, which are included in one of the trigger definitions as triggers, are each assigned to the corresponding trigger definition, with second tokens in the index each being one or more classes of the first group of Classes are assigned, and the remaining tokens in the index for identifying the corresponding remaining tokens as unknown data are assigned to a trap class, the assignment to the trap class being an assignment to one of the trigger definitions as well as an assignment to one of the classes of the first Excludes group of classes.

Die Programmlogik ist zum Ausführen eines Verfahrens zum maschinellen Lernen konfiguriert ist. Das Verfahren umfasst: The program logic is configured to carry out a method for machine learning. The procedure includes:

• Zuordnen der verbleibenden zusätzlichen Token, für welche keine Zuordnung zu einer der Trigger-Definitionen und keine Klassenzuordnung aufgrund einer der Trigger-Definitionen erfolgt ist, zu der Auffangklasse, • Assignment of the remaining additional tokens, for which no assignment to one of the trigger definitions and no class assignment has been made based on one of the trigger definitions, to the collection class,

• Ergänzen des Index durch das Multi-Modell-Datenbankmanagementsystem unter Verwendung der zusätzlichen Token, der Klassenzuordnungen der zu sätzlichen Token und eines Zeigers auf den zusätzlichen in dem dokumenten orientierten Datenmodell gespeicherten Datensatz. Nach Ausführungsformen ist das Computersystem dazu konfiguriert eine oder meh rere der zuvor genannten Ausführungsformen des Verfahrens zum maschinellen Lernen auszuführen. • Supplementing the index by the multi-model database management system using the additional tokens, the class assignments of the additional tokens and a pointer to the additional data set stored in the document-oriented data model. According to embodiments, the computer system is configured to execute one or more of the aforementioned embodiments of the method for machine learning.

Ausführungsformen können den Vorteil haben, dass sie ein selbstlernendes System zu schaffen, welches auf allen Daten der Datenbank arbeitet, keinen Zufall in dem Entscheidungs- bzw. Klassifizierungsprozess verwendet und initiale festgelegte Trigger verwendet um empfangene Daten zu klassifizieren. Nach Ausführungsfor men erlaubt das System ferner jederzeit, d.h. auch nach einer initialen Anlernphase, externe Eingriffe in die Entscheidungsfindungsprozesse. Embodiments can have the advantage that they create a self-learning system which works on all data in the database, does not use any randomness in the decision-making or classification process, and uses initial defined triggers to classify received data. According to embodiments, the system also allows at any time, i.e. Even after an initial learning phase, external interventions in the decision-making processes.

Das Computersystem stellt ein System zum maschinellen Lernen auf Basis einer Datenbank bereit, welches unter Verwendung initial festgelegte Trigger-Definitionen beliebige Daten in bekannte Klassen und in Unbekanntes unterteilt. Durch die Zu ordnung zu bekannten Klassen werden Meta- bzw. Kontextinformationen in den Da tensätzen identifiziert. Der bereitgestellte Index ermöglicht effizient Suchverfahren und/oder maschinelle Lernverfahren auf den von den Datensätzen umfassten Daten laufen zu lassen. Dies kann ohne expliziten Zugriff auf die Datensätze erfolgen, d.h. ausschließlich auf dem Index, oder mit einem expliziten Zugriff auf relevante Da tensätze anhand von Zeigern, welche mit in dem Index identifizierten Token ver knüpft sind. The computer system provides a system for machine learning on the basis of a database, which divides any data into known classes and unknowns using initially defined trigger definitions. Due to the assignment to known classes, meta or context information is identified in the data records. The index provided enables search processes and / or machine learning processes to run efficiently on the data comprised by the data records. This can be done without explicit access to the data records, i.e. exclusively on the index, or with explicit access to relevant data records based on pointers which are linked to tokens identified in the index.

Im Weiteren werden Ausführungsformen der Erfindung mit Bezugnahme auf die Zeichnungen näher erläutert. Es zeigen: In the following, embodiments of the invention are explained in more detail with reference to the drawings. Show it:

Figur 1 ein schematisches Blockdiagramm einer Ausführungsform eines Figure 1 is a schematic block diagram of an embodiment of a

exemplarischen Computersystems, exemplary computer system,

Figur 2 ein schematisches Blockdiagramme einer exemplarischen Datenverar beitung durch das Multi-Modell-Datenbankmanagementsystem, Figure 2 is a schematic block diagram of an exemplary data processing by the multi-model database management system,

Figur 3 ein schematisches Blockdiagramme einer exemplarischen Datenverar beitung durch das Multi-Modell-Datenbankmanagementsystem, Figur 4 ein schematisches Blockdiagramm einer Ausführungsform eines exemplarischen Computersystems, Figure 3 is a schematic block diagram of an exemplary data processing by the multi-model database management system, FIG. 4 is a schematic block diagram of an embodiment of an exemplary computer system,

Figur 5 ein Flussdiagramm einer Ausführungsform eines exemplarischen Ver fahrens, FIG. 5 shows a flow chart of an embodiment of an exemplary method,

Figur 6 ein Flussdiagramm einer Ausführungsform eines exemplarischen Ver fahrens, FIG. 6 shows a flow chart of an embodiment of an exemplary method,

Figur 7 ein Flussdiagramm einer Ausführungsform eines exemplarischen Ver fahrens, FIG. 7 shows a flow chart of an embodiment of an exemplary method,

Figur 8 ein Flussdiagramm einer Ausführungsform eines exemplarischen Ver fahrens und FIG. 8 shows a flow chart of an embodiment of an exemplary method and FIG

Figur 9 ein Flussdiagramm einer Ausführungsform eines exemplarischen Ver fahrens. FIG. 9 shows a flow diagram of an embodiment of an exemplary method.

Elemente der nachfolgenden Ausführungsformen, die einander entsprechen, werden mit denselben Bezugszeichen gekennzeichnet. Elements of the following embodiments that correspond to one another are identified by the same reference symbols.

Figur 1 zeigt ein Blockdiagramm einer Ausführungsform eines exemplarischen Computersystems 100 zum maschinellen Lernen. Das Computersystems 100 um fasst zumindest eine Datenbank 104 und ein Multi-Modell-Datenbankmanagement- system (MM-DBMS) 1 18. Das MM-DBMS 1 18 verwaltet die, ggf. strukturierte, Spei cherung der Daten in der zumindest einen Datenbank 104 und kontrolliert alle le senden und schreibenden Zugriffe auf die Datenbank 104. Die MM-DBMS 1 18 un terstützt zumindest zwei Datenmodelle 106, 1 10, in welchen die Daten in der Daten bank 104 gespeichert werden. Dabei legt das Datenbankmodell fest, in welcher Form die entsprechenden Daten organisiert, gespeichert und bearbeitet werden. Bei einem oder beiden Datenmodellen 106, 1 10 handelt es sich um NoSQL Datenmo delle. In dieser Hinsicht handelt es sich bei dem MM-DBMS 1 18 um ein NoSQL DBMS. Das erste Datenmodell 106 ist ein dokumentenbasiertes Datenmodell, in welchem eine Mehrzahl von Datensätzen DS1 , DS2, DS3 gespeichert sind. Jeder Datensatz DS1 , DS2, DS3 wird in einem Dokument bzw. einem Datencontainer ge speichert. Den Datensätzen DS1 , DS2, DS3 selbst wird beim Speichern von dem dokumentenbasiertes Datenmodell 106 keine spezifische Struktur vorgegeben. Mithin können die Datensätzen DS1 , DS2, DS3 mit der internen Struktur gespei chert werden, mit welcher die Datensätzen DS1 , DS2, DS3 von der Datenbank 104 empfangen werden. Insofern handelt es sich bei den in dem dokumentenbasiertes Datenmodell 106 gespeicherten Datensätzen DS1 , DS2, DS3 um Rohdaten. Die Datensätze DS1 , DS2, DS3 können beispielsweise Textdaten, Bilddaten, Audioda- ten und/oder Videodaten umfassen. Die Datensätze DS1 , DS2, DS3 umfassen je weils zumindest ein Feld F 1 , ... , F8, mit Feldwerten. Die Datensätze DS1 , DS2,FIG. 1 shows a block diagram of an embodiment of an exemplary computer system 100 for machine learning. The computer system 100 comprises at least one database 104 and a multi-model database management system (MM-DBMS) 1 18. The MM-DBMS 1 18 manages the, possibly structured, storage of the data in the at least one database 104 and controls all transmission and writing access to the database 104. The MM-DBMS 1 18 supports at least two data models 106, 1 10, in which the data in the database 104 is stored. The database model defines the form in which the relevant data is organized, saved and processed. One or both data models 106, 1 10 are NoSQL data models. In this regard, the MM-DBMS 1 18 is a NoSQL DBMS. The first data model 106 is a document-based data model in which a plurality of data records DS1, DS2, DS3 are stored. Each data record DS1, DS2, DS3 is saved in a document or a data container. No specific structure is specified for the data records DS1, DS2, DS3 themselves when they are stored by the document-based data model 106. The data records DS1, DS2, DS3 can therefore be stored with the internal structure with which the data records DS1, DS2, DS3 are received from the database 104. In this respect, the data records DS1, DS2, DS3 stored in the document-based data model 106 are raw data. The data records DS1, DS2, DS3 can include, for example, text data, image data, audio data and / or video data. The data records DS1, DS2, DS3 each include at least one field F 1, ..., F8, with field values. The data records DS1, DS2,

DS3 können bereits eine innere Struktur mit einer Mehrzahl von Feldern F1 , ... , F8 aufweisen, wenn sie gespeichert werden. Dann umfassen die entsprechenden Da tensätze DS1 , DS2, DS3 jeweils eine Mehrzahl von Feld F1 , ... , F8. Weisen die Da tensätze DS1 , DS2, DS3 selbst bei ihrem Empfang keine Felder auf, so umfassen sie in gespeicherter Form jeweils beispielsweise genau ein Feld, welches den ge samten Datenumfang des entsprechenden Datensatzes DS1 , DS2, DS3 umfasst. Die Felder F 1 , ... , F8 umfassen jeweils ein oder mehrere Feldwerte. Jeder der Feld werte eines Datensatzes DS1 , DS2, DS3 ist in einem entsprechenden Feld, einer Art Datencontainer, gespeichert. Jedes Feld F1 , ... , F8 kann einem Feldtyp zuge wiesen sein. Dabei können die Felder F 1 , ... , F8 unterschiedlichen oder alle dem selben Feldtyp zugewiesen sein. Die Zusammensetzung der Feldwerte der einzel nen Datensätze DS1 , DS2, DS3 kann sich dabei im Flinblick auf deren Feldtypen unterscheiden. Es ist auch möglich das einzelne Datensätze gar keine Felder eines bestimmten Feldtyps beinhalten. In anderen Ausführungsformen (hier nicht gezeigt) können auch mandatorische Feldtypen definiert sein, d.h. dass jedes Dokument ein Feld für jeden mandatorischen Feldtyp umfasst und optional ein oder mehrere wei tere Felder für optionale Feldtypen umfasst. Die Daten der Datensätze werden dann in Feldern des für sie vorgesehenen Feldtyps gespeichert, d.h. z.B. Textdaten in ei nem oder mehreren Textfeldern, Bilddaten in einem oder mehreren Bildfeldern, Au- diodaten in einem oder mehreren Audiofeldern und/oder Videodaten in einem oder mehreren Videofeldern. DS3 can already have an internal structure with a plurality of fields F1, ..., F8 when they are stored. Then the corresponding data records DS1, DS2, DS3 each include a plurality of fields F1, ..., F8. If the data records DS1, DS2, DS3 do not have any fields even when they are received, they each include, for example, exactly one field in stored form which includes the entire data volume of the corresponding data record DS1, DS2, DS3. The fields F 1, ..., F8 each comprise one or more field values. Each of the field values of a data record DS1, DS2, DS3 is stored in a corresponding field, a type of data container. Each field F1, ..., F8 can be assigned to a field type. The fields F 1, ..., F8 can be assigned different or all of the same field type. The composition of the field values of the individual data records DS1, DS2, DS3 can differ in terms of their field types. It is also possible that individual data records do not contain any fields of a certain field type. In other embodiments (not shown here) mandatory field types can also be defined, i.e. that each document includes a field for each mandatory field type and optionally includes one or more additional fields for optional field types. The data of the data records are then stored in fields of the field type intended for them, i.e. e.g. Text data in one or more text fields, image data in one or more image fields, audio data in one or more audio fields and / or video data in one or more video fields.

Ferner umfasst das Computersystem 100 ein Lernmodul zum Verarbeiten der in der Datenbank 104 gespeicherten Daten. Das Lernmodul 120 umfasst beispielsweise zumindest einen Tokenisierer 120 zum Erzeugen von Token 109, Trigger- Definitionen 123, welche Trigger für eine Klassifizierung von Token 109 definieren, und/oder einen Klassifizierer 124, welcher die Token 109 unter Verwendung der Trigger-Definitionen 123 klassifiziert. Nach Ausführungsformen umfasst das Lern modul 120 ferner ein statistisches Modell 125. Das statistisches Modell 125 kann dazu konfiguriert sein, Trigger-Kombinationen zu erfassen und kombinierte Trigger- Definitionen zu erstellen, zusätzliche Trigger-Definitionen zu erstellen und/oder kor rigierte Trigger-Definition zu erstellen. Nach alternativen Ausführungsformen kann auch das MM-DBMS 118 den Tokenisierer 122 umfassen und/oder auf einen von dem Lernmodul 120 bereitgestellten Tokenisierer 122 zugreifen. Nach alternativen Ausführungsformen kann können die Trigger-Definitionen 123 auch in der Daten bank 104 gespeichert sein. The computer system 100 further comprises a learning module for processing the data stored in the database 104. The learning module 120 comprises, for example, at least one tokenizer 120 for generating tokens 109, trigger Definitions 123, which define triggers for a classification of tokens 109, and / or a classifier 124, which classifies the tokens 109 using the trigger definitions 123. According to embodiments, the learning module 120 further comprises a statistical model 125. The statistical model 125 can be configured to detect trigger combinations and to create combined trigger definitions, to create additional trigger definitions and / or to assign corrected trigger definitions create. According to alternative embodiments, the MM-DBMS 118 can also include the tokenizer 122 and / or access a tokenizer 122 provided by the learning module 120. According to alternative embodiments, the trigger definitions 123 can also be stored in the database 104.

Das MM-DBMS 118 und/oder das Lernmodul 120 verfügen dabei über eine einge baute Program logik, die zur Generierung eines Index 112 konfiguriert ist. Der ent sprechende Index 112 wird dabei in einem weiteren Datenmodell 110 bereitgestellt, in welchem die vollständigen Daten der Datensätze DS1 , DS2, DS3 in umstruktu rierter, redundanzfreier Form gespeichert sind. Zum Erzeugen des Index 112 wird auf den Tokenisierer 122 zugegriffen, welcher dazu konfiguriert ist, die Feldwerte der Feldern F1 , ... , F8 der in dem dokumentenbasierten Datenmodell 106 gespei cherten Datensätze 106 zu tokenisieren. Dabei können die resultierenden Token 109 auch mit einem Feldwert eines Feldes bzw. eines Datensatzes identisch sein, falls keine weitere Zerlegung in Token 109 möglich oder sinnvoll ist. Die Tokenisie- rung kann nach Ausführungsformen auch stufenweise erfolgen, so dass eine immer feinere Zerlegung erfolgt. Mithin umfasst der resultierende Index 112 in diesem Fall Token 109, welche aus anderen Token 109 zusammengesetzt sind. The MM-DBMS 118 and / or the learning module 120 have a built-in program logic that is configured to generate an index 112. The corresponding index 112 is provided in a further data model 110 in which the complete data of the data records DS1, DS2, DS3 are stored in a restructured, redundancy-free form. To generate the index 112, the tokenizer 122 is accessed, which is configured to tokenize the field values of the fields F1,..., F8 of the data records 106 stored in the document-based data model 106. The resulting tokens 109 can also be identical to a field value of a field or a data record if no further breakdown into tokens 109 is possible or useful. According to embodiments, the tokenization can also take place in stages, so that an ever finer breakdown takes place. In this case, the resulting index 112 therefore includes tokens 109 which are composed of other tokens 109.

Vorzugsweise werden sämtliche oder zumindest die meisten Feldwerte sämtlicher Datensätze DS1 , DS2, DS3 der Datenbank 104 tokenisiert, sodass eine umfangrei che Menge an Token 109 entsteht. In Abhängigkeit von der Art der Daten in den einzelnen Feldwerten können die Token 109 eine Mischung aus Zahlen, Buchsta benwörtern, Bildern oder Bildsegmenten, Audiodateien oder Audioelementen oder sonstigen Datenstrukturen, insbesondere Sensordaten von ein oder mehreren Sensoren, umfassen. Jedes der erzeugten Token 109 wird in dem Index 1 12 mit ei nem Zeiger verknüpft gespeichert, wobei der Zeiger auf den Datensatz bzw. das Feld verweist, aus dem das Token 109 entstammt. Preferably, all or at least most of the field values of all data records DS1, DS2, DS3 of the database 104 are tokenized, so that an extensive amount of tokens 109 is produced. Depending on the type of data in the individual field values, the tokens 109 can be a mixture of numbers, letters, images or image segments, audio files or audio elements or other data structures, in particular sensor data from one or more Sensors include. Each of the tokens 109 generated is stored in the index 112 linked to a pointer, the pointer pointing to the data record or the field from which the token 109 originates.

Dabei werde Token 109 in dem Index 1 12, welche von einer der Trigger-Definitio nen 123 als Trigger umfasst sind, jeweils der entsprechen Trigger-Definition 123 zu geordnet. Ferner werden Token 109 in dem Index 1 12, welche von einem der Da tensätze DS1 , DS2, DS3 in einer Kombination mit ein oder mehreren der identifizier ten Trigger gemäß einer der Trigger-Definitionen 123 umfasst sind, jeweils ein oder mehreren Klassen zugeordnet. Die entsprechenden Klassenzuordnungen stellen dabei Meta- bzw. Kontextinformationen für die entsprechenden Token 109 bereit. Schließlich werden sind die verbliebenen Token 109 in dem Index 1 12, welche sich unter Verwendung der Trigger-Definitionen 123 weder als Trigger identifizieren, noch einer Klasse zuordnen als, zum Kennzeichnen als unbekannte Daten einer Auffangklasse zugeordne. Dabei schließt eine Zuordnung zu der Auffangklasse eine Zuordnung zu einer der Trigger-Definitionen 123 ebenso wie eine Zuordnung zu ei ner der Klassen gemäß den Trigger-Definitionen 123 aus. Die zuvor beschriebenen Zuordnungen erfolgen beispielsweise unter Verwendung des Klassifizierers 124 des Lernmoduls 120. In this case, tokens 109 in index 112, which are included as triggers in one of the trigger definitions 123, are each assigned to the corresponding trigger definition 123. Furthermore, tokens 109 in the index 112, which are comprised by one of the data records DS1, DS2, DS3 in a combination with one or more of the identified triggers according to one of the trigger definitions 123, are each assigned to one or more classes. The corresponding class assignments provide meta or context information for the corresponding tokens 109. Finally, the remaining tokens 109 in the index 112, which using the trigger definitions 123 neither identify themselves as triggers nor assign a class as, are assigned to a collection class for identification as unknown data. An assignment to the collection class excludes an assignment to one of the trigger definitions 123 as well as an assignment to one of the classes according to the trigger definitions 123. The assignments described above take place, for example, using the classifier 124 of the learning module 120.

Im Zuge der Erzeugung des Index 1 12 wird aus der Menge an Token 109 eine nichtredundante, unique Token-Menge gebildet, in welcher jedes der Token 109 nur ein einziges Mal vorkommt. Auch wenn ein Token 109 mit einem bestimmten Wert und einer bestimmten Klassenzuordnung mehrfach in der Datenbank 104 bzw. in dem Datenmodell 106 vorkommt, wird es beispielsweise nur ein einziges Mal mit dieser Klassenzuordnung in der nichtredundante Token-Menge und in dem Index 1 12 gespeichert. Vorzugsweise erfolgt die Speicherung aller Token 109 der nichtre dundanten Tokenmenge in dem Index 1 12 so, dass die Token 109 nach einem Sor tierkriterium sortiert werden und in sortierter Form in der Indexstruktur gespeichert werden. Die Sortierung kann beispielsweise anhand des Alphabets für alphanumeri sche Daten oder sonstiger, an die Daten angepasste Sortierkriterien erfolgen. Da die Token 109 in dem Index 1 12 vorzugsweise in sortierter Form gespeichert sind, und weiterhin vorzugsweise in einer Baumstruktur gespeichert sind, ist es sehr schnell möglich, ein bestimmtes Token 109 innerhalb des Index 112 zu identifizieren und dann die Verweise dieses identifizierten Tokens 109 auf ein oder mehrere Da tensätze DS1 , DS2, DS3 zu verwenden, um sehr schnell diejenigen Datensätze zu identifizieren, die ein bestimmtes, gesuchtes Token 109 enthalten. Es ist also nicht erforderlich, alle Datensätze DS1 , DS2, DS3 der Datenbank 104 sequenziell zu durchsuchen. In the course of generating the index 112, a non-redundant, unique token set is formed from the set of tokens 109, in which each of the tokens 109 occurs only once. Even if a token 109 with a certain value and a certain class assignment occurs several times in the database 104 or in the data model 106, it is only saved once with this class assignment in the non-redundant token set and in the index 112. All tokens 109 of the non-redundant token set are preferably stored in the index 112 in such a way that the tokens 109 are sorted according to a sorting criterion and are stored in sorted form in the index structure. The sorting can take place, for example, using the alphabet for alphanumeric data or other sorting criteria adapted to the data. Since the tokens 109 are preferably stored in the index 1 12 in sorted form, and are also preferably stored in a tree structure, it is possible very quickly to identify a specific token 109 within the index 112 and then to use the references of this identified token 109 to one or more data records DS1, DS2, DS3 in order to very quickly identify those data records which contain a specific token 109 searched for. It is therefore not necessary to search through all data records DS1, DS2, DS3 of the database 104 sequentially.

Figur 2 zeigt ein schematisches Blockdiagramme einer exemplarischen Datenverar beitung durch das Multi-Modell-Datenbankmanagementsystem und das Lernmodul. Es wird eine vorbestimmte Trigger-Definition 123 der Form„[Vorname] [Nachname] [Triggerl = wohnt in der] [Straße] [Trigger2 = in] [Stadt]“ bereitgestellt. Diese Trig ger-Definition 123 definiert zwei Trigger, d.h. einen ersten Trigger„wohnt in der“ und einen zweiten Trigger„in“. Zudem definiert die Trigger-Definition, dass es sich bei einem dem ersten Trigger unmittelbar vorangehenden Token um einen Nachnamen handelt, während es sich bei einem dem Nachnamen unmittelbar vorangehenden Token um einen Vornamen handelt. Ferner definiert Trigger-Definition, dass es sich bei einem zwischen den beiden Triggern angeordneten Token um eine Straße han delt und dass es sich bei einem dem zweiten Trigger unmittelbar nachfolgenden To ken um eine Stadt handelt. Figure 2 shows a schematic block diagram of an exemplary data processing by the multi-model database management system and the learning module. A predetermined trigger definition 123 in the form "[first name] [last name] [triggerl = lives in] [street] [trigger2 = in] [city]" is provided. This trigger definition 123 defines two triggers, i.e. a first trigger “lives in” and a second trigger “in”. In addition, the trigger definition defines that a token immediately preceding the first trigger is a surname, while a token immediately preceding the surname is a first name. Trigger definition also defines that a token arranged between the two triggers is a street and that a token immediately following the second trigger is a city.

In einem dokumentenbasierten Datenmodell 106 einer Datenbank sind zwei Doku mente 108 gespeichert. Jedes Dokument 108 umfasst jeweils einen Datensatz DS1 , DS2. Beispielsweise handelt es sich bei den Datensätzen DS1 , DS2 jeweils um eine Textdatei. Der erste Datensatz DS1 umfasst beispielsweise den Satz:„Mustervor- name_1 Musternachname_1 wohnt in der Musterstr._1 in MusterstadM“. Dieser Satz wird mittels Tokenisierers in Token 109 zerlegt:„Mustervorname_1“,„Muster- nachname_1“,„wohnt in der“,„Musterstr._1“,„in“,„MusterstadM“. Two documents 108 are stored in a document-based data model 106 of a database. Each document 108 each comprises a data record DS1, DS2. For example, the data records DS1, DS2 are each a text file. The first data record DS1 includes, for example, the sentence: "Muster firstname_1, MusterstadM_1 lives in Musterstrasse_1 in MusterstadM". This sentence is broken down into tokens 109 by means of a tokenizer: "Muster first name_1", "Muster lastname_1", "lives in the", "Musterstr._1", "in", "MusterstadM".

Die beiden Token„wohnt in der“ und„in“ werden als Trigger gemäß der Trigger-De finition 123 identifiziert. Unter Verwendung der identifizierten Trigger sowie der Trig ger-Definition 123 werden die verbleibenden Token 109 jeweils den von der Trigger- Definition definierten Klassen 1 1 1 zugeordnet. So wird das Token„Mustervor- name_1“ der Klasse„Vorname“, das Token„Musternachname_1“ der Klasse„Nach name“, das Token„Musterstr._1“ der Klasse„Straße“ und das Token„Muster- stadt_1“ der Klasse„Stadt“ zugeordnet. Die als Trigger identifizierten Token werden ebenso wie die anhand dieser Trigger klassifizierten Token in einem Index in einem zweiten Datenmodell 1 10 gespeichert. Dabei werden die Trigger in Form einer Trig ger-Zuordnung 1 17 jeweils der Trigger-Definition 123 zugeordnet. Die verbleiben den Token 109 werden jeweils in Form einer Klassen-Zuordnung 1 13 einer der von der Trigger-Definition 123 definierten Klassen zugeordnet gespeichert. Zudem wer den alle Trigger und klassifizierten Token in dem zweiten Datenmodell 1 10 mit ei nem Zeiger 1 15 auf ihren Speicherort in dem ersten Datenmodell, d.h. DS1 , ver knüpft. The two tokens “lives in” and “in” are identified as triggers according to the trigger definition 123. Using the identified triggers and the trigger definition 123, the remaining tokens 109 are each assigned the Definition assigned to defined classes 1 1 1. The token “Muster firstname_1” of the class “First name”, the token “Musterlastname_1” of the class “Last name”, the token “Musterstr._1” of the class “Street” and the token “Musterstadt_1” of the class “ City "assigned. The tokens identified as triggers, like the tokens classified using these triggers, are stored in an index in a second data model 110. The triggers are each assigned to the trigger definition 123 in the form of a trigger assignment 1 17. The remaining tokens 109 are each stored in the form of a class assignment 1 13 assigned to one of the classes defined by the trigger definition 123. In addition, whoever the all triggers and classified tokens in the second data model 110 with a pointer 115 to their storage location in the first data model, ie DS1, linked.

Empfängt die Datenbank einen zweiten Datensatz DS2 der Form:„Mustervor- name_2 Musternachname_2 wohnt in der Musterstr._2 in Musterstadt_2“, so wird dieser Satz mittels Tokenisierers in Token zerlegt:„Mustervorname_2“,„Muster- nachname_2“,„wohnt in der“,„Musterstr._2“,„in“,„Musterstadt_2“ und in redun danzfreier Form ebenfalls in dem zweiten Datenmodell 1 10 gespeichert. If the database receives a second data record DS2 of the form: "Muster first name_2 Model surname_2 lives in Musterstrasse_2 in Musterstadt_2", then this record is broken down into tokens by means of a tokenizer: "Muster first name_2", "Muster- lastname_2", "lives in the" , “Musterstr._2”, “in”, “Musterstadt_2” and also stored in the second data model 110 in a redundancy-free form.

Die beiden Token„wohnt in der“ und„in“ werden als Trigger gemäß der Trigger-De finition 123 identifiziert. Da diese beiden Trigger der Trigger-Definition 123 von dem Index bereits umfasst sind, werden diese nicht nochmals in dem zweiten Datenmo dell 1 10 gespeichert. Es wird lediglich ein Zeiger auf den zweiten Datensatz DS2 er gänzt. Unter Verwendung der identifizierten Trigger sowie der Trigger-Definition 123 werden die verbleibenden Token 109 des Datensatzes DS2 jeweils den von der Trigger-Definition definierten Klassen 1 1 1 zugeordnet. So wird das Token„Muster- vorname_2“ der Klasse„Vorname“, das Token„Musternachname_2“ der Klasse „Nachname“, das Token„Musterstr._2“ der Klasse„Straße“ und das Token„Muster- stad^“ der Klasse„Stadt“ zugeordnet. Die klassifizierten Token 109 des Datensat zes DS2 werden jeweils in Form einer Klassen-Zuordnung 1 13 einer der von der Trigger-Definition 123 definierten Klassen zugeordnet gespeichert und mit einem Zeiger 1 15 auf ihren Speicherort in dem ersten Datenmodell, d.h. DS2, verknüpft. Mithin werden alle Token des zweiten Datensatzes DS2 ebenfalls in redundanz freier Form jeweils mit ihren Klassen-Zuordnungen in dem zweiten Datenmodell 1 10 verknüpft mit einem Zeiger auf ihren Speicherort in dem ersten Datenmodell gespei chert. The two tokens “lives in” and “in” are identified as triggers according to the trigger definition 123. Since these two triggers of the trigger definition 123 are already included in the index, they are not stored again in the second data model 110. Only a pointer to the second data record DS2 is added. Using the identified triggers and the trigger definition 123, the remaining tokens 109 of the data record DS2 are each assigned to the classes 1 1 1 defined by the trigger definition. The token “Muster- firstname_2” of the class “First name”, the token “Muster- surname_2” of the class “Last name”, the token “Musterstr._2” of the class “Street” and the token “Musterstad ^” of the class “ City "assigned. The classified tokens 109 of the data set DS2 are each stored in the form of a class assignment 1 13 assigned to one of the classes defined by the trigger definition 123 and linked with a pointer 1 15 to their storage location in the first data model, ie DS2. All tokens of the second data record DS2 are therefore also stored in a redundancy-free form, each with their class assignments in the second data model 110 linked with a pointer to their storage location in the first data model.

Figur 3 zeigt ein schematisches Blockdiagramme einer exemplarischen Datenverar beitung durch das Multi-Modell-Datenbankmanagementsystem und das Lernmodul. Es wird eine vorbestimmte Trigger-Definition 123 der Form„[Triggerl = +, Radius = NP] [Triggerl = x, Radius = NP] [Klasse]“ bereitgestellt. Diese Trigger-Definition 123 dient dazu aus einer Bilddatei erzeugte Token zu klassifizieren, wobei die Bilddatei in Token in Form von Pixelgruppen zerlegt wird. Die Trigger-Definition 123 definiert zwei Trigger, d.h. einen ersten Trigger in Form einer Pixelgruppe mit dem Inhalt„+“ und einen zweiten Trigger in Form einer Pixelgruppe mit dem Inhalt„x“. Zudem defi niert die Trigger-Definition, dass es sich bei einer Pixelgruppe, welche innerhalb ei nes ersten Radius von N Pixeln um den ersten Trigger und zugleich innerhalb eines zweiten Radius von N Pixeln um den zweiten Trigger angeordnet ist, um eine ein Token der der Klasse„Klasse“ handelt. Figure 3 shows a schematic block diagram of an exemplary data processing by the multi-model database management system and the learning module. A predetermined trigger definition 123 of the form "[Triggerl = +, Radius = NP] [Triggerl = x, Radius = NP] [Class]" is provided. This trigger definition 123 is used to classify tokens generated from an image file, the image file being broken down into tokens in the form of pixel groups. The trigger definition 123 defines two triggers, i.e. a first trigger in the form of a pixel group with the content “+” and a second trigger in the form of a pixel group with the content “x”. In addition, the trigger definition defines that a pixel group which is arranged within a first radius of N pixels around the first trigger and at the same time within a second radius of N pixels around the second trigger is a token of the Class "class" acts.

In einem dokumentenbasierten Datenmodell 106 einer Datenbank ist ein Doku mente 108 gespeichert. Dieses Dokument 108 umfasst einen Datensatz DS. Bei spielsweise handelt es sich bei dem Datensatz DS um eine zweidimensionale Bild datei. Diese Bilddatei wird mittels Tokenisierers in Token zerlegt, wobei es sich bei den Token jeweils um Pixelgruppen 150 handelt. Beispielsweise wird der in Z mal Z gleichgroße Pixelgruppen zerlegt. Die Token umfassen beispielsweise ein erstes Token in Form einer Pixelgruppe mit dem Inhalt„x“, ein zweites Token in Form einer Pixelgruppe mit dem Inhalt„+“, ein drittes Token in Form einer Pixelgruppe mit dem Inhalt„#“ und ein viertes Token in Form einer Pixelgruppe mit dem Inhalt A document 108 is stored in a document-based data model 106 of a database. This document 108 comprises a data record DS. For example, the data record DS is a two-dimensional image file. This image file is broken down into tokens by means of a tokenizer, the tokens each being pixel groups 150. For example, the pixel groups of equal size in Z by Z are broken down. The tokens include, for example, a first token in the form of a pixel group with the content “x”, a second token in the form of a pixel group with the content “+”, a third token in the form of a pixel group with the content “#” and a fourth token in Shape of a group of pixels with the content

Die beiden Token„+“ und x“ werden als Trigger 121 gemäß der Trigger-Definition 123 identifiziert. Unter Verwendung der identifizierten Trigger sowie der Trigger-De finition 123 wird das dritte Token„#“ der von der Trigger-Definition definierten Klasse 111 zugeordnet, da es in der zweidimensionalen Bilddatei innerhalb eines ersten Radius 152 von N Pixeln um den ersten Trigger„+“ und zugleich innerhalb eines zweiten Radius 154 von N Pixeln um den zweiten Trigger„x“ angeordnet ist. Da das vierte Token nicht unter die Trigger-Definition 123 fällt, wird es als unbe kanntes Datum der Auffangklasse zugeordnet. The two tokens “+” and x ”are identified as trigger 121 according to trigger definition 123. Using the identified triggers and the trigger definition 123, the third token “#” becomes the one defined by the trigger definition Assigned to class 111, since it is arranged in the two-dimensional image file within a first radius 152 of N pixels around the first trigger “+” and at the same time within a second radius 154 of N pixels around the second trigger “x”. Since the fourth token does not fall under the trigger definition 123, it is assigned to the trap class as an unknown date.

Die als Trigger 121 identifizierten Token„+“ und„x“ werden ebenso wie das anhand dieser Trigger klassifizierte Token„#“ und das der Auffangklasse zugeordnete To ken in einem Index in einem zweiten Datenmodell 110 gespeichert. Dabei wer den die Trigger„+“ und„x“ in Form einer Trigger-Zuordnung 117 jeweils der Trigger- Definition 123 zugeordnet. Das Token„#“ wird in Form einer Klassen-Zuordnung 113 der von der T rigger-Definition 123 definierten Klassen zugeordnet gespeichert. Das Token wird in Form einer Zuordnung 119 der Auffangklassen zugeordnet ge speichert. Zudem werden alle Trigger und klassifizierten Token in dem zweiten Da tenmodell 110 mit einem Zeiger 115 auf ihren Speicherort in dem ersten Datenmo dell, d.h. DS, verknüpft. The tokens “+” and “x” identified as triggers 121 are stored in an index in a second data model 110, as are the token “#” classified using these triggers and the token assigned to the collection class. The triggers “+” and “x” are each assigned to the trigger definition 123 in the form of a trigger assignment 117. The token “#” is stored in the form of a class assignment 113 assigned to the classes defined by the trigger definition 123. The token is stored in the form of an assignment 119 assigned to the collection classes. In addition, all triggers and classified tokens in the second data model 110 are identified with a pointer 115 to their storage location in the first data model, i. E. DS, linked.

Figur 4 zeigt ein schematisches Blockdiagramm einer Ausführungsform eines exemplarischer Computersystems 110. Das Computersystem 100 umfasst einen Prozessor 114, welcher Programminstruktionen 116, wodurch das Computersystem zum Ausführen des zuvor beschriebenen Verfahrens zum maschinellen Lernen ver anlasst wird. Im Zuge des Ausführens des Verfahrens führt der Prozessor 114 zu dem eine Multi-Modell-Datenbankmanagementsystem 118 und ein Lernmodul 120 zum maschinellen Lernen mit einem Tokenisierer 122 und einem Klassifizierer 124 aus. Zudem umfasst das Lernmodul 120 Trigger-Definitionen 123. Nach Ausfüh rungsformen umfasst das Lernmodul 120 außerdem ein statistisches Modell 125. Ferner umfasst das Computersystems 110 in einem Speicher 102 eine Datenbank 104, welche von dem Multi-Modell-Datenbankmanagementsystem 118 verwaltet wird. Die Datenbank umfasst ein erstes Datenmodell 106, z.B. ein dokumentenori- entiertes Datenmodell, in welchem Datensätze 108 gespeichert werden. Ferner um fasst die Datenbank ein zweites Datenmodell 110 mit einem Index 112 aller in den Datensätzen 108 gespeicherten Daten. Figur 5 zeigt ein Flussdiagramm einer Ausführungsform eines exemplarischen Ver fahrens zum maschinellen Lernen. In Block 200 wird ein vortrainiertes Lernmoduls zum maschinellen Lernen bereitgestellt, welches eine Mehrzahl von vorbestimmten Trigger-Definitionen umfasst. Diese vorbestimmten Trigger-Definitionen definieren Trigger für ein Zuordnen von Token zu Klassen einer Gruppe von Klassen. In Block 202 wird eine Datenbank bereitgestellt. Die Datenbank wird von einem Multi-Modell- Datenbankmanagementsystem verwaltet und umfasst eine Mehrzahl von Daten sätze, welche in einem dokumentenorientierten Datenmodell gespeichert sind. FIG. 4 shows a schematic block diagram of an embodiment of an exemplary computer system 110. The computer system 100 comprises a processor 114, which program instructions 116, whereby the computer system is caused to carry out the above-described method for machine learning. In the course of executing the method, the processor 114 executes a multi-model database management system 118 and a learning module 120 for machine learning with a tokenizer 122 and a classifier 124. In addition, the learning module 120 includes trigger definitions 123. According to embodiments, the learning module 120 also includes a statistical model 125. The computer system 110 also includes a database 104 in a memory 102, which is managed by the multi-model database management system 118. The database comprises a first data model 106, for example a document-oriented data model, in which data records 108 are stored. The database also includes a second data model 110 with an index 112 of all the data stored in the data records 108. FIG. 5 shows a flow chart of an embodiment of an exemplary method for machine learning. In block 200, a pre-trained learning module for machine learning is provided, which comprises a plurality of predetermined trigger definitions. These predetermined trigger definitions define triggers for assigning tokens to classes of a group of classes. In block 202 a database is provided. The database is managed by a multi-model database management system and comprises a plurality of data sets which are stored in a document-oriented data model.

Diese gespeicherten Datensätze umfassen jeweils ein oder mehreren Felder mit Feldwerten. Zudem umfasst die bereitgestellte Datenbank einen durchsuchbaren In dex aller von den gespeicherten Datensätzen umfassten Daten. Dieser Index wird redundanzfrei in einem weiteren von dem Multi-Modell-Datenbankmanagementsys- tem verwalteten Datenmodell gespeichert. Der Index umfasst eine Mehrzahl von aus den Feldwerten der gespeicherten Datensätze erzeugten Token die in dem In dex jeweils mit einem oder mehreren Zeigern auf ein oder mehrere der in dem do kumentenorientierten Datenmodell gespeicherten Datensätze und/oder Felder ver knüpft sind, aus deren Feldwerten das entsprechende Token erzeugt wurde. These saved records each include one or more fields with field values. In addition, the database provided includes a searchable index of all the data comprised by the stored data records. This index is stored redundancy-free in a further data model managed by the multi-model database management system. The index comprises a plurality of tokens generated from the field values of the stored data records, each of which is linked in the index with one or more pointers to one or more of the data records and / or fields stored in the document-oriented data model, from whose field values the corresponding Token was generated.

Erste Token in dem Index, welche von einer der Trigger-Definitionen als Trigger um fasst sind, sind jeweils der entsprechen Trigger-Definition zugeordnet. Zweite Token in dem Index sind jeweils ein oder mehreren Klassen der Gruppe von Klassen zuge ordnet. Die verbleibenden Token in dem Index sind schließlich zum Kennzeichnen der entsprechenden verbleibenden Token als unbekannte Daten einer Auffang klasse zugeordnet. Dabei schließt die Zuordnung zu der Auffangklasse eine Zuord nung zu einer der Trigger-Definitionen ebenso wie eine Zuordnung zu einer der Klassen der ersten Gruppe von Klassen aus. The first tokens in the index, which are included as triggers by one of the trigger definitions, are each assigned to the corresponding trigger definition. Second tokens in the index are each assigned to one or more classes of the group of classes. The remaining tokens in the index are finally assigned to a collection class to identify the corresponding remaining tokens as unknown data. The assignment to the collecting class excludes an assignment to one of the trigger definitions as well as an assignment to one of the classes of the first group of classes.

In Block 204 wird ein zusätzlicher Datensatz empfangen und in Block 206 durch das Multi-Modell-Datenbankmanagementsystem in dem dokumentenorientierten Daten modell der Datenbank gespeichert. Dabei erfolgt die Speicherung in einem Doku ment bzw. Datencontainer. In Block 208 werden ein oder mehrere zusätzliche Token aus zusätzlichen Feldwerten erzeugt, welche der zusätzliche Datensatz um fasst. In Block 210 werden ein oder mehrere erste zusätzliche Token als Trigger identifiziert, falls diese von einer der Trigger-Definitionen als Trigger umfasst sind. In Block 212 werden die verbleibenden zusätzlichen Token klassifiziert. Die in Block 210 identifizierten Trigger werden zum Zuordnen von ein oder mehreren zweiten zu sätzlichen Token zu ein oder mehreren Klassen der Gruppe von Klassen verwen det, falls die entsprechenden zweiten zusätzlichen Token von dem zusätzliche Da tensatz in einer Kombination mit ein oder mehreren der identifizierten Trigger ge mäß einer der Trigger-Definitionen umfasst sind und die entsprechenden Trigger gemäß der entsprechenden Trigger-Definition eine entsprechende Klassenzuord nung triggern. Die verbleibenden zusätzlichen Token, für welche keine Zuordnung zu einer der Trigger-Definitionen und keine Klassenzuordnung aufgrund einer der Trigger-Definitionen erfolgt ist, werden im Zuge des Klassifizierens in Block 212 der Auffangklasse zugeordnet. Schließlich wird in Block 214 der Index durch das Multi- Modell-Datenbankmanagementsystem unter Verwendung der unter Verwendung der zusätzlichen Token aus Block 208, der Klassenzuordnungen der zusätzlichen Token aus Block 212 und eines Zeigers auf den zusätzlichen in dem dokumenten- orientierten Datenmodell gespeicherten Datensatz ergänzt. Falls Zeiger einzelne Felder des zusätzlichen Datensatzes anzeigen, wird bei einer Mehrzahl von Feldern eine Mehrzahl von Zeigern verwendet. In block 204, an additional data record is received and in block 206 it is stored by the multi-model database management system in the document-oriented data model of the database. The storage takes place in a document or data container. At block 208, one or more additional Token generated from additional field values, which the additional data record includes. In block 210, one or more first additional tokens are identified as triggers if these are included as triggers by one of the trigger definitions. In block 212, the remaining additional tokens are classified. The triggers identified in block 210 are used to assign one or more second additional tokens to one or more classes of the group of classes if the corresponding second additional tokens from the additional data set are in combination with one or more of the identified triggers are included in accordance with one of the trigger definitions and the corresponding triggers trigger a corresponding class assignment in accordance with the corresponding trigger definition. The remaining additional tokens, for which no assignment to one of the trigger definitions and no class assignment based on one of the trigger definitions has been made, are assigned to the collection class in the course of the classification in block 212. Finally, in block 214, the index is supplemented by the multi-model database management system using the data record stored in the document-oriented data model using the additional tokens from block 208, the class assignments of the additional tokens from block 212 and a pointer to the additional tokens. If pointers indicate individual fields of the additional data record, a plurality of pointers is used for a plurality of fields.

Dabei kann das Ergänzen in Block 214 ein Abgleichen der zusätzlichen Token mit dem Index umfassen. Falls eines der zusätzlichen Token nicht von dem Index um fasst ist, wird das entsprechende zusätzliche Token unter seinen Klassenzuordnun gen in dem Index ergänzt und mit dem Zeiger auf den zusätzlichen in dem doku- mentenorientierten Datenmodell gespeicherten Datensatz verknüpft. Falls eine der Klassenzuordnungen eines von dem Index umfassten zusätzlichen Tokens von dem Index nicht umfasst ist, wird die entsprechende Klassenzuordnung mit dem entspre chenden zusätzlichen Token in dem Index ergänzt und das entsprechende zusätzli che Token in dem Index mit dem Zeiger auf den zusätzlichen in dem dokumenten- orientierten Datenmodell gespeicherten Datensatz verknüpft. Falls eines der zusätz lichen Token mit allen seinen Klassenzuordnungen von dem Index umfasst ist, wird das entsprechende zusätzliche Token in dem Index mit dem Zeiger auf den zusätzli chen in dem dokumentenorientierten Datenmodell gespeicherten Datensatz ver knüpft. In this case, the addition in block 214 can include comparing the additional tokens with the index. If one of the additional tokens is not included in the index, the corresponding additional token is added to its class assignments in the index and linked to the pointer to the additional data record stored in the document-oriented data model. If one of the class assignments of an additional token included in the index is not included in the index, the corresponding class assignment is supplemented with the corresponding additional token in the index and the corresponding additional token in the index with the pointer to the additional token in the documents - oriented data model linked to stored data set. If one of the additional tokens with all of their class assignments is included in the index, then the corresponding additional token in the index is linked with the pointer to the additional data record stored in the document-oriented data model.

Zudem kann das Ergänzen in Block 214 ein Kennzeichnen von Kombinationen aus zweiten zusätzlichen Token mit ein oder mehreren der identifizierten Trigger, welche eine Klassenzuordnung gemäß einer der Trigger-Definitionen getriggert haben, in dem Index als klassifizierte Kombinationen umfassen. Klassenzuordnungen werden nur für Kombinationen aus zweiten zusätzlichen Token und ein oder mehreren iden tifizierten Triggern ausgeführt, welche nicht als klassifizierte Kombinationen gekenn zeichnet sind. Somit kann durch das Kennzeichnen vermieden werden, dass für be reits bekannte und klassifizierte Kombinationen bei einem wiederholten Auftreten in verschiedenen Datensätzen jeweils das Klassifizieren wiederholt wird. Vielmehr er folgt vor einem Klassifizieren ein Abgleich von Token-Kombinationen mit dem Index. Umfasst der Index die entsprechende Token-Kombination bereits und ist diese als klassifiziert gekennzeichnet, so erfolgt keine erneute Klassifikation für diese Token- Kombination. Es werden lediglich die entsprechende Token-Kombination und/oder die von der entsprechenden Token-Kombination umfassten Teilkombinationen und Einzeltoken in dem Index mit dem Zeiger auf den zusätzlichen in dem dokumenten orientierten Datenmodell gespeicherten Datensatz verknüpft. In addition, the addition in block 214 can include marking combinations of second additional tokens with one or more of the identified triggers, which have triggered a class assignment in accordance with one of the trigger definitions, in the index as classified combinations. Class assignments are only carried out for combinations of second additional tokens and one or more identified triggers that are not marked as classified combinations. Thus, by means of the identification, it can be avoided that the classification is repeated for already known and classified combinations with a repeated occurrence in different data records. Rather, before classification, token combinations are compared with the index. If the index already includes the corresponding token combination and this is marked as classified, there is no new classification for this token combination. Only the corresponding token combination and / or the partial combinations and individual tokens comprised by the corresponding token combination are linked in the index with the pointer to the additional data record stored in the document-oriented data model.

Figur 6 zeigt ein Flussdiagramm einer Ausführungsform eines exemplarischen Ver fahrens zum Erzeugen kombinierter Trigger-Definitionen. In Block 300 werden ein oder mehr Trigger-Kombinationen durch das Lernmodul identifiziert, welche jeweils von zumindest einem der Datensätzen umfasst sind und ein Kombinationskriterium erfüllen. In Block 302 werden für jede der in Block 300 identifizierten Trigger-Kombi nationen die Trigger-Definitionen der Trigger der entsprechenden Trigger-Kombina tionen zu ein oder mehreren zusätzlichen kombinierten Trigger-Definitionen kombi niert. In Block 304 wird die Mehrzahl von vorbestimmten Trigger-Definitionen des Lernmoduls durch die ein oder mehreren zusätzlichen kombinierten Trigger-Definiti onen ergänzt. Figur 7 zeigt ein Flussdiagramm einer Ausführungsform eines exemplarischen Ver fahrens zum Ergänzen zusätzlicher Trigger-Definitionen. In Block 400 wird das vor trainierte Lernmoduls um ein oder mehrere zusätzliche Trigger-Definitionen ergänzt. Die zusätzlichen Trigger-Definitionen definieren zusätzliche Trigger für ein Ersetzen von Zuordnungen von Token in dem Index zu der Auffangklasse durch Zuordnun gen zu ein oder mehreren Klassen einer weiteren Gruppe von Klassen im Zuge ei nes Reklassifizierens. Die zusätzlichen Trigger-Definitionen können beispielsweise von dem Lernmodul empfangen werden. Beispielsweise werden die entsprechen den zusätzlichen Trigger-Definitionen von einem Administrator bereitgestellt. Nach alternativen Ausführungsformen werden die zu ergänzenden zusätzlichen Trigger- Definitionen von dem Lernmodul erstellt. Hierzu umfasst das Lernmodul ein statisti sches Modell, welches zu einer statistischen Analyse der von der Auffangklassen umfassten Token und deren Vorkommen in den Datensätze verwendet wird. Das Ergebnis der statistischen Analyse wird zum Erstellen der zu ergänzenden zusätzli chen Trigger-Definitionen verwendet. FIG. 6 shows a flow diagram of an embodiment of an exemplary method for generating combined trigger definitions. In block 300, one or more trigger combinations are identified by the learning module, which are each comprised by at least one of the data sets and which meet a combination criterion. In block 302, for each of the trigger combinations identified in block 300, the trigger definitions of the triggers of the corresponding trigger combinations are combined into one or more additional combined trigger definitions. In block 304, the plurality of predetermined trigger definitions of the learning module is supplemented by the one or more additional combined trigger definitions. FIG. 7 shows a flow chart of an embodiment of an exemplary method for adding additional trigger definitions. In block 400 the previously trained learning module is supplemented by one or more additional trigger definitions. The additional trigger definitions define additional triggers for a replacement of assignments of tokens in the index to the receiving class by assignments to one or more classes of a further group of classes in the course of a reclassification. The additional trigger definitions can be received by the learning module, for example. For example, the corresponding additional trigger definitions are provided by an administrator. According to alternative embodiments, the additional trigger definitions to be supplemented are created by the learning module. For this purpose, the learning module comprises a statistical model which is used for a statistical analysis of the tokens included in the collection classes and their occurrence in the data records. The result of the statistical analysis is used to create the additional trigger definitions to be added.

In Block 402 werden ein oder mehreren der Auffangklasse zugeordneten Token in dem Index reklassifiziert, welche die zusätzlichen Trigger-Definitionen als zusätzli che Trigger definierten. Das Reklassifizieren durch das Lernmodul umfasst ein Er setzen der Zuordnung zu der Auffangklasse durch eine Zuordnung zu der entspre chen zusätzlichen Trigger-Definition, welche das entsprechende Token als zusätzli chen Trigger umfasst. In Block 404 werden die zusätzliche Trigger zum Reklassifi zieren von ein oder mehreren der Auffangklasse zugeordneten Token in dem Index zu ein oder mehreren Klassen der weiteren Gruppe von Klassen durch das Lernmo dul verwendet, falls die entsprechenden der Auffangklasse zugeordneten Token von einem der Datensätze in einer Kombination mit ein oder mehreren der zusätzlichen Triggern umfasst sind und die entsprechenden zusätzlichen Trigger gemäß der ent sprechenden zusätzlichen Trigger-Definition eine entsprechende Zuordnung zu den ein oder mehreren Klassen der weiteren Gruppe von Klassen triggern. In block 402, one or more tokens assigned to the trap class are reclassified in the index, which tokens define the additional trigger definitions as additional triggers. The reclassification by the learning module includes a replacement of the assignment to the collection class by an assignment to the corresponding additional trigger definition, which includes the corresponding token as an additional trigger. In block 404, the additional triggers for reclassifying one or more tokens assigned to the collection class in the index to one or more classes of the further group of classes are used by the learning module if the corresponding tokens assigned to the collection class are from one of the data records in a Combination with one or more of the additional triggers are included and the corresponding additional triggers trigger a corresponding assignment to the one or more classes of the further group of classes in accordance with the corresponding additional trigger definition.

Beispielsweise kann das Verfahrens zum Ergänzen zusätzlicher Trigger-Definitio nen einem rekursiven Schema folgend wiederholt ausgeführt werden. Die zu ergänzenden Trigger-Definitionen jeder Rekursionsstufe umfassen jeweils Ergän zungen einer Trigger-Definition einer vorangehenden Rekursionsstufe, sodass die rekursiven Ergänzungen Baumstrukturen bilden, welche jeweils eine der vorbe stimmten Trigger-Definition als Wurzelknoten umfassen. For example, the method for adding additional trigger definitions can be executed repeatedly following a recursive scheme. The too Supplementary trigger definitions of each recursion level each include additions to a trigger definition of a preceding recursion level, so that the recursive additions form tree structures which each include one of the predetermined trigger definition as a root node.

Figur 8 zeigt ein Flussdiagramm einer Ausführungsform eines exemplarischen Ver fahrens zum Korrigieren von Trigger-Definitionen in Block. In Block 500 wird eine korrigierte Trigger-Definition zum Ersetzen einer der gespeicherten Trigger-Definitio nen des Lernmoduls empfangen. Diese korrigierte Trigger-Definition wird beispiels weise von einem Administrator bereitgestellt. Nach alternativen Ausführungsformen wird die korrigierte Trigger-Definition von dem Lernmodul unter Verwendung eines statistischen Modells erstellt. In Block 502 wird die entsprechende gespeicherte Trigger-Definition durch die korrigierte Trigger-Definition ersetzt. In Block 504 erfolgt ein Reklassifizieren der unter Verwendung der entsprechenden gespeicherten Trig ger-Definition klassifizierten Token, wobei das Reklassifizieren unter Verwendung der korrigierten Trigger-Definition erfolgt. FIG. 8 shows a flow diagram of an embodiment of an exemplary method for correcting trigger definitions in blocks. In block 500, a corrected trigger definition for replacing one of the stored trigger definitions of the learning module is received. This corrected trigger definition is provided, for example, by an administrator. According to alternative embodiments, the corrected trigger definition is created by the learning module using a statistical model. In block 502, the corresponding stored trigger definition is replaced by the corrected trigger definition. In block 504, the tokens classified using the corresponding stored trigger definition are reclassified, the reclassification taking place using the corrected trigger definition.

Figur 9 zeigt schließlich ein Flussdiagramm einer Ausführungsform eines exemplari schen Verfahrens zum Ausführen einer Suche auf der Datenbank. In Block 600 wird eine Suchanfrage empfangen, die einen Suchwert beinhaltet. Block 602 wird der In dex nach dem Suchwert durchsucht und in Block 604 wird ein Token innerhalb des Index identifiziert, welcher identisch mit dem Suchwert ist. Nach Ausführungsformen kann der Suchwert neben einem Tokenwert auch eine Klassenzuordnung spezifizie ren. In diesem Fall erfordert das Identifizieren des Tokens innerhalb des Index fer ner, dass das identifizierte Token diein der Suchanfrage spezifizierte Klassenzuord nung aufweist. Nach Ausführungsformen sind Token, welche der Auffangklasse zu geordnet sind, von der Suche ausgeschlossen. In Block 606 werden Zeiger analy siert, mit denen das identifizierte Token verknüpft ist. Dadurch werden ein oder mehrere der Datensätze bestimmt, welche ein oder mehrere Feldwerte beinhalten, aus welchen das indizierte Token erzeugt wurde. In Block 608 werden die bestimm ten Datensätze oder von ein oder mehreren Referenzen auf die bestimmten Datens ätze als Antwort auf die Suchanfrage zurückgegeben. Bezugszeichenliste Finally, FIG. 9 shows a flowchart of an embodiment of an exemplary method for performing a search on the database. In block 600, a search query is received that includes a search value. In block 602 the index is searched for the search value, and in block 604 a token is identified within the index which is identical to the search value. According to embodiments, the search value can also specify a class assignment in addition to a token value. In this case, the identification of the token within the index further requires that the identified token has the class assignment specified in the search query. According to embodiments, tokens which are assigned to the collection class are excluded from the search. In block 606 pointers are analyzed with which the identified token is linked. This determines one or more of the data records which contain one or more field values from which the indexed token was generated. In block 608, the particular records or one or more references to the particular records are returned in response to the search query. List of reference symbols

100 Computersystem 100 computer system

102 Speicher 102 memory

104 Datenbank 104 database

106 erstes Datenmodell 106 first data model

108 Datensätze 108 records

109 Token 109 tokens

110 zweites Datenmodell 110 second data model

111 Klasse 111 class

112 Index 112 index

113 Klassen-Zuordnung 113 Class assignment

114 Prozessor 114 processor

115 Zeiger 115 hands

116 Programminstruktionen 116 program instructions

117 Trigger-Zuordnung 117 Trigger assignment

118 MM-DBMS 118 MM-DBMS

119 Zuordnung zu Auffangklasse 119 Assignment to fall class

120 Lernmodul 120 learning module

121 Trigger 121 trigger

122 Tokenisierer 122 tokenizer

123 Trigger-Definitionen 123 Trigger Definitions

124 Klassifizierer 124 classifier

125 statistische Modell 125 statistical model

150 Pixelgruppe 150 pixel group

152 Radius 152 radius

154 Radius 154 radius

F1 , , F8 Felder F1,, F8 fields

DS1, DS3 Datensätze DS1, DS3 data records

Claims

Patent claims

1. A computer-implemented method for machine learning, the method comprising:

• Providing a pre-trained learning module (120) for machine learning, wherein the pre-trained learning module comprises a plurality of predetermined trigger definitions (123) which triggers (121) for assigning tokens (109) to classes (111) of a first group of Define classes,

• Providing a database (104) which is managed by a multi-model database management system (118), the database comprising a plurality of data records (108; DS1, DS2, DS3) which are stored in a document-oriented data model ( 106) are stored, the stored data records each comprising one or more field values, the individual field values of the stored data records each being stored in a field (F1, ..., F8),

wherein the database further comprises a searchable index (112) which is stored in a further data model (110), wherein the index comprises a plurality of tokens generated from the field values of the stored data records, with tokens in the index each having one or more ren pointers (115) is linked to one or more of the data records stored in the document-oriented data model, from whose field values the corresponding token was generated,

wherein first tokens in the index, which are included in one of the trigger definitions as triggers, are each assigned to the corresponding trigger definition, with second tokens in the index each being assigned to one or more classes of the first group of classes, and the remaining ones To ken in the index for identifying the corresponding remaining tokens are assigned to a collecting class as unknown data, the assignment to the collecting class excluding an assignment to one of the trigger definitions as well as an assignment to one of the classes of the first group of classes , • Receiving an additional data record,

• Saving the additional data record, which includes one or more additional field values, by the multi-model database management system in the document-oriented data model of the database,

• Generation of one or more additional tokens from the additional field values,

• if one or more first additional tokens are included in one of the trigger definitions as a trigger, the learning module identifies the corresponding token as a trigger,

Using the identified triggers for assigning one or more second additional tokens to one or more classes of the first group of classes by the learning module, if the corresponding second additional tokens from the additional data set in a combination with one or more of the identified triggers according to one of the trigger definitions are included, the corresponding triggers triggering a corresponding class assignment according to the corresponding trigger definition,

• Assignment of the remaining additional tokens, for which no assignment to one of the trigger definitions and no class assignment has been made based on one of the trigger definitions, to the collection class,

• Supplementing the index by the multi-model database management system using the additional tokens, the class assignments of the additional tokens and a pointer to the additional data set stored in the document-oriented data model.

2. The computer-implemented method of claim 1, wherein supplementing the index comprises:

• Matching the additional tokens with the index,

• if one of the additional tokens is not included in the index, adding the corresponding additional token under its class assignments in the index and linking the corresponding additional token in the index with the pointer to the additional data record stored in the document-oriented data model, • if one of the class assignments of an additional token included in the index is not included in the index, supplementing the corresponding class assignment with the corresponding additional token in the index and linking the corresponding additional token in the index with the pointer to the additional token in the document-oriented one Data model stored data set,

If one of the additional tokens with all of its class assignments is included in the index, linking the corresponding additional token in the index with the pointer to the additional data set stored in the document-oriented data model.

3. Computer-implemented method according to one of the preceding claims, wherein the combinations of second additional tokens with one or more of the identified triggers that have triggered a class assignment according to one of the trigger definitions are identified in the index as classified combinations Class assignments are only carried out for combinations of second additional tokens and one or more identified triggers that are not marked as classified combinations.

4. Computer-implemented method according to one of the preceding claims, the method further comprising:

• Identification of one or more trigger combinations, which are each included in at least one of the data sets and meet a combination criterion,

• for each of the identified trigger combinations combining the trigger definitions of the triggers of the corresponding trigger combinations into one or more additional combined trigger definitions,

• Supplementing the plurality of predetermined trigger definitions of the learning module with the one or more additional combined trigger definitions.

5. The computer-implemented method according to claim 4, wherein the combination criterion comprises a minimum frequency for an occurrence of the corresponding trigger combination in the data records.

6. Computer-implemented method according to claim 5, wherein the minimum frequency defines an absolute frequency value of the occurrence in the data records and / or wherein the minimum frequency defines a relative frequency value of the occurrence in the data records relative to frequencies of occurrence of one or more of the triggers included in the data records by the corresponding trigger combination.

7. Computer-implemented method according to one of claims 4 to 6, where the combination criterion comprises one or more conditions at relative positions of the trigger of the corresponding trigger combination to one another within one of the data sets.

8. Computer-implemented method according to one of the preceding claims, the trigger definitions each comprising a definition of a trigger structure which triggers for one or more of the corresponding trigger definition and one or more according to the corresponding trigger definition tokens to be assigned to one of the classes defines relative positions to one another.

9. The computer-implemented method according to claim 8, wherein the determinations of the relative positions comprise at least one of the following determinations: the one or more tokens to be assigned are arranged according to a trigger comprised by the corresponding trigger definition, which are one or more tokens to be assigned arranged in front of a trigger comprised by the corresponding trigger definition, the one or more tokens to be assigned are each arranged between triggers comprised by the corresponding trigger definition.

10. Computer-implemented method according to one of claims 8 or 9, wherein a maximum trigger distance (152, 154) is defined for the trigger according to the trigger definitions, which defines a maximum distance relative to the corresponding trigger on which a trigger -Effect of the trigger is limited.

11. Computer-implemented method according to one of the preceding claims, the method further comprising:

• Supplement the pre-trained learning module with one or more additional trigger definitions which define additional triggers for replacing assignments of tokens in the index to the receiving class with assignments to one or more classes of a second group of classes in the course of reclassification ,

• Reclassification of one or more tokens assigned to the collection class in the index, which defined the additional trigger definitions as additional triggers, with the reclassification by the learning module replacing the assignment to the collection class with an assignment to the corresponding additional trigger Definition, which includes the corresponding token as an additional trigger,

Use of the additional triggers to reclassify one or more tokens assigned to the trap class in the index to one or more classes of the second group of classes by the learning module if the corresponding tokens assigned to the trap class are from one of the data records in a combination with one or more of the additional triggers are included and the corresponding additional triggers trigger a corresponding assignment to the one or more classes of the second group of classes in accordance with the corresponding additional trigger definition.

12. The computer-implemented method of claim 11, wherein the second group comprises classes different from the classes of the first group, or wherein one or more classes of the second group are each identical to one of the classes of the first group.

13. Computer-implemented method according to one of claims 1 1 to 12, the trigger definitions to be supplemented as supplements in each case dependent on a trigger definition already included in the learning module.

14. Computer-implemented method according to claim 13, wherein the supplements are repeatedly executed following a recursive scheme, the trigger definitions to be supplemented for each recursion stage each comprising supplements of a trigger definition of a preceding recursion stage, so that the recursive supplements form tree structures which each include one of the predetermined trigger definition as a root node.

15. Computer-implemented method according to one of claims 1 1 to 14, wherein the additional trigger definitions to be supplemented are received by the learning module.

16. Computer-implemented method according to one of claims 1 1 to 14, wherein the additional trigger definitions to be supplemented are provided by the learning module, which comprises a statistical model, the statistical model being used for a statistical analysis of the tokens and included in the collection classes whose occurrence in the data sets is used, with the result of the statistical analysis being used to create the additional trigger definitions to be supplemented.

17. Computer-implemented method according to one of the preceding claims, the method further comprising:

• Receipt of a corrected trigger definition to replace one of the saved trigger definitions of the learning module,

• Replacement of the corresponding stored trigger definition with the corrected trigger definition, • Reclassifying the tokens classified using the corresponding stored trigger definition, the reclassifying taking place using the corrected trigger definition.

18. Computer-implemented method according to one of the preceding claims, wherein the pointers with which the tokens are stored linked in the index each refer to one or more of the field values in the stored data records.

19. Computer-implemented method according to one of the preceding claims, wherein the field values of the additional data record include text data, image data, audio data and / or video data.

20. Computer-implemented method according to one of the preceding claims, wherein generating the tokens comprises applying tokenization logic (122) to the field values of the additional data record, which logic comprises a full-text indicator which is configured to break down texts into words and which Issue words as tokens.

21. Computer-implemented method according to one of claims 1 to 19, wherein the generation of the tokens comprises applying tokenization logic (122) to the field values of the additional data record, which logic comprises a generic tokenizer configured to store data in the field values to recognize different data types and to generate these tokens in different data types.

22. Computer-implemented method according to one of the preceding claims, the method further comprising:

• Receiving a search query, the search query containing a search value,

• Searching the index for the search value, identifying a token within the index that is identical to the search value, • Analyze pointers with which the identified token is linked in order to determine one or more of the data records which contain one or more field values from which the indexed token was generated,

• Returning the specific records or one or more references to the specific records in response to the search query.

23. The computer-implemented method of claim 22, wherein the search value further comprises a class association and identifying the token within the index further requires that the identified token have the same class association.

24. Computer-implemented method according to one of claims 22 to 23, wherein tokens which are assigned to the collection class are excluded from the search.

25. Computer-implemented method according to one of the preceding claims, the method further comprising pre-training the learning module, the pre-training comprising:

• Receipt by the learning module of the plurality of predetermined trigger definitions which define the triggers for assigning tokens to the classes of the first group of classes,

• Storage of the received plurality of predetermined trigger definitions by the learning module.

26. The computer-implemented method of claim 25, wherein the teaching further comprises:

• Extraction of the triggers from the stored plurality of predetermined trigger definitions by the learning module,

• Assignment of the initial tokens by the learning module to the trigger definition that includes the corresponding initial token as a trigger,

• Generation of the searchable index using the plurality of initial tokens by the multi-model database management system in the further data model, wherein the generated index includes the initial tokens, each of the initial tokens in the index each having an assignment to the trigger definition, which includes the corresponding initial token as a trigger.

27. Computer-implemented method according to one of the preceding claims, wherein the index stores all tokens generated from the field values of the stored data records in such a way that the index contains the tokens exactly once for each of the class assignments of the corresponding token.

28. Computer-implemented method according to one of the preceding claims, wherein the further data model is structured such that the tokens and token assignments of the index stored in the further data model meet the fifth and / or sixth normal form.

29. Computer-implemented method according to one of the preceding claims, wherein at least the document-based data model used by the multi-model database management system for storing the data sets is a NoSQL data model.

30. Computer-implemented method according to one of the preceding claims, wherein the machine learning is configured for data extraction, consistency checking, image recognition, speech recognition, voice control, device monitoring and / or autonomous device control.

31. Computer system (100) for machine learning, the computer system including one or more processors (114), a database (104) provided by one or more data storage media (102), a multi-model database management system (1 18), which manages the database and is configured to store a plurality of data records (108; DS1, DS2, DS3) in a document-oriented data model (106) in the data storage media, the stored data records each having one or more field values include, The individual field values of the stored data records are each stored in a field (F1, F8), the field values of the stored data records being assigned to one or more field types of a plurality of different field types, a pre-trained learning module (120) for machine learning and a program logic (1 16) includes,

wherein the pre-trained learning module comprises a plurality of predetermined trigger definitions (123) which define triggers (121) for assigning tokens (109) to classes (1 1 1) of a first group of classes,

wherein the database further comprises a searchable index (1 12), which is stored in a further data model (1 10), wherein the index comprises a plurality of tokens generated from the field values of the stored data records, with tokens in the index each with one or more pointers (1 15) is linked to one or more of the data records stored in the document-oriented data model, from whose field values the corresponding token was generated,

wherein first tokens in the index, which are included in one of the trigger definitions as triggers, are each assigned to the corresponding trigger definition, with second tokens in the index each being assigned to one or more classes of the first group of classes, and the remaining ones Tokens in the index for identifying the corresponding remaining tokens as unknown data are assigned to a collection class, the assignment to the collection class excluding an assignment to one of the trigger definitions as well as an assignment to one of the classes of the first group of classes,

wherein the program logic is configured to perform a method for machine learning, the method comprising:

• Receiving an additional data record,

• Generation of one or more additional tokens from the additional field values, • if one or more first additional tokens are included in one of the trigger definitions as a trigger, the learning module identifies the corresponding token as a trigger,

Using the identify triggers for assigning one or more second additional tokens to one or more classes of the first group of classes by the learning module if the corresponding second additional tokens from the additional data set in a combination with one or more of the identified triggers according to one of the trigger definitions are included, with the corresponding triggers triggering a corresponding class assignment according to the corresponding trigger definition,

• Supplementing the index through the multi-model database management system using the additional tokens, the class assignments of the additional tokens and a pointer to the additional data set stored in the document-oriented data model.