[go: up one dir, main page]

RU2509350C2 - Method for semantic processing of natural language using graphic intermediary language - Google Patents

Method for semantic processing of natural language using graphic intermediary language Download PDF

Info

Publication number
RU2509350C2
RU2509350C2 RU2011122784/08A RU2011122784A RU2509350C2 RU 2509350 C2 RU2509350 C2 RU 2509350C2 RU 2011122784/08 A RU2011122784/08 A RU 2011122784/08A RU 2011122784 A RU2011122784 A RU 2011122784A RU 2509350 C2 RU2509350 C2 RU 2509350C2
Authority
RU
Russia
Prior art keywords
language
text
semantic
objects
independent
Prior art date
Application number
RU2011122784/08A
Other languages
Russian (ru)
Other versions
RU2011122784A (en
Inventor
Михаэль МЕНДЕ
Original Assignee
Матрокс Профешнл Инк
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US12/267,461 external-priority patent/US20100121630A1/en
Priority claimed from EP08019498A external-priority patent/EP2184685A1/en
Application filed by Матрокс Профешнл Инк filed Critical Матрокс Профешнл Инк
Publication of RU2011122784A publication Critical patent/RU2011122784A/en
Application granted granted Critical
Publication of RU2509350C2 publication Critical patent/RU2509350C2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

FIELD: information technology.
SUBSTANCE: method includes a step for syntax analysis of text. A step for extracting text components and relationships thereof in the text is then executed. A graph or graphic representation of the text is generated or used as representation of the meaning of the text independent of the language. That graph or graphic representation is used to perform modelling, knowledge presentation and processing in a language processing system. A judgment of the representation in the model of the semantic realm is made during the processing step, thereby checking consistency of the extracted text semantics.
EFFECT: improvement and further advancement of the method of processing natural language which enables to properly process text semantics or other data.
29 cl, 15 dwg

Description

Настоящее изобретение относится к способу обработки естественного языка с использованием системы языковой обработки, в частности электронной системы перевода, в котором письменный или устный текст вводится в систему языковой обработки. Настоящее изобретение также относится к системе перевода и, в частности, к системе онлайнового перевода.The present invention relates to a method for processing a natural language using a language processing system, in particular an electronic translation system in which written or oral text is input into a language processing system. The present invention also relates to a translation system and, in particular, to an online translation system.

Обработка естественного языка с использованием систем языковой обработки представляет проблему. Естественный язык состоит из последовательности слов, составленной определенным образом для выражения определенного смысла. Проще говоря, системы языковой обработки могут анализировать текст, просматривая последовательность слово за словом. К сожалению, изолированный анализ отдельных слов не дает возможности правильно выявить смысл последовательности. В ряде случаев он приводит к успеху, но очень часто анализ ничего не дает, поскольку текст является чем-то большим, чем просто кластеризация слов. Предложение "colorless green ideas sleep furiously" составлено из слов, упорядоченных синтаксически корректно, т.е. синтаксис (правила и принципы, определяющие структуру предложения на данном языке) применяется верно. Однако легко видеть, что это предложение лишено всякого смысла. Система, которая обращает внимание только на отдельные слова, пытается обрабатывать предложение, тогда как очевидно, что его невозможно разумно обработать.Natural language processing using language processing systems is a problem. Natural language consists of a sequence of words composed in a certain way to express a certain meaning. Simply put, language processing systems can analyze text by looking at the sequence word for word. Unfortunately, an isolated analysis of individual words does not make it possible to correctly identify the meaning of the sequence. In some cases, it leads to success, but very often analysis does not give anything, because the text is more than just a clustering of words. The sentence "colorless green ideas sleep furiously" is made up of words ordered syntactically correctly, i.e. the syntax (rules and principles that determine the structure of sentences in a given language) is applied correctly. However, it is easy to see that this sentence is meaningless. A system that only focuses on single words tries to process a sentence, while it is obvious that it cannot be reasonably processed.

Например, электронная система перевода может обрабатывать входную текстовую последовательность согласно процессу, показанному на фиг. 1. На блоке 100 пользователь может вводить входную текстовую последовательность для перевода посредством, например, пользовательского интерфейса, электронного документа и т.п. На блоке 102 электронная система перевода может анализировать последовательность на основании правил синтаксиса исходного языка. На блоке 104 электронная система перевода может осуществлять поиск в словаре с использованием входного языка в качестве индекса в словарь выходного языка для каждого слова. На блоке 106 электронная система перевода может выдавать переведенные слова на основании правил синтаксиса выходного языка, и на блоке 108 электронная система перевода может выводить результат пользователю посредством, например, пользовательского интерфейса, электронного документа и т.п.For example, an electronic translation system may process an input text sequence according to the process shown in FIG. 1. At block 100, the user can enter an input text sequence for translation by, for example, a user interface, an electronic document, or the like. At block 102, the electronic translation system can analyze the sequence based on the syntax rules of the source language. At block 104, the electronic translation system can search the dictionary using the input language as an index into the dictionary of the output language for each word. At block 106, the electronic translation system can provide translated words based on the rules of the syntax of the output language, and at block 108, the electronic translation system can output the result to the user through, for example, a user interface, an electronic document, or the like.

Некоторые системы, известные в технике, используют семантическую проверку. Эти системы используют лексиконы, которые комбинируют слова с атрибутами. При осуществлении семантической проверки атрибуты должны быть согласованными. Например, слово "животное" соотносится с понятием "живое", камень - с понятием "неживое" и "ест" - с понятием "живое". Используя такого рода семантическую проверку, предложение "камень ест траву" можно указать как неверное, поскольку камни не являются живыми существами, тогда как предложение "живое ест траву" - как верное, поскольку оба слова " животное" и "ест" имеют атрибут «животное».Some systems known in the art use semantic verification. These systems use vocabulary that combine words with attributes. When performing semantic verification, the attributes must be consistent. For example, the word "animal" refers to the concept of "living", stone - to the concept of "inanimate" and "eats" - to the concept of "living". Using this kind of semantic verification, the sentence “stone eats grass” can be indicated as incorrect, since stones are not living beings, while the sentence “live eats grass” is true, because both the words “animal” and “eat” have the attribute “animal ".

Предполагается, что эти решения представляют процесс понимания в искусственном интеллекте. К сожалению, этот подход весьма ограничен. При обработке естественного языка предложения, в общем случае, оказываются значительно сложнее и не поддаются обработке такими системами. Для решения этих проблем были предприняты большие усилия. С одной стороны, некоторые утверждают, что программирование семантики невозможно. С другой стороны, существуют компании, которые инвестируют миллионы в исследования, посвященные семантике. Однако до сих пор ни одна система, известная в технике, не способна правильно обрабатывать естественные языки.These decisions are supposed to represent an understanding process in artificial intelligence. Unfortunately, this approach is very limited. When processing a natural language, sentences, in the general case, turn out to be much more complicated and cannot be processed by such systems. Great efforts have been made to solve these problems. On the one hand, some argue that programming semantics is impossible. On the other hand, there are companies that invest millions in semantics research. However, so far not a single system known in the art is capable of correctly processing natural languages.

В дополнение к вышеизложенному, разработка электронных систем перевода является трудоемким процессом и дает отдельные языковые пары. Например, на фиг. 2 показана концептуальная схема языковых пар для четырех (4) языков: английского, французского, испанского и немецкого. Однако для перевода с любого из четырех языков на любую другую систему перевода фактически используют шесть (6) установок языковых пар, т.е. языковые пары английский-немецкий, английский-французский, английский-испанский, французский-испанский, испанский-немецкий и немецкий-французский.In addition to the above, the development of electronic translation systems is a time-consuming process and provides separate language pairs. For example, in FIG. Figure 2 shows a conceptual diagram of language pairs for four (4) languages: English, French, Spanish, and German. However, in order to translate from any of the four languages to any other translation system, six (6) sets of language pairs are actually used, i.e. Language pairs English-German, English-French, English-Spanish, French-Spanish, Spanish-German and German-French.

Сложность такой системы значительно возрастает по мере добавления дополнительных языков. Например, добавление пятого языка - итальянского, добавляет четыре (4) дополнительные языковые пары, в результате чего получается всего десять (10) пар. Примечательно, что для каждой пары - усложненные словари, синтаксис и наборы семантических правил используют большие ресурсы для разработки. Аналогично, в таких системах, каждый перевод осуществляется индивидуально, даже когда требуется перевод на несколько языков.The complexity of such a system increases significantly with the addition of additional languages. For example, adding a fifth language, Italian, adds four (4) additional language pairs, resulting in only ten (10) pairs. It is noteworthy that for each pair - complicated dictionaries, syntax and sets of semantic rules use large resources for development. Similarly, in such systems, each translation is carried out individually, even when translation into several languages is required.

Таким образом, задачей настоящего изобретения является усовершенствование и дополнительное развитие способа обработки естественного языка, который позволяет правильно обрабатывать семантику текста или другие данные, например входную речь и т.п. Другой задачей изобретения является усовершенствование и дополнительное развитие системы языковой обработки для обработки естественного языка, которая позволяет избежать некоторых или все из вышеозначенных проблем.Thus, it is an object of the present invention to improve and further develop a method for processing a natural language that can correctly process text semantics or other data, such as input speech and the like. Another objective of the invention is the improvement and further development of the language processing system for processing natural language, which avoids some or all of the above problems.

Согласно изобретению, для решения вышеупомянутой задачи предложен способ, содержащий признаки п.1. Согласно этому пункту, такой способ характеризуется этапом анализа текста в отношении его синтаксиса и морфологии, этапом извлечения компонентов текста и их взаимосвязи, этапом генерации или использования графа или графического представления текста в качестве представления смысла текста, не зависящего от языка, и этапом осуществления обработки текста с использованием графа или графического представления.According to the invention, to solve the aforementioned problem, a method is proposed containing the features of claim 1. According to this paragraph, such a method is characterized by a step of analyzing the text with respect to its syntax and morphology, a step of extracting the components of the text and their relationship, a step of generating or using a graph or graphical representation of the text as a representation of the meaning of the text, independent of the language, and the stage of the text processing using a graph or graphical representation.

Согласно изобретению, сначала стало понятно, что проблему можно решить с использованием результатов, полученных в области неврологии. Один основной результат связан с тем фактом, что познавательная способность человека отчетливо различает синтаксис и семантику. Если несколько человек, говорящих на разных языках, находятся в одной комнате, где имеется зонт, каждый "знает", что это зонт. Но это "знание" не означает, что слово "зонт" активируется где-то в мозгу присутствующего человека. Однако, в целях общения, объект "зонт" тегируется словом, зависящим от языка. Участники знают объект без использования языка. Например, если они хотят выйти из дома, когда на улице дождь, они активируют "тег" посредством словаря, зависящего от языка, в целях общения. Они, например, спрашивают: "Можно мне взять этот зонт?".According to the invention, at first it became clear that the problem can be solved using the results obtained in the field of neurology. One main result is related to the fact that a person’s cognitive ability clearly distinguishes between syntax and semantics. If several people speaking different languages are in the same room where there is an umbrella, everyone “knows” that it is an umbrella. But this "knowledge" does not mean that the word "umbrella" is activated somewhere in the brain of the person present. However, for communication purposes, the umbrella object is tagged with a language-dependent word. Participants know the object without using the language. For example, if they want to leave the house when it rains outside, they activate the “tag” through a language-dependent dictionary for communication purposes. For example, they ask: "Can I take this umbrella?"

Это четкое разделение синтаксиса и семантики (или информации, зависящей от языка, и информации, не зависящей от языка) лежит в основе способа, отвечающего изобретению. На первом этапе текст, введенный в систему языковой обработки, анализируется в отношении его синтаксиса и морфологии. На этом этапе анализируется грамматическая структура. Это дает первое базовое понимание текста. На следующем этапе извлекаются отдельные компоненты текста. Текст, в общем случае, состоит из предложений, которые содержат подлежащее, дополнение и сказуемое, соответственно. Каждый компонент можно извлекать и выявлять его роль в предложении. Эти отдельные компоненты и их отношения друг с другом используются на следующем этапе генерации графа или графического представления текста. Отдельные компоненты образуют вершины графа и отношения между компонентами представлены ребрами. Граф, в общем случае, выражается матрицами. Однако логическую структуру также можно представлять графически для лучшего понимания людьми. Было обнаружено, что этот граф можно сделать полностью независимым от языка, который используется при вводе текста в систему. Граф включает в себя семантическую информацию, которую легко использовать для дальнейшей обработки.This clear distinction between syntax and semantics (or language-dependent information and language-independent information) underlies the method of the invention. At the first stage, the text entered into the language processing system is analyzed in relation to its syntax and morphology. At this stage, the grammatical structure is analyzed. This gives the first basic understanding of the text. The next step is to extract the individual components of the text. The text, in the General case, consists of sentences that contain the subject, supplement and predicate, respectively. Each component can be extracted and its role in the sentence revealed. These individual components and their relationships with each other are used in the next step in generating a graph or graphical representation of the text. The individual components form the vertices of the graph and the relations between the components are represented by edges. A graph is generally expressed by matrices. However, the logical structure can also be represented graphically for better understanding by people. It was found that this graph can be made completely independent of the language that is used when entering text into the system. The graph includes semantic information that is easy to use for further processing.

Вместо графа и/или его графического представления можно использовать другие формы графического представления. Они, например, включают в себя представление с использованием видео, пиктограмм и т.п.Instead of a graph and / or its graphical representation, other forms of graphical representation can be used. They, for example, include presentation using videos, icons, and the like.

Альтернативно или дополнительно к этапу генерации графа или графического представления, уже существующий граф или графическое представление можно использовать на этапе использования графа или графического представления. Этот граф или графическое представление описывает знание, уже присутствующее в системе языковой обработки. На этом этапе компоненты, извлеченные из текста, сопоставляются с элементами существующего графа или графического представления. Таким образом определяется подмножество существующего графа или графического представления.Alternatively or in addition to the step of generating a graph or graphical representation, an existing graph or graphical representation can be used in the step of using a graph or graphical representation. This graph or graphical representation describes the knowledge already present in the language processing system. At this point, components extracted from the text are mapped to elements of an existing graph or graphical representation. In this way, a subset of an existing graph or graphical representation is determined.

Согласно особо предпочтительному варианту осуществления, текстовый ввод в систему языковой обработки моделируется визуально-графическими или пиктографическими средствами. В результате получается визуально-графическая модель, которая представляет текст независимо от языка и которую может понять каждый пользователь системы языковой обработки. Таким образом, пользователи не обязаны иметь знание об используемых языках. Это также справедливо, если пользователь не понимает ни один из языков, используемых в системе языковой обработки.According to a particularly preferred embodiment, the text input into the language processing system is modeled by visual-graphic or pictographic means. The result is a visual-graphic model that represents the text regardless of the language and which every user of the language processing system can understand. Therefore, users are not required to have knowledge of the languages used. This is also true if the user does not understand any of the languages used in the language processing system.

На этапе анализа текста производится обращение к информации о грамматике языка, используемого во входном тексте. Каждый язык имеет свою особую грамматику, определяющую расстановку слов. Чтобы пользователи могли, не зная программирования, прописывать грамматики, грамматические данные можно вводить посредством редактора грамматики. Предпочтительно, чтобы этот редактор грамматики не зависел от языка. Требуется лишь определенная формализация возможных структур языков. Таким образом можно избежать длительной разработки различных грамматик для каждого отдельно взятого языка и вместо этого получить возможность быстрого и эффективного создания прототипов. Таким образом в систему языковой обработки можно быстро и непосредственно интегрировать новые языки. Грамматики, генерируемые редактором грамматики, можно использовать для языкового анализа, а также для генерации языка.At the stage of the analysis of the text, information on the grammar of the language used in the input text is accessed. Each language has its own special grammar that defines the arrangement of words. So that users can, without knowing programming, prescribe grammars, grammar data can be entered using the grammar editor. Preferably, this grammar editor is language independent. Only a certain formalization of the possible structures of languages is required. This way you can avoid the lengthy development of different grammars for each individual language and instead get the opportunity to quickly and efficiently create prototypes. Thus, new languages can be quickly and directly integrated into the language processing system. Grammars generated by the grammar editor can be used for language analysis, as well as for language generation.

Предпочтительно, этап анализа текста осуществляется синтаксическим слоем системы языковой обработки. Система языковой обработки может иметь модульную конфигурацию, которая обеспечивает возможность повторного использования и модульность системы. Синтаксический слой может осуществлять сегментацию и токенизацию текста. Сегментация означает разбиение текста на предложения, а токенизация означает выявление конкретных словоформ в предложении. При осуществлении сегментации и токенизации отдельные элементы, а также их взаимосвязь в предложении можно анализировать в отношении синтаксиса и морфологии.Preferably, the text analysis step is carried out by the syntax layer of the language processing system. The language processing system may have a modular configuration that provides reusability and modularity of the system. The syntax layer can segment and tokenize text. Segmentation means breaking the text into sentences, and tokenization means identifying specific word forms in a sentence. In the implementation of segmentation and tokenization, individual elements, as well as their relationship in the proposal, can be analyzed with respect to syntax and morphology.

Для улучшения модульности и для обеспечения способа, который можно универсально использовать, синтаксический слой можно привязывать к системе языковой обработки. Это дает возможность легко интегрировать разные языки в систему языковой обработки, добавляя в систему новый синтаксический слой. Поскольку обработка в системе осуществляется с помощью представления текста, не зависящего от языка, способ, отвечающий изобретению, позволяет обрабатывать любой язык. Тексты на новых языках преобразуются в представление, не зависящее от языка, путем привязки нового синтаксического слоя к системе языковой обработки. Таким образом способ можно использовать достаточно универсально.To improve modularity and to provide a method that can be universally used, the syntax layer can be linked to a language processing system. This makes it possible to easily integrate different languages into the language processing system, adding a new syntax layer to the system. Since processing in the system is carried out using the presentation of text independent of the language, the method corresponding to the invention allows any language to be processed. Texts in new languages are converted into a language-independent representation by linking the new syntax layer to the language processing system. Thus, the method can be used quite universally.

Каждый язык, привязанный к системе языковой обработки, можно представить в отдельном синтаксическом слое. Таким образом синтаксические вопросы можно конфигурировать полностью независимо друг от друга.Each language attached to the language processing system can be represented in a separate syntactic layer. In this way, syntax questions can be configured completely independently of each other.

Кроме того, отдельные языки могут иметь общие части синтаксического слоя. Например, верхненемецкий, швейцарский немецкий и австрийский немецкий имеют во многом схожую грамматику. Различаются лишь некоторые правила. В этом случае синтаксический слой может иметь часть, которая является общей для нескольких языков, и может иметь части, специфические для конкретного языка. Это сокращает работу по изменению правил для отдельных языков и облегчает ввод данных, используемых в синтаксическом слое. Таким образом, абстракции языков можно повторно использовать для отдельных синтаксических слоев.In addition, individual languages may have common parts of the syntax layer. For example, High German, Swiss German, and Austrian German have much similar grammar. Only a few rules differ. In this case, the syntax layer may have a part that is common to several languages, and may have parts specific to a particular language. This shortens the work of changing the rules for individual languages and facilitates the input of data used in the syntax layer. Thus, language abstractions can be reused for individual syntactic layers.

Информация, не зависящая от языка, может извлекаться в реляционном слое. В общем случае информация, не зависящая от языка, содержит объекты, действия и атрибуты, а также их отношения. Объекты обычно представляются существительными в таких языках, как немецкий, английский или китайский. Действия в общем случае описываются глаголами текста. Прилагательные также могут представлять действие. Например, две компании можно тегировать посредством "compete" или "being competitive". Атрибутами могут быть атрибуты ощущений, как то цвет, температура, размер или качество, а также такие атрибуты, как эмоции. Эти объекты, действия и атрибуты извлекаются из текста синтаксическим и реляционным слоем и передаются в семантический слой.Language-independent information can be retrieved in the relational layer. In general, language-independent information contains objects, actions, and attributes, as well as their relationships. Objects are usually represented by nouns in languages such as German, English, or Chinese. Actions are generally described by verbs of text. Adjectives can also represent action. For example, two companies can be tagged with “compete” or “being competitive”. Attributes can be attributes of sensations, such as color, temperature, size or quality, as well as attributes such as emotions. These objects, actions and attributes are extracted from the text by the syntactic and relational layer and transferred to the semantic layer.

На этапе генерации графа или графического представления объекты, действия и атрибуты предложения или фразы текста связываются друг с другом и представляются в виде графа или графически. Графическое представление (например, в виде матрицы или матриц) облегчает обработку текста в системе языковой обработки. Хотя графы также можно представлять графически, чисто графическое представление (не являющееся графом, например видео или пиктограммы) может быть более мощным, поскольку обеспечивает более высокую гибкость в отношении возможностей представления.At the stage of generating a graph or graphical representation, the objects, actions and attributes of a sentence or phrase of a text are connected with each other and presented in the form of a graph or graphically. A graphical representation (for example, in the form of a matrix or matrices) facilitates the processing of text in a language processing system. Although graphs can also be represented graphically, a purely graphical representation (not a graph, such as video or pictograms) can be more powerful because it provides greater flexibility with respect to presentation capabilities.

Для достижения языковой независимости системы языковой обработки объекты, действия и атрибуты можно представлять графически или посредством пиктограмм. Например, автомобиль можно представить пиктограммой автомобиля, скамью можно представить пиктограммой скамьи, атрибут "green" может быть зеленой областью, "to give" можно представить пиктограммами человека, передающего объект другому человеку, или посредством видео, и "to bark" можно представить звуком. Таким образом, каждый может понять графическое представление семантики, не тегируя объекты, действия или атрибуты терминами конкретного языка.To achieve linguistic independence of the language processing system, objects, actions and attributes can be represented graphically or through pictograms. For example, a car can be represented by a car icon, a bench can be represented by a bench icon, the attribute “green” can be a green area, “to give” can be represented by pictograms of a person transferring an object to another person, or through video, and “to bark” can be represented by sound. Thus, everyone can understand the graphical representation of semantics without tagging objects, actions, or attributes in terms of a particular language.

Этап обработки текста может содержать этап осмысления извлеченной семантики текста. Это можно делать, сравнивая извлеченную семантику с моделью или определяя расстояние между участвующими сущностями.The text processing step may include the step of understanding the extracted semantics of the text. This can be done by comparing the extracted semantics with the model or by determining the distance between the entities involved.

Центральной частью способа может быть смысловой мир. Смысловой мир представляет объектный мир. Главной задачей объектного мира является представление объектов, которые обычно представляются существительными в таких языках, как немецкий, английский или китайский. Он состоит из нескольких пространств размерностью от двух до n, содержащих объекты (или их прототипы), и упорядочивает их в осмысленные комбинации.The central part of the method may be the semantic world. The semantic world represents the object world. The main objective of the object world is to present objects that are usually represented by nouns in languages such as German, English or Chinese. It consists of several spaces from two to n in size containing objects (or their prototypes), and organizes them into meaningful combinations.

Объекты объектного мира можно организовывать с использованием структурных деревьев или структурных сетей, которые логически связывают отдельные объекты. Было обнаружено, что люди организуют знание об объектах мира и их отношениях в осмысленную структуру. Эта организация осуществляется неоднородно. Они используют концепции и категории для сохранения и сортировки информации. Такое группирование по категориям может существовать для электронных устройств (например, компьютера, принтеров и цифровых телефонов), бумаги (например, письма, документы и счета-фактуры), зданий (например, домов, музеев и офисов) и т.д. Отдельные объекты категории могут быть связаны с другими категориями. Например, офисное здание имеет несколько комнат, снабженных мебелью, электронными устройствами, бумагами и т.д. Мебель может содержать столы, стулья или книжные полки. С другой стороны, стул может быть офисным стулом, а также креслом-качалкой. И то и другое является стулом, но служит для совершенно разных целей. Таким образом отдельные слова связаны друг с другом в категориях.Objects of the object world can be organized using structural trees or structural networks that logically link individual objects. It was found that people organize knowledge about the objects of the world and their relationships into a meaningful structure. This organization is not uniform. They use concepts and categories to store and sort information. Such categorization may exist for electronic devices (e.g., computers, printers and digital phones), paper (e.g. letters, documents and invoices), buildings (e.g. houses, museums and offices), etc. Individual category objects may be associated with other categories. For example, an office building has several rooms equipped with furniture, electronic devices, papers, etc. Furniture may contain tables, chairs or bookshelves. On the other hand, the chair can be an office chair, as well as a rocking chair. Both are chairs, but serve for completely different purposes. Thus, individual words are related to each other in categories.

Смысловой мир дополнительно содержит пространство действий, которое отвечает за представление действий. Действия могут быть связаны с любой другой единицей в смысловом мире, например, единицу, тегированную английским словом "withdraw", можно связать с объектами "person", "money" и "cashpoint", которые являются участвующими актантами. Такие связи называются молекулами.The sense world additionally contains an action space that is responsible for representing actions. Actions can be associated with any other unit in the semantic world, for example, a unit tagged with the English word "withdraw" can be associated with objects "person", "money" and "cashpoint", which are participating actors. Such bonds are called molecules.

Кроме того, смысловой мир может содержать пространство атрибутов, которое содержит атрибуты элементов. Подавляющее большинство атрибутов можно количественно выразить некоторым естественным образом. Атрибуты ощущений, как то цвет, вкус, размер или давление, имеют представление размерностью от одного до трех, используемое в различных контекстах. Цвета, например, можно воспроизводить с использованием цветного шпинделя, который задается оттенком, насыщенностью и яркостью нужного цвета. Эмоции также можно задавать с использованием многомерного представления. Согласно модели, предложенной психологами, для совмещения всех эмоций человека можно использовать шести- или восьмимерный эмоциональный симплекс. Таким образом, эмоции также можно представлять вне зависимости от языка.In addition, the semantic world may contain an attribute space that contains the attributes of the elements. The vast majority of attributes can be quantified in some natural way. The attributes of sensations, such as color, taste, size, or pressure, have a representation of one to three dimensions used in various contexts. Colors, for example, can be reproduced using a color spindle, which is specified by the hue, saturation and brightness of the desired color. Emotions can also be set using a multidimensional representation. According to the model proposed by psychologists, a six- or eight-dimensional emotional simplex can be used to combine all human emotions. Thus, emotions can also be represented regardless of language.

Языковое представление текста может быть неоднозначным. Например, в предложении "the chicken is ready to eat" слово «цыпленок» можно интерпретировать либо как едока, либо как блюдо, которое будет съедено. В предложении "we saw the man with the telescope" телескопом пользуется либо человек, либо "мы". Эти неоднозначности разрешаются на основании контекста предложения. Этот контекст можно извлечь из смыслового мира. Если предыдущие предложения относятся к сельскому хозяйству, цыпленок, скорее всего, является едоком. Когда предыдущие предложения связаны с кулинарией, цыпленок, скорее всего, является едой. Эти вопросы, связанные с контекстом, можно решать с помощью смыслового мира.The language representation of the text may be ambiguous. For example, in the sentence "the chicken is ready to eat" the word "chicken" can be interpreted either as a eater or as a dish to be eaten. In the sentence "we saw the man with the telescope", either a person or "we" use a telescope. These ambiguities are resolved based on the context of the proposal. This context can be drawn from the semantic world. If the previous sentences relate to agriculture, the chicken is most likely a feeder. When previous suggestions are related to cooking, the chicken is most likely a meal. These contextual issues can be addressed with the help of the semantic world.

Неоднозначному тексту будет соответствовать несколько графов или графических представлений, причем количество представлений равно количеству значений, которые можно извлечь из текста. Используя смысловой мир, можно определить представление, которое с наибольшей вероятностью является истинным.An ambiguous text will correspond to several graphs or graphic representations, and the number of representations is equal to the number of values that can be extracted from the text. Using the semantic world, one can determine the representation that is most likely to be true.

В системе языковой обработки может существовать реляционный слой, который связывает синтаксические слои и семантический слой. Этот реляционный слой может содержать абстракции о возможных отношениях между объектами в слоях. Реляционный слой получает информацию, выводимую синтаксическим слоем, и осуществляет дополнительное обобщение и абстрагирование.In a language processing system, there may be a relational layer that connects the syntactic layers and the semantic layer. This relational layer may contain abstractions about the possible relationships between objects in the layers. The relational layer receives the information output by the syntactic layer, and performs additional generalization and abstraction.

Согласно одному варианту осуществления изобретения, способ можно использовать в системе перевода. В этом случае этап обработки содержит этап генерации перевода текста на язык, отличный от исходного языка текста. Поскольку граф или графическое представление не зависит от языка, он может служить основой для перевода на любой язык. При осуществлении этапов способа сначала исходный текст анализируется в отношении его синтаксиса и морфологии. Затем компоненты текста и их взаимоотношения извлекаются, и эта информация используется для генерации графа или графического представления текста, или для использования существующего графа или графического представления в качестве представления, не зависящего от языка. После необязательной семантической проверки представление, не зависящее от языка, преобразуется в текстовое представление. Этот этап преобразования может осуществляться синтаксическим слоем, поскольку этот слой использует синтаксическую и морфологическую информацию конечного языка. Благодаря модульной конфигурации системы теоретически возможен перевод с каждого языка на любой другой язык. Поскольку между ними существует платформа, не зависящая от языка, каждый язык просто нужно связать с представлением, не зависящим от языка. Таким образом, возможен случай, когда не требуются словари, связывающие отдельные языки друг с другом. Это значительно облегчает разработку автоматической системы перевода.According to one embodiment of the invention, the method can be used in a translation system. In this case, the processing step comprises the step of generating a translation of the text into a language other than the original language of the text. Since a graph or graphical representation is language independent, it can serve as the basis for translation into any language. When implementing the steps of the method, the source text is first analyzed in relation to its syntax and morphology. The text components and their relationships are then extracted, and this information is used to generate a graph or graphical representation of the text, or to use an existing graph or graphical representation as a language-independent representation. After an optional semantic check, a language-independent representation is converted to a text representation. This conversion step can be carried out by the syntactic layer, since this layer uses the syntactic and morphological information of the target language. Thanks to the modular configuration of the system, it is theoretically possible to translate from each language into any other language. Since there is a language-independent platform between them, each language simply needs to be associated with a language-independent representation. Thus, a case is possible when dictionaries connecting individual languages with each other are not required. This greatly facilitates the development of an automatic translation system.

Согласно другому варианту осуществления изобретения, способ можно использовать для поиска, поскольку он способен значительно улучшать результаты поисковых машин. Пользователь вводит запрос на веб-странице поисковой машины. Этот запрос анализируется синтаксически и морфологически, в результате чего извлекаются компоненты текста и их отношения. Эта информация используется при генерации внутреннего графического представления запроса. Неоднозначности могут определяться и разрешаться. Кроме того, отходя от строчного подхода, отдельные слова запроса можно обобщать, используя абстракции в структурных деревьях. Таким образом можно повысить качество результатов.According to another embodiment of the invention, the method can be used for search, since it can significantly improve the results of search engines. A user enters a query on a search engine web page. This query is parsed syntactically and morphologically, resulting in the extraction of the text components and their relationships. This information is used to generate an internal graphical representation of the request. Ambiguities can be defined and resolved. In addition, moving away from the line approach, individual query words can be generalized using abstractions in structural trees. Thus, you can improve the quality of the results.

Согласно другому варианту осуществления изобретения, способ можно использовать при анализе текста. Он позволяет извлекать темы, представленные в тексте. Это можно использовать для автоматической категоризации текста. Кроме того, это можно использовать для отыскания логических цепочек или информации о семантических структурах в тексте.According to another embodiment of the invention, the method can be used in text analysis. It allows you to extract topics presented in the text. This can be used to automatically categorize text. In addition, it can be used to find logical chains or information about semantic structures in the text.

Согласно еще одному варианту осуществления изобретения, способ можно использовать для генерации ответов на текстовый ввод в систему языковой обработки. Например, система может автоматически генерировать ответ на запрос, направленный пользователем, запрашивающим поддержку. В отличие от способов, известных в технике, данный способ позволяет анализировать и "понимать" текст, и создавать надлежащий ответ на запрос с использованием знания, представленного в модели смыслового мира.According to another embodiment of the invention, the method can be used to generate responses to text input into a language processing system. For example, a system may automatically generate a response to a request sent by a user requesting support. Unlike the methods known in the art, this method allows you to analyze and "understand" the text, and create an appropriate response to the request using the knowledge presented in the model of the semantic world.

Возможны и другие варианты осуществления. Поскольку способ предусматривает представление текста, не зависящее от языка, этап обработки можно заменить большим количеством других этапов. Таким образом, изобретение можно использовать очень универсально. Кроме того, при желании, отдельные описанные здесь варианты осуществления можно произвольно комбинировать.Other embodiments are possible. Since the method provides for the presentation of the text, regardless of the language, the processing step can be replaced by a large number of other steps. Thus, the invention can be used very universally. In addition, if desired, the individual embodiments described herein may be arbitrarily combined.

Согласно каждому варианту осуществления, текст, сгенерированный на этапе обработки, можно выводить пользователю в качестве письменного или устного языка или в виде изображения. Если этап обработки содержит этап анализа текста, выход также может содержать статистику или список тем или ввод для поиска.According to each embodiment, the text generated in the processing step can be displayed to the user as a written or spoken language or as an image. If the processing step includes a text analysis step, the output may also contain statistics or a list of topics or search input.

Для улучшения и облегчения построения баз данных, используемых в системе, знание, необходимое на этапах способа, отвечающего изобретению, можно вводить через веб-интерфейс. Знание может включать в себя теги лексикона, содержимое модели смыслового мира, грамматическую информацию, представление атрибутов и т.п. Эта информация может вводиться открытой группой пользователей, вносящих информацию в режиме, удобном для пользователя.To improve and facilitate the construction of the databases used in the system, the knowledge necessary at the stages of the method corresponding to the invention can be entered via the web interface. Knowledge may include lexicon tags, content of the model of the semantic world, grammatical information, presentation of attributes, etc. This information can be entered by an open group of users contributing information in a mode convenient for the user.

В отношении системы языковой обработки для обработки естественного языка и, согласно изобретению, для решения вышеупомянутой задачи предложен способ, содержащий признаки п.16. Предпочтительные варианты осуществления изобретения описаны в зависимых п.п.17-27.With respect to a language processing system for processing a natural language and, according to the invention, for solving the aforementioned problem, a method is proposed comprising the features of clause 16. Preferred embodiments of the invention are described in dependent claims 17-27.

Для решения вышеупомянутых задач предложен способ разработки системы языковой обработки по п.28 и его варианты осуществления, описанные в зависимых п.п.29 и 30.To solve the above problems, a method for developing a language processing system according to claim 28 and its embodiments described in the dependent claims 29 and 30 are proposed.

Существуют несколько путей преимущественного построения и дополнительного развития концепции настоящего изобретения. Для этого следует обратиться к пунктам формулы изобретения, подчиненным пунктам 1, 16 или 28, с одной стороны, и к нижеследующему объяснению предпочтительного примера варианта осуществления изобретения, проиллюстрированного на чертежах, с другой стороны. В связи с объяснением предпочтительного примера варианта осуществления изобретения с помощью чертежей будет, в целом, объяснен предпочтительный вариант осуществления и дополнительное развитие концепции. На чертежах:There are several ways to preferentially build and further develop the concept of the present invention. To do this, refer to the claims subordinate to paragraphs 1, 16 or 28, on the one hand, and to the following explanation of a preferred example of an embodiment of the invention illustrated in the drawings, on the other hand. In connection with the explanation of a preferred example of an embodiment of the invention using the drawings, a preferred embodiment and further development of the concept will be generally explained. In the drawings:

фиг. 1 - иллюстративная логическая блок-схема традиционного процесса перевода;FIG. 1 is an illustrative logical block diagram of a traditional translation process;

фиг. 2 - иллюстративная концептуальная схема варианта осуществления языковых пар, используемых в традиционном процессе перевода, показанном на фиг. 1,FIG. 2 is an illustrative conceptual diagram of an embodiment of language pairs used in the traditional translation process shown in FIG. one,

фиг. 3 - структура процесса перевода,FIG. 3 - structure of the translation process,

фиг. 4 - графическое представление предложения,FIG. 4 is a graphical representation of the proposal,

фиг. 5 - возможное представление действий,FIG. 5 - possible representation of actions,

фиг. 6 - представления температуры (часть a)) и эмоций (часть b)),FIG. 6 - representations of temperature (part a)) and emotions (part b)),

фиг. 7 - иллюстративная логическая блок-схема процесса перевода на основе смыслового мира,FIG. 7 is an illustrative logical block diagram of the translation process based on the semantic world,

фиг. 8 - иллюстративная концептуальная схема варианта осуществления языковых пар, используемых в процессе перевода на основе смыслового мира, показанном на фиг. 7,FIG. 8 is an illustrative conceptual diagram of an embodiment of language pairs used in a translation process based on the semantic world shown in FIG. 7,

фиг. 9 - иллюстративная блок-схема варианта осуществления системы перевода на основе смыслового мира,FIG. 9 is an illustrative block diagram of an embodiment of a translation system based on the semantic world,

фиг. 10 - иллюстративная блок-схема варианта осуществления системы смыслового мира, показанной на фиг. 9,FIG. 10 is an illustrative block diagram of an embodiment of a sense world system shown in FIG. 9,

фиг. 11 - иллюстративная логическая блок-схема варианта осуществления процесса добавления языка для добавления языка в систему перевода на основе смыслового мира, показанную на фиг. 9,FIG. 11 is an illustrative logical block diagram of an embodiment of a process for adding a language to add a language to a semantic world-based translation system shown in FIG. 9,

фиг. 12A - иллюстративная логическая блок-схема варианта осуществления процесса добавления термина для добавления термина в языковой словарь в системе перевода на основе смыслового мира, показанной на фиг. 9,FIG. 12A is an illustrative flowchart of an embodiment of a process for adding a term to add a term to a language dictionary in a translation system based on the semantic world shown in FIG. 9,

фиг. 12B - иллюстративная логическая блок-схема другого варианта осуществления процесса добавления термина для добавления термина в языковой словарь в системе перевода на основе смыслового мира, показанной на фиг. 9,FIG. 12B is an illustrative flowchart of another embodiment of a process for adding a term to add a term to a language dictionary in a translation system based on the semantic world shown in FIG. 9,

фиг. 13 - иллюстративная блок-схема варианта осуществления системы, включающей в себя один или несколько серверов перевода, способных реализовать систему перевода на основе смыслового мира, показанную на фиг. 9,FIG. 13 is an illustrative block diagram of an embodiment of a system including one or more translation servers capable of implementing a semantic-based translation system shown in FIG. 9,

фиг. 14 - иллюстративная блок-схема варианта осуществления вычислительной системы, способной реализовать один или несколько компонентов описанной здесь электронной системы.FIG. 14 is an illustrative block diagram of an embodiment of a computing system capable of implementing one or more components of the electronic system described herein.

На фиг. 3 показан пример процесса перевода, согласно вариантам осуществления изобретения. Рассмотрим перевод предложения "die grüne Bank steht im Wald" с использованием изобретения. На фиг. 3 показан семантический слой 2, который является ядром системы 1 языковой обработки. Семантический слой внедрен в реляционный слой 3. К этому реляционному слою 3 привязано несколько синтаксических слоев 4, 5, 6. Каждый синтаксический слой представляет язык: синтаксический слой 4 представляет немецкий, синтаксический слой 5 представляет английский, и синтаксический слой 6 представляет польский.In FIG. 3 shows an example of a translation process according to embodiments of the invention. Consider the translation of the sentence "die grüne Bank steht im Wald" using the invention. In FIG. 3 shows semantic layer 2, which is the core of the language processing system 1. The semantic layer is embedded in the relational layer 3. Several syntax layers 4, 5, 6 are attached to this relational layer 3. Each syntax layer represents a language: syntax layer 4 represents German, syntax layer 5 represents English, and syntax layer 6 represents Polish.

Текстовый ввод в систему языковой обработки 1 поступает на синтаксический слой 4. Синтаксический слой 4 анализирует текст в отношении его грамматики и синтаксиса. Можно понять, что "Bank" является подлежащим предложения. "Bank" имеет атрибут "grün". "Bank" осуществляет действие "stehen" и это происходит в "Wald". Эти сведения получаются путем синтаксического и морфологического анализа текста.The text input into the language processing system 1 is supplied to the syntax layer 4. The syntax layer 4 analyzes the text with respect to its grammar and syntax. You can understand that "Bank" is the subject of the proposal. "Bank" has the attribute "grün". "Bank" carries out the action "stehen" and it takes place in "Wald". This information is obtained by syntactic and morphological analysis of the text.

Компоненты текста и их взаимоотношения можно извлекать. Это можно использовать для генерации универсального представления предложения, не зависящего от языка, которое показано на фиг. 4 в виде графа. Этот граф можно преобразовать в английский или любой другой доступный язык. На первом этапе пиктограмма, представляющая "Bank", переводится английским словом "bench". Атрибут "grün" скамьи переводится словом "green", действие "stehen" переводится словом "is", и представление "Wald" тегируется словом "forest". В результате перевода представления на английский язык получается предложение "the green bench is in the forest".The components of the text and their relationships can be extracted. This can be used to generate a universal representation of a sentence independent of the language, which is shown in FIG. 4 in the form of a graph. This graph can be converted to English or any other available language. At the first stage, the pictogram representing "Bank" is translated by the English word "bench". The bench attribute “grün” is translated with the word “green”, the action “stehen” is translated with the word “is”, and the representation “Wald” is tagged with the word “forest”. As a result of the translation of the presentation into English, the sentence "the green bench is in the forest" is obtained.

Как следует из вышеприведенного примера, благодаря тегированию графического представления с помощью другого языка и размещению слова в грамматически верном порядке каждый язык может служить исходным и конечным языком, соответственно.As follows from the above example, by tagging a graphical representation using another language and placing the word in grammatically correct order, each language can serve as the source and destination language, respectively.

На фиг. 5 представлено несколько возможных действий, осуществляемых человеком, изображенным в центре. Показаны действия "думать", "сидеть", "идти" и "давать".In FIG. Figure 5 presents several possible actions carried out by the person depicted in the center. Showing actions of "think," "sit," "go," and "give."

На фиг. 6 показаны иллюстративные представления двух атрибутов. На фиг 6a представлена температурная шкала и соответствующие атрибуты. В общем случае, эти представления являются нечеткими и не могут отражать конкретное значение. Теплые блюда будут ощущаться как холодные, если они имеют температуру 10ºC или менее. Они будут обозначаться как тепловатые при температуре 20ºC. Температура 70ºC будет ощущаться как горячая.In FIG. 6 illustrates illustrative representations of two attributes. 6a shows a temperature scale and associated attributes. In the general case, these representations are fuzzy and cannot reflect a specific meaning. Warm dishes will feel cold if they have a temperature of 10ºC or less. They will be designated as lukewarm at a temperature of 20ºC. A temperature of 70ºC will feel like hot.

На фиг. 6b изображено 4-мерное пространство для представления эмоций. Эмоции, которые можно представлять, являются суперпозицией симплекса: "испуганный", "удивленный", "счастливый" и "сердитый". Представленная здесь эмоция является точкой или областью в этом 4-мерном пространстве.In FIG. 6b shows a 4-dimensional space for representing emotions. The emotions that can be imagined are a superposition of the simplex: “scared,” “surprised,” “happy,” and “angry.” The emotion presented here is a point or region in this 4-dimensional space.

Во многих вариантах осуществления отношение, модели, синтаксические требования и пр. могут составлять часть одного или многих взаимодействующих компьютерных процессов. Соответственно, согласно вариантам осуществления настоящего раскрытия, компьютерная система применяет объектный мир, не зависящий от языка, тем самым обеспечивая центральный узел для переводов. Согласно варианту осуществления, текст или речь переводится с исходного языка в интерпретацию, не зависящую от языка, до перевода этого представления на один или несколько конечных языков для вывода.In many embodiments, relationships, models, syntactic requirements, etc., may form part of one or more interacting computer processes. Accordingly, according to embodiments of the present disclosure, a computer system employs a language-independent object world, thereby providing a central site for translations. According to an embodiment, the text or speech is translated from the source language into a language-independent interpretation before translating this representation into one or more final languages for output.

Например, языковые системы настоящего раскрытия обеспечивают отображение синтаксиса и семантики входного языка, например, в граф в смысловом мире, не зависящем от языка. Из этого представления, не зависящего от языка, можно сделать перевод на любой язык или несколько языков. Согласно варианту осуществления, граф, не зависящий от языка, также может быть связан с и/или быть выходом графического или мультимедийного представления. Соответствующий процесс перевода анализирует входной текст (или речь) в отношении его синтаксиса и морфологии, извлекает компоненты текста и их взаимосвязи, генерирует граф текста в качестве представления смысла текста, не зависящего от языка, и осуществляет обработку текста с использованием графа.For example, the language systems of the present disclosure provide a mapping of the syntax and semantics of the input language, for example, into a graph in the semantic world, independent of the language. From this representation, independent of the language, you can make a translation into any language or several languages. According to an embodiment, a language independent graph may also be associated with and / or be the output of a graphical or multimedia presentation. The corresponding translation process analyzes the input text (or speech) in relation to its syntax and morphology, extracts the text components and their relationships, generates a text graph as a representation of the meaning of the text, which is independent of the language, and processes the text using the graph.

Такая система, в общем случае, согласуется с результатами неврологических исследований. Один основной результат включает в себя понимание того факта, что познавательная способность человека различает синтаксис и семантику. Вернемся к рассмотренному выше случаю с зонтом. Это разделение синтаксиса и семантики (или информации, зависящей от языка и информации, не зависящей от языка) составляет часть процесса перевода, предложенного в настоящем раскрытии. Например, при анализе текста в отношении его синтаксиса и морфологии анализируется грамматическая структура. Это дает базовое понимание текста. Содержание этого текста извлекается. Например, текст, в общем случае, включает в себя предложения, которые могут содержать подлежащее, дополнение и сказуемое. Согласно варианту осуществления, можно извлекать каждый компонент и можно выявлять его роль в предложении. Эти компоненты и их взаимоотношения используются при преобразовании текста в граф. Компоненты образуют вершины графа и отношение между компонентами представлены ребрами. Согласно варианту осуществления, этот граф можно сделать частично или полностью независимым от языка, который используется при вводе (или выводе) текста. Граф, в основном, включает в себя семантическую информацию, которую можно непосредственно использовать для дальнейшей обработки.Such a system, in general, is consistent with the results of neurological studies. One major result includes an understanding of the fact that a person’s cognitive ability distinguishes between syntax and semantics. Let us return to the case considered above with an umbrella. This separation of syntax and semantics (or language-dependent information and language-independent information) is part of the translation process proposed in this disclosure. For example, when analyzing a text with respect to its syntax and morphology, the grammatical structure is analyzed. This provides a basic understanding of the text. The content of this text is retrieved. For example, the text, in the General case, includes sentences that may contain subject, addition and predicate. According to an embodiment, each component can be extracted and its role in the proposal can be revealed. These components and their relationships are used when converting text to graph. The components form the vertices of the graph and the relation between the components is represented by edges. According to an embodiment, this graph can be made partially or completely independent of the language used to input (or output) the text. The graph mainly includes semantic information that can be directly used for further processing.

В ходе анализа текста система обращается к информации о грамматике используемого языка. Каждый язык включает в себя свою особую грамматику, устанавливающую правила расстановки слов. Другой аспект этого раскрытия предусматривает сравнительно прямой, нетехнический способ генерации этих правил грамматики. Чтобы пользователи могли, имея небольшие познания в программировании или вовсе не имея их, прописывать правила грамматики, грамматические данные можно вводить посредством редактора грамматики. Правила грамматики включают в себя определенную формализацию возможных структур данного языка. Таким образом можно избежать длительной разработки различных грамматик для каждого отдельно взятого языка или сократить ее и вместо этого получить возможность быстрого и эффективного создания прототипов. Таким образом в раскрытую здесь систему языковой обработки можно быстрее и легче интегрировать новые языки.During the analysis of the text, the system refers to the grammar information of the language used. Each language includes its own special grammar, which sets the rules for word placement. Another aspect of this disclosure provides a relatively direct, non-technical way of generating these grammar rules. So that users can, with little or no programming knowledge, prescribe grammar rules, grammar data can be entered using the grammar editor. Grammar rules include a certain formalization of the possible structures of a given language. Thus, you can avoid the lengthy development of various grammars for each individual language or reduce it and instead get the opportunity to quickly and efficiently create prototypes. Thus, it is possible to integrate new languages faster and easier into the language processing system disclosed here.

Согласно варианту осуществления, анализ текста осуществляется анализатором, действующим в синтаксическом слое системы языковой обработки. В одном аспекте раскрытия система языковой обработки может иметь модульную конфигурацию, обеспечивающую возможность повторного использования, адаптируемость и расширяемость системы. Анализатор может осуществлять сегментацию и токенизацию текста. Сегментация означает разбиение текста на предложения, а токенизация означает выявление конкретных словоформ в предложении. После осуществления сегментации и токенизации элементы, а также их взаимосвязь в предложении можно анализировать в отношении синтаксиса и морфологии.According to an embodiment, the text is analyzed by an analyzer operating in the syntax layer of the language processing system. In one aspect of the disclosure, the language processing system may have a modular configuration that provides reusability, adaptability and extensibility of the system. The analyzer can segment and tokenize text. Segmentation means breaking the text into sentences, and tokenization means identifying specific word forms in a sentence. After segmentation and tokenization, the elements, as well as their relationship in the proposal, can be analyzed with respect to syntax and morphology.

Для улучшения модульности и для обеспечения процесса, который можно универсально использовать, объекты синтаксического слоя можно связывать с системой языковой обработки. Это дает возможность легко интегрировать разные языки в систему языковой обработки, добавляя новый анализатор и словарь для каждого языка. Поскольку обработка в системе осуществляется с помощью представления текста, не зависящего от языка, любой язык можно обрабатывать. Тексты на новых языках преобразуются в представление, не зависящее от языка, и затем спаривание с любым другим существующим языком можно использовать для преобразования. Таким образом процесс можно использовать достаточно универсально.To improve modularity and to provide a process that can be universally used, syntax layer objects can be associated with a language processing system. This makes it possible to easily integrate different languages into the language processing system, adding a new analyzer and dictionary for each language. Since processing in the system is carried out using a representation of text that is independent of the language, any language can be processed. Texts in new languages are converted to a language-independent representation, and then pairing with any other existing language can be used for conversion. Thus, the process can be used quite universally.

Каждый язык, привязанный к системе языковой обработки, можно представить в виде отдельного множества объектов синтаксического слоя. Таким образом синтаксические вопросы можно конфигурировать независимо друг от друга. Кроме того, существует возможность, что отдельные языки могут иметь общие объекты синтаксического слоя, например анализатор или основные части анализатора. Например, верхненемецкий, швейцарский немецкий и австрийский немецкий языки имеют во многом общие правила грамматики. Различаются лишь некоторые правила. В этом случае единичный анализатор может оперировать с каждым языком, при том, что большинство правил являются общими для нескольких языков и некоторые правила зависят от языка. Это сокращает работу по изменению правил для отдельных языков.Each language attached to the language processing system can be represented as a separate set of objects of the syntactic layer. In this way, syntax questions can be configured independently of one another. In addition, it is possible that individual languages may have common objects of the syntactic layer, for example, the analyzer or the main parts of the analyzer. For example, High German, Swiss German, and Austrian German have many common grammar rules. Only a few rules differ. In this case, a single analyzer can operate with each language, despite the fact that most of the rules are common for several languages and some rules depend on the language. This reduces the work of changing the rules for individual languages.

Информация, не зависящая от языка, извлекается в этом синтаксическом и/или необязательном реляционном слое. В общем случае информация, не зависящая от языка, содержит объекты, действия и атрибуты, а также их отношения. Объекты обычно представляются существительными в таких языках, как немецкий, английский или китайский. Действия, в общем случае, описываются глаголами текста. Прилагательные также могут представлять действие. Например, две компании можно тегировать словами "compete" или "competitive". Атрибутами могут быть атрибуты ощущений, как то цвет, температура, размер или качество, а также такие атрибуты, как эмоции. Эти объекты, действия и атрибуты извлекаются из текста объектами синтаксического или реляционного слоя и переводятся в представления в смысловом мире (которые здесь именуются семантическим слоем).Language-independent information is retrieved in this syntax and / or optional relational layer. In general, language-independent information contains objects, actions, and attributes, as well as their relationships. Objects are usually represented by nouns in languages such as German, English, or Chinese. Actions are generally described by verbs of text. Adjectives can also represent action. For example, two companies can be tagged with the words “compete” or “competitive”. Attributes can be attributes of sensations, such as color, temperature, size or quality, as well as attributes such as emotions. These objects, actions and attributes are extracted from the text by objects of the syntactic or relational layer and are translated into representations in the semantic world (which are called the semantic layer here).

На этапе обработки предложения объекты, действия и атрибуты предложения или фразы текста связываются друг с другом и представляются в виде графа. Граф облегчает обработку текста в системе языковой обработки, поскольку графы можно легко представить в виде матриц.At the stage of processing the proposal, the objects, actions and attributes of the proposal or phrases of the text are associated with each other and presented in the form of a graph. A graph facilitates text processing in a language processing system, since graphs can be easily represented as matrices.

Для обеспечения языковой независимости системы смыслового мира объекты, действия и атрибуты можно представлять на основании уникального ID. Однако предпочтительно, чтобы каждое представление термина в смысловом мире также имело изображение или иллюстрацию смысла для упрощения работы со смысловым миром (особенно для людей, не владеющих навыками программирования). Например, автомобиль можно представить пиктограммой автомобиля, скамью можно представить пиктограммой скамьи, атрибут "зеленый" может быть зеленой областью, и "давать" можно представить пиктограммами человека, передающего объект другому человеку. Таким образом, графы и объекты смыслового мира можно понимать посредством графических представлений, не тегируя объекты, действия или атрибуты терминами конкретного языка.To ensure the linguistic independence of the system of the semantic world, objects, actions and attributes can be represented on the basis of a unique ID. However, it is preferable that each representation of the term in the semantic world also has an image or illustration of meaning to simplify work with the semantic world (especially for people who do not have programming skills). For example, a car can be represented by a car icon, a bench can be represented by a bench icon, the attribute “green” can be a green area, and “give” can be represented by pictograms of a person transferring an object to another person. Thus, graphs and objects of the semantic world can be understood by means of graphic representations, without tagging objects, actions or attributes in terms of a specific language.

Этап обработки текста может содержать этап осмысления извлеченной семантики текста. Это можно делать, сравнивая извлеченную семантику с моделью смыслового мира или определяя расстояние между участвующими объектами смыслового мира. "Расстояние" в этом случае указывает относительное отношение между разными объектами в смысловом мире. Чем ближе друг к другу объекты, тем теснее они связаны или сильнее коррелируют. Чем теснее связано множество объектов в смысловом мире, тем вероятнее, что перевод будет верным.The text processing step may include the step of understanding the extracted semantics of the text. This can be done by comparing the extracted semantics with the model of the semantic world or by determining the distance between the participating objects of the semantic world. "Distance" in this case indicates the relative relationship between different objects in the semantic world. The closer the objects are to each other, the closer they are connected or correlate more strongly. The more closely connected many objects in the semantic world, the more likely that the translation will be correct.

Смысловой мир содержит объекты терминов, не зависящих от языка ("объекты LIT"). Объекты LIT, в основном, предназначены для представления объектов, которые обычно представляются существительными в таких языках, как немецкий, английский или китайский. Он состоит из нескольких пространств размерностью от 2 до n (2-n), содержащих объекты (или их прототипы), и упорядочивает их в осмысленные комбинации. Другие части речи, например глаголы, также можно представлять объектами.The semantic world contains language-dependent term objects (“LIT objects”). LIT objects are primarily intended to represent objects that are usually represented by nouns in languages such as German, English, or Chinese. It consists of several spaces ranging in size from 2 to n (2-n) containing objects (or their prototypes), and arranges them into meaningful combinations. Other parts of speech, such as verbs, can also be represented by objects.

В одном аспекте раскрытие предусматривает системы и процессы для обеспечения систем перевода. В этом случае граф или другое семантическое представление входного текста не зависит от языка и может служить основой для перевода на любой язык. В общем случае, этапы процесса включают в себя анализ исходного текста в отношении его синтаксиса и морфологии с использованием компонентов текста и их взаимоотношений для генерации графа текста в качестве представления, не зависящего от языка. После необязательной семантической проверки представление, не зависящее от языка, преобразуется в текстовое представление на конечном(ых) языке(ах). Этот этап преобразования может осуществляться синтаксическим слоем, поскольку этот слой уже включает в себя синтаксическую и морфологическую информацию конечного(ых) языка(ов). Теоретически возможен перевод с каждого языка на любой другой язык с минимальным дополнительным усложнением при добавлении в систему каждого нового языка. Поскольку между ними существует платформа, не зависящая от языка, каждый язык просто нужно адаптировать к представлению, не зависящему от языка. Таким образом, не требуются словари, связывающие отдельные языки друг с другом (в отличие от вышеописанной модели, отвечающей уровню техники). Это облегчает разработку автоматической системы перевода.In one aspect, the disclosure provides systems and processes for providing translation systems. In this case, a graph or other semantic representation of the input text does not depend on the language and can serve as the basis for translation into any language. In general, process steps include analyzing the source text with respect to its syntax and morphology using text components and their relationships to generate a graph of text as a language-independent representation. After an optional semantic check, a language-independent representation is converted to a text representation in the final language (s). This conversion step can be carried out by the syntactic layer, since this layer already includes the syntactic and morphological information of the final language (s). It is theoretically possible to translate from each language to any other language with minimal additional complication when each new language is added to the system. Since there is a language-independent platform between them, each language simply needs to be adapted to a language-independent representation. Thus, dictionaries connecting individual languages with each other are not required (in contrast to the above-described model corresponding to the prior art). This facilitates the development of an automatic translation system.

Согласно другому аспекту, раскрытие может обеспечивать процесс, улучшающий поиск в поисковой машине. Например, пользователь вводит запрос на веб-странице поисковой машины. Этот запрос анализируется в отношении его синтаксиса и морфологии, в результате чего извлекаются компоненты текста и их отношения. Эта информация используется для генерации внутреннего графа запроса. Благодаря использованию модели смыслового мира, не зависящей от языка, неоднозначности могут определяться и разрешаться. Кроме того, отходя от строчного подхода к поисковым запросам, отдельные слова запроса можно обобщать, используя абстракции, например, в структурных деревьях, и отношения между словами. Таким образом можно повысить качество результатов.According to another aspect, the disclosure may provide a process that improves search in a search engine. For example, a user enters a query on a search engine web page. This query is analyzed with respect to its syntax and morphology, as a result of which the components of the text and their relationships are extracted. This information is used to generate an internal query graph. Through the use of a model of the semantic world, independent of language, ambiguities can be defined and resolved. In addition, moving away from the string approach to search queries, individual query words can be generalized using abstractions, for example, in structural trees, and the relationship between words. Thus, you can improve the quality of the results.

Согласно еще одному аспекту, раскрытие предусматривает процесс анализа текста и извлечения информации, например, о теме текста. Это можно использовать для автоматической категоризации текста. Кроме того, это можно использовать для отыскания логических цепочек или информации о семантических структурах в тексте.According to another aspect, the disclosure provides a process for analyzing the text and extracting information, for example, about the subject of the text. This can be used to automatically categorize text. In addition, it can be used to find logical chains or information about semantic structures in the text.

Согласно каждому варианту осуществления, текст, сгенерированный на этапе обработки, можно выводить пользователю в качестве письменного или устного языка или в виде изображения. Если этап обработки содержит этап анализа текста, выход также может содержать статистику или список тем или ввод для поиска или другой обработки.According to each embodiment, the text generated in the processing step can be displayed to the user as a written or spoken language or as an image. If the processing step includes a text analysis step, the output may also contain statistics or a list of topics or input for searching or other processing.

Для улучшения и облегчения построения структур данных, баз данных и представлений, используемых в системе, знание, используемое на этапах процесса, отвечающего изобретению, можно вводить через веб-интерфейс. Знание может включать в себя теги лексикона, содержимое смыслового мира, грамматическую информацию, представление атрибутов и т.п. Эта информация может вводиться открытой группой пользователей, вносящих информацию через интерфейс, удобный для пользователя, а не интерфейс, приспособленный для программирования.To improve and facilitate the construction of data structures, databases and representations used in the system, the knowledge used in the steps of the process corresponding to the invention can be entered via the web interface. Knowledge may include vocabulary tags, content of the semantic world, grammatical information, presentation of attributes, etc. This information can be entered by an open group of users entering information through an interface convenient for the user, rather than an interface adapted for programming.

Для облегчения полного понимания изобретения в оставшейся части подробного описания изобретение описано со ссылкой на чертежи, снабженные сквозной системой обозначений.To facilitate a complete understanding of the invention, in the remainder of the detailed description, the invention is described with reference to the drawings provided with an end-to-end notation.

В отличие от недостатков, связанных с фиг. 1 и 2, на фиг. 7 показана иллюстративная логическая блок-схема процесса 300 перевода на основе смыслового мира, согласно вариантам осуществления настоящего раскрытия. Согласно фиг. 7, на блоке 310 текст любой длины, например, предложение или абзац, вводится в электронную систему перевода, согласно раскрытым здесь вариантам осуществления. Например, на блоке 310 можно ввести "The boy is running to the park". На блоке 312 система анализирует предложение для извлечения корневой формы ключевых концепций текста. Обычно это будет, по меньшей мере, подлежащее, сказуемое и, иногда, дополнение предложения. В представленном примере существуют три ключевых термина: (1) boy; (2) run; и (3) park. Эти термины переводятся в не зависящий от языка граф "смысловой мир" (Блок 314). Согласно варианту осуществления, граф включает в себя вершину для каждого из ключевых концептуальных терминов и ребро для иллюстрации их связей с другими терминами. Ключевые концепции переводятся на выбранный язык (Блок 316). В этом примере конечным языком является немецкий: (1) Junge; (2) laufen; и (3) Park. Зависящий от языка модуль анализатора преобразует предложение с использованием надлежащих артиклей, форм глаголов и пр. (Блок 318), и законченное предложение "Der Junge läuft zum Park" выводится пользователю (Блок 320).In contrast to the disadvantages associated with FIG. 1 and 2, in FIG. 7 shows an illustrative flowchart of a semantic world-based translation process 300 according to embodiments of the present disclosure. According to FIG. 7, at block 310, text of any length, such as a sentence or paragraph, is entered into an electronic translation system according to the embodiments disclosed herein. For example, at block 310, you can enter "The boy is running to the park". At block 312, the system analyzes the sentence to extract the root form of key text concepts. Usually this will be at least the subject, predicate and, sometimes, the complement of the sentence. In the presented example, there are three key terms: (1) boy; (2) run; and (3) park. These terms are translated into the language-independent graph “semantic world” (Block 314). According to an embodiment, the graph includes a vertex for each of the key conceptual terms and an edge to illustrate their relationship with other terms. Key concepts are translated into the selected language (Block 316). In this example, the final language is German: (1) Junge; (2) laufen; and (3) Park. The language-dependent analyzer module converts the sentence using the appropriate articles, verb forms, etc. (Block 318), and the completed sentence "Der Junge läuft zum Park" is displayed to the user (Block 320).

Хотя и в упрощенном примере, процесс 300, показанный на фиг. 7, иллюстрирует основные концепции смыслового мира и его графические свойства. На основании данного раскрытия специалист может уяснить себе многие более сложные сценарии ввода на естественном языке, и, как будет рассмотрено ниже, представление в смысловом мире обеспечивает значительную гибкость и силу для решения таких сценариев.Although in a simplified example, the process 300 shown in FIG. 7 illustrates the basic concepts of the semantic world and its graphic properties. Based on this disclosure, a specialist can understand for himself many more complex input scenarios in a natural language, and, as will be discussed below, representation in the semantic world provides considerable flexibility and power for solving such scenarios.

На фиг. 8 показана иллюстративная концептуальная схема языковых пар, согласно настоящему раскрытию. Например, согласно фиг. 8, четыре языка, показанные на фиг. 2, используют четыре (4) языковые пары, а не шесть (6). Кроме того, включение дополнительного языка - итальянского, использует дополнительную языковую пару. Таким образом для пяти языков, согласно настоящему раскрытию, требуется пять (5) языковых пар в отличие от десяти (10), как показано на фиг. 2.In FIG. 8 shows an illustrative conceptual diagram of language pairs according to the present disclosure. For example, as shown in FIG. 8, the four languages shown in FIG. 2, use four (4) language pairs, not six (6). In addition, the inclusion of an additional language - Italian, uses an additional language pair. Thus, for five languages, according to the present disclosure, five (5) language pairs are required as opposed to ten (10), as shown in FIG. 2.

Таким образом, согласно фиг. 8, каждый язык привязан к центральному смысловому миру, а не к какому-либо другому конкретному языку. Это обеспечивает модульный подход к системе перевода, поскольку никакой язык не нужно привязывать ни к какому другому языку по отдельности. Кроме того, системы и процессы, отвечающие этому раскрытию, приводят к значительно менее сложной системе, которую также, в общем случае, значительно дешевле разрабатывать, чем традиционные системы.Thus, according to FIG. 8, each language is attached to the central semantic world, and not to any other specific language. This provides a modular approach to the translation system, since no language needs to be tied to any other language individually. In addition, systems and processes consistent with this disclosure lead to a significantly less complex system, which is also, in general, much cheaper to develop than traditional systems.

Варианты осуществления настоящей системы могут, например, быть особенно полезными в международном интернет-чате или сеансе мгновенного обмена сообщениями. Вариант осуществления раскрытой системы можно использовать в серверной системе мгновенного обмена сообщениями, и каждое сообщение можно переводить на предпочтительный язык отдельных конечных пользователей при передаче сообщений. Существуют многие другие применения раскрытой системы перевода, которые будут более подробно рассмотрены ниже.Embodiments of the present system may, for example, be particularly useful in an international Internet chat or instant messaging session. An embodiment of the disclosed system can be used in the server instant messaging system, and each message can be translated into the preferred language of the individual end users when transmitting messages. There are many other uses of the disclosed translation system, which will be discussed in more detail below.

Варианты осуществления системы перевода отличаются модульной конструкцией для многоязычной обработки естественных языков и мультимодального взаимодействия. Модули, предназначенные для разных языков, и другие, которые не зависят от языка, могут объединяться в рабочую систему, способную анализировать, рассуждать, искать, переводить и генерировать естественный язык. Варианты осуществления системы осуществляют мультимодальное взаимодействие: ввод и вывод письменного и устного естественного языка, а также вывод в качестве языка, речи, описания или их комбинации. Кроме того, модули, предпочтительно, сконструированы с возможностью повторного использования другими программами. По возможности, модули не зависят от языка, что способствует повторному использованию. Строго определенные интерфейсы и общие программы сопряжения управляют связью между системными компонентами. Благодаря этой конструкции можно осуществлять перевод с каждого языка на любой другой язык. Языки, подлежащие переводу, также могут быть вариациями в пределах единого языка, например может осуществляться перевод со швейцарского немецкого на верхненемецкий или перевод с разговорного стиля в формальный стиль. Признаки различных вариантов осуществления могут преимущественно включать в себя, полностью или частично, следующее:Embodiments of the translation system are distinguished by a modular design for multilingual processing of natural languages and multimodal interaction. Modules designed for different languages, and others that are independent of the language, can be combined into a working system that can analyze, reason, search, translate and generate a natural language. Embodiments of the system provide multimodal interaction: input and output of written and spoken natural language, as well as output as a language, speech, description or a combination thereof. In addition, the modules are preferably designed to be reusable by other programs. Whenever possible, the modules are language independent, which facilitates reuse. Strictly defined interfaces and common interface programs control the communication between system components. Thanks to this design, you can translate from every language into any other language. Languages to be translated can also be variations within a single language, for example, translation from Swiss German to High German or translation from colloquial style to formal style can be carried out. Signs of various embodiments may advantageously include, in whole or in part, the following:

модульность: простота оперирования, возможность повторного использования, возможность конфигурирования;modularity: ease of operation, reusability, configurability;

web-ориентированность: доступность отовсюду;web orientation: accessibility from everywhere;

программное обеспечение, высокоразвитое с эргономической точки зрения: возможность универсального использования;ergonomically-developed software: universal use;

общественная основа: возможность универсального расширения;social basis: the possibility of universal expansion;

универсальность: каждый язык можно интегрировать; иuniversality: each language can be integrated; and

визуально-графическое ядро: не зависит от языка и когнитивно адекватно.visual-graphic core: does not depend on language and is cognitively adequate.

Варианты осуществления этого раскрытия моделируют и имитируют человеческую познавательную обработку для оптимизации понимания естественного языка и генерации, перевода, поисковых машин или других задач связи.Embodiments of this disclosure model and mimic human cognitive processing to optimize understanding of a natural language and the generation, translation, search engines, or other communication tasks.

Описанный здесь подход на основе познавательной способности человека разделяет синтаксис и семантику, согласно процессам человеческого мозга, и позволяет различать множественные значения слов. Особые компоненты оперируют правилами синтаксиса или словоформами, зависящими от языка. Семантика обрабатывается в слое, не зависящем от языка, именуемом смысловым миром. Этот подход основан на последних результатах неврологических исследований. Согласно рассмотренному выше примеру зонта, понятие "зонт" при общении является объектом, тегированным словом, зависящим от языка. Участники знают объект без использования языка. Если они хотят выйти из дому, когда на улице дождь, они активируют "тег" посредством словаря, зависящего от языка, для общения с другими людьми: "May I take this umbrella?" или "Könnte ich diesen Schirm nehmen?"The approach described here, based on the cognitive ability of a person, separates syntax and semantics, according to the processes of the human brain, and allows us to distinguish between multiple meanings of words. Special components operate on syntax rules or language-dependent word forms. Semantics is processed in a layer independent of the language, called the semantic world. This approach is based on the latest neurological findings. According to the example of the umbrella discussed above, the concept of "umbrella" when communicating is an object tagged with a word, depending on the language. Participants know the object without using the language. If they want to leave the house when it rains outside, they activate the “tag” through a language-specific dictionary for communicating with other people: “May I take this umbrella?” or "Könnte ich diesen Schirm nehmen?"

Это помогает объяснить преимущество данного подхода к языковой обработке, состоящее в том, что смысл представляется человеческими средствами и таким образом не зависит от языка. Можно добавлять все естественные языки, поскольку они используют один и тот же смысловой мир. Этот подход может быть полезным не только для перевода, но он также может иметь много других полезных применений. Согласно варианту осуществления смыслового мира, информацию можно добавлять, обрабатывать и сохранять без необходимости в особом синтаксисе языка. Когда информационная единица присутствует в смысловом мире, новые языки можно очень просто добавлять, привязывая синтаксическое представление к единице, не зависящей от языка.This helps to explain the advantage of this approach to language processing, which consists in the fact that the meaning is represented by human means and thus does not depend on the language. You can add all natural languages, because they use the same semantic world. This approach may not only be useful for translation, but it may also have many other useful uses. According to an embodiment of the semantic world, information can be added, processed and stored without the need for special language syntax. When an information unit is present in the semantic world, new languages can very easily be added by linking the syntactic representation to a unit independent of the language.

На фиг. 9 показана иллюстративная блок-схема варианта осуществления системы перевода на основе смыслового мира. Например, фиг. 9 включает в себя системные компоненты или модули, которые можно использовать для обеспечения раскрытой языковой обработки и системы перевода. Система 522 смыслового мира включает в себя представления концепций, не зависящие от языка. Система 522 смыслового мира также предоставляет определенным пользователям доступ к мультимедиа для визуализации или озвучивания представлений хранящихся в ней терминов и концепций. Как показано, каждая семантическая система 524 языка привязана к центральному смысловому миру 522. Это обеспечивается с помощью одного или нескольких лингвистических инструментариев 526. Семантические системы 524 языка также содержат один или несколько языковых словарей 528. Каждый язык, представленный в системе перевода, обычно имеет свой собственный словарь 528 для обеспечения конкретных терминов этого языка. Словарные статьи связаны с конкретными объектами в системе 522 смыслового мира. Однако в ряде случаев языки могут быть в достаточной степени родственными, чтобы иметь возможность совместно использовать весь лингвистический инструментарий 526 или его части. Например, различные диалекты можно представить как разные языки, но в общем случае они подчиняются сходным правилам синтаксиса, определяющим, например, структуру предложения и порядок слов. В этом случае единичный лингвистический инструментарий может производить анализ каждого языка на основании всех или почти всех общих правил грамматики. Согласно варианту осуществления, лингвистический инструментарий обеспечивает анализатор (парсер) 530 для извлечения терминов из предложений, подлежащих переводу, а также формулирования грамматических предложений из графов объектного мира. Анализатор 530 опирается на правила 532 грамматики, классы 534 изменения формы слова, шаблоны 536 и пр. для правильного построения и разбора предложения на соответствующем языке. Шаблоны 536 лингвистических инструментов помогают обеспечивать непосредственное расширение терминов в языковом словаре для построения или модификации языка в системе. Например, шаблоны могут обеспечивать фрагменты предложения, которые помогут правильно классифицировать новые термины. В частности, если пользователь желает добавить слово "tiger" в языковой словарь, например, ему могут быть представлены шаблоны, помогающие системе понять части речи или систему координат. Очень простым примером множества шаблонов может быть "A tiger", "I tiger" и "the tiger ball". Пользователь может выбрать один из них для применения, и система может учиться классифицировать новый термин. В этом случае система учится тому, что "tiger" является существительным, которое может принимать неопределенный артикль, а не глагол или прилагательное, соответственно. Аналогично, система может представлять шаблоны для определения, правильно или неправильно спрягается глагол. Благодаря этому процессу любой человек может расширять систему без необходимости знания лингвистики или знания о других языках системы.In FIG. 9 shows an illustrative block diagram of an embodiment of a translation system based on the semantic world. For example, FIG. 9 includes system components or modules that can be used to provide the disclosed language processing and translation system. System 522 of the semantic world includes representations of concepts that are independent of language. The semantic world system 522 also provides certain users with access to multimedia for visualizing or voicing representations of the terms and concepts stored therein. As shown, each semantic language system 524 is associated with a central semantic world 522. This is achieved using one or more linguistic tools 526. Semantic language systems 524 also contain one or more language dictionaries 528. Each language represented in the translation system usually has its own own dictionary 528 to provide specific terms for this language. Dictionary articles are associated with specific objects in the system 522 of the semantic world. However, in some cases, languages can be related enough to be able to share all or all of the linguistic tools 526. For example, different dialects can be represented as different languages, but in the general case they obey similar syntax rules that determine, for example, sentence structure and word order. In this case, a single linguistic toolkit can analyze each language based on all or almost all of the general rules of grammar. According to an embodiment, the linguistic toolkit provides an analyzer (parser) 530 for extracting terms from sentences to be translated, as well as formulating grammatical sentences from graphs of the object world. The analyzer 530 relies on grammar rules 532, classes 534 for changing the form of a word, templates 536, etc., for the correct construction and analysis of sentences in the corresponding language. Patterns 536 of linguistic tools help provide an immediate extension of terms in a language dictionary for building or modifying a language in a system. For example, templates can provide sentence fragments that help classify new terms correctly. In particular, if the user wants to add the word "tiger" to the language dictionary, for example, templates may be presented to him that help the system understand parts of speech or the coordinate system. A very simple example of many patterns would be “A tiger”, “I tiger” and “the tiger ball”. The user can choose one of them for application, and the system can learn to classify a new term. In this case, the system learns that "tiger" is a noun that can take the indefinite article, rather than a verb or an adjective, respectively. Similarly, a system can provide patterns for determining whether a verb conjugates correctly or incorrectly. Through this process, anyone can expand the system without the need for knowledge of linguistics or knowledge of other system languages.

Как описано выше, анализатор 530 является компонентом для перевода в или из графов смыслового мира. Однако в другом варианте осуществления реляционный процессор 527 связывает семантическую систему 524 и анализатор 530 с системой 522 смыслового мира. В таком варианте осуществления семантическая система может генерировать граф входного текста, который все еще связан с исходным языком. Этот граф можно дополнительно абстрагировать в его форму, не зависящую от языка, с помощью реляционного процессора 527. Реляционный процессор 527 может извлекать время глагола, информацию предложенной группы и другие детали предложения для помощи в организации или расширении графа, не зависящего от языка. Например, реляционный процессор может указывать "определенный артикль", "длительную форму глагола" или "информацию направления" для примера, показанного на фиг. 7. В различных вариантах осуществления, как очевидно специалисту в данной области техники, анализатор 530 и реляционный процессор 527 могут быть выполнены в виде одного или нескольких модулей, действовать совместно и одновременно или по отдельности и последовательно, и могут делить ответственность любым образом, отличным от описанного здесь. Специалисты в данной области техники также могут понять из данного раскрытия, что могут существовать другие конфигурации, обеспечивающие такие же или почти такие же функции.As described above, analyzer 530 is a component for translating to or from graphs of the semantic world. However, in another embodiment, the relational processor 527 couples the semantic system 524 and the analyzer 530 to the semantic world system 522. In such an embodiment, the semantic system can generate an input text graph that is still associated with the source language. This graph can be further abstracted into its language-independent form using a relational processor 527. The relational processor 527 can extract verb tense, information from a suggested group, and other sentence details to help organize or expand a language-independent graph. For example, a relational processor may indicate a “definite article”, “a long verb form” or “directional information” for the example shown in FIG. 7. In various embodiments, as is apparent to one skilled in the art, the analyzer 530 and the relational processor 527 can be implemented as one or more modules, act together and simultaneously or individually and sequentially, and can share responsibility in any way other than described here. Those skilled in the art can also understand from this disclosure that other configurations may exist that provide the same or almost the same functions.

На фиг. 10 показан вариант осуществления структур данных, представляющих смысловой мир 522. В общем случае, каждый объект LIT 638 представляет конкретный термин, не зависящий от языка, например термины "building", "room", "city", "house" и "office building", показанные на чертеже. Согласно варианту осуществления, каждый объект является структурой данных, включающей в себя ID 640 объекта, множество из одной или нескольких реляционных связей 644 и необязательное множество из одной или нескольких иерархических связей 646. ID 640 объекта может быть числом или кодом, идентифицирующим компьютерную запись в компьютере, где хранится объект, но, в общем случае, будет нераспознаваем для пользователя. Согласно варианту осуществления, объекты LIT 638 связываются с другими родственными терминами посредством реляционных связей 644. Как показано, "city" и "building" являются родственными, поскольку город включает в себя совокупность зданий; аналогично, "building" имеет совокупность "rooms", так что эти два объекта взаимосвязаны. Согласно варианту осуществления, эти реляционные связи 644 можно взвешивать для указания силы связей. Аналогично, объекты, между которыми существует отношение класс-тип-подтип, могут быть связаны иерархическими связями 646 и могут образовывать древовидную структуру. На фиг. 10 это отношение проиллюстрировано объектами "building", "house" и "office building". "Building" - это общий термин, охватывающий понятия "house" и "office building" как более специфичные типы зданий. Хотя это не показано, сам объект "house" можно связать, например, с подтипами "cottage", "ranch" и "townhouse".In FIG. 10 shows an embodiment of data structures representing the semantic world 522. In general, each LIT 638 object represents a specific language-independent term, for example, the terms "building", "room", "city", "house" and "office building "shown in the drawing. According to an embodiment, each object is a data structure including an object ID 640, a plurality of one or more relational relationships 644 and an optional set of one or more hierarchical relationships 646. An object ID 640 may be a number or code identifying a computer record in a computer where the object is stored, but, in the general case, will be unrecognizable to the user. According to an embodiment, LIT 638 objects are associated with other related terms through relational relationships 644. As shown, “city” and “building” are related because the city includes a plurality of buildings; likewise, building has a collection of rooms, so the two objects are interconnected. According to an embodiment, these relational relationships 644 may be weighted to indicate the strength of the relationships. Similarly, objects between which there is a class-type-subtype relationship can be connected by hierarchical relationships 646 and can form a tree structure. In FIG. 10 this relationship is illustrated by the objects "building", "house" and "office building". "Building" is a general term encompassing the concepts of "house" and "office building" as more specific types of buildings. Although not shown, the "house" object itself can be associated, for example, with the subtypes "cottage", "ranch" and "townhouse".

Объекты LIT 638 также могут включать в себя словарные связи 648. Кроме того, словарные объекты 528 включают в себя связи от конкретных терминов 650 языка к надлежащему объекту LIT 638. Например, на фиг. 10 показано, что термин "Bâtiment" - из объекта 526 словаря французского языка, термин "building" - из словаря английского языка и других включенных языков связан с объектом 638 "building". Аналогично, термины "office building" на английском языке, "Bürogebäude" на немецком языке и "immeuble de bureaux" на французском языке связаны с объектом 638 "office building".LIT objects 638 may also include vocabulary links 648. In addition, vocabulary objects 528 include relationships from specific language terms 650 to the corresponding LIT 638 object. For example, in FIG. 10 shows that the term “Bâtiment” is from object 526 of the French dictionary, the term “building” from the dictionary of English and other included languages is associated with object 638 “building”. Similarly, the terms “office building” in English, “Bürogebäude” in German, and “immeuble de bureaux” in French are associated with object 638 “office building”.

Каждый объект также может включать в себя или быть связанным с одним или несколькими медийными представлениями, например визуальным представлением 642. Визуальные представления 642 можно использовать для иллюстрации соответствующего термина в различных ситуациях. Это особенно полезно для помощи пользователям в добавлении в систему нового языка, поскольку они могут отображаться, чтобы пользователь мог понять, с каким термином они должны связываться в новом языковом словаре 528. В некоторых вариантах осуществления в качестве соответствующих медийных представлений можно использовать аудиофайлы, видеофайлы, файлы изображения и пр. Например, "to whistle" (“свистеть”) лучше связать со звуковым файлом или звуковым файлом и изображением, чем просто с визуальным представлением.Each object may also include or be associated with one or more media presentations, such as visual presentation 642. Visual representations 642 can be used to illustrate the corresponding term in various situations. This is especially useful for helping users add a new language to the system, as they can be displayed so that the user can understand what term they should be associated with in the new language dictionary 528. In some embodiments, audio files, video files, image files, etc. For example, “to whistle” is better associated with a sound file or sound file and image than with a visual representation.

Атрибуты объектов также могут быть связаны в системе 522 объектного мира и могут иметь особые реляционные связи. Например, атрибут может представлять собой эмоциональную шкалу, цветовое представление или физические атрибуты, например, температуру, размер или качество. Реляционные связи позволяют располагать конкретные термины вдоль шкалы, что позволяет связывать соответствующую терминологию с конкретными или относительными значениями вдоль шкалы. Например, "tiny", "small", "regular", "large", "huge", "enormous" и "infinite" можно разместить на шкале размера. Само пространство атрибутов может быть многомерным. Атрибуты также можно представлять в виде структурного дерева, например, "scarlet", "carmine" и "crimson" являются подтипами "red". Таким образом, единицы смыслового мира связаны друг с другом разнообразными путями в сети, что позволяет делать сложные умозаключения, необходимые для обработки естественного языка.Attributes of objects can also be linked in the system 522 of the object world and can have special relational relationships. For example, an attribute may be an emotional scale, color representation, or physical attributes, such as temperature, size, or quality. Relational relationships allow you to arrange specific terms along the scale, which allows you to associate the appropriate terminology with specific or relative values along the scale. For example, "tiny", "small", "regular", "large", "huge", "enormous" and "infinite" can be placed on the size scale. The attribute space itself can be multidimensional. Attributes can also be represented as a structural tree, for example, "scarlet", "carmine" and "crimson" are subtypes of "red". Thus, the units of the semantic world are connected with each other in various ways on the network, which allows us to make complex inferences necessary for processing a natural language.

Кроме того, согласно варианту осуществления, систему 522 смыслового мира можно представить как виртуальный мир или множество виртуальных миров. Например, можно обеспечить пользовательский интерфейс, позволяющий пользователю перемещаться по виртуальному представлению системы 522 смыслового мира. Пользователь может, например, сначала увидеть "город", состоящий из "зданий", и может сделать увеличение до любого конкретного здания, например "дома" или "офисного здания". После этого пользователь может войти в "комнату" дома, и в каждой комнате могут находиться объекты, представляющие другие термины, например "диван", "стул", "кровать", "стол" и пр. Каждый объект также можно тегировать для отображения языковых представлений терминов, которые привязаны к словарным связям 648 этого объекта LIT 638. Виртуальный мир также может включать в себя представления людей и действий, а также модифицирующие атрибуты. Таким образом, при перемещении к объекту "door" в виртуальном мире может отображаться не только тег "door" английского языка, но и тег цвета "red", тег "wooden" и пр.Furthermore, according to an embodiment, the sense world system 522 can be represented as a virtual world or a plurality of virtual worlds. For example, you can provide a user interface that allows the user to navigate the virtual representation of the system 522 of the semantic world. The user can, for example, first see a “city” consisting of “buildings”, and can zoom in to any particular building, for example, “home” or “office building”. After that, the user can enter the “room” of the house, and in each room there may be objects representing other terms, such as “sofa”, “chair”, “bed”, “table”, etc. Each object can also be tagged to display language representations of terms that are tied to vocabulary relationships 648 of this LIT 638 object. The virtual world can also include representations of people and actions, as well as modifying attributes. Thus, when moving to the "door" object in the virtual world, not only the "door" tag of the English language can be displayed, but also the color tag "red", the tag "wooden", etc.

В другом варианте осуществления могут существовать множественные "миры" и между ними могут быть связи. Непосредственные объекты могут открывать новые миры. Например, сцена комнаты может изображать окно, через которое видна луна. Кликнув по изображению луны, можно перейти в другой объектный мир, который посвящен космосу. Представление человека может вести в объектный мир, который имитирует клеточную основу или части тела человека. Если пользователь перемещается в офис в офисном здании, там может находиться представление бумаг на столе, перейдя к бумагам (например, кликнув по ним с помощью мыши), можно открыть древовидный интерфейс, демонстрирующий объект 638, соединенный иерархическими связями 646. Например, "бумага" может относиться к словам "реклама", "отчет", "периодический" и пр. В свою очередь, слово "периодический" может быть связано со словами "газета" и "журнал" и т.д.In another embodiment, multiple "worlds" may exist and there may be connections between them. Immediate objects can open up new worlds. For example, a room scene may depict a window through which the moon is visible. By clicking on the image of the moon, you can go to another object world, which is dedicated to the cosmos. A person’s representation can lead to an object world that mimics the cellular basis or parts of a person’s body. If the user moves to the office in the office building, there may be a presentation of papers on the table, going to the papers (for example, clicking on them with the mouse), you can open the tree-like interface showing object 638 connected by hierarchical connections 646. For example, “paper” may refer to the words “advertisement”, “report”, “periodic”, etc. In turn, the word “periodic” may be associated with the words “newspaper” and “magazine”, etc.

Перемещение по такому миру может быть полезным инструментом самообразования, поскольку пользователь может, по выбору, просматривать языковые теги на любых языках, подключенных к смысловому миру. Согласно варианту осуществления, пользователь может, по выбору, просматривать теги для языка, который он хочет знать, что помогает ему выучить этот язык. Аналогично, согласно варианту осуществления, термины первичного языка пользователя и другого языка могут отображаться, чтобы пользователь мог сопоставлять их с визуальным представлением.Moving around such a world can be a useful tool for self-education, since the user can, optionally, view language tags in any languages connected to the semantic world. According to an embodiment, the user can optionally browse tags for a language that he wants to know, which helps him learn that language. Similarly, according to an embodiment, the terms of the primary language of the user and another language can be displayed so that the user can correlate them with a visual representation.

Различные отношения между объектами 638 в смысловом мире 522 также можно моделировать графически. Пространственные, временные, причинные или метафорические отношения между объектами 638 смыслового мира (а также другие типы отношений) идеально подходят для графического описания. Применительно к переводу эти виды отношений являются основой для определения, какие структуры и формулировки служат для их вербального выражения, поскольку языки различаются способом выражения этих отношений: некоторые языки используют предлоги, другие реализуют их как морфемы, присоединенные к существительному, и т.д. Лучше всего генерировать адекватные структуры и формулировки на основании нейтрального, абстрактного и графического представления. Благодаря этому процессу компоненту генерации не приходится осуществлять комплексное реструктурирование входной структуры (как это делают классические системы машинного перевода), но просто нужно выбирать между доступными структурами конечного языка с использованием отображения отношений в структуры.The various relationships between objects 638 in the semantic world 522 can also be modeled graphically. Spatial, temporal, causal, or metaphorical relationships between objects 638 of the semantic world (as well as other types of relationships) are ideal for graphical descriptions. In relation to translation, these types of relations are the basis for determining which structures and formulations serve for their verbal expression, since languages differ in the way they express these relations: some languages use prepositions, others realize them as morphemes attached to a noun, etc. It is best to generate adequate structures and formulations based on a neutral, abstract, and graphical representation. Thanks to this process, the generation component does not have to carry out a comprehensive restructuring of the input structure (as classical machine translation systems do), but just need to choose between the available structures of the final language using the mapping of relations into structures.

Возвращаясь к процессу перевода, показанному на фиг. 7, поясним дополнительные детали, касающиеся системы 522 смыслового мира. При выборе правильных переводов знание о затронутых темах улучшает перевод за счет фильтрации неоднозначных значений, которые не относятся к этим темам. Темы зачастую можно распознать из отношений графического представления текста перевода (см. Блок 314). Для ряда тем существует большое количество кластеров в N-мерном семантическом пространстве. Для отыскания центров кластеров используются эффективные и быстрые алгоритмы кластеризации, например алгоритм кластеризации методом k-средних. Эти центроиды кластеров представляют темы текста.Returning to the translation process shown in FIG. 7, we explain additional details regarding the system 522 of the semantic world. When choosing the right translations, knowledge of the topics covered improves the translation by filtering ambiguous values that are not relevant to these topics. Topics can often be recognized from the relationship of the graphical representation of the translation text (see Block 314). For a number of topics, there are a large number of clusters in the N-dimensional semantic space. Efficient and fast clustering algorithms, for example, the k-means clustering algorithm, are used to find cluster centers. These cluster centroids represent text topics.

При наличии неоднозначных переводов тему можно использовать для их разрешения. Например, входной текст может включать в себя "The dog was a Siberian Husky." Термин "dog" фактически имеет множественные значения, включающие в себя "a domesticated canine", "a despicable man" или "an iron bar driven into a stone or timber to provide a means of lifting it". Каждое из этих определений может иметь разные переводы на другие языки и, таким образом, также неоднозначны для системы 522 объектного мира. Однако контекст предложения позволяет выбрать правильный объект объектного мира для использования (тот, который соответствует "a domesticated canine"), поскольку другие объекты предложения, в частности "Siberian Husky", более тесно связаны в смысловом мире объектов с этим объектом, чем с другими. В принципе, "Siberian Husky" и правильный объект "dog" окажутся, например, в подмножестве объектного мира, связанном с животными или домашними питомцами.If there are ambiguous translations, the topic can be used to resolve them. For example, the input text may include "The dog was a Siberian Husky." The term "dog" actually has multiple meanings, including "a domesticated canine", "a despicable man" or "an iron bar driven into a stone or timber to provide a means of lifting it". Each of these definitions can have different translations into other languages and, thus, are also ambiguous for the system 522 of the object world. However, the context of the proposal allows you to select the correct object of the object world for use (one that corresponds to "a domesticated canine"), since other objects of the proposal, in particular "Siberian Husky", are more closely connected in the semantic world of objects with this object than with others. In principle, the Siberian Husky and the correct dog object will appear, for example, in a subset of the object world associated with animals or pets.

Синтаксический анализ текста часто создает много синтаксических графов и некоторые неразрешенные связи между вершинами графа, как в вышеприведенном примере "dog". Статистический подход к выбору наилучшего графа, в общем случае, используется для различения неоднозначностей: теорема Байеса, согласно варианту осуществления. Теорема Байеса утверждает, что вероятность того, что определенный граф дает сведения (семантические сущности), пропорциональна правдоподобию того, что семантические сущности присутствуют в этом графе, умноженной на априорную вероятность присутствия сущности в этом графе. Другие алгоритмы и статистический анализ - известные как или выведенные из стандартных статистических принципов - также можно использовать для устранения неоднозначностей переводов с исходного языка в интерпретацию объекта LIT, и знакомы специалистам в данной области техники.Text parsing often creates many syntactic graphs and some unresolved relationships between the vertices of the graph, as in the "dog" example above. A statistical approach to choosing the best graph is generally used to distinguish between ambiguities: Bayes theorem, according to an embodiment. Bayes's theorem states that the probability that a certain graph provides information (semantic entities) is proportional to the likelihood that semantic entities are present in this graph, multiplied by the a priori probability of the presence of the entity in this graph. Other algorithms and statistical analysis — known as or derived from standard statistical principles — can also be used to disambiguate translations from the source language to the interpretation of the LIT object, and are familiar to those skilled in the art.

Один аспект варианта осуществления раскрытой системы языковой обработки предусматривает набор инструментов, помогающий пользователю редактировать языки или добавлять новые. Как объяснено ранее, пользователи могут перемещаться по виртуальному миру, который помогает представлять термины, включенные в смысловой мир, не зависящий от языка. Было бы очень полезно, чтобы множественные заинтересованные стороны помогали добавлять новые термины языка, исправлять неверно употребляемые термины и даже добавлять новые языки в смысловой мир. Хотя все это могут делать опытные программисты, было бы быстрее и проще, если бы большое количество пользователей имели возможность развивать и корректировать смысловой мир. Этот тип групповой деятельности уже проиллюстрировали движение "wiki-" и такие веб-сайты, как "Wikipedia". Согласно варианту осуществления, избранные квалифицированные пользователи, например лингвисты, преподаватели языка и пр., могли бы добавлять языки или редактировать существующие; с другой стороны, можно позволить любому заинтересованному пользователю добавлять и редактировать язык.One aspect of an embodiment of the disclosed language processing system provides a set of tools to help a user edit languages or add new ones. As explained earlier, users can navigate the virtual world, which helps to represent the terms included in the semantic world, independent of the language. It would be very helpful for multiple stakeholders to help add new language terms, correct incorrect terms, and even add new languages to the semantic world. Although experienced programmers can do all this, it would be faster and easier if a large number of users had the opportunity to develop and adjust the semantic world. This type of group activity has already been illustrated by the wiki- movement and websites such as Wikipedia. According to an embodiment, selected qualified users, such as linguists, language teachers, etc., could add languages or edit existing ones; on the other hand, you can allow any interested user to add and edit the language.

Согласно варианту осуществления, система создает определенную формализацию возможных структур языка. Таким образом, можно избежать длительной разработки различных грамматик для каждого отдельно взятого языка и вместо этого получить возможность быстрого и эффективного создания прототипов. Таким образом, можно быстро и легко подключать новые языки. Грамматики используются как для языкового анализа, так и для генерации компонентов.According to an embodiment, the system creates a certain formalization of possible language structures. Thus, you can avoid the long development of various grammars for each individual language and instead get the opportunity to quickly and efficiently create prototypes. Thus, you can quickly and easily connect new languages. Grammars are used for both language analysis and component generation.

Дополнительно, графические пользовательские интерфейсы, которые можно называть Lexi-Wikis, позволяют пользователям вносить слова в словари 528, зависящие от языка. Lexi-Wikis предназначены для самого широкого круга пользователей. Из соответствующих слов инструменты генерируют примерные предложения, которые пользователь может легко выбирать или изменять. Какие формы и сколько словоформ нужно представлять пользователю, определяется различными инфлекционными алгоритмами, зависящими от языка. Выбранные пользователем примеры переводятся в комплексное представление, которое может обрабатывать программа. Согласно варианту осуществления, лежащий в основе морфологический процесс использует знание лингвистики и частотную информацию для определения минимальной информации, которую должен предоставлять пользователь. Таким образом он прогнозирует наиболее вероятные словоформы, благодаря чему от пользователя требуется как можно меньше словоформ и как можно меньше действий. Благодаря этому процессу умственная нагрузка или интеллект переносится со стороны пользователя на сторону программного обеспечения.Additionally, graphical user interfaces, which may be called Lexi-Wikis, allow users to enter words into language-specific dictionaries 528. Lexi-Wikis are designed for a wide range of users. From the corresponding words, the tools generate sample sentences that the user can easily select or modify. What forms and how many word forms need to be presented to the user is determined by various language-dependent inflection algorithms. The user-selected examples are translated into a complex representation that the program can process. According to an embodiment, the underlying morphological process uses linguistic knowledge and frequency information to determine the minimum information that the user must provide. Thus, he predicts the most likely word forms, so that the user is required as few word forms and as few actions as possible. Through this process, mental workload or intelligence is transferred from the user to the software side.

Очень часто пользователи не способны позиционировать семантические сущности абсолютно, но они вполне способны осознавать отличие от других семантических сущностей. Применяется многомерное масштабирование, алгоритм, предназначенный для размещения многомерных точек на основании матрицы различия, которая является матрицей, содержащей расстояния (или различие) до других семантических сущностей. Эти алгоритмы могут быть нечеткими, что необходимо, поскольку никакие два человека никогда не выберут в точности одинаковое расстояние. Однако они могут прийти к согласию в общем плане (например, "далеко" или "очень близко").Very often, users are not able to position semantic entities absolutely, but they are quite able to recognize the difference from other semantic entities. Multidimensional scaling is used, an algorithm designed to place multidimensional points on the basis of a difference matrix, which is a matrix containing distances (or difference) to other semantic entities. These algorithms can be fuzzy, which is necessary because no two people will ever choose exactly the same distance. However, they can come to an agreement in general terms (for example, “far” or “very close”).

На фиг. 11 описан процесс добавления языка в систему смыслового мира. На блоке 760 пользователь входит в систему. В некоторых вариантах осуществления пользователь может, по желанию, войти в особый режим "модификация пользователя", который позволяет предотвратить незаконные или случайные изменения системы. В меню пользователь может выбрать добавление нового языка (Блок 762). При создании нового языка должен быть создан анализатор синтаксиса для разбора и генерации предложений. Согласно варианту осуществления, система включает в себя правила шаблонов, которые пользователь может выбирать при необходимости (Блок 764). Например, правило может указывать, что прилагательные обычно изменяют существительное, стоящее после них (например, в английском языке), или что они обычно изменяют существительное, стоящее перед ними (например, во французском языке). Правила изменений могут пояснять исключения из этих правил и пр. После создания анализатора термины можно добавлять в словарь нового языка (Блок 766). Каждый термин связывается с объектами смыслового мира (Блок 768).In FIG. 11 describes the process of adding a language to the system of the semantic world. At block 760, a user logs on to the system. In some embodiments, a user can optionally enter a special “user modification” mode that can prevent illegal or accidental system changes. In the menu, the user can choose to add a new language (Block 762). When creating a new language, a syntax analyzer must be created to parse and generate sentences. According to an embodiment, the system includes template rules that the user can select as necessary (Block 764). For example, a rule may indicate that adjectives usually change the noun that comes after them (for example, in English), or that they usually change the noun that stands before them (for example, in French). The change rules may explain exceptions to these rules, etc. After creating the analyzer, the terms can be added to the dictionary of the new language (Block 766). Each term is associated with objects of the semantic world (Block 768).

Привязку новых терминов можно производить любыми способами, включающими в себя процессы, описанные со ссылкой на фиг. 12A и 12B. В одном варианте осуществления пользователь входит в систему (Блок 670) и выбирает добавление термина в конкретный языковой словарь (Блок 872), например, через систему меню. Пользователь может ввести термин (Блок 874). Система может обеспечивать запросы шаблонов, помогающие обеспечить правильное использование контекста (Блок 876). Например, шаблоны могут помогать системе категорировать термины по части речи, правильному или неправильному спряжению глаголов и пр. Ответы также могут помогать обеспечивать конкретный контекст смыслового мира для направления пользователя в надлежащий смысловой мир или область смыслового мира, где находится объект термина, не зависящий от языка. Пользователь может также просматривать виртуальный смысловой мир (Блок 878) и выбирать виртуальное представление, с которым должна быть связана новая словарная статья (Блок 880).The binding of new terms can be done by any means including the processes described with reference to FIG. 12A and 12B. In one embodiment, the user logs into the system (Block 670) and chooses to add a term to a specific language dictionary (Block 872), for example, through a menu system. The user can enter a term (Block 874). The system may provide template requests to help ensure that the context is used correctly (Block 876). For example, templates can help the system categorize terms according to speech, correct or incorrect conjugation of verbs, etc. Answers can also help provide a specific context of the semantic world for directing the user to the appropriate semantic world or the region of the semantic world where the term’s object is independent of the language . The user can also browse the virtual semantic world (Block 878) and select the virtual representation with which the new dictionary entry should be associated (Block 880).

В альтернативном варианте осуществления на фиг. 12B показан другой процесс, посредством которого пользователь может добавлять слова в словари. Согласно фиг. 12B, пользователь входит в систему (Блок 882). Пользователь может просматривать смысловой мир (Блок 884). Выбор объектов в конкретном контексте (Блок 886) может отображать термины, связанные с этим объектом, например, показывая выноску в виртуальном мире. Когда пользователь выбирает объект в отсутствие ассоциированных терминов, пользователь может добавить термин для "тегирования" объекта (Блок 888). Аналогично, пользователь может изменять теги для корректировки или пополнения языковых словарей. Например, представление саксофона в смысловом мире можно тегировать термином "instrument" или "musical instrument" в словаре английского языка. Пользователь может редактировать тег, чтобы показать более точный термин в иерархии путем добавления "saxophone".In an alternate embodiment of FIG. 12B shows another process by which a user can add words to dictionaries. According to FIG. 12B, the user enters the system (Block 882). The user can view the semantic world (Block 884). Selecting objects in a specific context (Block 886) may display terms associated with that object, for example, showing a leader in the virtual world. When a user selects an object in the absence of associated terms, the user can add a term to “tag” the object (Block 888). Similarly, the user can change tags to adjust or replenish language dictionaries. For example, a representation of the saxophone in the semantic world can be tagged with the term “instrument” or “musical instrument” in the English dictionary. The user can edit the tag to show a more precise term in the hierarchy by adding "saxophone".

Кроме того, к системе можно подключать внешние ресурсы, чтобы представления знания, доступные в Интернете, в общественных или частных базах данных и пр., можно было использовать в компонентах языковой системы. Подключаемые ресурсы могут включать в себя, например, DBpedia, Wiktionary, Open Street Map, научные таксономии, онтологии из Semantic Web®, собственные таксономии пользователей и т.д. Согласно варианту осуществления, компоненты проверки согласованности проверяют согласованность различных представлений и обеспечивают правильное вычисление для потенциально разнородных источников знания. Можно даже интегрировать разные медийные типы, например графику, видео и аудио.In addition, external resources can be connected to the system so that knowledge representations available on the Internet, in public or private databases, etc., can be used in the components of the language system. Connected resources may include, for example, DBpedia, Wiktionary, Open Street Map, scientific taxonomies, ontologies from Semantic Web®, custom user taxonomies, etc. According to an embodiment, the consistency checking components verify the consistency of various representations and provide the correct calculation for potentially heterogeneous sources of knowledge. You can even integrate different types of media, such as graphics, video and audio.

На фиг. 13 показаны вариант осуществления базовой системы перевода и средство доступа к ней. Хотя такая система перевода может принимать различные формы, система перевода на сетевой основе может обеспечивать легкий доступ для большого количества заинтересованных пользователей. Например, в вычислительной системе 994, например, на сервере может храниться, полностью или частично, программный код, который при выполнении обеспечивает некоторые или все функции системы смыслового мира 522, включающей в себя семантические системы 524 языка. Сервер 994 может осуществлять электронную связь с общественной или частной, локальной или глобальной сетью 992, например Интернетом. В свою очередь, различные пользователи могут осуществлять электронную связь с вычислительной системой перевода с помощью других сетевых устройств 990a, 990b. Подходящие пользовательские устройства включают в себя персональные компьютеры, портативные компьютеры, телефоны, подключенные к сети передачи данных, или другие мобильные устройства (например, устройства Blackberry®, устройства Apple iPhone®, другие КПК, мобильные телефоны и пр.). Пользователи могут обращаться к системе перевода через веб-интерфейс с помощью браузера или в некоторых вариантах осуществления специальной программы, установленной на пользовательском устройстве.In FIG. 13 shows an embodiment of a basic translation system and means of access thereto. Although such a translation system can take many forms, a network-based translation system can provide easy access for a large number of interested users. For example, in a computing system 994, for example, a program code can be stored, in whole or in part, on a server, which when executed provides some or all of the functions of the semantic world system 522, including semantic language systems 524. Server 994 can communicate electronically with a public or private, local or global network 992, such as the Internet. In turn, various users can electronically communicate with a computer translation system using other network devices 990a, 990b. Suitable user devices include personal computers, laptop computers, telephones connected to a data network, or other mobile devices (e.g., Blackberry® devices, Apple iPhone® devices, other PDAs, mobile phones, etc.). Users can access the translation system via a web interface using a browser or, in some embodiments, a special program installed on a user device.

Один пользователь может использовать персональный компьютер 990b для доступа к службе перевода, ввода текста для перевода, выбора исходного и конечного языков и приема надлежащего переведенного текста, как описано со ссылкой на фиг. 7. При этом другой пользователь может редактировать и добавлять языки в систему через другой интерфейс на своем компьютере 990a. Предпочтительно, чтобы система перевода была масштабируемой, чтобы несколько пользователей могли обращаться к системе в любой данный момент времени. При таком подходе множественные пользователи могут одновременно пытаться редактировать языки. В предпочтительном варианте осуществления система перевода может обеспечивать механизм блокировки, позволяющий только одному пользователю редактировать, например, конкретную статью словаря 528 или конкретный объект LIT 638 смыслового мира в любой данный момент времени.One user can use a personal computer 990b to access the translation service, enter text for translation, select the source and destination languages, and receive the appropriate translated text, as described with reference to FIG. 7. At the same time, another user can edit and add languages to the system through a different interface on his 990a computer. Preferably, the translation system is scalable, so that multiple users can access the system at any given time. With this approach, multiple users can simultaneously try to edit languages. In a preferred embodiment, the translation system may provide a locking mechanism that allows only one user to edit, for example, a specific entry in dictionary 528 or a specific object LIT 638 of the semantic world at any given time.

Хотя это раскрытие, в основном, посвящено использованию смыслового мира и возможностям анализа языка для создания системы перевода, существуют другие варианты использования такой системы смыслового мира. Например, система смыслового мира позволяет расширять возможности поисковой машины. Описанный здесь вариант осуществления системы позволяет анализировать поисковый запрос на естественном языке, например предложение или вопрос. Система может извлекать ключевые термины и генерировать графы и/или графические эквиваленты, не зависящие от языка. Поскольку эти объекты 638, не зависящие от языка, также связаны с соответствующими объектами LIT, прямой запрос пользователя может быть расширен для включения аналогичных слов, других словоформ, семантически родственных слов и пр.Although this disclosure is mainly devoted to the use of the semantic world and the possibilities of analyzing the language to create a translation system, there are other options for using such a system of the semantic world. For example, the system of the semantic world allows you to expand the capabilities of the search engine. The embodiment of the system described here allows you to analyze a search query in a natural language, for example, a sentence or a question. The system can extract key terms and generate graphs and / or graphical equivalents that are language independent. Since these language-independent objects 638 are also associated with the corresponding LIT objects, the user's direct request can be expanded to include similar words, other word forms, semantically related words, etc.

Например, пользователь вводит запрос на веб-странице поисковой машины: "What recent court decisions define qualifying income tax?" Этот запрос анализируется в отношении его синтаксиса и морфологии, в результате чего извлекаются компоненты текста и их отношения: "court", "decision", "define", "qualifying" и "income tax". Затем эту информацию можно использовать для генерации графа запроса, как при выполнении перевода. Однако эти термины или объекты 638 смыслового мира сами по себе могут не обеспечивать все тематические результаты. Поэтому реляционные и иерархические связи 644, 646 объектного мира можно использовать для расширения терминов поиска. Например, "decision" можно связать с термином "opinion" и "order". Аналогично, "court" можно связать с "judge", и "income tax" можно связать с "IRS". Затем эти дополнительные термины можно использовать для расширения окончательного поиска. Таким образом можно повысить качество результатов, не заставляя пользователя расширять свою терминологию или осуществлять множественные сеансы поиска.For example, a user enters a query on a search engine web page: "What recent court decisions define qualifying income tax?" This query is analyzed in relation to its syntax and morphology, as a result of which the components of the text and their relations are extracted: "court", "decision", "define", "qualifying" and "income tax". Then this information can be used to generate a query graph, as when performing a translation. However, these terms or objects 638 of the semantic world per se may not provide all thematic results. Therefore, the relational and hierarchical relationships 644, 646 of the object world can be used to expand search terms. For example, “decision” can be associated with the terms “opinion” and “order”. Similarly, “court” can be associated with “judge”, and “income tax” can be associated with “IRS”. These additional terms can then be used to expand the final search. In this way, you can improve the quality of the results without forcing the user to expand their terminology or perform multiple search sessions.

Другой аспект этого раскрытия можно использовать для анализа текста. Для выявления тем, представленных в тексте, можно использовать анализаторы. Это можно использовать для автоматической категоризации текста. Кроме того, это можно использовать для отыскания логических цепочек или информации о семантических структурах в тексте. В рамках предыдущего примера этот анализ текста можно производить с использованием программы поискового агента, который пытается категорировать новые веб-страницы в целях поиска. При анализе текста выход может содержать статистику или список тем, которую/ый можно использовать для тегирования веб-страниц для поискового запроса. Аналогично, аналогичную систему можно использовать в библиотеках для категоризации новых книг, периодических изданий, статей и пр. для генерации каталогов тематических карточек и поисковых баз данных.Another aspect of this disclosure may be used to analyze text. To identify the topics presented in the text, you can use analyzers. This can be used to automatically categorize text. In addition, it can be used to find logical chains or information about semantic structures in the text. As part of the previous example, this text analysis can be performed using a search agent program that attempts to categorize new web pages for search purposes. When analyzing text, the output may contain statistics or a list of topics that can be used to tag web pages for a search query. Similarly, a similar system can be used in libraries to categorize new books, periodicals, articles, etc. to generate catalogs of thematic cards and search databases.

Аналогично, выявление тем помогает расширять поисковые запросы в правильном окружении. Например, "decision" из вышеупомянутого поискового запроса можно также связать с "choice", и "court" можно связать с "basketball" или "tennis". Расширение поиска этими терминами, очевидно, будет расширять поиск в неправильное пространство объектного мира. Таким образом, определение, что темой является "taxes" и/или "legal", может помочь поисковой машине расширить термины в надлежащем контексте.Similarly, identifying topics helps expand your search queries in the right environment. For example, the “decision” from the aforementioned search query can also be associated with “choice”, and “court” can be associated with “basketball” or “tennis”. Expanding the search with these terms will obviously expand the search into the wrong space of the object world. Thus, determining that the topic is “taxes” and / or “legal” can help the search engine expand terms in the appropriate context.

Возможны и другие варианты осуществления. Поскольку раскрытие предусматривает представление текста, не зависящее от языка, обработка этого представления может принимать самые разные формы. Таким образом, раскрытую систему можно использовать в самых разных приложениях. Кроме того, описанные здесь различные варианты осуществления можно комбинировать желаемым образом.Other embodiments are possible. Since the disclosure provides a language-independent presentation of the text, the processing of this representation can take many different forms. Thus, the disclosed system can be used in a variety of applications. In addition, the various embodiments described herein may be combined in a desired manner.

На фиг. 13 показана блок-схема одного варианта осуществления вычислительной системы 994, которую можно использовать для реализации некоторых описанных здесь систем и процессов. Например, в одном варианте осуществления вычислительная система 994 может быть приспособлена принимать запросы на перевод от другой компьютерной системы (например, пользовательского ПК 990a, 990b), использовать реализацию смыслового мира для перевода запроса на нужный язык и возвращать перевод. Функции, обеспечиваемые компонентами и модулями вычислительной системы 994, могут объединяться в меньшем количестве компонентов и модулей или, наоборот, распределяться по дополнительным компонентам и модулям.In FIG. 13 shows a block diagram of one embodiment of a computing system 994 that can be used to implement some of the systems and processes described herein. For example, in one embodiment, the computing system 994 may be adapted to receive translation requests from another computer system (eg, user PC 990a, 990b), use the implementation of the semantic world to translate the request into the desired language, and return the translation. The functions provided by the components and modules of the 994 computing system can be combined in fewer components and modules or, conversely, distributed among additional components and modules.

Вычислительная система 994 включает в себя, например, сервер или персональный компьютер, совместимый с системой IBM, Macintosh, Linux/Unix и т.п. В одном варианте осуществления вычислительное устройство содержит, например, сервер, портативный компьютер, сотовый телефон, карманный персональный компьютер, киоск или аудиоплеер. В одном варианте осуществления иллюстративная вычислительная система 994 включает в себя центральный процессор ("ЦП") 1095, который может включать в себя традиционный микропроцессор. Вычислительная система 994 также включает в себя память 1097, например оперативную память ("ОЗУ") для временного хранения информации и постоянную память ("ПЗУ") для постоянного хранения информации, а также запоминающее устройство 1098 большой емкости, например жесткий диск, дискету или оптическое запоминающее устройство. Обычно модули вычислительной системы 994 подключены к компьютеру с использованием стандартной шинной системы. В разных вариантах осуществления в качестве стандартной шинной системы могут выступать, например, Peripheral Component Interconnect (PCI), MicroChannel, SCSI, Industrial Standard Architecture (ISA) и архитектуры Extended ISA (EISA).Computing system 994 includes, for example, a server or personal computer compatible with IBM, Macintosh, Linux / Unix, and the like. In one embodiment, the computing device comprises, for example, a server, a laptop computer, a cell phone, a personal digital assistant, a kiosk, or an audio player. In one embodiment, exemplary computing system 994 includes a central processing unit (“CPU”) 1095, which may include a conventional microprocessor. Computing system 994 also includes memory 1097, such as random access memory ("RAM") for temporarily storing information and read-only memory ("ROM") for permanently storing information, as well as mass storage device 1098, such as a hard disk, diskette, or optical Memory device. Typically, modules of a 994 computing system are connected to a computer using a standard bus system. In various embodiments, for example, the Peripheral Component Interconnect (PCI), MicroChannel, SCSI, Industrial Standard Architecture (ISA), and Extended ISA (EISA) architecture can serve as a standard bus system.

Вычислительная система 994, в общем случае, управляется и координируется операционной системой, например Windows 95, Windows 98, Windows NT, Windows 2000, Windows XP, Windows Vista, Linux, SunOS, Solaris или другими совместимыми операционными системами. В системах Macintosh операционная система может быть любой доступной операционной системой, например MAC OS X. В других вариантах осуществления вычислительная система 994 может действовать под управлением специализированной операционной системы. Традиционные операционные системы управляют и диспетчеризуют компьютерные процессы для выполнения, осуществления операций с памятью, обеспечения файловой системы, сетевых функций и служб ввода/вывода и обеспечивают пользовательский интерфейс, например графический пользовательский интерфейс ("GUI"), помимо прочего.Computing system 994 is generally managed and coordinated by an operating system such as Windows 95, Windows 98, Windows NT, Windows 2000, Windows XP, Windows Vista, Linux, SunOS, Solaris, or other compatible operating systems. On Macintosh systems, the operating system may be any available operating system, such as MAC OS X. In other embodiments, the computing system 994 may operate under a specialized operating system. Conventional operating systems control and dispatch computer processes for performing, performing memory operations, providing a file system, network functions, and I / O services and provide a user interface such as a graphical user interface ("GUI"), among others.

Иллюстративная вычислительная система 994 включает в себя один или несколько общедоступных устройств и интерфейсов ввода/вывода (I/O) 1096, например клавиатуру, мышь, сенсорную панель, модем, карту Ethernet, микрофон и/или принтер. В одном варианте осуществления устройства и интерфейсы ввода/вывода 1096 включают в себя один или несколько устройств отображения, например монитор, который позволяет визуально представлять данные пользователю. В частности, устройство отображения обеспечивает представление, например, GUI, данных приложений и мультимедийных представлений. Вычислительная система 994 также может включать в себя одно или несколько мультимедийных устройств 1099, например громкоговорители, видеокарты, графические ускорители и микрофоны. Согласно варианту осуществления, пользователь вводит текст, подлежащий переводу или обработке, с помощью клавиатуры или сенсорной панели, представляющей клавиатуру (устройства ввода 1096). С другой стороны, микрофон (другое устройство ввода 1096) воспринимает устный текст. Устный текст может храниться в любом из разнообразных аудиоформатов, например WAV, MP3 или в других форматах. ЦП 1095 может обрабатывать этот аудиотекст и преобразовывать его в письменный текст, например объект строчных данных, файл данных простого текста, документ Microsoft® Word и т.п.Illustrative Computing System 994 includes one or more publicly available devices and I / O interfaces 1096, such as a keyboard, mouse, touchpad, modem, Ethernet card, microphone, and / or printer. In one embodiment, devices and input / output interfaces 1096 include one or more display devices, such as a monitor, that allows you to visually present data to a user. In particular, the display device provides a representation of, for example, a GUI, application data, and multimedia presentations. Computing system 994 may also include one or more multimedia devices 1099, such as speakers, graphics cards, graphics accelerators, and microphones. According to an embodiment, the user enters the text to be translated or processed using the keyboard or touch panel representing the keyboard (input device 1096). On the other hand, a microphone (another input device 1096) perceives spoken text. Oral text can be stored in any of a variety of audio formats, such as WAV, MP3, or other formats. CPU 1095 can process this audio text and convert it to written text, such as an inline data object, plain text data file, Microsoft® Word document, etc.

В варианте осуществления, показанном на фиг. 13, устройства и интерфейсы ввода/вывода 1096 обеспечивают интерфейс связи с различными внешними устройствами. Согласно варианту осуществления, вычислительная система 994 подключена к сети 992, например, LAN, WAN или Интернету (см. фиг. 13) проводной, беспроводной или комбинированной линией связи. Сеть 992 сообщается с различными вычислительными устройствами и/или другими электронными устройствами по проводным или беспроводным линиям связи. В иллюстративном варианте осуществления, показанном на фиг. 13, сеть 992 подключена к одному или нескольким пользовательским терминалам или вычислительным устройствам 990a, 990b. Вычислительное устройство 990b может передавать текстовый ввод в форматах аудио или письменного текста на вычислительную систему 994 для обработки. Помимо устройств, проиллюстрированных на фиг. 13, сеть 992 может сообщаться с другими источниками данных или другими вычислительными устройствами. Кроме того, источники данных могут включать в себя один или несколько внутренних и/или внешних источников данных. В некоторых вариантах осуществления одну или несколько баз данных или источников данных можно реализовать с использованием реляционной базы данных, например Sybase, Oracle, CodeBase и Microsoft® SQL Server, а также других типов баз данных, например базы данных с двумерным файлом, базы данных сущностей-отношений и объектно-ориентированной базы данных и/или базы данных на основе записей.In the embodiment shown in FIG. 13, 1096 devices and I / O interfaces provide a communication interface with various external devices. According to an embodiment, the computing system 994 is connected to a network 992, such as a LAN, WAN, or the Internet (see FIG. 13) via a wired, wireless, or combo link. Network 992 communicates with various computing devices and / or other electronic devices via wired or wireless communication lines. In the illustrative embodiment shown in FIG. 13, the network 992 is connected to one or more user terminals or computing devices 990a, 990b. Computing device 990b may transmit text input in audio or written text formats to computer system 994 for processing. In addition to the devices illustrated in FIG. 13, the network 992 may communicate with other data sources or other computing devices. In addition, data sources may include one or more internal and / or external data sources. In some embodiments, one or more databases or data sources can be implemented using a relational database, such as Sybase, Oracle, CodeBase, and Microsoft® SQL Server, as well as other types of databases, such as databases with a two-dimensional file, entity databases, relationships and an object-oriented database and / or record-based database.

Согласно варианту осуществления, показанному на фиг. 14, вычислительная система 994 также включает в себя модуль приложения, который может выполняться ЦП 1095. Согласно варианту осуществления, показанному на фиг. 13, модуль приложения управляет моделями смыслового мира и данными. Этот модуль может включать в себя, например, компоненты, например программные компоненты, объектно-ориентированные программные компоненты, компоненты классов и компоненты задач, процессы, функции, атрибуты, процедуры, подпроцедуры, сегменты программного кода, драйверы, программно-аппаратное обеспечение (firmware), микрокод, электронные схемы, данные, базы данных, структуры данных, таблицы, массивы и переменные.According to the embodiment shown in FIG. 14, the computing system 994 also includes an application module that may be executed by the CPU 1095. According to the embodiment shown in FIG. 13, the application module manages the semantic world models and data. This module may include, for example, components, such as software components, object-oriented software components, class components and task components, processes, functions, attributes, procedures, subprocedures, program code segments, drivers, firmware , microcode, electronic circuits, data, databases, data structures, tables, arrays and variables.

В общем случае, используемое здесь слово "модуль" относится к логике, реализованной аппаратными и программно-аппаратными средствами, или к совокупности программных инструкций, возможно, имеющих точки входа и выхода, написанных на языке программирования, например, Java, Lua, C или C++. Программный модуль может компилироваться и линковаться в исполнимую программу, установленную в динамически подгружаемой библиотеке, или может писаться на интерпретируемом языке программирования, например, BASIC, Perl или Python. Очевидно, что программные модули можно вызывать из других модулей или из них самих и/или запускаться в ответ на зарегистрированные события или прерывания. Программные инструкции могут быть зашиты в энергонезависимой памяти, например EPROM. Также очевидно, что аппаратные модули могут состоять из соединенных логических устройств, например вентилей и триггеров, и/или могут состоять из программируемых устройств, например программируемых вентильных матриц или процессоров. Описанные здесь модули предпочтительно реализовать в виде программных модулей, но также можно реализовать аппаратными или программно-аппаратными средствами. В общем случае, описанные здесь модули относятся к логическим модулям, которые можно комбинировать с другими модулями или делить на подмодули вне зависимости от их физической организации или хранения.In general, the word “module” used here refers to logic implemented by hardware and software or hardware, or to a set of software instructions, possibly having entry and exit points, written in a programming language, for example, Java, Lua, C, or C ++ . A program module can be compiled and linked into an executable program installed in a dynamically loaded library, or it can be written in an interpreted programming language, for example, BASIC, Perl or Python. Obviously, program modules can be called from other modules or from themselves and / or launched in response to registered events or interrupts. Software instructions can be wired in non-volatile memory, such as EPROM. It is also apparent that hardware modules may consist of connected logic devices, such as gates and triggers, and / or may consist of programmable devices, such as programmable gate arrays or processors. The modules described herein are preferably implemented as software modules, but can also be implemented in hardware or software / hardware. In general, the modules described here relate to logical modules that can be combined with other modules or divided into submodules regardless of their physical organization or storage.

Согласно другому иллюстративному варианту осуществления изобретения, ниже приведены некоторые основные признаки изобретения. Их следует рассматривать как пример, иллюстрирующий принципы изобретения.According to another illustrative embodiment of the invention, the following are some basic features of the invention. They should be considered as an example illustrating the principles of the invention.

В дальнейшем мы будем называть систему языковой обработки "Lingupedia", что является торговой маркой Lingupedia Investments Sàri, Люксембург. Lingupedia - это модульная система для автоматизированного перевода текста.In the future, we will call the language processing system "Lingupedia", which is a trademark of Lingupedia Investments Sàri, Luxembourg. Lingupedia is a modular system for automated text translation.

Lingupedia использует полностью модульную конструкцию для многоязычной обработки естественных языков и мультимодального взаимодействия. Модули любого типа могут объединяться в рабочую систему, способную анализировать, рассуждать, искать, переводить и генерировать естественный язык. Система осуществляет мультимодальное взаимодействие: ввод и вывод письменного и устного естественного языка, а также вывод в качестве языка, речи, описания или их комбинации. Модули сконструированы с возможностью повторного использования различными другими программами, либо в системе Lingupedia, например, программами анализа и генерации, либо другими программами. По возможности, модули не зависят от языка, таким образом обеспечивая возможность повторного использования. Строго определенные интерфейсы и общие программы сопряжения управляют связью между системными компонентами. Благодаря этой конструкции можно осуществлять перевод с каждого языка на любой другой язык. Языки, подлежащие переводу, могут быть даже вариациями в пределах единого языка, например может осуществляться перевод со швейцарского немецкого на верхненемецкий или перевод с разговорного стиля в формальный стиль. Lingupedia обладает следующими базовыми признаками:Lingupedia uses a fully modular design for multilingual natural language processing and multimodal interaction. Modules of any type can be combined into a working system capable of analyzing, reasoning, searching, translating and generating a natural language. The system provides multimodal interaction: input and output of written and spoken natural language, as well as output as a language, speech, description or a combination thereof. The modules are designed to be reusable by various other programs, either in the Lingupedia system, for example, analysis and generation programs, or other programs. Whenever possible, the modules are language independent, thus providing reusability. Strictly defined interfaces and common interface programs control the communication between system components. Thanks to this design, you can translate from every language into any other language. Languages to be translated can even be variations within a single language, for example, translation from Swiss German to High German or translation from colloquial style to formal style can be carried out. Lingupedia has the following basic features:

• модульность: простота оперирования, возможность повторного использования, возможность конфигурирования• modularity: ease of operation, reusability, configurability

• web-ориентированность: доступность отовсюду• web orientation: accessibility from anywhere

• программное обеспечение, высокоразвитое с эргономической точки зрения: возможность универсального использования• ergonomically advanced software: versatile use

• общественная основа: возможность универсального расширения• social foundation: universal expansion

• универсальность: каждый язык можно интегрировать• versatility: each language can be integrated

• визуально-графическое ядро: не зависит от языка и когнитивно адекватно• visual-graphic core: does not depend on language and is cognitively adequate

Основным принципом системы Lingupedia является подход к моделированию и имитации человеческой когнитивной обработки для оптимизации понимания естественного языка и генерации, перевода, поисковых машин или других задач связи.The basic principle of the Lingupedia system is an approach to modeling and simulating human cognitive processing to optimize the understanding of natural language and the generation, translation, search engines or other communication tasks.

Большинство алгоритмов основано на орфографической форме, которая означает просто символизм или байтовую строку без какого-либо смысла. Даже онтологии используют этот подход "дом - это здание", иногда с математическими расстояниями или пространствами, но они всегда используют эти бессмысленные байтовые цепочки. Основной недостаток байтовых цепочек в том, что они зачастую действительно имеют множественные значения, которые могут вовсе не нести никакого смысла: a dog may be a pet, a grab hook, a cramp iron,...Most algorithms are based on a spelling form, which simply means symbolism or a byte string without any meaning. Even ontologies use this “home is building” approach, sometimes with mathematical distances or spaces, but they always use these meaningless byte chains. The main disadvantage of byte chains is that they often really have multiple meanings, which may not make any sense at all: a dog may be a pet, a grab hook, a cramp iron, ...

Подход на основе познавательной способности человека наподобие Lingupedia отчетливо разделяет синтаксис и семантику, согласно процессам человеческого мозга, и позволяет различать множественные значения слов. Особые компоненты оперируют правилами синтаксиса или словоформами, зависящими от языка. Семантика обрабатывается в слое, не зависящем от языка, Lingupedia Meaning World (LMW). Этот подход основан на последних результатах неврологических исследований. Пример: если несколько человек, говорящих на разных языках, находятся в одной комнате, где имеется зонт, каждый "знает", что это зонт. Но это "знание" не означает, что слово "зонт" активируется каким-либо образом в мозгу присутствующего человека. Только в целях общения объект "зонт" тегируется словом, зависящим от языка. Участники знают объект без использования языка. Если они хотят выйти из дому, когда на улице дождь, они активируют "тег" посредством словаря, зависящего от языка, но только для общения с другими людьми: "May I take this umbrella?" или "Könnte ich diesen Schirm nehmen?"An approach based on a person’s cognitive ability like Lingupedia clearly separates syntax and semantics, according to the processes of the human brain, and allows you to distinguish between multiple meanings of words. Special components operate on syntax rules or language-dependent word forms. Semantics is processed in a language-independent layer, Lingupedia Meaning World (LMW). This approach is based on the latest neurological findings. Example: if several people speaking different languages are in the same room where there is an umbrella, everyone “knows” that it is an umbrella. But this "knowledge" does not mean that the word "umbrella" is activated in any way in the brain of the person present. For communication purposes only, the umbrella object is tagged with a language-dependent word. Participants know the object without using the language. If they want to leave the house when it is raining outside, they activate the “tag” through a language-specific dictionary, but only to communicate with other people: “May I take this umbrella?” or "Könnte ich diesen Schirm nehmen?"

Преимущество подхода Lingupedia состоит в том, что смысл представляется человеческими средствами и таким образом не зависит от языка. Таким образом, можно добавлять все естественные языки, поскольку они используют один и тот же смысловой мир. Lingupedia заявляет: наш подход позволяет не только переводить, но и оптимизировать любую работу или программу, использующую естественный язык. В базовом компоненте LMW информацию можно добавлять, обрабатывать и сохранять без необходимости в особом синтаксисе языка. Когда информационная единица присутствует в LMW, новые языки можно очень просто добавлять, привязывая синтаксическое представление к единице, не зависящей от языка.An advantage of the Lingupedia approach is that meaning is represented by human means and thus is language independent. Thus, it is possible to add all natural languages, since they use the same semantic world. Lingupedia declares: our approach allows us not only to translate, but also to optimize any work or program that uses a natural language. In the basic component of LMW, information can be added, processed and stored without the need for special language syntax. When an information unit is present in LMW, new languages can very easily be added by linking the syntactic representation to a unit independent of the language.

Кроме того, пользовательские значения могут сохраняться независимо от языка: например, компания, производящая особый принтер, может вывести этот принтер из шаблона данного принтера в LMW, адаптировать выведенный принтер конкретными частями и тегировать его одним или несколькими языками. Изображения с описаниями частей и признаков можно легко вывести из LMW для заданного языка. Таким образом, многоязычная информация об изделии (например, документация, маркетинговая информация или отчеты об ошибках) может автоматически генерироваться из смыслового мира, не зависящего от языка. Связь с потребителем на различных языках и в различных формах (электронную почту, письма, телефонные звонки) можно автоматизировать, т.е. анализировать, интерпретировать, распределять по разным отделам и генерировать для ответа потребителю.In addition, custom values can be stored regardless of the language: for example, a company producing a special printer can remove this printer from the template of this printer in LMW, adapt the output printer to specific parts and tag it with one or several languages. Images with descriptions of parts and features can be easily derived from LMW for a given language. Thus, multilingual product information (e.g., documentation, marketing information, or bug reports) can be automatically generated from a semantic world that is language independent. Communication with the consumer in various languages and in various forms (e-mail, letters, phone calls) can be automated, i.e. analyze, interpret, distribute to different departments and generate for the response to the consumer.

Помимо этого приложения CRM (Customer Relationship Management), LMW полезен в качестве быстрой и эффективной машины информационного поиска, поскольку, применительно к ментальному представлению, он ближе к представлению знания человека, чем другие подходы. Способ Lingupedia превосходит как классический строчный поиск (требующий точных совпадений на уровне орфографической формы), так и недавно предложенный семантический сетевой поиск (требующий особой аннотации текстов, в которых предполагается поиск информации).In addition to this CRM (Customer Relationship Management) application, LMW is useful as a fast and efficient information retrieval machine because, as far as mental representation is concerned, it is closer to the representation of human knowledge than other approaches. The Lingupedia method surpasses both the classical line search (requiring exact matches at the level of the spelling form) and the recently proposed semantic network search (requiring special annotation of texts in which information is supposed to be searched).

В основе работы LMW лежит метод тегирования. Для упрощения навигации по LMW можно активировать так называемое тегирование, зависящее от языка. Если, например, активировано английское тегирование и пользователь переходит к зонту, алгоритм тегирования запрашивает словарь английского языка на предмет статьи, отображающей его для пользователя. Таким образом, пользователи, говорящие на другом языке, получают помощь в отыскании нужной информации.The work of LMW is based on the tagging method. To simplify navigation on LMW, you can activate the so-called tagging, depending on the language. If, for example, English tagging is activated and the user navigates to the umbrella, the tagging algorithm queries the English dictionary for an article that displays it for the user. In this way, users who speak another language receive help finding the right information.

Знание в LMW представляется различными мирами. В общем случае используются "объектный мир", "структурные деревья/сети", "пространство действий" и "пространство атрибутов".Knowledge in LMW is represented by different worlds. In general, the “object world”, “structural trees / networks”, “action space” and “attribute space” are used.

Главной задачей объектного мира является представление объектов, которые обычно представляются существительными в таких языках, как немецкий, английский или китайский. Он состоит из нескольких пространств размерностью от двух до n, содержащих объекты (или их прототипы) и упорядочивает их в осмысленные комбинации.The main objective of the object world is to present objects that are usually represented by nouns in languages such as German, English or Chinese. It consists of several spaces with dimensions from two to n containing objects (or their prototypes) and organizes them into meaningful combinations.

Эти объекты организованы в структурные деревья или сети. Люди организуют знание об объектах мира и их отношениях в осмысленную структуру. Эта организация осуществляется неоднородно. Они используют концепции и категории для сохранения и сортировки информации. Такое группирование по категориям может существовать для "электронных устройств" (компьютера, принтера, цифрового телефона) или "бумаг" (писем, документов, счетов-фактур).These objects are organized into structural trees or networks. People organize knowledge about the objects of the world and their relationships into a meaningful structure. This organization is not uniform. They use concepts and categories to store and sort information. Such grouping by categories can exist for “electronic devices” (computer, printer, digital telephone) or “papers” (letters, documents, invoices).

Часть пространства действий LMW отвечает за представление действий. Действия могут быть связаны с любой другой единицей в LMW, например единицу, тегированную английским словом "withdraw" или немецким словом "abheben", можно связать с объектами "person", "money" и "cashpoint", которые являются участвующими актантами. Действия необязательно выражаются глаголами: молекулу, посредством действия связанную, например, с двумя компаниями, можно тегировать посредством "compete" или "being competitor". Такие связи называются молекулами.Part of the LMW action space is responsible for representing actions. Actions can be associated with any other unit in LMW, for example, a unit tagged with the English word “withdraw” or the German word “abheben” can be associated with the objects “person”, “money” and “cashpoint”, which are participating actors. Actions are optionally expressed in verbs: a molecule, through an action connected, for example, with two companies, can be tagged with "compete" or "being competitor". Such bonds are called molecules.

Пространство атрибутов структурировано напрямую также в отношении полезности. Подавляющее большинство атрибутов можно количественно выразить некоторым естественным образом. Атрибуты ощущений, как то цвет, вкус, размер или давление уже имеют 1-3-мерное представление, используемое в различных контекстах.The attribute space is also structured directly with respect to utility. The vast majority of attributes can be quantified in some natural way. Attributes of sensations, such as color, taste, size or pressure already have a 1-3-dimensional representation used in various contexts.

В состав Lingupedia также входят следующие дополнительные представления и алгоритмы:Lingupedia also includes the following additional views and algorithms:

• интеграция внешних ресурсов представления знания• integration of external knowledge representation resources

• описания для естественного представления единиц в LMW• descriptions for the natural representation of units in LMW

• графические отношения между единицами в LMW• graphic relationships between units in LMW

• кластеризация по темам в текстах• clustering by topics in texts

• статистический анализ для устранения неоднозначностей• statistical analysis for disambiguation

• многомерное масштабирование для вычисления сходств• multidimensional scaling to calculate similarities

Помимо вышеописанных компонентов, существуют следующие части Lingupedia, предназначенные для моделирования конкретных естественных языков:In addition to the components described above, the following parts of Lingupedia exist for modeling specific natural languages:

• не зависящий от языка редактор грамматики для задания грамматик для каждого языка• language-independent grammar editor for defining grammars for each language

• Lexi-Wikis для определения слов каждого языка• Lexi-Wikis for determining the words of each language

• Словарь с многоцелевой конфигурируемостью• Dictionary with multi-purpose configurability

Обычно словари не обеспечивают точный смысл: словарь дает следующие англо-немецкие переводы слова «dog»: Anschlag, Bauklammer, Finger, Gerüstklammer, Greifhaken, Hund и немецко-английские переводы слова Hund: canine, dog, hound. Таким образом, предлагается несколько разных значений для одного слова. LMW может интеллектуально проводить различия между этими значениями. Это значит, что прежде всего существуют не зависящие от языка представления смысла, например покрытое шерстью животное, которое тегируется по-английски словом "dog", или особая часть козел, которая также тегируется той же самой орфографической формой "dog" (на немецком языке "Gerüstklammer"). Таким образом, если обычный словарь имеет 30.000 статей на английском, LMW потребуется около 100.000 представлений смысла. Смысл, не зависящий от языка, можно понять из контекста: используется ли этот объект, тегированный словом dog, в области строительства или же он связан с действием, тегированным глаголом bark или walk? После прояснения смысла благодаря нахождению верной единицы в LMW перевод или дальнейшая обработка может осуществляться лучше, чем в любой существующей системе.Typically, dictionaries do not provide an exact meaning: the dictionary gives the following English-German translations of the word "dog": Anschlag, Bauklammer, Finger, Gerüstklammer, Greifhaken, Hund and German-English translations of the word Hund: canine, dog, hound. Thus, several different meanings are suggested for one word. LMW can intelligently distinguish between these values. This means that first of all there are language-independent representations of meaning, for example, a woolly animal that is tagged in English with the word “dog”, or a special part of a goat that is also tagged with the same spelling form “dog” (in German) Gerüstklammer "). Thus, if a regular dictionary has 30,000 entries in English, LMW will require about 100,000 representations of meaning. A language-independent meaning can be understood from the context: is this object tagged with the word dog used in the construction field, or is it associated with an action tagged with the verb bark or walk? After clarifying the meaning, by finding the right unit in LMW, translation or further processing can be done better than in any existing system.

Lingupedia может a) использовать и интегрировать существующие внешние ресурсы из сети и b) открывать все компоненты Lingupedia для публичного доступа - синтаксические компоненты, зависящие от языка, а также семантическую область LMW, не зависящую от языка. Кроме того, прямо с начала и даже более с развитием LMW, очень легко интегрировать синтаксическую часть нового языка, поскольку требуется произвести лишь простое тегирование. Lingupedia обеспечивает лингвистический инструментарий для быстрого и легкого тегирования для неопытных пользователей, не требующих особых знаний, и охватывающий каждый человеческий язык.Lingupedia can a) use and integrate existing external resources from the network and b) open all Lingupedia components for public access - language-dependent syntax components, as well as the language-independent semantic domain LMW. In addition, right from the beginning, and even more with the development of LMW, it is very easy to integrate the syntactic part of the new language, since it requires only simple tagging. Lingupedia provides linguistic tools for quick and easy tagging for inexperienced users who do not require special knowledge, and encompassing every human language.

Ниже будут описаны некоторые детали компонентов.Below will be described some details of the components.

В объектном мире все семантические сущности представлены независимо от языка. Представление является графическим, т.е. визуализированным в разных формах. Семантические сущности соответствуют абстрактным или реальным объектам, существующим в своеобразном "модельном" мире. Они организованы в пространства размерностью от двух до n и в осмысленные структуры.In the object world, all semantic entities are represented regardless of language. The representation is graphic, i.e. visualized in different forms. Semantic entities correspond to abstract or real objects that exist in a kind of "model" world. They are organized into spaces from two to n in dimension and into meaningful structures.

Простые объекты могут открывать новые миры. Например, луна может вести в другое пространство, например орбиту. Альтернативно, представление человека может вести в пространство, которое имитирует клеточную основу или части тела человека. Отношения объектов можно представить, например, в городе, где имеются здания, парки и сады. Здание может быть частным, общественным или офисным зданием. Это здание содержит офисы; офисы содержат объекты, например столы, компьютеры, полки, часы или бумаги. Таким образом, объекты пространственно или функционально связаны с областью знания, представленной офисом или зданием. Объекты могут состоять из частей; часы, например, могут состоять из механического механизма и циферблата с часовой и минутной стрелками. Евклидово расстояние между объектами в этом модельном мире представляет различие между двумя объектами. Евклидово расстояние в семантическом пространстве не эквивалентно евклидову расстоянию в реальном мире. Оно основано на различии или функциональной близости.Simple objects can open up new worlds. For example, the moon can lead to another space, such as an orbit. Alternatively, a person’s view can lead into a space that mimics the cellular basis or parts of a person’s body. Relationships of objects can be represented, for example, in a city where there are buildings, parks and gardens. The building may be a private, public or office building. This building contains offices; Offices contain objects such as desks, computers, shelves, clocks or papers. Thus, objects are spatially or functionally related to the field of knowledge represented by the office or building. Objects may consist of parts; watches, for example, may consist of a mechanical mechanism and a dial with hour and minute hands. The Euclidean distance between objects in this model world represents the difference between two objects. Euclidean distance in semantic space is not equivalent to Euclidean distance in the real world. It is based on distinction or functional proximity.

LMW использует ассоциативные сети или ориентированные деревья в качестве представления знания. Пользователь может перейти от объекта, например объекта "документ", лежащего на столе в графическом мире, к соответствующему дереву для отыскания, например объекта "уведомление". Каждый объект можно связать с множественными структурными деревьями, например бумажный объект с "бумаги", а также с деревом "материалы", где на одном ярусе находятся вершины «дерево», «металл» и т.д.LMW uses associative networks or oriented trees as a representation of knowledge. The user can switch from an object, for example, a document object, lying on a table in the graphic world, to the corresponding tree for searching, for example, a notification object. Each object can be associated with multiple structural trees, for example, a paper object with “paper”, as well as with the tree “materials”, where the vertices “tree”, “metal”, etc. are on the same tier.

В LMW существуют разные типы отношений в сетях: одним типом отношения может быть "является" (“is-a”). При этом объектом является подтип родительской вершины, содержащей надтип. Подтипы наследуют свойства своих надтипов. Возможно множественное наследование. Это дерево "является" используется для перевода подтипов, не имеющих тегирования на конечном языке. Вместо конкретного термина вербализуется более общий надтип ("document" вместо "letter", "take" вместо "withdraw") или выбирается синоним или отрицаемое выражение антонима. Помимо гипонимии, для дедукции и перевода используются также другие отношения: близость, связанность, экземпляризм, членство, рамочная связанность, подобие, синонимия, антонимия, меронимия и т.д. Языки отличаются своим лексическим инвентарем. Эта сеть отношений обеспечивает гибкость генерации естественного языка в системе, которая должна оперировать каждым языком, и где в различных языках не хватает определенных слов либо вследствие особенностей языка, либо вследствие того, что они еще не тегированы в системе Lingupedia. Единицы LMW могут быть искусственными в том смысле, что они являются лишь частью структурных деревьев. Это справедливо для некоторых отношений или построенных вершин.In LMW, there are different types of relationships in networks: one type of relationship can be “is-a”. In this case, the object is a subtype of the parent vertex containing the supertype. Subtypes inherit the properties of their supertypes. Multiple inheritance is possible. This "is" tree is used to translate subtypes that do not have tagging in the target language. Instead of a specific term, a more general supertype is verbalized ("document" instead of "letter", "take" instead of "withdraw"), or a synonym or denied expression of the antonym is selected. In addition to hyponymy, other relations are also used for deduction and translation: affinity, connectedness, instanceism, membership, framework connectedness, likeness, synonymy, antonymy, meronymy etc. Languages are distinguished by their lexical inventory. This network of relationships provides the flexibility to generate a natural language in a system that must operate with each language, and where certain languages lack certain words, either due to language features or because they are not yet tagged in the Lingupedia system. LMW units can be artificial in the sense that they are only part of structural trees. This is true for some relationships or tops built.

В особенности, что касается действий, визуализированное представление является когнитивно адекватным, поскольку вербализованное определение представляет трудность для понимания и менее интуитивно для пользователей, чем визуальное. Фильмы, графика, отображающие движения или схематические описания, используются для иллюстрации различных действий. Пространство действий также используется для представления тематических ролей глаголов или других сущностей. Тематические роли соотносят действие с его агентами, темами, целями и т.д. Роли либо задаются пользователем, либо выводятся из свойств графически отображаемого действия. Это элегантный и интуитивный путь присвоения внутренней, тематической структуры действиям и событиям. Это знание о задействованных ролях используется для устранения неоднозначности и для корректной генерации конечного предложения.In particular, with regard to actions, a visualized representation is cognitively adequate, since a verbalized definition is difficult to understand and less intuitive for users than a visual one. Films, graphics showing movements or schematic descriptions are used to illustrate various actions. The action space is also used to represent the thematic roles of verbs or other entities. Thematic roles relate the action to its agents, themes, goals, etc. Roles are either user-defined or inferred from the properties of the graphically displayed action. This is an elegant and intuitive way of assigning an internal, thematic structure to actions and events. This knowledge of the roles involved is used to disambiguate and to correctly generate the final sentence.

Атрибутами объектов могут быть эмоциональная шкала, цветовое представление или физические атрибуты, например температура, размер или качество. Например, слово «биржа» можно связать с двухмерным пространством, которое представляет числовую шкалу, представляющую денежные единицы. С этим пространством можно связать другие единицы, например действия, которые можно тегировать словами "рост" или "спад". Как и пространство действий, пространство атрибутов можно связывать с другими единицами в LMW. Цвет можно связать с объектом, который тегирован словом "автомобиль". Само пространство атрибутов может быть многомерным. Атрибуты могут представлять структурное дерево, например "scarlet", "carmine" и "crimson" являются подтипами "red". Таким образом, единицы смыслового мира связаны друг с другом разнообразными путями в сети, что позволяет делать сложные умозаключения, необходимые для обработки естественного языка.Attributes of objects can be an emotional scale, color representation, or physical attributes, such as temperature, size, or quality. For example, the word “exchange” can be associated with a two-dimensional space that represents a numerical scale representing monetary units. Other units can be associated with this space, for example, actions that can be tagged with the words “growth” or “decline”. Like the action space, the attribute space can be associated with other units in LMW. A color can be associated with an object that is tagged with the word "car." The attribute space itself can be multidimensional. Attributes can represent a structural tree, for example "scarlet", "carmine" and "crimson" are subtypes of "red". Thus, the units of the semantic world are connected with each other in various ways on the network, which allows us to make complex inferences necessary for processing a natural language.

К системе можно подключать внешние ресурсы, чтобы представления знания, доступные в Интернете, можно было использовать в компонентах системы. Подключаемые ресурсы представляют собой, например, DBpedia, Wiktionary, Open Street Map, научные таксономии, онтологии из Semantic Web®, собственные таксономии пользователей и т.д. Высокоинтеллектуальные компоненты проверки согласованности проверяют согласованность различных представлений и обеспечивают правильное вычисление для широкого круга разнородных источников знания. Можно даже интегрировать разные медийные типы, например графику, видео и аудио. Различные алгоритмы интерпретации или перевода позволяют оперировать с различными типами представлений.External resources can be connected to the system so that knowledge representations available on the Internet can be used in system components. Connected resources are, for example, DBpedia, Wiktionary, Open Street Map, scientific taxonomies, ontologies from Semantic Web®, custom user taxonomies, etc. The highly intelligent consistency checking components verify the consistency of various representations and provide the correct calculation for a wide range of heterogeneous sources of knowledge. You can even integrate different types of media, such as graphics, video and audio. Different interpretation or translation algorithms allow you to operate with different types of representations.

Аватары представляют людей или животных. Аватары, как и все объекты в LMW, выводятся из других аватаров. Таким образом задается внутренняя иерархия объектов, образованных посредством вывода. Человеческое мышление работает - такова гипотеза авторов - и в конечных моделях мира: когда люди представляют себе снятие наличных в банкомате, они не используют слова "I, bank, cashpoint, withdraw". Вместо этого для воображения этого процесса они используют "ментальный образ" или "ментальную сцену", не зависящий/ую от языка. Они могут даже придумывать целые истории, например, в мечтах, без участия своего тела. Они воображают свое тело в искусственном, смоделированном в мозгу окружении. В дальнейшем LMW послужит платформой для такого моделирования с помощью искусственного интеллекта.Avatars represent humans or animals. Avatars, like all objects in LMW, are derived from other avatars. In this way, an internal hierarchy of objects formed by inference is defined. Human thinking works - this is the hypothesis of the authors - and in the final models of the world: when people imagine withdrawing cash from an ATM, they do not use the words "I, bank, cashpoint, withdraw". Instead, they use a “mental image” or “mental scene” that is independent of the language to imagine this process. They can even come up with whole stories, for example, in dreams, without the participation of their body. They imagine their body in an artificial environment simulated in the brain. In the future, LMW will serve as a platform for such modeling using artificial intelligence.

Различные отношения также моделируются графически. Пространственные, временные, причинные или метафорические отношения между сущностями (а также другие типы отношений) идеально подходят для графического описания. Применительно к переводу эти виды отношений являются основой для определения, какие структуры и формулировки служат для их вербального выражения, поскольку языки различаются способом выражения этих отношений: некоторые языки используют предлоги, другие реализуют их как морфемы, присоединенные к существительному, и т.д. Лучше всего, и когнитивно адекватно, генерировать адекватные структуры и формулировки на основании нейтрального, абстрактного и графического представления. Согласно этому способу, компоненту генерации не приходится осуществлять комплексное реструктурирование входной структуры (как это делают классические системы машинного перевода), но просто нужно выбирать между доступными структурами конечного языка с использованием отображения отношений в структуры. Эти алгоритмы отображения были разработаны для генерации каждого интегрируемого языка.Different relationships are also modeled graphically. Spatial, temporal, causal, or metaphorical relationships between entities (as well as other types of relationships) are ideal for graphical descriptions. In relation to translation, these types of relations are the basis for determining which structures and formulations serve for their verbal expression, since languages differ in the way they express these relations: some languages use prepositions, others realize them as morphemes attached to a noun, etc. It is best, and cognitively adequate, to generate adequate structures and formulations based on a neutral, abstract and graphic representation. According to this method, the generation component does not have to carry out a comprehensive restructuring of the input structure (as classical machine translation systems do), but just need to choose between the available structures of the final language using the mapping of relations into structures. These mapping algorithms were developed to generate each integrable language.

Знание о темах улучшает перевод за счет фильтрации неоднозначных значений, которые не относятся к этим темам. Для ряда тем существует большое количество кластеров в N-мерном семантическом пространстве. Для отыскания центров кластеров используются эффективные и быстрые алгоритмы кластеризации, например алгоритм кластеризации методом K-mean. Эти центроиды кластеров представляют темы текста. При наличии неоднозначных переводов тему можно использовать для их разрешения.Knowing about topics improves translation by filtering ambiguous values that are not relevant to these topics. For a number of topics, there are a large number of clusters in the N-dimensional semantic space. Efficient and fast clustering algorithms, for example, the K-mean clustering algorithm, are used to find cluster centers. These cluster centroids represent text topics. If there are ambiguous translations, the topic can be used to resolve them.

Синтаксический анализ текста часто создает много синтаксических графов и некоторые неразрешенные связи между вершинами графа. Статистический подход к выбору наилучшего графа используется: теорема Байеса. Она утверждает, что вероятность того, что определенный граф дает сведения (семантические сущности), пропорциональна правдоподобию того, что семантические сущности присутствуют в этом графе, умноженной на априорную вероятность присутствия сущности в этом графе.Text parsing often creates many syntactic graphs and some unresolved relationships between the vertices of the graph. A statistical approach to choosing the best graph is used: Bayes theorem. She argues that the likelihood that a certain graph provides information (semantic entities) is proportional to the likelihood that semantic entities are present in this graph, multiplied by the a priori probability of the entity's presence in this graph.

В состав системы Lingupedia входит первый в мире не зависящий от языка редактор грамматики: пользователи могут прописывать грамматики безо всякого знания программирования. Требуется только определенная формализация возможных структур языка. Таким образом можно избежать длительной разработки различных грамматик для каждого отдельно взятого языка и вместо этого получить возможность быстрого и эффективного создания прототипов. Таким образом можно быстро и легко подключать новые языки. Грамматики используются как для языкового анализа, так и для генерации компонентов. Эта концепция модульности и возможности повторного использования компонентов применяется к следующим синтаксическим представлениям и процессам:The Lingupedia system includes the world's first language-independent grammar editor: users can prescribe grammars without any programming knowledge. Only a certain formalization of the possible structures of the language is required. This way you can avoid the lengthy development of different grammars for each individual language and instead get the opportunity to quickly and efficiently create prototypes. This way you can quickly and easily connect new languages. Grammars are used for both language analysis and component generation. This concept of modularity and reusability of components applies to the following syntactic representations and processes:

• не зависящему от языка, т.е. универсальному, абстрактному представлению грамматической структуры• language independent, ie universal, abstract representation of grammatical structure

• грамматикам для анализа и генерации• grammars for analysis and generation

• синтаксически-морфологическим правилам для анализа и генерации• syntactic-morphological rules for analysis and generation

Графические пользовательские интерфейсы, именуемые Lexi-Wikis, позволяют пользователям вносить слова в лексикон, зависящий от языка. Lexi-Wikis не требуют никакого экспертного знания о языке, но предназначены для самого широкого круга пользователей. Из соответствующих слов инструменты генерируют примерные предложения, которые пользователь может легко выбирать или изменять. Какие формы и сколько словоформ нужно представлять пользователю, определяется различными инфлекционными алгоритмами, зависящими от языка. Выбранные пользователем примеры переводятся в комплексное представление, которое может обрабатывать программа. Лежащий в основе морфологический метод использует знание лингвистики и частотную информацию для определения минимальной информации, которую должен предоставлять пользователь. Таким образом он прогнозирует наиболее вероятные словоформы, благодаря чему от пользователя требуется как можно меньше словоформ и как можно меньше действий. Согласно этому способу, умственная нагрузка или интеллект переносится со стороны пользователя на сторону программного обеспечения.Graphical user interfaces called Lexi-Wikis allow users to enter words in a language-specific vocabulary. Lexi-Wikis does not require any expert knowledge of the language, but is intended for a wide range of users. From the corresponding words, the tools generate sample sentences that the user can easily select or modify. What forms and how many word forms need to be presented to the user is determined by various language-dependent inflection algorithms. The user-selected examples are translated into a complex representation that the program can process. The underlying morphological method uses linguistic knowledge and frequency information to determine the minimum information that the user must provide. Thus, he predicts the most likely word forms, so that the user is required as few word forms and as few actions as possible. According to this method, mental load or intelligence is transferred from the user to the software side.

Словарный метод разработан как универсальный, многоцелевой главный словарь для любых разновидностей приложений естественного языка и для любых типов языков. Словарь предлагает новый уровень представления: уровень фраз, который располагается между отдельными словами и законченными предложениями. Это позволяет очень гибко оперировать единицами языка в континууме слово - фраза - предложение. Многословные выражения, которые до сих пор являются основной проблемой для большинства естественно-языковых систем, можно представить в виде более или менее фиксированной структуры: от совсем неизменяемых и немодифицируемых (имеющих фиксированную форму и не имеющих никакой внутренней структуры) к имеющим внутреннюю структуру с определенными ограничениями (семантическими, синтаксическими, лексическими, прагматическими, стилистическими и т.д.) и до предусматривающих модификации любого типа.The vocabulary method is designed as a universal, multi-purpose main dictionary for any variety of natural language applications and for any type of language. The dictionary offers a new level of presentation: the level of phrases, which is located between individual words and complete sentences. This allows you to very flexibly operate the language units in the continuum of the word - phrase - sentence. Verbose expressions, which are still the main problem for most natural language systems, can be represented in the form of a more or less fixed structure: from completely unchanged and unmodifiable (having a fixed form and having no internal structure) to having an internal structure with certain restrictions (semantic, syntactic, lexical, pragmatic, stylistic, etc.) and up to providing modifications of any type.

Словарный метод обеспечивает механизм аннотации статей признаками, полезными для различных приложений естественного языка: морфологическими признаками для морфологического анализа и генерации, синтаксическими признаками для синтаксического анализа и генерации, семантическими признаками для семантической обработки, прагматическими признаками для прагматической обработки и диалоговыми признаками для эффективного построения диалогов на естественном языке. Для объяснения метода на основе признаков: обработка естественного языка с использованием его поверхностных форм (строки) не идеальна, поскольку каждый вариант и эквивалент или связанную форму нужно обрабатывать отдельно. Этот подход не эффективен: трудоемкий и подверженный ошибкам для программиста и не дающий пользователю никакой гибкости при взаимодействии с программным обеспечением, например возможности диалога: он должен использовать только те строки, которые подготовила программа; в противном случае он не будет понят. Благодаря использованию признаков применяется более высокий уровень научной абстракции, обеспечивающий более гибкий и естественный характер взаимодействия.The vocabulary method provides a mechanism for annotating articles with features useful for various natural language applications: morphological features for morphological analysis and generation, syntactical features for parsing and generation, semantic features for semantic processing, pragmatic features for pragmatic processing, and dialog features for effectively building dialogs on natural language. To explain a feature-based method: processing a natural language using its surface forms (strings) is not ideal, since each variant and equivalent or related form must be processed separately. This approach is not effective: time-consuming and error-prone for the programmer and not giving the user any flexibility when interacting with the software, for example, the possibility of dialogue: he should use only those lines that the program prepared; otherwise it will not be understood. Thanks to the use of features, a higher level of scientific abstraction is applied, which provides a more flexible and natural character of interaction.

Помимо лингвистической информации, используемой для взаимодействия на письменном языке, в словаре также хранится информация о произношении слов, которая полезна для звукового ввода и вывода при распознавании и синтезе речи. Встроены алгоритмы преобразования. Они переводят представление произношения из внутренней формы в другую форму для дальнейшей обработки программным обеспечением различных типов или для представления пользователю. Таким образом эта информация может гибко использоваться в разных приложениях. Инструмент конфигурации позволяет выбирать именно те части словаря, которые требуются разным приложениям.In addition to the linguistic information used for interaction in the written language, the dictionary also stores information on the pronunciation of words, which is useful for sound input and output in speech recognition and synthesis. Built-in conversion algorithms. They translate the presentation of pronunciation from the internal form to another form for further processing by software of various types or for presentation to the user. Thus, this information can be flexibly used in different applications. The configuration tool allows you to select exactly those parts of the dictionary that are required by different applications.

Благодаря хранению базовых форм, вместо полных форм (последние обычно используются программным обеспечением, связанным с речью), словарь использует эффективную и гибкую форму представления и обработки и допускает динамическую генерацию всевозможных инфлективных, деривативных и сложных форм. Алгоритм генерации, который создает различные словоформы, в то же время гарантируя правильное произношение, выведенное из и адаптированное к внутренней структуре слов, является частью системы. Словарь также обеспечивает способ представления различных отношений между статьями лексикона. Отношения относятся к разным задачам языковой обработки, например, для сокращения, которое обычно не используется в речи, но только в письменном языке. Если она не используется при синтезе речи, ее полная форма представляется, чтобы сделать ее произносимой. Альтернативно, если статья подлежит поиску с помощью поисковой машины, ее различные орфографические и инфлективные формы безразличны для процесса поиска, хотя до сих пор их приходится представлять в явном виде. Подход Lingupedia позволяет устанавливать связь с ними и легко находить их.Thanks to the storage of basic forms, instead of full forms (the latter are usually used by speech-related software), the dictionary uses an effective and flexible form of presentation and processing and allows the dynamic generation of all kinds of inflective, derivative and complex forms. The generation algorithm, which creates various word forms, while guaranteeing the correct pronunciation, derived from and adapted to the internal structure of words, is part of the system. The dictionary also provides a way of representing the various relationships between vocabulary entries. Relationships relate to different tasks of language processing, for example, for abbreviation, which is usually not used in speech, but only in written language. If it is not used in speech synthesis, its full form is presented to make it pronounced. Alternatively, if an article is to be searched using a search engine, its various spelling and inflective forms are indifferent to the search process, although they still have to be explicitly presented. Lingupedia's approach allows you to connect with them and easily find them.

На основании принципов, представленных в вышеприведенном описании и прилагаемых чертежах, специалист в области техники, к которой относится изобретение, может предложить разнообразные модификации и другие варианты осуществления изложенного здесь изобретения. Таким образом, следует понимать, что изобретение не ограничивается конкретными раскрытыми вариантами осуществления, и что модификации и другие варианты осуществления подлежат включению в объем формулы изобретения. Хотя здесь употребляются конкретные термины, они используются лишь в общем и описательном смысле, но не в целях ограничения.Based on the principles set forth in the foregoing description and the annexed drawings, one of ordinary skill in the art to which the invention relates may provide various modifications and other embodiments of the invention set forth herein. Thus, it should be understood that the invention is not limited to the particular embodiments disclosed, and that modifications and other embodiments are to be included within the scope of the claims. Although specific terms are used here, they are used only in a general and descriptive sense, but not for purposes of limitation.

Claims (29)

1. Способ обработки естественного языка с использованием системы языковой обработки, в котором письменный или устный текст вводится в систему языковой обработки, содержащий этапы, на которых:
анализируют текст в отношении его синтаксиса и морфологии;
извлекают компоненты текста и их взаимосвязи;
генерируют или используют граф или графическое представление текста в качестве не зависящего от языка представления смысла текста; и
осуществляют обработку текста с использованием графа или графического представления, причем на этапе обработки формируют суждение об упомянутом представлении в модели смыслового мира, таким образом проверяя согласованность извлеченной семантики текста.
1. A method of processing a natural language using a language processing system in which written or spoken text is entered into a language processing system, comprising stages in which:
analyze the text in relation to its syntax and morphology;
extract text components and their relationships;
generate or use a graph or graphical representation of the text as a language-independent representation of the meaning of the text; and
the text is processed using a graph or graphical representation, and at the processing stage, a judgment is formed on the above representation in the model of the semantic world, thus checking the consistency of the extracted text semantics.
2. Способ по п.1, в котором создают визуально-графическую модель текста, причем визуально-графическая модель не зависит от языка, что позволяет пользователям расширять систему языковой обработки, не располагая знанием об используемых языках.2. The method according to claim 1, in which a visual-graphic model of the text is created, the visual-graphic model being independent of the language, which allows users to expand the language processing system without knowledge of the languages used. 3. Способ по п.1 или 2, в котором грамматические данные, используемые на этапе анализа, вводят в систему языковой обработки посредством редактора грамматики, не зависящего от языка.3. The method according to claim 1 or 2, in which the grammatical data used in the analysis step is entered into the language processing system by means of a grammar editor independent of the language. 4. Способ по п.1, в котором этап анализа осуществляется синтаксическим слоем системы языковой обработки, который осуществляет сегментацию и токенизацию текста, причем синтаксический слой может быть привязан к системе языковой обработки.4. The method according to claim 1, in which the analysis step is carried out by the syntactic layer of the language processing system, which performs the segmentation and tokenization of the text, and the syntax layer can be attached to the language processing system. 5. Способ по п.4, в котором каждый язык, подлежащий обработке системой языковой обработки, представляют в отдельном синтаксическом слое, что позволяет повторно использовать абстракции других языков в отдельных синтаксических слоях.5. The method according to claim 4, in which each language to be processed by the language processing system is represented in a separate syntactic layer, which allows you to reuse the abstractions of other languages in separate syntactic layers. 6. Способ по п.4 или 5, в котором дополнительное абстрагирование и обобщение данных, сгенерированных синтаксическим слоем, осуществляется реляционным слоем, причем данные, предпочтительно, описывают отношения между объектами и их абстракциями.6. The method according to claim 4 or 5, in which additional abstraction and generalization of the data generated by the syntactic layer is carried out by the relational layer, the data preferably describing the relationship between objects and their abstractions. 7. Способ по п.4, в котором информация текста, не зависящая от языка, извлекается в синтаксическом и реляционном слоях, причем информация, не зависящая от языка, передается в семантический слой, и информация, не зависящая от языка, содержит объекты, действия и атрибуты.7. The method according to claim 4, in which the text information independent of the language is extracted in the syntax and relational layers, the information independent of the language is transmitted to the semantic layer, and the information independent of the language contains objects, actions and attributes. 8. Способ по п.1, в котором на этапе генерации графа или графического представления объекты, действия и атрибуты предложения или фразы связывают друг с другом.8. The method according to claim 1, in which at the stage of generating a graph or graphical representation of the objects, actions and attributes of the sentence or phrase are connected with each other. 9. Способ по п. 8, в котором объекты, действия и атрибуты представляют графически.9. The method of claim 8, wherein the objects, actions, and attributes are represented graphically. 10. Способ по п.1, в котором на этапе обработки генерируют перевод текста на язык, отличный от исходного языка текста, причем граф или графическое представление является основой перевода.10. The method according to claim 1, in which at the processing stage generate a translation of the text into a language different from the original language of the text, and the graph or graphical representation is the basis of the translation. 11. Способ по п.1, в котором на этапе обработки анализируют текст для поиска или другой языковой обработки.11. The method according to claim 1, in which at the processing stage, the text is analyzed for search or other language processing. 12. Способ по п.10, в котором на этапе обработки генерируют ответ на текст с использованием информации, заданной в модели смыслового мира.12. The method according to claim 10, in which at the processing stage generate a response to the text using the information specified in the model of the semantic world. 13. Способ по п.1, в котором текст, сгенерированный на этапе обработки, выводят пользователю в качестве письменного или устного языка или в виде изображения.13. The method according to claim 1, in which the text generated at the processing stage is displayed to the user as a written or spoken language or as an image. 14. Способ по п.1, в котором знание, используемое на отдельных этапах, вводят с использованием веб-интерфейса для универсального пользования, причем знание может включать в себя теги лексикона, содержимое модели смыслового мира, грамматическую информацию и представление атрибутов.14. The method according to claim 1, in which the knowledge used in the individual steps is entered using a web interface for universal use, and the knowledge may include lexicon tags, content of the semantic world model, grammatical information, and presentation of attributes. 15. Система для обработки естественного языка, содержащая:
модуль ядра, не зависящий от языка, причем этот модуль манипулирует совокупностью объектов, представляющих термины и отношения между объектами,
совокупность словарных модулей, зависящих от языка, причем каждый словарный модуль имеет совокупность статей, причем каждая статья словарей связана с одним из совокупности объектов, хранящейся в модуле ядра, не зависящем от языка,
анализатор текста, связанный с одним или несколькими из словарных модулей, зависящих от языка, и
генератор предложений, связанный с одним или несколькими из словарей, зависящих от языка,
в которой анализатор текста принимает ввод, извлекает из ввода ключевые термины, использует представление ключевых терминов в виде графа на основе совокупности объектов из модуля ядра, не зависящего от языка, и формирует суждение об упомянутом представлении в модели смыслового мира, таким образом проверяя согласованность извлеченной семантики упомянутого ввода, и генератор предложений формулирует выходной текст на одном из связанных с ним языков на основе представления в виде графа.
15. A system for processing natural language, containing:
a language-independent kernel module, this module manipulating a collection of objects representing terms and relationships between objects,
a collection of vocabulary modules depending on the language, each dictionary module having a collection of articles, each article of dictionaries associated with one of the collection of objects stored in a kernel module, independent of the language,
a text analyzer associated with one or more of the language-specific vocabulary modules, and
a sentence generator associated with one or more of the language-dependent dictionaries,
in which the text analyzer accepts input, extracts key terms from the input, uses the representation of key terms in the form of a graph based on a set of objects from a language module independent of the kernel module, and forms a judgment on the above representation in the semantic model of the world, thus checking the consistency of the extracted semantics mentioned input, and the sentence generator formulates the output text in one of the languages associated with it on the basis of a graph representation.
16. Система по п.15, в которой ввод содержит письменный текст или устный текст.16. The system of clause 15, in which the input contains written text or spoken text. 17. Система по п.15, содержащая по меньшей мере один лингвистический синтаксический модуль, связанный с одним или несколькими из словарей, зависящих от языка, причем лингвистический синтаксический модуль включает в себя упомянутый анализатор текста, множество правил грамматики и множество шаблонов.17. The system according to clause 15, containing at least one linguistic syntax module associated with one or more of the dictionaries, depending on the language, and the linguistic syntax module includes the above text analyzer, many grammar rules and many templates. 18. Система по п.17, в которой каждый словарь, зависящий от языка, связан с отдельным лингвистическим синтаксическим модулем.18. The system of claim 17, wherein each language-dependent dictionary is associated with a separate linguistic syntax module. 19. Система по п.17, в которой зависящие от языка словари по меньшей мере двух близкородственных языков связаны с одним и тем же лингвистическим синтаксическим модулем.19. The system of claim 17, wherein the language-dependent dictionaries of at least two closely related languages are associated with the same linguistic syntax module. 20. Система по п.15, в которой в модуле ядра, не зависящем от языка, дополнительно хранятся мультимедийные представления соответствующих терминов, хранящихся в этом модуле.20. The system of clause 15, in which a multimedia presentation of the corresponding terms stored in this module is additionally stored in a language-independent kernel module. 21. Система по п.20, в которой мультимедийные представления содержат изображения, звуки или видеозаписи.21. The system of claim 20, wherein the multimedia presentations comprise images, sounds, or videos. 22. Система по п.20, дополнительно содержащая модуль редактирующего компонента, причем модуль редактирующего компонента обеспечивает изменение словарных статей и их связей с одним из совокупности объектов, хранящейся в модуле ядра, не зависящем от языка.22. The system of claim 20, further comprising an editing component module, wherein the editing component module provides for changing dictionary entries and their relationships with one of a plurality of objects stored in a kernel module that is language independent. 23. Система по п.22, в которой модуль редактирующего компонента дополнительно выполнен с возможностью обеспечивать добавление статей в совокупность словарей, зависящих от языка.23. The system of claim 22, wherein the editing component module is further configured to provide addition of articles to a set of language-dependent dictionaries. 24. Система по п.22, в которой модуль редактирующего компонента приспособлен для доступа к нему через веб-сайт.24. The system of claim 22, wherein the editing component module is adapted to access it through a website. 25. Система по п.24, в которой мультимедийные представления терминов можно отображать в виртуальном мире.25. The system according to paragraph 24, in which multimedia representations of terms can be displayed in the virtual world. 26. Система по п.22, в которой доступ к модулю редактирующего компонента ограничен квалифицированными пользователями.26. The system of claim 22, wherein access to the editing component module is limited to qualified users. 27. Способ разработки системы языковой обработки, содержащий этапы, на которых:
разрабатывают ядро, не зависящее от языка, причем данное ядро содержит объекты терминов языка, причем каждый объект терминов языка содержит мультимедийные представления терминов языка и связи между соответствующими терминами языка;
добавляют объект словаря, связанный с конкретным языком;
добавляют слова конкретного языка в объект словаря;
связывают слова с надлежащими объектами терминов языка в ядре; и
обеспечивают веб-интерфейс для универсального пользования, причем веб-интерфейс используется для ввода знания, используемого при функционировании системы языковой обработки, причем знание включает в себя теги лексикона, содержимое модели смыслового мира, грамматическую информацию и представление атрибутов.
27. A method for developing a language processing system, comprising the steps of:
developing a core independent of the language, the core containing language terms objects, each language terms object containing multimedia representations of language terms and the relationships between the corresponding language terms;
add a dictionary object associated with a specific language;
add the words of a particular language to the dictionary object;
associate words with appropriate language terminology objects in the kernel; and
provide a web interface for universal use, and the web interface is used to enter the knowledge used in the operation of the language processing system, and the knowledge includes vocabulary tags, the contents of the model of the semantic world, grammatical information and the presentation of attributes.
28. Способ по п.27, в котором связи между соответствующими терминами языка включают в себя реляционные связи и иерархические связи.28. The method according to item 27, in which the relationship between the corresponding terms of the language include relational relationships and hierarchical relationships. 29. Способ по п.27, содержащий этап, на котором создают анализатор языка для конкретного языка на основе правил грамматики и синтаксиса. 29. The method according to item 27, containing the stage of creating a language analyzer for a particular language based on the rules of grammar and syntax.
RU2011122784/08A 2008-11-07 2009-11-03 Method for semantic processing of natural language using graphic intermediary language RU2509350C2 (en)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US12/267,461 US20100121630A1 (en) 2008-11-07 2008-11-07 Language processing systems and methods
US12/267,461 2008-11-07
EP08019498.8 2008-11-07
EP08019498A EP2184685A1 (en) 2008-11-07 2008-11-07 Method for semantic processing of natural language using graphical interlingua
PCT/EP2009/007868 WO2010051966A1 (en) 2008-11-07 2009-11-03 Method for semantic processing of natural language using graphical interlingua

Publications (2)

Publication Number Publication Date
RU2011122784A RU2011122784A (en) 2012-12-20
RU2509350C2 true RU2509350C2 (en) 2014-03-10

Family

ID=41460497

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2011122784/08A RU2509350C2 (en) 2008-11-07 2009-11-03 Method for semantic processing of natural language using graphic intermediary language

Country Status (3)

Country Link
CN (1) CN102272755A (en)
RU (1) RU2509350C2 (en)
WO (1) WO2010051966A1 (en)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2584457C1 (en) * 2015-02-03 2016-05-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" System and method of creating and using user semantic dictionaries for processing user text in natural language
RU2595489C2 (en) * 2014-06-18 2016-08-27 Самсунг Электроникс Ко., Лтд. Allocation of time expressions for texts in natural language
RU2605077C2 (en) * 2015-03-19 2016-12-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Method and system for storing and searching information extracted from text documents
RU2635882C1 (en) * 2016-11-22 2017-11-16 Федеральное государственное бюджетное учреждение науки Институт проблем управления им. В.А. Трапезникова Российской академии наук Device for recognizing scientificity of published constructions
RU2639652C1 (en) * 2016-07-13 2017-12-21 Общество с ограниченной ответственностью "ЭсДиАй Рисёчь" System of semantic search in object-process data model
US10467598B2 (en) * 2015-04-30 2019-11-05 Samsung Electronics Co., Ltd. Apparatus and method for automatically converting note to action reminders
RU2714899C1 (en) * 2019-11-10 2020-02-20 Игорь Петрович Рогачев Method of forming an ontological database of a structured data array
RU2729227C2 (en) * 2015-11-20 2020-08-05 Гуанчжоу Шэньма Мобайл Информэйшн Текнолоджи Ко., Лтд Method and device for extracting web-pages subject-matter
RU2759090C1 (en) * 2020-12-18 2021-11-09 Общество с ограниченной ответственностью "Виртуальные Ассистенты" Method for controlling a dialogue and natural language recognition system in a platform of virtual assistants

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9589565B2 (en) * 2013-06-21 2017-03-07 Microsoft Technology Licensing, Llc Environmentally aware dialog policies and response generation
US9311298B2 (en) 2013-06-21 2016-04-12 Microsoft Technology Licensing, Llc Building conversational understanding systems using a toolset
US9529794B2 (en) 2014-03-27 2016-12-27 Microsoft Technology Licensing, Llc Flexible schema for language model customization
CN105630771B (en) * 2015-12-25 2019-03-26 陈福 Sentence processing method and processing device
US9836527B2 (en) * 2016-02-24 2017-12-05 Google Llc Customized query-action mappings for an offline grammar model
CN108460026B (en) 2017-02-22 2021-02-12 华为技术有限公司 Translation method and device
US10460044B2 (en) * 2017-05-26 2019-10-29 General Electric Company Methods and systems for translating natural language requirements to a semantic modeling language statement
KR102103563B1 (en) * 2018-12-31 2020-04-22 충남대학교산학협력단 Tagging processing system of user command using chatbot
CN109933805B (en) * 2019-03-26 2024-06-07 深圳Tcl数字技术有限公司 Text parsing method, system and computer readable storage medium
CN112200317B (en) * 2020-09-28 2024-05-07 西南电子技术研究所(中国电子科技集团公司第十研究所) Multi-mode knowledge graph construction method
CN112883278A (en) * 2021-03-23 2021-06-01 西安电子科技大学昆山创新研究院 Bad public opinion propagation inhibition method based on big data knowledge graph of smart community

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999008202A2 (en) * 1997-08-08 1999-02-18 British Telecommunications Public Limited Company Interlingual translation system and method
US20020107844A1 (en) * 2000-12-08 2002-08-08 Keon-Hoe Cha Information generation and retrieval method based on standardized format of sentence structure and semantic structure and system using the same
WO2003032199A2 (en) * 2001-10-05 2003-04-17 Jarg Corporation Classification of information sources using graph structures
US7016828B1 (en) * 2000-10-23 2006-03-21 At&T Corp. Text-to-scene conversion
RU2336552C2 (en) * 2003-03-25 2008-10-20 Майкрософт Корпорейшн Linguistically informed statistic models of structure of components for ordering in realisation of sentences for system of natural language generation

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020165708A1 (en) * 2001-05-03 2002-11-07 International Business Machines Corporation Method and system for translating human language text

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999008202A2 (en) * 1997-08-08 1999-02-18 British Telecommunications Public Limited Company Interlingual translation system and method
US7016828B1 (en) * 2000-10-23 2006-03-21 At&T Corp. Text-to-scene conversion
US20020107844A1 (en) * 2000-12-08 2002-08-08 Keon-Hoe Cha Information generation and retrieval method based on standardized format of sentence structure and semantic structure and system using the same
WO2003032199A2 (en) * 2001-10-05 2003-04-17 Jarg Corporation Classification of information sources using graph structures
RU2336552C2 (en) * 2003-03-25 2008-10-20 Майкрософт Корпорейшн Linguistically informed statistic models of structure of components for ordering in realisation of sentences for system of natural language generation

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Rada Mihalcea, Ben Leong "Toward Communicating Simple Sentences Using Pictorial Representations", Proceedings of the 7th Conference of the Association for Machine Translation in the Americas, Cambridge, август 2006, с.119-127. *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2595489C2 (en) * 2014-06-18 2016-08-27 Самсунг Электроникс Ко., Лтд. Allocation of time expressions for texts in natural language
RU2584457C1 (en) * 2015-02-03 2016-05-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" System and method of creating and using user semantic dictionaries for processing user text in natural language
RU2605077C2 (en) * 2015-03-19 2016-12-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Method and system for storing and searching information extracted from text documents
US10467598B2 (en) * 2015-04-30 2019-11-05 Samsung Electronics Co., Ltd. Apparatus and method for automatically converting note to action reminders
US11636443B2 (en) 2015-04-30 2023-04-25 Samsung Electronics Co., Ltd. Apparatus and method for automatically converting note to action reminders
RU2729227C2 (en) * 2015-11-20 2020-08-05 Гуанчжоу Шэньма Мобайл Информэйшн Текнолоджи Ко., Лтд Method and device for extracting web-pages subject-matter
RU2639652C1 (en) * 2016-07-13 2017-12-21 Общество с ограниченной ответственностью "ЭсДиАй Рисёчь" System of semantic search in object-process data model
RU2635882C1 (en) * 2016-11-22 2017-11-16 Федеральное государственное бюджетное учреждение науки Институт проблем управления им. В.А. Трапезникова Российской академии наук Device for recognizing scientificity of published constructions
RU2714899C1 (en) * 2019-11-10 2020-02-20 Игорь Петрович Рогачев Method of forming an ontological database of a structured data array
RU2759090C1 (en) * 2020-12-18 2021-11-09 Общество с ограниченной ответственностью "Виртуальные Ассистенты" Method for controlling a dialogue and natural language recognition system in a platform of virtual assistants
WO2022131954A1 (en) * 2020-12-18 2022-06-23 Общество с ограниченной ответственностью "Виртуальные Ассистенты" Dialogue control method and system for understanding natural language in a virtual assistant platform

Also Published As

Publication number Publication date
CN102272755A (en) 2011-12-07
RU2011122784A (en) 2012-12-20
WO2010051966A1 (en) 2010-05-14

Similar Documents

Publication Publication Date Title
RU2509350C2 (en) Method for semantic processing of natural language using graphic intermediary language
US11250842B2 (en) Multi-dimensional parsing method and system for natural language processing
McShane et al. Linguistics for the Age of AI
US20100121630A1 (en) Language processing systems and methods
Kumar Natural language processing
JP6676110B2 (en) Utterance sentence generation apparatus, method and program
US20100211379A1 (en) Systems and methods for natural language communication with a computer
WO2014160309A1 (en) Method and apparatus for human-machine interaction
Hinzen Narrow syntax and the language of thought
Rodrigues et al. Advanced applications of natural language processing for performing information extraction
Mishra et al. Natural language query formalization to SPARQL for querying knowledge bases using Rasa
EP2184685A1 (en) Method for semantic processing of natural language using graphical interlingua
Nguyen et al. Ensuring annotation consistency and accuracy for Vietnamese treebank
Albacete et al. Iconic language design for people with significant speech and multiple impairments
Kapetanios et al. Simplifying syntactic and semantic parsing of NL-based queries in advanced application domains
Buchholz et al. Capturing information on behaviour with the RADD-NLI: A linguistic and knowledge-based approach
Litvin et al. Development of natural language dialogue software systems
Sales et al. An explainable semantic parser for end-user development
Alyoshintsev et al. Analysis of natural language sentences by methods of the theory of graphs and the theory of sets
Dannélls Multilingual text generation from structured formal representations
Panesar NATURAL LANGUAGE PROCESSING IN ARTIFICIAL INTELLIGENCE: A FUNCTIONAL LINGUISTIC PERSPECTIVE
Plhák Dialogue-based Exploration of Graphics for Users with a Visual Disability
Maisto A Hybrid Framework for Text Analysis
Varagnolo et al. Translating Natural Language questions into CIDOC-CRM SPARQL queries to access Cultural Heritage knowledge bases
Dannélls Discourse generation from formal specifications using the Grammatical Framework, GF

Legal Events

Date Code Title Description
HZ9A Changing address for correspondence with an applicant
MM4A The patent is invalid due to non-payment of fees

Effective date: 20151104